Sissejuhatus Apache tarusse



Apache Hive on Hadoopi peale ehitatud andmemahtude pakett, mida kasutatakse andmete analüüsimiseks. Hive on suunatud kasutajatele, kellele SQL on mugav.

Apache Hive on Hadoopi peale ehitatud andmemahtude pakett, mida kasutatakse andmete analüüsimiseks. Hive on suunatud kasutajatele, kellele SQL on mugav. See on sarnane SQL-ile ja seda nimetatakse HiveQL-iks, mida kasutatakse struktureeritud andmete haldamiseks ja päringute esitamiseks. Apache Hive on harjunud Hadoopi abstraktse keerukusega. See keel võimaldab ka traditsioonilistel kaardi / vähendamise programmeerijatel ühendada kohandatud kaardistajad ja reduktorid. Hive'i populaarne omadus on see, et Java-d pole vaja õppida.





Hadoopil põhineva avatud lähtekoodiga beetabaidise ulatusega kuupäevavarude ladustamise raamistiku Hive töötas välja andmeside infrastruktuuri meeskond Facebookis. Taru on ka üks tehnoloogiaid, mida kasutatakse Facebooki nõuete täitmiseks. Hive on Facebookis kõigi kasutajate seas väga populaarne ja seda kasutatakse klastris tuhandete töökohtade loomiseks sadade kasutajatega mitmesuguste rakenduste jaoks. Hive-Hadoopi klaster Facebookis salvestab rohkem kui 2PB algandmeid ja laadib regulaarselt 15 TB andmeid igapäevaselt.

Vaatame mõningaid selle funktsioone, mis muudavad selle populaarseks ja kasutajasõbralikuks.



mis see java operaator on
  • Võimaldab programmeerijatel ühendada kohandatud kaardistajad ja reduktorid.
  • Omab Data Warehouse'i infrastruktuuri.
  • Pakub tööriistu lihtsate andmete ETL-i võimaldamiseks.
  • Määrab SQL-i sarnase päringukeele, mida nimetatakse QL-ks.

Apache taru kasutamise juhtum - Facebook:

Taru kasutamise juhtum - Facebook

Enne Hive'i juurutamist seisis Facebook silmitsi paljude väljakutsetega, kuna genereeritavate andmete maht kasvas või pigem plahvatas, mistõttu oli nende käsitsemine tõesti keeruline. Traditsiooniline RDBMS ei suutnud survega toime tulla ja seetõttu otsis Facebook paremaid võimalusi. Selle eelseisva probleemi lahendamiseks proovis Facebook algselt kasutada Hadoop MapReduce'i, kuid raskustes programmeerimise ja kohustuslike teadmistega SQLis muutis selle ebapraktiliseks lahenduseks. Taru võimaldas neil ületada väljakutsed, millega nad silmitsi seisid.

Hive abil saavad nad nüüd teha järgmist:



  • Tabeleid saab jaotada osadeks ja kokku panna
  • Skeemi paindlikkus ja areng
  • Saadaval on JDBC / ODBC draiverid
  • Tarude tabeleid saab määratleda otse HDFS-is
  • Laiendatav - tüübid, vormingud, funktsioonid ja skriptid

Tarude kasutamise juhtum tervishoius:

Kust taru kasutada?

Apache Hive'i saab kasutada järgmistes kohtades:

  • Andmete kaevandamine
  • Logi töötlemine
  • Dokumendi indekseerimine
  • Klient, kes puutub kokku ärianalüüsiga
  • Ennustav modelleerimine
  • Hüpoteesi testimine

Taru arhitektuur:

Taru koosneb järgmistest põhikomponentidest:

  • Metastore - metaandmete salvestamiseks.
  • JDBC / ODBC - päringute kompilaator ja täitmismootor SQL-päringute teisendamiseks MapReduce jadaks.
  • SerDe ja ObjectInspectors - andmevormingute ja -tüüpide jaoks.
  • UDF / UDAF - kasutaja määratud funktsioonide jaoks.
  • Kliendid - sarnaselt MySQL-i käsureale ja veebiliidesele.

Taru komponendid:

Metastore:

objektide massiiv Java näidisprogrammis

Metastore salvestab teavet tabelite, vaheseinte ja tabelite veergude kohta. Metastore'is on 3 salvestusviisi: manustatud metastore, kohalik metastore ja kaugmetastore. Enamasti kasutatakse kaugmetastoreid tootmisrežiimis.

Taru piirangud:

Tarul on järgmised piirangud ja seda ei saa sellistes tingimustes kasutada:

  • Pole mõeldud veebipõhiseks tehingute töötlemiseks.
  • Annab interaktiivse andmesirvimise jaoks vastuvõetava latentsuse.
  • Ei paku reaalajas päringuid ja rea ​​taseme värskendusi.
  • Tarude päringute latentsus on üldiselt väga kõrge.

Kas teil on meile küsimus? Mainige neid kommentaaride jaotises ja me võtame teiega ühendust.

Seonduvad postitused:

cassandra laud vs veergude perekond

Taru käsud