Apache Hive on Hadoopi ökosüsteemi üks olulisemaid raamistikke, mis omakorda muudab selle väga oluliseks . Selles ajaveebis tutvume Apache Hive'i ja Hive'i installimisega Ubuntu.
Mis on Apache Hive?
Apache taru on andmelao infrastruktuur, mis hõlbustab hulgimüügisüsteemis asuvate suurte andmekogumite päringuid ja haldamist. See on ehitatud Hadoopi peale ja selle on välja töötanud Facebook. Taru pakub viisi andmete pärimiseks SQL-tüüpi päringukeele abil HiveQL (taru päringukeel).
Sisemiselt tõlgib koostaja HiveQL avaldused MapReduce töökohti, millele seejärel esitatakse Hadoopi raamistik täitmiseks.
Erinevus taru ja SQL-i vahel:
Taru näeb välja väga sarnane nagu traditsiooniline andmebaas SQL juurdepääs. Kuid sellepärast Taru põhineb Hadoop ja MapReduce toimingutel on mitu peamist erinevust:
Kuna Hadoop on mõeldud pikkade järjestikuste skannimiste jaoks ja Taru põhineb Hadoop , võite eeldada, et päringutel on väga kõrge latentsus. See tähendab et Taru ei sobiks nende rakenduste jaoks, mis vajavad väga kiiret reageerimisaega, nagu võite eeldada traditsioonilise RDBMS-i andmebaasi puhul.
Lõpuks Taru on lugemispõhine ja seetõttu ei sobi tehingute töötlemiseks, mis hõlmab tavaliselt suurt protsenti kirjutamisoperatsioone.
java just in time kompilaator
Taru installimine Ubuntu:
Installimiseks järgige palun allolevaid samme Apache taru Ubuntu:
Samm 1: Lae alla Taru tõrv.
Käsk: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz
2. samm: Väljavõte tõrv faili.
Käsk: tar -xzf apache-taru-2.1.0-bin.tar.gz
Käsk: ls
3. samm: Redigeerige „.Bashrc” fail keskkonnamuutujate värskendamiseks kasutaja jaoks.
Käsk: sudo gedit .bashrc
Lisage faili lõppu järgmine:
# Määra HIVE_HOME
eksport HIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
eksport PATH = $ PATH: /home/edureka/apache-hive-2.1.0-bin/bin
Samuti veenduge, et ka hadoopi tee oleks määratud.
Käivitage käsk allpool, et muudatused toimiksid samas terminalis.
Käsk: allikas .bashrc
4. samm: Kontrollige taru versiooni.
mis on muutlik ja muutumatu
5. samm: Loo Taru kataloogides HDFS . Kataloog ‘Ladu’ on asukoht taru kohta tabeli või andmete salvestamiseks.
Käsk:
- hdfs dfs -mkdir -p / kasutaja / taru / ladu
- hdfs dfs -mkdir / tmp
6. samm: Määrake tabeli lugemis- ja kirjutamisõigused.
Käsk:
Selles käsus anname rühmale kirjutamisõiguse:
- hdfs dfs -chmod g + w / kasutaja / taru / ladu
- hdfs dfs -chmod g + w / tmp
7. samm: Määra Hadoop tee sisse h ive-env.sh
Käsk: cd apache-taru-2.1.0-bin /
Käsk: gedit conf / hive-env.sh
Määrake parameetrid, nagu on näidatud allpool olevas hetktõmmis.
8. samm: Muuda taru-sait.xml
Käsk: gedit conf / taru-sait.xml
javax.jdo.option.ConnectionURL jdbc: derby: databaseName = / home / edureka / apache-hive-2.1.0-bin / metastore_dbcreate = true JDBC ühendusstring JDBC metastore jaoks. SSL-i kasutamiseks ühenduse krüptimiseks / autentimiseks sisestage ühenduse URL-is andmebaasipõhine SSL-lipp. Näiteks jdbc: postgresql: // myhost / db? Ssl = true postgresi andmebaasi jaoks. hive.metastore.warehouse.dir / user / taru / lao vaikebaasi asukoht hive.metastore.uris Säästlik URI kaugmetastore jaoks. Metastore'i klient kasutab kaugmetastore'iga ühenduse loomiseks. javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc.EmbeddedDriver Draiveri klassi nimi JDBC metastaasile javax.jdo.PersistenceManagerFactoryClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory klassi juurutamine
9. samm: Vaikimisi kasutab Hive Derby andmebaasi. Algata Derby andmebaas.
Käsk: bin / schematool -initSchema -dbType derby
10. samm :Käivitage Taru.
Käsk: taru
11. samm :Käivitage Hive'i kestas mõned päringud.
Käsk: näita andmebaase
Käsk: loo tabeli töötaja (id-string, nimistring, osakonna string) rea vormingus eraldatud väljad, mis on lõpetatud tekstifailina
Käsk: näita tabeleid
12. samm: Siit väljumiseks Taru:
Käsk: väljumine
Nüüd, kui Hive'i installimine on lõpetatud, on järgmine samm edasi proovida Hive'i käske Hive'i kestal. Seega on meie järgmine blogi “ Tippmised tarude käsud koos HQL-i näidetega ”Aitab teil taru käske hallata.
Seonduvad postitused:
luua hetktõmmise põhjal ec2 eksemplar