Cloudera Hadoop: CDH levitamise alustamine



See Edureka ajaveeb Cloudera Hadoopi õpetuses annab teile täieliku ülevaate erinevatest Cloudera komponentidest, nagu Cloudera Manager, Pakid, Hue jne

Suureneva nõudlusega Big Data järele ja Apache Hadoop onkellrevolutsiooni keskmes on see muutnud andmete korraldamise ja arvutamise viisi. Vajadus organisatsioonide järgi viia Hadoop vastavusse oma ärivajadustega on soodustanud äriliste jaotuste tekkimist. Kaubanduslikud Hadoopi jaotused on tavaliselt pakendatud funktsioonidega, mis on mõeldud Hadoopi juurutamise sujuvamaks muutmiseks. Cloudera Hadoop Distribution pakub skaleeritavat, paindlikku ja integreeritud platvormi, mis muudab teie ettevõttes kiiresti kasvavate andmemahtude ja sortide haldamise lihtsaks.

Selles Cloudera Hadoop Distributioni ajaveebis käsitleme järgmisi teemasid:





Cloudera Hadoop: sissejuhatus Hadoopi

Hadoop on Apache'i avatud lähtekoodiga raamistik, mis salvestab ja töötleb Big Data-d hajutatud keskkonnasüleklastrit kasutades lihtsaid programmeerimismudeleid. Hadoop pakub hajutatud salvestusruumi peal paralleelset arvutust.Lisateavet Hadoopi kohta leiate aadressilt võite sellele viidata

Pärast seda Hadoopi lühitutvustust lubage mul nüüd selgitada Hadoopi levitamise erinevaid tüüpe.



Cloudera Hadoop: Hadoopi jaotused

Kuna Apache Hadoop on avatud lähtekoodiga, on paljud ettevõtted välja töötanud levitused, mis ületavad algse avatud lähtekoodi. See sarnaneb väga Linuxi distributsioonidega nagu RedHat, Fedora ja Ubuntu. Kõik Linuxi distributsioonid toetavad oma funktsioone ja funktsioone, nagu Ubuntu kasutajasõbralik GUI. Samamoodi punane müts on ettevõtetes populaarne, kuna pakub tuge ja pakub ideoloogiat süsteemi suvalises osas muudatuste tegemiseks oma äranägemise järgi. Red Hat vabastab teid tarkvara ühilduvusprobleemidest. Tavaliselt on see kasutajate jaoks suur probleemkes lähevad üle Windowsist.

Samuti on Hadoopi jaotustel 3 peamist tüüpi, millel on oma funktsioonide ja funktsioonide komplekt ning mis on ehitatud HDFS-i baasi alla.

Cloudera vs MapR vs Hortonworks

Joonis: MapR vs Hortonworks vs Cloudera

Joonis: MapR vs Hortonworks vs Cloudera



Cloudera Hadoopi levitamine

Cloudera on Hadoopi kosmoses turutrend ja on esimene, mis vabastab Hadoopi kaubandusliku levitamise. See pakub konsultatsiooniteenuseid, et ületada lõhe - 'mida Apache Hadoop pakub' ja 'mida organisatsioonid vajavad' vahel.

Cloudera levitamine on:

kuidas seadistada Java varjutust
  • Kiire äri jaoks : Alates analüüsist kuni andmeteaduseni ja kõigesse vahepeale pakub Cloudera jõudlust, mida vajate piiramatute andmete potentsiaali vabastamiseks.
  • Muudab Hadoopi hõlpsasti hallatavaks : Cloudera Manageri abil võimaldavad automatiseeritud viisardid teil klastrit kiiresti juurutada, olenemata skaalast või juurutuskeskkonnast.
  • Turvaline kompromissideta: Vastab rangetele andmeturbe ja nõuetele vastavuse vajadustele, ilma et see ohustaks äritegevust. Cloudera pakub integreeritud lähenemisviisi andmeturbele ja haldusele.

Horton-Works Levitamine

Horton-Worksi andmeplatvorm (HDP) on täielikult avatud lähtekoodiga platvorm, mis on loodud paljude allikate ja vormingute andmete manööverdamiseks. Platvorm sisaldab erinevaid Hadoopi tööriistu nagu Hadoopi hajutatud failisüsteem (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive ja lisakomponente.

Samuti toetab see selliseid funktsioone nagu:

  • HDP teeb taru kiiremini oma uue Stingeri projekti kaudu.
  • HDP väldib müüja lukustamist lubades Hadoopi hargnenud versiooni.
  • HDP on keskendunud kasutatavus Hadoopi platvormi.

MapR levitamine

MapR on platvormile keskendunud Hadoopi lahenduste pakkuja, täpselt nagu HortonWorks ja Cloudera. MapR integreerib oma andmebaasisüsteemi, mis on tuntud kui MapR-DB, pakkudes samal ajal Hadoopi levitamisteenuseid. Väidetavalt on MapR-DB neli kuni seitse korda kiirem kui Hadoopi aktsia andmebaas, st HBase, mis käivitatakse teistes jaotustes.

Sellel on oma huvitavad omadused nagu:

  • See on ainus Hadoopi distributsioon, mis sisaldab seadmeid Pig, Hive ja Sqoop ilma Java sõltuvusteta, kuna see tugineb MapR-File Systemile.
  • MapR on kõige tootmiseks valmis Hadoopi distributsioon koos paljude täiustustega, mis muudavad selle kasutajasõbralikumaks, kiiremaks ja töökindlamaks.

Vaatame nüüd põhjalikult Cloudera Hadoopi levitamist.

Uute värskenduste saamiseks tellige meie YouTube'i kanal ...

Cloudera Hadoop: Cloudera levitamine

Cloudera on Hadoopi ruumi tuntuim mängija, kes on välja andnud esimese kaubandusliku Hadoopi jaotuse.

Joonis: Cloudera Hadoopi levitamine

Cloudera Hadoop Distribution toetab järgmisi funktsioone:

  1. Cloudera CDH sisaldab kõiki avatud lähtekoodiga komponente, on suunatud ettevõtteklassi juurutustele ja on üks populaarsemaid kommertslikke Hadoopi distributsioone.
  2. Uuenduste poolest tuntud Cloudera pakkus esimesena SQL-for-Hadoop koos sellega Impala päringumootor.
  3. Halduskonsool - Cloudera haldur , on hõlpsasti kasutatav ja rakendatav rikkaliku kasutajaliidese abil, mis kuvab kogu klastriteavet organiseeritud ja puhtal viisil.
  4. CDH-s saate teenuseid lisada ja töötavasse klastrisse ilma häireteta.
  5. Muud Cloudera täiendused hõlmavad turvalisust, kasutajaliidest ja liideseid kolmandate osapoolte rakendustega integreerimiseks.
  6. CDH pakub Sõlmemallid st see võimaldab luua erineva konfiguratsiooniga Hadoopi klastris sõlmede rühma. See kaotab kogu Hadoopi klastris sama konfiguratsiooni kasutamise.
  7. Samuti toetab see:
    • Usaldusväärsus
      Hadoopi müüjad reageerivad viivitamatult reageerimisel, kui tuvastatakse viga. Kommertslahenduste stabiilsemaks muutmise eesmärgil juurutatakse plaastrid ja parandused kohe.
    • Toetus
      Cloudera Hadoopi müüjad pakuvad tehnilisi juhiseid ja abi, mis hõlbustavad klientide Hadoopi kasutuselevõtmist ettevõtte tasandi ülesannete ja missioonikriitiliste rakenduste jaoks.

    • Täielikkus
      Hadoopi müüjad ühendavad oma levitused muude lisandmoodulitööriistadega, mis aitavad klientidel Hadoopi rakendust oma konkreetsete ülesannete täitmiseks kohandada.

Cloudera distributsioonid pakuvad välja kahte erinevat tüüpi väljaannet.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Vaatame nüüd nende erinevusi.

Funktsioonid Cloudera-Express Cloudera-Enterprise
Klastrite haldamine
1. Mitme klastri haldusJahJah
2. Ressursside haldamineJahJah
Juurutamine
1. CDH 4 ja 5 tugiJahJah
2. CDH pidev uuendamineEiJah
Teenuse ja konfiguratsiooni haldamine
1. Haldage HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark ja Accumulo teenuseidJahJah
2. Teenuste taaskäivitamineEiJah
Turvalisus
1. LDAP-i autentimineEiJah
2. SAML-i autentimineEiJah
Järelevalve ja diagnostika
1. Tervise ajaluguJahJah
Hoiatuste haldamine
1. Hoiatus e-posti teelJahJah
2. Hoiatus SNMP kauduEiJah
Täiustatud haldusfunktsioonid
1. Automaatne varundamine ja taastamineEiJah
2. Failide sirvimine ja otsimineEiJah
3. MapReduce, Impala, HBase, lõnga kasutamise aruandedEiJah

Cloudera Hadoop: Cloudera haldur

Cloudera sõnul on Cloudera Manager parim viis selleks installima , seadistada , haldama ja monitor Hadoopi virna.

See pakub:

  1. Automatiseeritud juurutamine ja konfigureerimine
  2. Kohandatav jälgimine ja aruandlus
  3. Lihtne ja usaldusväärne tõrkeotsing
  4. Null - seisaku hooldus

Hankige põhjalikke teadmisi Cloudera Hadoopi ja selle erinevate tööriistade kohta

Cloudera Manageri demonstreerimine

Uurime Cloudera haldurit.

1. Alloleval joonisel on näidatud Cloudera Manageris praegu töötavate teenuste arv. Samuti saate vaadata graafikuid klastri protsessori kasutamise, ketta IO kasutamise jne kohta.

Joonis: Cloudera Manageri koduleht

2. Allpool olev pilt näitab HBase klastrit. See annab teile diagramme ja graafikuid praegu töötava HBase REST-i serveri terviseseisundite kohta.

Joonis: HBase-serveri terviseseisundid

3. Vaatame nüüd HBase klastri vahekaarti Instantsid, kus saate kontrollida olekut ja IP-konfiguratsiooni.

Joonis: HBase-klastri hosti serveri olek ja IP-aadress

4. Järgmisena on teil vahekaart Konfiguratsioon. Siin näete kõiki konfiguratsiooniparameetreid ja saate nende väärtusi muuta.

Joonis: HBase-klastri konfiguratsioon

Mõelgem nüüd, mis on Cloudera pakid.

Cloudera Hadoop: Pakid

Pakk on binaarne jaotusvorming, mis sisaldab programmi faile koos Cloudera Manageri kasutatavate täiendavate metaandmetega.

Pakid on iseseisvad ja installitud versioonitud kataloogi, mis tähendab, et antud teenuse mitu versiooni saab kõrvuti installida.

Allpool on paki kasutamise eelised:

  • See pakub CDH levitamist ühe objektina, st selle asemel, et CDH iga osa jaoks oleks eraldi pakett, on pakkidel lihtsalt üks objekt, mida installida.

  • See pakub sisemist järjepidevust (kuna kogu CDH jaotatakse ühe pakina, on kõik CDH komponendid omavahel sobitatud ja ei ole riski, et CDH erinevatest versioonidest tulevad erinevad osad).

  • CDH-s olevaid pakke saate mõne klõpsuga installida, uuendada, madalamale versioonile üle viia, levitada ja aktiveerida.

Vaatame nüüd, kuidas pakettide abil CDH-s Kafka teenust installida ja aktiveerida.

kuidas logija faili Java - s luua
  1. Minge Cloudera halduri kodulehele >> Hosts >> Pakid, nagu allpool näidatud

    Joonis: Pakkide valimine hostide hulgast

2. Kui te ei näe Pakkide loendis Kafkat, saate paki nimekirja lisada.

  1. Leidke pakett Kafka versioonist, mida soovite kasutada. Kui te seda ei näe, saate pakihoidla loendisse lisada.
  2. Leidke pakett selle Kafka versiooni jaoks, mille soovite installida - Apache Kafka versioonide Cloudera levitamine .
    Allolev joonis näitab sama.

Joonis: Paki hoidla tee.

3. Kopeerige link, nagu on näidatud ülaltoodud joonisel, ja lisage see kaugpakkide hoidlasse, nagu allpool näidatud.

Joonis: Kafka tee lisamine hoidlast

Neli.Pärast tee lisamist on Kafka allalaadimiseks valmis. Võite lihtsalt klõpsata allalaadimisnupul ja alla laadida Kafka.

Joonis: Kafka allalaadimine

5. Kui Kafka on alla laaditud, on vaja vaid seda levitada ja aktiveerida.

Joonis: Kafka aktiveerimine

Kui see on aktiveeritud, saate jätkata ja vaadata Kafkat Cloudera halduri vahekaardil teenused.

Joonis: Kafka teenus

Cloudera Hadoop: Oozie töövoo loomine

Tööprotsessi loomine XML-koodi käsitsi kirjutamise ja seejärel selle käivitamise abil on keeruline. Võite sellele viidata Oozie töö ajastamine ajaveeb, et teada saada traditsioonilisest lähenemisest.

Näete allolevat pilti, kuhu oleme Oozie lihtsa töövoo loomiseks kirjutanud XML-faili. Joonis: Oozie töövoo loomine traditsioonilise lähenemisviisi abil

Nagu näete isegi lihtsa Oozie ajakava loomiseks, pidime kirjutama tohutu XML-koodi, mis on aeganõudev ja iga rea ​​silumine muutub tülikaks. Selle ületamiseks tutvustas Cloudera Manager uut funktsiooni nimega Värvitoon mis pakub GUI-d ja lihtsaid lohistamisfunktsioone Oozie töövoogude loomiseks ja käivitamiseks.

Vaatame nüüd, kuidas Hue täidab sama ülesannet lihtsustatult.

Enne töövoo loomist loome kõigepealt sisendfailid, st clickstream.txt ja user.txt.
Failis user.txt on meil kasutajatunnus, nimi, vanus, riik, sugu, nagu allpool näidatud. Vajame seda kasutajafaili, et teada saada, kuidas kasutaja loeb ja klõpsab URL-il (mida mainitakse klikivoo failis), lähtudes kasutaja ID-st.

Joonis: tekstifaili loomine

Selleks, et teada saada kasutaja klikkide arvu igal URL-il, on meil klõpsuvoog, mis sisaldab kasutajatunnust ja URL-i.

Joonis: Clickstream-fail

kuidas javas võimule tõusta

Kirjutame päringud skriptifaili.

Joonis: skriptifail

Pärast kasutajafaili, clickstream-faili ja skriptifaili loomist saame jätkata Oozie töövoo loomist.

1. Võite lihtsalt lohistada Oozie töövoogu, nagu pildil näidatud.

Joonis: Oozie töövoo loomise lohistamise funktsioon

2. Varsti pärast toimingu tühistamist peate määrama skriptifaili teed ja lisama skriptifailis mainitud parameetrid. Siin peate lisama parameetrid OUTPUT, CLICKSTREAM ja USER ja määrama iga parameetri tee.

Joonis: Skriptifaili ja toimingu sooritamiseks vajalike parameetrite lisamine

3. Kui olete määranud teed ja lisanud parameetrid, siis lihtsalt salvestage ja esitage töövoog, nagu on näidatud alloleval pildil.

Joonis: Oozie toimingu salvestamine ja esitamine

4. Pärast ülesande esitamist on teie töö lõpetatud. Hue hoolitseb täitmise ja muude sammude eest.

Joonis: Oozie töö teostamise olek

5.Nüüd, kui oleme Oozie töö teinud, heitkem pilk vahekaardile Toiming. See sisaldab kasutajatunnust ja töövoo olekut. See näitab ka veakoode, kui need on olemas, toimingu üksuse algus- ja lõppaega.

Joonis: Oozie töövoo vahekaardil olevad elemendid

6. Vahekaardi Toiming kõrval on üksikasjade vahekaart. Selles näeme töö algus- ja viimati muudetud aega.

Joonis: Oozie töövoo üksikasjad.

7. Vahekaardi Üksused kõrval on meil töövoo vahekaart Konfiguratsioon.

Joonis: Oozie töövoo konfiguratsiooniseaded

7. Kui toiminguüksuse käivitamisel ilmneb vigu, kuvatakse see vahekaardil Logi. Võite viidata vealausetele ja vastavalt sellele siluda.

Joonis: logifail, mis sisaldab veakoode ja veateateid

8. Siin on töövoo XML-kood, mille Hue automaatselt genereerib.

Joonis: Oozie töövoo XML-kood

9.1. Kuna olete juba 2. sammus määranud väljundkataloogi tee, on siin HDFS-i brauseris väljundkataloog, nagu allpool näidatud.

Joonis: HDFS-brauseri väljundkataloog

9.2 Kui klõpsate väljundkataloogil, leiate tekstifaili nimega output.txt ja see tekstifail sisaldab tegelikku väljundit, nagu on näidatud alloleval joonisel.

Joonis: Lõplik väljundtekst

Nii muudab Hue meie töö lihtsaks, pakkudes lohistamisvalikuid Oozie töövoo loomiseks.

Loodan, et see ajaveeb oli kasulik Cloudera levitamise ja erinevate Cloudera komponentide mõistmiseks.

Kas soovite osaleda Big Data revolutsioonis?

Nüüd, kui olete Cloudera Hadoop Distributioni mõistnud, vaadake autor Edureka, usaldusväärne veebiõppeettevõte, mille võrgustik koosneb enam kui 250 000 rahulolevast õppijast ja mis levib üle kogu maailma. Edureka Big Data Hadoopi sertifitseerimiskoolitus aitab õppijatel saada HDFS, lõnga, MapReduce, Pig, Hive, HBase, Oozie, Flume ja Sqoop ekspertideks, kasutades reaalajas kasutatavaid juhtumeid jaekaubanduse, sotsiaalse meedia, lennunduse, turismi ja rahanduse valdkonnas.

Kas teil on meile küsimus? Palun mainige seda kommentaaride jaotises ja võtame teiega ühendust.