Ülevaade Hadoop 2.0 klastriarhitektuuri föderatsioonist



Apache Hadoop 2.x koosneb olulistest täiustustest võrreldes Hadoop 1.x-iga. See ajaveeb räägib Hadoop 2.0 Cluster Architecture Federationist ja selle komponentidest.

Hadoop 2.0 klastriarhitektuuri föderatsioon

Sissejuhatus:

Selles blogis sukeldun põhjalikult Hadoop 2.0 Cluster Architecture Federationisse. Apache Hadoop on pärast Apache Hadoop 1.x väljaandmist palju arenenud. Nagu teate minu eelmisest ajaveebist, et järgib põhi- / orja topoloogiat, kus NameNode toimib põhidemonina ja vastutab teiste orjasõlmede, nimega DataNodes, haldamise eest. Selles ökosüsteemis saab sellest ühtsest põhidemonist või NameNode'ist kitsaskoht ja vastupidi, ettevõtetel peab olema NameNode, mis on väga kättesaadav. Just sellest põhjusest sai HDFS Federation Architecture'i alus HA (kõrge kättesaadavus) arhitektuur .

Selles blogis käsitletud teemad on järgmised:





  • Praegune HDFS-i arhitektuur
  • HDFS-i praeguse arhitektuuri piirangud
  • HDFS Föderatsiooni arhitektuur

Ülevaade praegusest HDFS-i arhitektuurist:

Ühe nimeruumi HDFS-i arhitektuur - ülevaade Hadoop 2.0 klastriarhitektuuri föderatsioonist - Edureka

Nagu näete ülaltoodud joonisel, on praegusel HDFS-il kaks kihti:



  • HDFS-i nimeruum (NS): See kiht vastutab kataloogide, failide ja plokkide haldamise eest. See pakub kõiki nimeruumiga seotud failisüsteemi toiminguid, näiteks failide või kataloogide loomist, kustutamist või muutmist.
  • Salvestuskiht: See koosneb kahest põhikomponendist.
    1. Blokeeri haldamine : See teeb järgmisi toiminguid:
      • Kontrollib perioodiliselt DataNodes'i südamelööke ja haldab DataNode'i klastrisse kuulumist.
      • Haldab blokeerimisaruandeid ja hoiab ploki asukohta.
      • Toetab plokioperatsioone nagu ploki asukoha loomine, muutmine, kustutamine ja eraldamine.
      • Säilitab kogu klastris püsiva replikatsiooniteguri.

2. Füüsiline ladustamine : Seda haldavad DataNodes, kes vastutavad andmete salvestamise eest ja võimaldavad seeläbi HDFS-is salvestatud andmetele juurdepääsu lugemisele / kirjutamisele.

Niisiis võimaldab praegune HDFS-i arhitektuur teil olla klastri jaoks üks nimeruum. Selles arhitektuuris vastutab nimeruumi haldamise eest üks NameNode. See arhitektuur on väga mugav ja hõlpsasti rakendatav. Samuti pakub see piisavalt võimalusi väikese tootmisklastri vajaduste rahuldamiseks.

Praeguse HDFS-i piirangud:

Nagu varem arutletud, piisas praegusest HDFS-ist tõesti väikese tootmisklastri vajadustele ja kasutusjuhtumitele. Kuid suured organisatsioonid nagu Yahoo, leidis Facebook, et HDFS-klaster hüppeliselt kasvas. Vaatame mõningaid piiranguid kiiresti:



  1. Nimeruum on pole skaleeritav nagu DataNodes. Seega võib klastris olla ainult see arv DataNode, mida üks NameNode suudab käsitseda.
  2. Kaks kihti, st nimeruumi kiht ja salvestuskiht on tihedalt ühendatud mis muudab NameNode'i alternatiivse rakendamise väga keeruliseks.
  3. Kogu Hadoopi süsteemi jõudlus sõltub läbilaskevõime nimiNode. Seetõttu sõltub kõigi HDFS-i toimingute kogu jõudlus sellest, kui palju ülesandeid saab NameNode konkreetsel ajal käsitseda.
  4. NameNode salvestab kogu nimeruumi RAM-is kiireks juurdepääsuks. See toob kaasa piiranguid mälu suurus st nimeruumi objektide (failide ja plokkide) arv, millega üks nimeruumi server suudab hakkama saada.
  5. Paljud HDFS-i juurutamisega organisatsioonid (hankijad) võimaldavad mitmel organisatsioonil (rentnikul) kasutada oma klastri nimeruumi. Niisiis, nimeruumi pole eraldatud ja seetõttu on pole isolatsiooni klastrit kasutavate üürnike organisatsioonide seas.

HDFS-i föderatsiooni arhitektuur:

  • HDFS-i föderatsiooniarhitektuuris on meil nimeteenuse horisontaalne mastaapsus. Seetõttu on meil mitu ühtset, s.t üksteisest sõltumatut Nimesõlme.
  • Andmesõlmed asuvad alumises osas, st aluskihi all.
  • Iga DataNode registreerib kõik klastri NameNodes.
  • DataNodes edastab perioodilisi südamelööke, blokeerib aruandeid ja käsitseb NameNode'i käske.

HDFS-i föderatsiooni arhitektuuri pilt on esitatud allpool:

Enne edasiliikumist lubage mul lühidalt rääkida ülaltoodud arhitektuuripildist:

  • Nimeruume on mitu (NS1, NS2,…, NSn) ja kõiki neid haldab vastav Nimesõlm.
  • Igal nimeruumil on oma plokibassein (NS1-l on 1. bassein, NSk-l on pilk k ja nii edasi).
  • Nagu pildil näidatud, salvestatakse 1. basseini (taevasinised) plokid andmetesse 1, 2 ja nii edasi. Samamoodi asuvad kõik plokibasseinide kõik plokid kõigis DataNodes.

Mõelgem nüüd HDFS-i föderatsiooni arhitektuuri komponente üksikasjalikult:

Blokeeri bassein:

Blokkibassein on muud kui plokid, mis kuuluvad konkreetsesse nimeruumi. Niisiis, meil on plokibasseinide kogu, kus iga plokibasseini hallatakse teistest sõltumatult. See sõltumatus, kus iga plokikogumit hallatakse iseseisvalt, võimaldab nimeruumil luua plokkide ID-d uutele plokkidele ilma teiste nimeruumidega kooskõlastamata. Kõigis plokibasseinides olevad andmeplokid salvestatakse kõikidesse DataNode'i. Põhimõtteliselt pakub plokibassein sellise abstraktsiooni, et DataNodes (nagu ühtse nimeruumi arhitektuuris) asuvad andmeplokid saaksid grupeerida vastavalt konkreetsele nimeruumile.

Nimeruumi maht:

Nimeruumi maht pole muud kui nimeruum koos selle plokibasseiniga. Seetõttu on HDFS-i föderatsioonis meil mitu nimeruumi mahtu. See on iseseisev juhtimisüksus, st iga nimeruumi maht võib toimida iseseisvalt. Kui NameNode või nimeruum kustutatakse, kustutatakse ka vastav andmevõrgus asuv plokiplokk.

Demo Hadoop 2.0 klastriarhitektuuri föderatsioonis Edureka

Nüüd on teil HDFS-i föderatsiooni arhitektuurist vist üsna hea idee. See on pigem teoreetiline kontseptsioon ja inimesed ei kasuta seda praktilises tootmissüsteemis üldiselt. HDFS-i föderatsiooniga on mõned rakendamisprobleemid, mis raskendab juurutamist. Seetõttu on HA (kõrge kättesaadavus) arhitektuur on eelistatud ühe ebaõnnestumispunkti probleemi lahendamiseks. Olen kajastanud HDFS HA ​​arhitektuur minu järgmises blogis.

Nüüd, kui olete Hadoop HDFS-i föderatsiooni arhitektuurist aru saanud, vaadake Edureka, usaldusväärne veebiõppeettevõte, mille võrgustik hõlmab üle 250 000 rahuloleva õppija, levinud üle kogu maailma. Edureka Big Data Hadoopi sertifitseerimiskoolitus aitab õppijatel saada HDFS, lõnga, MapReduce, Pig, Hive, HBase, Oozie, Flume ja Sqoop ekspertideks, kasutades reaalajas kasutatavaid juhtumeid jaekaubanduse, sotsiaalmeedia, lennunduse, turismi ja rahanduse valdkonnas.

Kas teil on meile küsimus? Palun mainige seda kommentaaride jaotises ja võtame teiega ühendust.

kuidas leida massiivi java suurim arv