HDFS-i õpetus: sissejuhatus HDFS-i ja selle funktsioonidesse



See HDFS-i juhendaja blogi aitab teil mõista HDFS-i või Hadoopi hajutatud failisüsteemi ja selle funktsioone. Samuti uurite lühidalt selle põhikomponente.

HDFSi õpetus

Enne selles HDFS-i õpetusblogis edasi liikumist lubage mul läbi viia HDFS-iga seotud hullumeelne statistika:

  • 2010. aastal Facebook väitis, et tal on üks suurimaid HDFS-klastreid 21 petabaiti andmete kohta.
  • 2012. aastal Facebook deklareerisid, et neil on kõige suurem üksik HDFS-klaster rohkem kui 100 PB andmete kohta .
  • Ja Yahoo ! on rohkem kui 100 000 protsessorit üle 40 000 serverit töötab Hadoop, kus töötab suurim Hadoopi klaster 4500 sõlme . Kõik öeldud, Yahoo! kauplustes 455 petabaiti andmete HDFS-is.
  • Tegelikult hakkas 2013. aastaks enamus Fortune 50 suurtest nimedest Hadoopi kasutama.

Liiga raskesti seeditav? Õige. Nagu arutati aastal , Hadoopil on kaks põhiüksust - S piinlemine ja Töötlemine . Kui ütlen Hadoopi ladustamise osa, siis viitan sellele HDFS mis tähistab Hadoopi hajutatud failisüsteem . Nii et selles blogis tutvustan teile HDFS .





cloudera sertifitseeritud arendaja apache hadoopile

Siin räägin:

  • Mis on HDFS?
  • HDFS-i eelised
  • HDFS-i omadused

Enne HDFS-ist rääkimist lubage mul öelda, mis on hajutatud failisüsteem?



DFS või hajutatud failisüsteem:

Hajutatud failisüsteem räägib haldamine andmed , s.t. faile või kaustu mitmes arvutis või serveris. Teisisõnu, DFS on failisüsteem, mis võimaldab meil andmeid klastris mitme sõlme või masina kaudu salvestada ja võimaldab andmetele juurde pääseda mitmel kasutajal. Põhimõtteliselt teenib see sama eesmärki kui teie arvutis saadaval olev failisüsteem, näiteks Windowsi puhul on teil NTFS (uue tehnoloogia failisüsteem) või Maci puhul HFS (hierarhiline failisüsteem). Ainus erinevus on see, et hajutatud failisüsteemi korral salvestate andmeid mitmesse masinasse, mitte ühte masinasse. Ehkki failid on salvestatud üle võrgu, korraldab ja kuvab DFS andmeid nii, et arvutis istuval kasutajal on tunne, et kõik andmed on just sellesse masinasse salvestatud.

Mis on HDFS?

Hadoop Distributed File System ehk HDFS on Java-põhine hajutatud failisüsteem, mis võimaldab teil salvestada suuri andmeid Hadoopi klastri mitme sõlme vahel. Niisiis, kui installite Hadoopi, saate HDFS-i kui alusmälusüsteemi andmete hajutatud keskkonnas salvestamiseks.

Võtame selle mõistmiseks näite. Kujutage ette, et teil on igas masinas kümme masinat või kümme arvutit, mille kõvaketas on 1 TB. Nüüd ütleb HDFS, et kui installite Hadoopi platvormiks nende kümne masina peale, saate HDFS-i salvestusteenusena. Hadoopi hajutatud failisüsteem on jaotatud nii, et iga masin panustab oma individuaalsesse salvestusruumi igasuguste andmete salvestamiseks.



HDFS-i õpetus: HDFS-i eelised

1. Jaotatud ladustamine:

Jaotatud salvestusruum - HDFS-i õpetus - Edureka

Kui pääsete Hadoopi jaotatud failisüsteemile Hadoopi klastri kümnest masinast, tunnete end nagu oleksite sisse loginud ühte suurde masinasse, mille mälumaht on 10 TB (kogu salvestusruum on üle kümne masina). Mida see tähendab? See tähendab, et saate salvestada ühe suure 10 TB suuruse faili, mis jaotatakse kümne masina vahel (1 TB mõlemal).Nii on mitte ainult füüsiliste piiridega iga masina kohta.

2. Hajutatud ja paralleelarvutus:

Kuna andmed on jaotatud masinate vahel, võimaldab see meil neid ära kasutada Hajutatud ja paralleelarvutus . Mõistame seda mõistet ülaltoodud näite abil. Oletame, et ühe TB-faili töötlemine ühes masinas võtab aega 43 minutit. Niisiis, öelge mulle nüüd, kui palju aega kulub sama 1 TB faili töötlemiseks, kui teil on sarnase konfiguratsiooniga Hadoopi klastris 10 masinat - 43 minutit või 4,3 minutit? 4,3 minutit, eks! Mis siin juhtus? Kõik sõlmed töötavad paralleelselt ühe TB-faili osaga. Seetõttu saab 43 minutit varem kulgenud töö valmis vaid 4,3 minutiga, kuna töö jagunes kümnele masinale.

3. Horisontaalne mastaapsus:

Viimane, kuid mitte vähem oluline, rääkigem sellest horisontaalne skaleerimine või laiendamine Hadoopis. Skaleerimist on kahte tüüpi: vertikaalne ja horisontaalne . Vertikaalses skaleerimises (suurendamine) suurendate oma süsteemi riistvara mahtu. Teisisõnu, hankite rohkem RAM-i või protsessorit ja lisate selle oma olemasolevale süsteemile, et muuta see töökindlamaks ja võimsamaks. Kuid vertikaalse suurendamise või suurendamisega on seotud väljakutsed:

  • Riistvara võimsuse suurendamiseks on alati piir. Nii et te ei saa jätkata masina RAM-i või protsessori suurendamist.
  • Vertikaalse skaleerimise korral peatate kõigepealt oma masina. Seejärel suurendate RAM-i või protsessorit, et muuta see kindlamaks riistvarakoguks. Pärast riistvaramahu suurendamist taaskäivitate masina. Sellest seisakust, kui oma süsteemi peatate, saab väljakutse.

Juhul kui horisontaalne skaleerimine (laiendamine) , lisate olemasolevatele klastritele rohkem sõlme selle asemel, et suurendada üksikute masinate riistvara mahtu. Ja mis kõige tähtsam, saate lisage masinaid liikvel olles st ilma süsteemi peatamata . Seetõttu pole meil laiendamise ajal ühtegi seisuaega ega rohelist tsooni, kuid mitte midagi sellist. Päeva lõpuks on teil rohkem masinaid, mis töötavad paralleelselt teie nõuete täitmiseks.

HDFSi õppevideo:

Võite vaadata allpool toodud videot, kus kõiki HDFS-iga seotud mõisteid on üksikasjalikult arutatud:

java mis on vektor

HDFS-i õpetus: HDFS-i omadused

Mõistame neid funktsioone üksikasjalikult, kui uurime HDFS-i arhitektuuri meie järgmises HDFS-i õpetusblogis. Kuid nüüd on meil ülevaade HDFS-i funktsioonidest:

  • Maksumus: HDFS on üldiselt juurutatud kauba riistvarale, näiteks teie töölauale / sülearvutile, mida te igapäevaselt kasutate. Seega on see projekti majandamiskulude osas väga ökonoomne. Kuna kasutame madala hinnaga riistvara, ei pea te oma Hadoopi klastri laiendamiseks kulutama suuri summasid. Teisisõnu on HDFS-i täiendavate sõlmede lisamine tasuv.
  • Andmete mitmekesisus ja maht: Kui räägime HDFS-ist, siis räägime tohutute andmete, st terabaitide ja petabaitide ning mitmesuguste andmete salvestamisest. Nii saate HDFS-i salvestada mis tahes tüüpi andmeid, olgu need siis struktureeritud, struktureerimata või poolstruktureeritud.
  • Töökindlus ja tõrketaluvus: Kui salvestate andmeid HDFS-i, jagab see sisemiselt antud andmed andmeplokkideks ja salvestab need jaotatult kogu teie Hadoopi klastris. Teave selle kohta, milline andmeplokk millises andmesõlmes asub, on metaandmetesse salvestatud. NameNode haldab metaandmeid ja DataNodes vastutavad andmete säilitamise eest.
    Nimesõlm kordab ka andmeid, st säilitab andmetest mitu koopiat. See andmete kopeerimine muudab HDFS-i väga usaldusväärseks ja veataluvaks. Niisiis, isegi kui mõni sõlmedest ebaõnnestub, võime andmeid hankida teistes andmesõlmedes asuvatest koopiatest. Vaikimisi on replikatsioonitegur 3. Seega, kui salvestate 1 GB faili HDFS-i, hõivab see lõpuks 3 GB ruumi. Nimesõlm uuendab perioodiliselt metaandmeid ja säilitab replikatsiooniteguri järjepidevuse.
  • Andmete terviklikkus: Andmete terviklikkus räägib sellest, kas minu HDFS-is salvestatud andmed on õiged või mitte. HDFS kontrollib salvestatud andmete terviklikkust pidevalt kontrollsummaga võrreldes. Kui ta leiab mõne vea, teatab ta sellest nimesõlmele. Seejärel loob nimesõlm täiendavad uued koopiad ja kustutab seetõttu rikutud koopiad.
  • Suur läbilaskevõime: Läbilaskevõime on ajaühikus tehtud töö hulk. See räägib sellest, kui kiiresti saate failisüsteemist andmetele juurde pääseda. Põhimõtteliselt annab see teile ülevaate süsteemi jõudlusest. Nagu nägite ülaltoodud näites, kus kasutasime arvutuse parandamiseks kümmet masinat ühiselt. Seal suutsime vähendada töötlemisaega alates 43 minutit pelgalt 4,3 minutit kuna kõik masinad töötasid paralleelselt. Seetõttu vähendasime andmete paralleelset töötlemist töötlemisaega tohutult ja saavutasime seeläbi suure läbilaskevõime.
  • Andmete asukoht: Andmekohas räägitakse pigem töötleva üksuse teisaldamisest andmetesse kui andmetest töötlusüksusesse. Meie traditsioonilises süsteemis kasutasime andmeid rakenduskihile viimiseks ja seejärel töötlemiseks. Kuid nüüd, andmete arhitektuuri ja tohutu mahu tõttu, viiakse andmed rakenduskihtivähendada võrgu jõudlust märgataval määral.Niisiis toome HDFS-is arvutusosa nendesse andmesõlmedesse, kus andmed asuvad. Seega ei liiguta andmeid, vaid programmi või protsessiosa andmetest.

Nüüd on teil lühike idee HDFS-i ja selle funktsioonide kohta. Aga usaldage mind, kutid, see on lihtsalt jäämäe tipp. Minu järgmises , Sukeldun sügavalt HDFS-i arhitektuur ja ma avalikustan HDFS-i edu tagamaid. Vastame koos kõigile küsimustele, mis teie peas mõlguvad, näiteks:

  • Mis juhtub kulisside taga, kui loete või kirjutate andmeid Hadoopi hajutatud failisüsteemis?
  • Millised on sellised algoritmid nagu riiuliteadlikkus, mis muudab HDFS-i nii rikketaluvaks?
  • Kuidas Hadoopi hajutatud failisüsteem haldab ja loob koopiat?
  • Mis on plokioperatsioonid?

Nüüd, kui olete HDFS-ist ja selle funktsioonidest aru saanud, vaadake järgmist Edureka, usaldusväärne veebiõppeettevõte, mille võrgustik hõlmab üle 250 000 rahuloleva õppija, levinud üle kogu maailma. Edureka Big Data Hadoopi sertifitseerimiskoolitus aitab õppijatel saada HDFS, lõnga, MapReduce, Pig, Hive, HBase, Oozie, Flume ja Sqoop ekspertideks, kasutades reaalajas kasutatavaid juhtumeid jaekaubanduse, sotsiaalmeedia, lennunduse, turismi ja rahanduse valdkonnas.

Kas teil on meile küsimus? Palun mainige seda kommentaaride jaotises ja võtame teiega ühendust.