See on järelpostitus koos vastustega edureka avaliku veebiseminari ajal korduma kippuvatele küsimustele! peal .
Korduma kippuvad küsimused Hadoopi kohta
Deepak:
Mis on Hadoop?
Apache Hadoop on avatud lähtekoodiga tarkvararaamistik andmekogumite salvestamiseks ja suuremahuliseks töötlemiseks kauba riistvara klastrites. See on avatud lähtekoodiga andmehalduse tarkvara raamistik, millel on laiendatav salvestamine ja hajutatud töötlus. Seda ehitab ja kasutab ülemaailmne kaasautorite ja kasutajate kogukond.
Lisateavet leiate meie Hadoopi blogipostitusest ja .
Otsing:
Millised on suurandmete kasutamise juhtumid reisi-, transpordi- ja lennufirmatööstuses?
Päikeseline:
Kas saate osutada Hadoopi juurutamise reaalsele elule, mida saame uurida?
Oleme livikohtatipptundide ummikute suurenemise ajastul. Transpordiettevõtjad otsivad pidevalt kulutõhusaid viise teenuste osutamiseks, hoides samal ajal oma transpordiparki heades tingimustes. Big Data Analyticsi kasutamine selles domeenis aitab organisatsioonil teha järgmist.
- Marsruudi optimeerimine
- Georuumiline analüüs
- Liiklusmustrid ja ummikud
- Varade hooldus
- Tulude haldamine (st lennufirma)
- Varude haldamine
- Kütuse kokkuhoid
- Sihtotstarbeline turundus
- Kliendi lojaalsus
- Võimsuse prognoosimine
- Võrgu jõudlus ja optimeerimine
Reaalses kasutuses on vähe:
kuni) Lennukulude kindlaksmääramine
b) Varude logistika ennustamise modelleerimine
c) Orbitz Worldwide - klientide ostumustrid
d) Kuus ülisuurt Hadoopi juurutust
on) Hadoop - rohkem kui lisab
f) Hadoop ettevõttes
Hadoopi reaalmaailma juurutamise kohta saate lisateavet aadressilt:
Hirdesh:
Kas Hadoop on seotud andmete töötlemise ja töötlemisega? Kuidas minna aruandluse ja visuaalse analüüsi juurde. Kas Qlikview, Tableau saab kasutada Hadoopi peal?
Hadoopi põhikomponendid HDFS ja MapReduce on seotud andmete salvestamise ja töötlemisega. HDFS salvestamiseks ja MapReduce töötlemiseks. Kuid analüüsi jaoks kasutatakse selliseid Hadoopi põhikomponente nagu Pig ja Hive. Visual Reports Tableau jaoks saab QlikView'i ühendada visuaalse aruandluse Hadoopiga.
Amit:
Hadoop vs. mongoDB
MongoDB-d kasutatakse reaalajas operatiivse andmehoidlana, Hadoopi aga võrguühenduseta pakettandmete töötlemiseks ja analüüsimiseks.
mongoDB on dokumendile orienteeritud, skeemivaba andmesalvestus, mida saate veebirakenduses kasutada taustaprogrammina RDBMS-i (nt MySQL) asemel, samas kui Hadoopi kasutatakse peamiselt suuremahulise andmemahu laiendamiseks ja hajutatud töötlemiseks.
Loe lähemalt meie lehelt mongoDB ja Hadoopi blogipostitus .
Java-s muutuvad ja muutumatud objektid
Siin:
Kas Apache Spark on Hadoopi osa ?
Apache Spark on kiire ja üldine mootor suuremahuliseks andmetöötluseks. Spark on kiirem ja toetab mälusisest töötlemist. Sädeme täitmise mootor laiendab arvutuskoormuste tüüpi, mida Hadoop suudab hallata ja mida saab käitada Hadoop 2.0 YARN klastris. See on töötleva raamistiku süsteem, mis võimaldab salvestada mälus olevaid objekte (RDD) koos võimalusega neid objekte Scala sulgurite abil töödelda. See toetab graafikut, andmeladu, masinõpet ja voo töötlemist.
Kui teil on Hadoop 2 klaster, saate Sparki käivitada ilma installimist vajada. Vastasel juhul on Sparki lihtne kasutada eraldi või EC2 või Mesos. Seda saab lugeda HDFS, HBase, Cassandra ja mis tahes Hadoopi andmeallikast.
Lisateavet leiate Sparkist siin .
Prasad:
Mis on Apache Flume?
Apache Flume on hajutatud, usaldusväärne ja saadaval süsteem suurte logiandmete koguste tõhusaks kogumiseks, koondamiseks ja teisaldamiseks paljudest erinevatest allikatest tsentraliseeritud andmeallikasse.
Muuda:
SQL vs NO-SQL andmebaasid
NoSQL-i andmebaasid on järgmise põlvkonna andmebaasid ja käsitlevad enamasti mõnda punkti
- mitte-suhteline
- laiali
- avatud lähtekoodiga
- horisontaalselt skaleeritav
Sageli rakendatakse rohkem omadusi, nagu skeemivaba, lihtne replikatsioonitugi, lihtne API, lõpuks ühtlane / BASE (mitte ACID), tohutu hulk andmeid ja palju muud. Näiteks on vähesed eristajatest järgmised:
- NoSQL-i andmebaasid suurendavad horisontaalselt, lisades suuremate koormustega toimetulekuks rohkem servereid. SQL-i andmebaasid seevastu laienevad tavaliselt vertikaalselt, lisades liikluse suurenemisel ühte serverisse üha rohkem ressursse.
- SQL-i andmebaasid nõudsid, et enne teabe ja andmete lisamist määratleksite skeemid, kuid NoSQL-i andmebaasid pole skeemid ega vaja skeemi eelnevalt määratlemist.
- SQL-i andmebaasid on tabelipõhised ridade ja veergudega, järgides RDBMS-i põhimõtteid, samas kui NoSQL-i andmebaasid on dokumendi-, võtme-väärtuste paarid, graafikud või laia veeruga poed.
- SQL-i andmebaasid kasutavad andmete määratlemiseks ja manipuleerimiseks SQL-i (struktureeritud päringukeelt). NoSQL-i andmebaasis on päringud andmebaasiti erinevad.
Populaarsed SQL-i andmebaasid: MySQL, Oracle, Postgres ja MS-SQL
Populaarne NoSQL-i andmebaasid: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j ja CouchDB
Vaadake üle meie ajaveebid Hadoop ja NoSQL andmebaasid ja ühe sellise andmebaasi eelised:
Koteswararao:
Kas Hadoopil on sisseehitatud klastritehnoloogia?
Hadoopi klaster kasutab Master-Slave arhitektuuri. See koosneb ühest põhihaldurist (NameNode) ja alamklastrist (DataNodes) andmete salvestamiseks ja töötlemiseks. Hadoop on loodud töötama suurel hulgal masinatel, mis ei jaga ühtegi mälu ega ketast. Need DataNodes on konfigureeritud klastrina . Hadoop kasutab replikatsiooni kontseptsiooni tagamaks, et klastris oleks kogu aeg saadaval vähemalt üks andmete koopia. Kuna andmeid on mitu koopiat, saab serverisse salvestatud andmeid, mis lähevad võrguühenduseta või surevad, kopeerida tuntud heast koopiast automaatselt.
Dinesh:
Mis on töö Hadoopis? Mida kõike saab töö kaudu saavutada?
Hadoopis on töö andmete töötlemiseks / analüüsimiseks MapReduce'i programm. Mõiste MapReduce viitab tegelikult kahele eraldi ja eraldiseisvale ülesandele, mida Hadoopi programmid täidavad. Esimene on ülesanne Kaart, mis võtab andmekogumi ja teisendab selle teiseks vaheandmete kogumiks, kus üksikud elemendid jaotatakse võtmeväärtuste paarideks. MapReduce Jobi teine osa, ülesanne Reduce, võtab sisendina kaardi väljundi ja ühendab võtme-väärtuse paarid väiksemaks kogumiks koondatud võtme-väärtuse paari. Nagu kaardi MapReduce jada viitab, täidetakse redutseerimisülesanne alati pärast Mapi ülesannete täitmist. Lisateavet leiate lehelt MapReduce Job .
Sukruth:
visuaalse stuudioga alustamine
Mis on NameNode'is erilist ?
NameNode on HDFS-failisüsteemi süda. See hoiab metaandmeid nagu kõigi failisüsteemi failide kataloogipuu ja jälgib, kus kogu klastris failiandmeid hoitakse. Tegelikud andmed salvestatakse DataNodesesse HDFS-plokkidena.
Kliendirakendused räägivad NameNode'iga alati, kui nad soovivad faili leida või kui nad soovivad faili lisada / kopeerida / teisaldada / kustutada. NameNode vastab edukatele taotlustele, tagastades asjakohaste DataNodes serverite loendi, kus andmed elavad. Lisateavet leiate HDFS-i arhitektuurist .
Dinesh:
Millal Hadoop 2.0 turule toodi?
Hadoopi arendust haldav avatud lähtekoodiga rühmitus Apache Software Foundation (ASF) teatas 15. oktoobril 2013 oma ajaveebis, et Hadoop 2.0 on nüüd üldiselt saadaval (GA). See teade tähendab, et pärast pikka ootamist on Apache Hadoop 2.0 ja YARN nüüd Tootmise juurutamiseks valmis. Lisateavet Ajaveeb.
Dinesh:
Millised on vähesed näited MapReduce Big Data rakendusest?
MapReduce sobib suurepäraselt paljude rakenduste jaoks suurandmete probleemide lahendamiseks, kuid mitte kõigi muude programmeerimismudelite jaoks, näiteks graafiku töötlemine (nt Google Pregel / Apache Giraph) ja iteratiivne modelleerimine sõnumi edastamise liidesega (MPI).
Marish:
Kuidas HDFS-is andmeid korrastatakse ja indekseeritakse?
Andmed on jaotatud 64 MB suurusteks plokkideks (konfigureeritavad parameetri järgi) ja salvestatakse HDFS-i. NameNode salvestab nende plokkide salvestusteabe oma RAM-is ploki ID-na (NameNode Metadata). MapReduce'i tööd saavad nendele plokkidele juurde pääseda, kasutades NameNode'i RAM-i salvestatud metaandmeid.
Shashwat:
Kas saame ühes klastris kasutada nii MapReduce'i (MRv1) kui ka MRv2 (koos lõngaga)?
Hadoop 2.0 on kasutusele võtnud uue raamistiku YARN, et kirjutada ja käivitada Hadoopis erinevaid rakendusi. Niisiis, YARN ja MapReduce on Hadoop 2.0-s kaks erinevat mõistet ja neid ei tohiks segamini ajada ja kasutada. Õige küsimus on 'Kas on võimalik nii MRv1 kui ka MRv2 käivitada lõnga toega Hadoop 2.0 klastris?' Vastus sellele küsimusele on a 'Ei' kuigi Hadoopi klastrit saab konfigureerida nii MRv1 kui ka MRv2 käitamiseks, kuid see võib igal ajahetkel käitada ainult ühte deemonite komplekti. Mõlemad raamistikud kasutavad lõpuks samu konfiguratsioonifaile ( lõng-site.xml ja mapred-site.xml ) deemonite käitamiseks, seega saab Hadoopi klastris lubada ainult ühe kahest konfiguratsioonist.
Nukk:
Mis vahe on järgmise põlvkonna MapReduce (MRv2) ja YARN vahel?
LÕNG ja järgmise põlvkonna MapReduce (MRv2) on Hadoop 2.0-s kaks erinevat mõistet ja tehnoloogiat. YARN on tarkvararaamistik, mida saab kasutada mitte ainult MRv2, vaid ka teiste rakenduste käitamiseks. MRv2 on rakenduse raamistik, mis on kirjutatud YARN API abil ja töötab YARNi sees.
Bharat:
Kas Hadoop 2.0 pakub Hadoop 1.x-i rakenduste tagurpidi ühilduvust?
Neha:
Kas migratsioon Hadoop 1.0–2.0 nõuab tugevat rakenduskoodi ränne?
Ei, suurem osa rakendustest, mis on välja töötatud „org.apache.hadoop.mapred“ API-de abil, saab töötada YARN-is ilma uuesti kompileerimiseta. LÕNG on binaarselt ühilduv MRv1 rakendustega ja nende taotluste esitamiseks YARN-is saab kasutada märki „bin / hadoop”. Lisateavet selle kohta siin .
Sherin:
Mis juhtub, kui ressursihalduri sõlm ebaõnnestub Hadoop 2.0-s?
Alates Hadoopi versioonist 2.4.0 on saadaval ka ressursihalduri kõrge kättesaadavusega tugi. ResourceManager kasutab tõrkeotsinguks Apache ZooKeeperit. Kui ressursihalduri sõlm ebaõnnestub, saab sekundaarne sõlm ZooKeeperisse salvestatud klastri oleku kaudu kiiresti taastuda. ResourceManager tõrkeotsingu korral taaskäivitab kõik järjekorras olevad ja töötavad rakendused.
Sabbirali:
Kas Apache Hadoopi raamistik töötab Cloudera Hadoopis?
Apache Hadoop võeti kasutusele 2005. aastal koos MapReduce'i põhitöötlusmootoriga, et toetada HDFS-i salvestatud suuremahuliste andmete töökoormuste hajutatud töötlemist. See on avatud lähtekoodiga projekt ja sellel on mitu jaotust (sarnaselt Linuxile). Cloudera Hadoop (CDH) on üks selline Cloudera levitamine. Muud sarnased levitamised on HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights jne.
kuidas peatada programm javas
Arulvadivel:
Kas on lihtne viis Hadoopi oma sülearvutisse installida ja proovida Oracle'i andmebaasi migreerimist Hadoopi?
Sa saad algus koos HortonWorks Sandbox või Cloudera Quick VM oma sülearvutis (vähemalt 4 GB RAM-i ja i3 või uuema protsessoriga). Andmete teisaldamiseks Oracle'ist Hadoopi kasutage SQOOP-i, nagu on selgitatud siin .
Bhabani:
Millised on parimad saadaval olevad raamatud Hadoopi õppimiseks?
Alusta Hadoop: lõplik juhend autorid Tom White ja Hadoopi operatsioonid autor Eric Sammer.
Mahendra:
Kas Hadoop 2.0 jaoks on saadaval ühtegi lugemist, nagu ka lõplikku juhendit Hadoop?
Vaadake üle viimane saabumine raamaturiiulitel, mille on kirjutanud vähesed Hadoop 2.0 loojad.
Püsige kursis selle sarja muude küsimustega.