Hadoop on häiriv Java-põhine programmeerimisraamistik, mis toetab suurte andmekogumite töötlemist hajutatud arvutuskeskkonnas, R on aga statistilise arvutuse ja graafika programmeerimiskeel ja tarkvarakeskkond. R-keelt kasutatakse statistikute ja andmekaevandajate seas laialdaselt statistikatarkvara arendamiseks ja andmeanalüüsi tegemiseks. Interaktiivse andmeanalüüsi, üldotstarbelise statistika ja ennustava modelleerimise valdkonnas on R oma klassifitseerimise, klastrite moodustamise ja järjestamise võimete tõttu saavutanud tohutu populaarsuse.
Hadoop ja R täiendavad üksteist suurandmete visualiseerimise ja analüüsi osas üsna hästi.
Kasutades R ja Hadoop
Hadoopi ja R koos kasutamiseks on neli erinevat viisi:
1. RHadoop
RHadoop on kolme R-paketi kogu: rmr, rhdfs ja rhbase. rmr pakett pakub R-is Hadoop MapReduce funktsionaalsust, rhdfs pakub R-is HDFS-failihaldust ja rhbase pakub HBase-i andmebaaside haldust R-st. Kõiki neid esmaseid pakette saab kasutada Hadoopi raamistiku andmete paremaks analüüsimiseks ja haldamiseks.
2. ORCH
ORCH tähistab Oracle R Connector for Hadoop. See on R-pakettide kogu, mis pakub asjakohaseid liideseid Hive-tabelite, Apache Hadoopi arvutusinfrastruktuuri, kohaliku R-keskkonna ja Oracle'i andmebaasitabelitega töötamiseks. Lisaks pakub ORCH ka ennustavaid analüütilisi tehnikaid, mida saab rakendada HDFS-failide andmetele.
3. RIPIS
RHIPE on R-pakett, mis pakub Hadoopi kasutamiseks API-d. RHIPE tähistab integreeritud programmeerimiskeskkonda R ja Hadoop ning on sisuliselt teise API-ga RHadoop.
kuidas peatada programm Java-s
Neli. Hadoopi voogesitus
Hadoopi voogesitus on utiliit, mis võimaldab kasutajatel luua ja käivitada mis tahes käivitatavate failidega töökohti kaardistaja ja / või reduktorina. Voogesüsteemi abil saab töötada välja töötavad Hadoopi töökohad, millel on Java kohta piisavalt teadmisi, et kirjutada kaks paralleelselt töötavat shelliskripti.
R ja Hadoopi kombinatsioon on kujunemas kohustusliku tööriistakomplektina statistikat ja suuri andmekogumeid töötavatele inimestele. Teatud Hadoopi entusiastid on aga ülisuurte Big Data fragmentidega tegeledes punase lipu heiskanud. Nad väidavad, et R eeliseks pole mitte selle süntaks, vaid visualiseerimiseks ja statistikaks mõeldud primitiivide täielik raamatukogu. Neid raamatukogusid põhimõtteliselt ei levitata, mistõttu andmete otsimine on aeganõudev asi. See on R-le omane viga ja kui otsustate sellest mööda vaadata, võivad R ja Hadoop tandemina ikkagi imet teha.
Vaatame nüüd demot:
Kas teil on meile küsimus? Palun mainige neid kommentaaride jaotises ja me võtame teiega ühendust.
Seonduvad postitused: