Suured andmed AWS-is - nutikas lahendus suurte andmete jaoks



See artikkel aitab teil mõista, kuidas AWS nutikalt Big Data'ga tegeleb. Samuti näitab see, kuidas AWS suudab Big Data väljakutseid hõlpsalt lahendada.

Big Data idee pole lihtsalt uus, see on kõikjal. Big Data mõju avaldub kõikjal, alates ärist kuni teaduseni, valitsusest kunsti ja nii edasi. Pole paremat kaaslast kui Big Data töötlemiseks ja analüüsimiseks. Selles artiklis näitan, kuidas AWS lahendab Big Data väljakutseid ja näpunäited, mida ma käsitlen, on järgmised:

Mis on Big Data?

suurandmete omadused





Suurandmeid võite pidada mahukaks, kiireks ja / või mitmekesiseks teabevaraks, mis nõuab kulutõhusaid ja uuenduslikke teabetöötlusvorme, mis võimaldavad paremat ülevaadet, otsuste langetamist ja protsesside automatiseerimist.

Big Data koosneb viiest olulisest V-st, mis määratlevad Big Data omadused. Arutagem neid enne AWS-i liikumist.



Mis on AWS?

koosneb paljudest erinevatest pilvandmetöötlustoodetest ja -teenustest. Amazoni ülikasumlik divisjon pakub koos turvalisusega servereid, salvestusruume, võrguühendusi, kaugarvutusi, e-posti, mobiilset arendust. Lisaks. AWS koosneb kahest peamisest tootest: Amazoni virtuaalmasinateenus EC2 ja Amazoni salvestussüsteem S3. See on arvutusmaailmas nii suur ja kohal, et see on nüüd vähemalt kümme korda suurem kui lähim konkurent ning võõrustab populaarseid veebisaite nagu Netflix ja Instagram.

.

AWS on jagatud 12 globaalseks piirkonnaks kogu maailmas, millest igaühel on mitu kättesaadavuse tsooni, kus asuvad selle serverid.Need teenindatavad piirkonnad on jagatud, et võimaldada kasutajatel seada oma teenustele geograafilisi piiranguid, aga ka turvalisuse tagamiseks, mitmekesistades andmete füüsilisi asukohti.



Miks suurandmed AWS-is?

Teadlased, arendajad ja muud tehnoloogiahuvilised paljudest erinevatest domeenidest kasutavad AWS-i ära, et teha suurandmete analüüsi ja tulla toime digitaalse teabe suureneva Vs kriitiliste väljakutsetega. AWS pakub pilvandmetöötlusteenuste portfelli, mis aitab hallata suurandmeid, vähendades märkimisväärselt kulusid, suurendades nõudluse rahuldamist ja suurendades innovatsiooni kiirust.

c ++ salvestusklass

Amazoni veebiteenused pakuvad a täielikult integreeritud portfell pilvandmetöötlusteenustest. Lisaks aitab see teil luua oma suurandmete rakendusi, neid kaitsta ja juurutada. Samuti ei vaja te AWS-i hankimiseks riistvara ega hooldamiseks ega laiendamiseks vajalikku infrastruktuuri. Seetõttu saate oma ressursid suunata uute teadmiste avastamisele.Kuna uusi funktsioone lisatakse pidevalt, saate alati kasutada uusimat tehnoloogiat, ilma et peaksite võtma pikaajalisi investeerimiskohustusi.

Kuidas saab AWS lahendada Big Data väljakutseid?

AWS-lahendused suurandmetele

AWS-il on arvukalt lahendusi kõigil arendus- ja juurutamise eesmärkidel. Samuti on AWS andmeteaduse ja suurandmete valdkonnas tulnud välja hiljutiste arengutega suurandmete käitlemise erinevates aspektides. Enne tööriistade juurde liikumist andke meile mõista Big Data erinevaid aspekte, millele AWS suudab pakkuda lahendusi.

  1. Andmete sisestamine
    Algandmete - tehingute, logide, mobiilseadmete ja muu - kogumine on esimene väljakutse, millega paljud organisatsioonid puutuvad kokku suurandmetega tegelemisel. Hea suurandmete platvorm muudab selle sammu lihtsamaks, võimaldades arendajatel sisestada mitmesuguseid andmeid - alates struktureeritud kuni struktureerimata - igal kiirusel - reaalajas kuni partiideni.

  2. Andmete säilitamine
    Iga suurandmete platvorm vajab andmete salvestamiseks enne või isegi pärast ülesannete töötlemist turvalist, skaleeritavat ja vastupidavat hoidlat. Sõltuvalt teie konkreetsetest nõudmistest võib andmete edastamise jaoks vaja minna ka ajutisi poode.

  3. Andmetöötlus
    See on samm, kus andmete teisendamine toimub toorest olekust tarbekaupa - tavaliselt sorteerimise, liitmise, liitmise ja isegi täpsemate funktsioonide ja algoritmide abil. Saadud andmekogumid säilitatakse edasiseks töötlemiseks või tehakse ärianalüüsi ja andmete visualiseerimise tööriistade kaudu tarbimiseks kättesaadavaks.

  4. Visualiseerimine

    Suurte andmete eesmärk on saada oma andmevaralt väärtuslikku ja hõlpsat ülevaadet. Ideaalis on andmed sidusrühmadele kättesaadavad iseteenindusliku äriteabe ja kiirete andmete visualiseerimise tööriistade kaudu, mis võimaldavad andmekogumeid kiiresti ja hõlpsalt uurida.

AWS-i tööriistad suurandmete jaoks

Eelmistes jaotistes vaatasime Big Data väljad, kus AWS suudab pakkuda lahendusi. Lisaks on AWS-i arsenalis mitu tööriista ja teenust, mis võimaldavad klientidel kasutada Big Data võimalusi.

Vaatame erinevaid lahendusi, mida AWS pakub Big Data käitlemisega seotud erinevate etappide käitlemiseks

Allaneelamine

  1. Kinesis

    Amazon Kinesis Firehose on täielikult hallatud teenus reaalajas voogesituse andmete edastamiseks otse Amazon S3-le. Kinesis Firehose skaleerib automaatselt voogesituse andmete mahu ja läbilaskevõime ning ei vaja pidevat haldamist. Kinesis Firehose saate konfigureerida voogesituse andmete teisendamiseks enne nende salvestamist Amazon S3-sse.

  2. Lumepall
    Sa võid kasutada AWS lumepall massandmete turvaliseks ja tõhusaks migreerimiseks kohapealsetelt salvestusplatvormidelt ja Hadoopi klastritelt S3 ämbritesse. Pärast AWS-i halduskonsoolis töö loomist saate automaatselt Snowball-seadme. Pärast lumepalli saabumist ühendage see oma kohaliku võrguga, installige lumepalli klient oma asutusesisesse andmeallikasse ja seejärel kasutage lumepalli kliendi abil failikataloogide valimiseks ja teisaldamiseks lumepalli seadmesse.

Ladustamine

  1. Amazon S3

Amazon S3 on turvaline, väga skaleeritav, vastupidav objektimälu millisekundilise viivitusega andmetele juurdepääsuks. S3 saab salvestada mis tahes tüüpi andmeid kõikjalt - veebisaitidelt ja mobiilirakendustest, ettevõtte rakendustest ning IoT anduritest või seadmetest. Samuti saab see salvestada ja hankida mis tahes andmemahtu võrreldava kättesaadavusega ja ehitatud maast madalast, et tagada 99,99999999999% (11 üheksa) vastupidavust.

2. AWS liim

Liim on täielikult hallatud teenus, mis pakub andmekataloogi, et muuta andmed järves leiduvaks. Lisaks on tal võimalus analüüsimiseks andmete ettevalmistamiseks ekstraktida, teisendada ja laadida (ETL). Samuti on sisseehitatud andmekataloog nagu püsiv metaandmete salvestus kõigi andmevarade jaoks, muutes kõik andmed otsitavaks ja päringuteks ühes vaates.

Töötlemine

  1. EMR
    Suurte andmete töötlemiseks Sparki ja Hadoopi abil Amazon EMR pakub hallatud teenust, mis muudab tohutu hulga andmete töötlemise lihtsaks, kiireks ja tasuvaks. Lisaks toetab EMR 19 erinevat avatud lähtekoodiga projekti, sealhulgas Hadoop , Säde ja Kaasas on hallatud EMR sülearvutid andmetöötluse, andmeteaduse arendamise ja koostöö jaoks.

  2. Punane nihe
    Andmete ladustamiseks Amazon Redshift annab võimaluse käitada keerukaid, analüütilisi päringuid petabaitide struktureeritud andmete vastu. Samuti sisaldab see Punase nihke spekter mis käitab SQL-päringuid otse S3-s struktureeritud või struktureerimata andmete Exabaitide ulatuses, ilma et oleks vaja asjatut andmete liikumist.

Visualiseerimised

  1. Amazon QuickSight

    Juhtpaneelide ja visualiseeringute jaoks pakub Amazon Quicksight teile kiiret pilvepõhist ärianalüüsi teenust. See muudab hämmastavate visualiseerimiste ja rikkalike armatuurlaudade loomise lihtsaks. Lisaks saate neile juurde pääseda mis tahes brauserist või mobiilseadmest.

Demo - ohustatud taime- ja loomaliikide andmete analüüsimine Austraalias.

Selles demos kasutame Austraalia osariikide ja territooriumide ohustatud taime- ja loomaliikide prooviandmeid. Siin loome EMR-klastri ja konfigureerime selle Apache Hive'i mitmeastmeliste tööde käivitamiseks. EMR-klastrisse on installitud Apache Hive. See klaster kasutab failisüsteemina EMRFS-i, nii et selle andmete sisendi ja väljundi asukohad vastendatakse S3 ämbriga. Klaster kasutab sama faili S3 ka logifailide salvestamiseks.

Nüüd loome klastris hulga EMR-i samme andmete näidiskomplekti töötlemiseks. Siin käivitavad kõik need toimingud Hive'i skripti ja lõplik väljund salvestatakse S3 ämbrisse. Need toimingud genereerivad MapReduce logisid ja seda seetõttu, et Hive'i käsud tõlgitakse käitamise ajal MapReduce'i töödeks. Iga sammu logifailid liidetakse selle kudetud mahutitest.

Näidisandmed

Selle kasutusjuhtumi näidisandmekogum on veebisaidilt avalikult kättesaadav Austraalia valitsuse avatud andmete veebisait . See andmekogum räägib Austraalia erinevatest osariikidest ja territooriumidelt pärit ohustatud looma- ja taimeliikide kohta. Selle andmekomplekti ja CSV-faili väljade kirjeldust saab vaadata ja alla laadida siin .

Töötlemise etapid

Esimene EMR-i tööetapp hõlmab Hive-tabeli loomist skeemina S3-s oleva lähtefaili jaoks. Teises tööetapis käivitame nüüd andmete vastu eduka päringu. Sarnaselt käivitame ka kolmanda ja neljanda päringu.

Kordame neid nelja sammu paar korda tunni jooksul, simuleerides mitmeastmelise paketttöö järjestikuseid sõite. Kuid reaalse elu stsenaariumi korral võib iga partiijooksu vaheline ajavahe tavaliselt olla palju suurem. Väike ajavahe järjestikuste jooksude vahel on mõeldud meie testimise kiirendamiseks.

S3 ämber ja kaustad

Enne meie EMR-klastri loomist pidime siin oma failide majutamiseks looma S3 ämber. Meie näites nimetame seda ämbrit nimeks „arvind1-bucket”. Selle rühma all olevad kaustad on näidatud allpool S3 AWS-i konsoolis:

  • Sisendkaust sisaldab näidisandmeid

  • Skriptide kaust sisaldab Hive skriptifaile EMR-i tööetappide jaoks

  • Väljundkaust hoiab ilmselt programmi Hive väljundit

  • EMR-klaster kasutab logifailide salvestamiseks kausta Logi.

Tarude skriptid EMR-i tööetappide jaoks

1. Selles tööetapis käivitatakse Hive'i skriptvälise Hive-tabeli loomiseks. Selles tabelis kirjeldatakse CSV-andmefaili tabeliskeemi. Selle skript on järgmine:

LOO VÄLISTABEL 'ohtlikud_liigid' ('teadusliku nime' string, 'tavalise nime' string, 'praeguse teadusliku nime' string, 'ohustatud oleku' string, 'toimige' string, 'nsw' string, 'nt' string, 'qld' string, `sa` string,` tas` string, `vic` string,` wa` string, `aci` string,` cki` string, `ci` string,` csi` string, `jbt` string,` nfi` string, 'hmi' string, 'aat' string, 'cma' string, 'loetletud kilu taksoniid' bigint, 'praegune kilu taksoniid' bigint, 'kuningriik' string, 'klass' string, 'profiil' string, 'väljavõtte kuupäev' string, `nsl-nimeline string,` perekonna-string, `perekonna`-string,` liigi-string, `infraspetsiifiline string`-string,` infraliigi` string, `liigi autori string,` infraliigi autori` string) RIDA VORMITA PIIRATUD VÄLJA LÕPETAS: ',' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket / script

2. Selle tööetapiga käivitatakse päring Uus-Lõuna-Walesi osariigi (NSW) viie suurema ohustatud liigi arvutamiseks. Taru päringufaili nimi on ohustatudLiigidNSW.q ja see on näidatud allpool:

VALI liik, COUNT (nsw) AS-i_ohustatud_liikide arv alates ohustatud_liigist KUS (nsw = 'Jah' VÕI nsw = 'Ohustatud') JA 'Ohustatud olek' = 'Ohustatud' RÜHM liikide kaupa, kellel on COUNT (nsw)> 1 TELLI BY_endangered_species DESC LIMIT 5

3.Selles tööetapis käivitatakse päring ohustatud taimeliikide koguarvu arvutamiseks Austraalias iga taimeperekonna kohta. Taru päringufaili nimi onendangeredPlantSpecies.qja on näidatud allpool

SELECT pere, COUNT (liik) AS number_of_endangered_species FROM threatened_species2 WHERE kuningriik = 'Plantae' JA 'ohustatud staatus' = 'Ohustatud' GROUP BY family

4. Selles etapis on loetletud Austraalia Queenslandi osariigis väljasurnud loomaliikide teaduslikud nimed. Skriptifail kutsutakse väljasurnudLoomadQLD.q ja on näidatud allpool:

VALI 'üldnimi', 'teaduslik nimi' FROM threatened_species WHERE kuningriik = 'Animalia' AND (qld = 'Jah' VÕI qld = 'Välja surnud') JA 'Ähvardatud staatus' = 'Välja surnud'

Palgi liitmine

Siit oleme ka S3 kopa skriptide kausta üles laadinud JSON-faili nimega logAggregation.json. Kasutame seda faili YARN-i logifailide liitmiseks. Logide liitmine on konfigureeritud lõnga site.xml konfiguratsioonifailis klastri käivitamisel. Faili logAggregation.json sisu on järgmine:

on sas programmeerimiskeel

[{“Klassifikatsioon”: “lõnga sait”, “Atribuudid”: {“lõng.log-koondamine-lubamine”: “tõene”, “lõng.log-koondamine.sekundisekundid”: “-1”, “lõng .nodemanager.remote-app-log-dir ':' s3: // arvind1-bucket / logs '}}]

Pärast S3 grupi loomist ning andmete ja skriptifailide kopeerimist vastavatesse kaustadesse on nüüd aeg seadistada EMR-klaster. Järgmised hetktõmmised kirjeldavad protsessi, kui loome klastri enamasti vaikesätetega.

EMR klastri seadistamine

Esimesel pildil oleme klastri konfigureerimiseks AWS-i konsoolis säilitanud kõik EMR-i soovitatud rakendused, sealhulgas Hive. Taru metaandmete salvestamiseks ei pea me kasutama AWS-liimi ega lisama praegu ühtegi tööetappi. Kuid me peame lisama Hive'i tarkvarasätte. Siin peate hoolikalt jälgima, kuidas me määrame sellel väljal logi koondamise JSON-faili tee.

Järgmises etapis oleme säilitanud kõik vaikesätted. Meie testi huvides on klastril üks põhisõlm ja kaks põhisõlme. Iga siinne sõlm on m3.xlarge eksemplar ja sellel on 10 GB juurmaht. Järgmises etapis nimetame klastrit arvind1-klastriks ja määrame selle logifailide kohandatud s3 asukoha.

Lõpuks määrasime klastri põhisõlmele juurdepääsu saamiseks EC2 võtmepaari. EMR, EC2 eksemplari profiili ja automaatse skaala suvandite IAM-i vaikerollid ei muutu. Samuti kasutavad põhi- ja põhisõlmed vaikimisi saadaolevaid turbegruppe. Tavaliselt on see EMR-klastri vaikeseadistus. Kui kõik on valmis, on klaster ooterežiimis, nagu allpool näidatud:

Esitage taru tööetapid

Pärast seda peame lubama SSH-i juurdepääsu.

  1. Avage Amazon EMR konsool aadressil https://console.aws.amazon.com/elasticmapreduce/ .
  2. Valige Klastrid .
  3. Vali Nimi klastri osa.
  4. Under Turvalisus ja juurdepääs Vali Meistri turvagrupid link.
  5. Valige ElasticMapReduce-master loendist.
  6. Valige Sissetulev , Muuda .
  7. Leidke reegel järgmiste seadetega ja valige x ikooni selle kustutamiseks:
    • Tüüp SSH
    • Sadam 22
    • Allikas Kohandatud 0.0.0.0/0
  8. Kerige reeglite loendi lõppu ja valige Lisa reegel .
  9. Sest Tüüp , valige SSH .See siseneb automaatselt TCP jaoks Protokoll ja 22 jaoks Sadama ulatus .
  10. Allika jaoks valige Minu IP . See lisab lähteaadressiks automaatselt teie kliendi arvuti IP-aadressi. Teise võimalusena saate lisada vahemiku Kohandatud usaldusväärsete klientide IP-aadresse ja valige lisage reegel teiste klientide jaoks täiendavate reeglite loomiseks. Paljudes võrgukeskkondades eraldate IP-aadressid dünaamiliselt, mistõttu peate võib-olla usaldusväärsete klientide IP-aadressi värskendamiseks turvarühma reegleid perioodiliselt muutma.
  11. Valige Salvesta .
  12. Soovi korral valige ElasticMapVähenda-ori loendist ja korrake ülaltoodud samme, et võimaldada SSH-kliendile juurdepääs usaldusväärsete klientide põhi- ja ülesandesõlmedele.

Kuna EMR-klaster töötab ja töötab, oleme lisanud neli tööetappi. Need on sammud, mida EMR üksteise järel jookseks. Järgmine pilt näitab AWS EMR-i konsooli toiminguid:

Kui oleme neli sammu lisanud, saame kontrollida nende toimingute olekut lõpetatuna. Isegi kui nende toimingute täitmisega on probleeme, saab sellistel juhtudel selle toimingu logifailide abil lahendada.

Nii et see on minu poolt selles AWS-i Big Data artiklis. Loodan, et olete aru saanud kõigest, mida ma siin selgitasin.

Kui leiate, et AWSis on need suured andmed asjakohased, saate tutvuda Edureka otseülekande ja juhendajate juhitud kursusega , mille on loonud tööstuse praktikud.

Kas teil on meile küsimus? Palun mainige seda selle jaotise Kommentaaride jaotises Kuidas Java veebirakendust juurutada AWS-is ja me võtame teiega ühendust.