Suurandmete õpetus: kõik, mida peate teadma suurandmete kohta!



See Big Data juhendaja ajaveeb annab teile täieliku ülevaate nii Big Data'st, selle omadustest, rakendustest kui ka Big Data väljakutsetest.

Suurandmete õpetus

Big Data, kas te pole seda terminit varem kuulnud? Olen kindel, et teil on. Viimase 4–5 aasta jooksul räägivad kõik Big Data'st. Kuid kas teate tõesti, mis see suurandmed täpselt on, kuidas see mõjutab meie elu ja miks organisatsioonid jahivad spetsialiste ? Selles Big Data õpetuses annan teile täieliku ülevaate Big Data kohta.

Allpool on toodud teemad, mida selles Big Data õpetuses käsitlen:





  • Big Data lugu
  • Suurandmete juhtimistegurid
  • Mis on suurandmed?
  • Suurandmete omadused
  • Suurandmete tüübid
  • Suurandmete näited
  • Big Data rakendused
  • Suurte andmetega seotud väljakutsed

Suurandmete õpetus - Edureka

Las ma alustan seda Big Data õpetust lühijutuga.



Big Data lugu

Muistsetel aegadel käisid inimesed hobustega vankriga ühest külast teise külla, kuid aja möödudes muutusid külad linnadeks ja inimesed levisid laiali. Suurenes ka kaugus ühest linnast teise linna sõitmiseks. Niisiis, probleemiks oli reisimine linnade vahel koos pagasiga. Ühest suust soovitas üks nutikas mees, et peaksime selle probleemi lahendamiseks hobust rohkem koristama ja toitma. Kui ma seda lahendust vaatan, pole see sugugi nii hull, aga kas teie arvates võib hobusest saada elevant? Ma ei usu. Teine tark tüüp ütles, et selle asemel, et 1 hobune vankrit tõmbaks, laske meil sama hobuse tõmbamiseks olla 4 hobust. Mida te sellisest lahendusest arvate? Ma arvan, et see on fantastiline lahendus. Nüüd saavad inimesed lühikese ajaga läbida suuri vahemaid ja isegi rohkem pagasit.

Sama mõiste kehtib ka Big Data puhul. Big Data ütleb, et tänaseni oli meil andmete salvestamine meie serveritesse okei, sest andmete maht oli üsna piiratud ja ka andmete töötlemise aeg oli korras. Kuid praeguses tehnoloogilises maailmas kasvavad andmed liiga kiiresti ja inimesed loodavad andmetele palju kordi. Ka andmete kasvukiirusel muutub andmete ühegi serveri salvestamine võimatuks.

Selle Big Data Tutoriali ajaveebi kaudu uurime Big Data allikaid, mida traditsioonilised süsteemid ei suuda salvestada ega töödelda.



Suurandmete juhtimistegurid

Andmete hulk planeedil Maa kasvab mitmel põhjusel hüppeliselt. Erinevad allikad ja meie igapäevased tegevused genereerivad palju andmeid. Veebi leiutamisega on kogu maailm võrku läinud, iga üksik asi, mida me teeme, jätab digitaalse jälje. Nutikate objektide veebiühendusega on andmete kasvutempo kiiresti kasvanud. Peamised suurandmete allikad on sotsiaalmeedia saidid, sensorvõrgud, digitaalsed pildid / videod, mobiiltelefonid, ostutehingute kirjed, veebilogid, tervisekaardid, arhiivid, sõjaline jälgimine, e-kaubandus, keerulised teadusuuringud ja nii edasi. Kogu see teave moodustab umbes Quintillion baiti andmeid. Aastaks 2020 on andmemaht umbes 40 zettabaiti, mis võrdub iga üksiku liivatera lisamisega planeedil, korrutatuna seitsekümmend viiega.

Mis on suurandmed?

Big Data on termin, mida kasutatakse suurte ja keeruliste andmekogumite kogumiseks, mida on raske salvestada ja töödelda olemasolevate andmebaasihaldustööriistade või traditsiooniliste andmetöötlusrakenduste abil. Väljakutse hõlmab nende andmete hõivamist, kureerimist, salvestamist, otsimist, jagamist, edastamist, analüüsimist ja visualiseerimist.

Suurandmete omadused

Viis suurandmeid määratlevat omadust on: maht, kiirus, mitmekesisus, tõepärasus ja väärtus.

  1. MAHT

    Maht viitab andmekogusele, mis kasvab iga päevaga väga kiiresti. Inimeste, masinate ja nende suhtlemisel sotsiaalmeedias loodud andmete maht on tohutu. Teadlased on ennustanud, et aastaks 2020 genereeritakse 40 zettabaiti (40 000 eksabaiti), mis on 300 korda rohkem kui 2005. aastal.

  2. TÖÖLIKKUS

    Kiirus on määratletud kui kiirus, mille järgi erinevad allikad iga päev andmeid genereerivad. See andmevoog on tohutu ja pidev. Praegu on mobiilseadmes 1,03 miljardit igapäevast aktiivset kasutajat (Facebook DAU), mis on aastakasv 22%. See näitab, kui kiiresti kasvab sotsiaalmeedias kasutajate arv ja kui kiiresti andmeid iga päev genereeritakse. Kui suudate kiirusega hakkama saada, saate reaalajas andmete põhjal luua teadmisi ja langetada otsuseid.

  3. SORDI

    Kuna suurandmetele on palju allikaid, on nende genereeritavate andmete tüüp erinev. See võib olla struktureeritud, poolstruktureeritud või struktureerimata. Seega on mitmesuguseid andmeid, mida genereeritakse iga päev. Varem saime andmeid Exceli ja andmebaaside hulgast, nüüd tulevad andmed piltide, heli, videote, sensori andmete jne kujul, nagu on näidatud allpool pildil. Seega tekitab selline struktureerimata andmete mitmekesisus andmete kogumisel, säilitamisel, kaevandamisel ja analüüsimisel probleeme.

  4. VERACITY

    Tõepärasus viitab andmetele, mis on andmete ebajärjekindluse ja mittetäielikkuse tõttu kahtlevad või ebakindlad. Alloleval pildil näete, et tabelis on vähe väärtusi. Samuti on raske aktsepteerida mõnda väärtust, näiteks 15000 miinimumväärtus 3. reas, see pole võimalik. See ebajärjekindlus ja puudulikkus on tõepärasus.
    Kättesaadavad andmed võivad mõnikord sassi minna ja võib-olla on neid raske usaldada. Paljude suurandmete vormide korral on kvaliteeti ja täpsust raske kontrollida, näiteks räsimärkide, lühendite, kirjavigade ja kõnekeelega Twitteri postitusi. Maht on sageli andmete kvaliteedi ja täpsuse puudumise põhjus.

    • Andmete ebakindluse tõttu ei usalda iga kolmas ärijuhti teavet, mida nad otsuste tegemisel kasutavad.
    • Uuringu käigus leiti, et 27% vastanutest ei olnud kindel, kui suur osa nende andmetest olid ebatäpsed.
    • Kehv andmekvaliteet maksab USA majandusele umbes 3,1 triljonit dollarit aastas.
  5. VÄÄRTUS

    Pärast mahu, kiiruse, mitmekesisuse ja tõepärasuse arutamist on veel üks V, mida tuleks suurandmete, st väärtuse vaatamisel arvesse võtta. Suurele juurdepääs on kõik hästi ja heaandmedagakui me ei suuda seda väärtuseks muuta, on see kasutu. Väärtuseks muutmise all mõtlen ma seda: kas see lisab suurandmeid analüüsivate organisatsioonide eeliseid? Kas Big Data nimel töötav organisatsioon saavutab kõrge investeeringutasuvuse (ROI)? Kui see ei suurenda nende kasumit Big Data'iga töötades, on see kasutu.

Suurandmete kohta lisateabe saamiseks vaadake meie allolevat Big Data videot:

Suurandmete õpetus algajatele | Mis on suured andmed | Edureka

Nagu jaotises Variety arutletud, on iga päev genereeritavat tüüpi andmeid. Nii et andke meile nüüd aru andmetüüpidest:

Suurandmete tüübid

Big Data võib olla kolme tüüpi:

  • Struktureeritud
  • Poolstruktureeritud
  • Struktureerimata

  1. Struktureeritud

    Andmeid, mida saab fikseeritud vormingus salvestada ja töödelda, nimetatakse struktureeritud andmeteks. Relatiivse andmebaasi haldussüsteemi (RDBMS) salvestatud andmed on üks näide „struktureeritud” andmetest. Struktureeritud andmeid on lihtne töödelda, kuna neil on fikseeritud skeem. Struktureeritud päringukeelt (SQL) kasutatakse sageli selliste andmete haldamiseks.

  2. Poolstruktureeritud

    Poolstruktureeritud andmed on andmetüüp, millel puudub andmemudeli ametlik struktuur, st relatsioonide DBMS-is tabeli määratlus, kuid sellegipoolest on sellel semantiliste elementide eraldamiseks mõned organisatsioonilised omadused nagu sildid ja muud markerid analüüsida. XML-failid või JSON-dokumendid on poolstruktureeritud andmete näited.

  3. Struktureerimata

    Andmeid, mille vorm on tundmatu ja mida ei saa RDBMS-is salvestada ja mida ei saa analüüsida, kui need pole struktureeritud vormingusse viidud, nimetatakse struktureerimata andmeteks. Struktureerimata andmete näiteks on tekstifailid ja multimeediumisisu, näiteks pildid, heli, videod. Struktureerimata andmed kasvavad teistest kiiremini, ekspertide sõnul on 80 protsenti organisatsiooni andmetest struktureerimata.

Siiani olen just kajastanud Big Data tutvustust. Lisaks räägib see Big Data juhendaja Big Data näidetest, rakendustest ja väljakutsetest.

Suurandmete näited

Iga päev laadime üles miljoneid baite andmeid. 90% maailma andmetest on loodud viimase kahe aasta jooksul.

  • Walmart tegeleb rohkem kui 1 miljon klienditehingud iga tund.
  • Facebook salvestab, kasutab ja analüüsib 30+ petabaiti kasutaja loodud andmete arv.
  • 230+ miljonit säutsudest luuakse iga päev.
  • Rohkem kui 5 miljardit inimesed helistavad, saadavad sõnumeid, säutsuvad ja sirvivad kogu maailmas mobiiltelefonides.
  • YouTube'i kasutajad laadivad üles 48 tundi uue video iga päev igal minutil.
  • Amazon käepidemed 15 miljonit klient klõpsake toodete voogesitamiseks kasutajaandmeid päevas.
  • 294 miljardit e-kirju saadetakse iga päev. Teenused analüüsivad rämpsposti leidmiseks neid andmeid.
  • Kaasaegsetel autodel on lähedal 100 andurit mis jälgib kütusetaset, rehvirõhku jne, genereerib iga sõiduk palju anduriandmeid.

Big Data rakendused

Me ei saa rääkida andmetest, rääkimata inimestest, inimestest, kellele Big Data rakendused saavad kasu. Peaaegu kõik tööstusharud võimendavad Big Data rakendusi ühel või teisel viisil.

kuidas takistada ummikseisu Java

  • Nutikam tervishoid Kasutades petabaitide patsiendi andmeid, saab organisatsioon hankida sisukat teavet ja seejärel luua rakendusi, mis ennustavad patsiendi halvenevat seisundit ette.
  • Telekommunikatsioon : Telekommunikatsioonisektorid koguvad teavet, analüüsivad seda ja pakuvad lahendusi erinevatele probleemidele. Big Data rakenduste abil on telekommunikatsiooniettevõtted suutnud märkimisväärselt vähendada andmepakettide kadu, mis tekib võrkude ülekoormuse korral, pakkudes seeläbi oma klientidele sujuvat ühendust.
  • Jaekaubandus : Jaemüügil on kõige kitsamad marginaalid ja see on suurandmete üks suurimaid kasusaajaid. Jaemüügis suurandmete kasutamise ilu on tarbijate käitumise mõistmine. Amazoni soovitusmootor pakub soovitusi, mis põhinevad tarbija sirvimisajalool.
  • Liikluse juhtimine : Liiklusummikud on paljudele linnadele kogu maailmas suur väljakutse. Andmete ja andurite tõhus kasutamine on liikluse paremaks haldamiseks võtmetähtsusega, kuna linnad on üha tihedamalt asustatud.
  • Tootmine : Töötleva tööstuse suurandmete analüüsimine võib vähendada komponentide defekte, parandada toote kvaliteeti, suurendada tõhusust ning säästa aega ja raha.
  • Otsingu kvaliteet : Iga kord, kui me Google'ist teavet ammutame, genereerime selle jaoks samaaegselt andmeid. Google salvestab need andmed ja kasutab neid otsingukvaliteedi parandamiseks.

Keegi on õigesti öelnud: 'Aias pole kõik roosiline!' . Siiani selles Big Data õpetuses näitasin teile just Big Data roosilist pilti. Aga kui suurandmete võimendamine oli nii lihtne, kas te ei arva, et kõik organisatsioonid sellesse investeeriksid? Las ma ütlen teile kohe, see pole nii. Big Data'iga töötamisel tuleb ette mitu väljakutset.

Nüüd, kui olete Big Data ja selle erinevate funktsioonidega tuttav, heidab selle blogi järgmine osa Big Data juhendajale valgust mõnele suurele probleemile, millega Big Data silmitsi seisab.

Suurte andmetega seotud väljakutsed

Lubage mul teile öelda mõned probleemid, mis kaasnevad suurandmetega:

  1. Andmete kvaliteet - Siin on probleemiks 4thV ehk tõepärasus. Siinsed andmed on väga segased, ebajärjekindlad ja puudulikud. Määrdunud andmed maksavad Ameerika Ühendriikides asuvatele ettevõtetele igal aastal 600 miljardit dollarit.
  1. Avastus - Big Data'ist teadmiste leidmine on nagu nõel heinakuhjast. Petabaitide andmete analüüsimine mustrite ja teadmiste leidmiseks ülivõimsate algoritmide abil on väga keeruline.
  1. Ladustamine - Mida rohkem on organisatsioonil andmeid, seda keerukamaks võivad muutuda nende haldamise probleemid. Siin tekib küsimus: 'Kuhu seda säilitada?'. Vajame ladustamissüsteemi, mida saab vajadusel hõlpsalt suurendada või vähendada.
  1. Analytics - Big Data puhul pole me enamasti teadlikud sellistest andmetest, millega tegeleme, seega on andmete analüüsimine veelgi keerulisem.
  1. Turvalisus - Kuna andmed on tohutult suured, on nende turvaline hoidmine veel üks väljakutse. See hõlmab kasutaja autentimist, kasutajale juurdepääsu piiramist, andmetele juurdepääsu ajaloo salvestamist, andmete krüptimise õiget kasutamist jne.
  1. Andekuse puudumine - Suurtes organisatsioonides on palju suurandmete projekte, kuid keerukas arendajate, andmeteadlaste ja analüütikute meeskond, kellel on ka piisavalt domeenialaseid teadmisi, on endiselt väljakutse.

Hadoop päästmiseks

Big Data väljakutsetega tegelemiseks on meil päästja Hadoop . Hadoop on avatud lähtekoodiga Java-põhine programmeerimisraamistik, mis toetab ülimahuliste andmekogumite salvestamist ja töötlemist hajutatud arvutuskeskkonnas. See on osa Apache projektist, mida toetab Apache Software Foundation.

Hadoop oma hajutatud töötlemisega tegeleb suurte koguste struktureeritud ja struktureerimata andmetega tõhusamalt kui traditsiooniline ettevõtte andmelao. Hadoop võimaldab käitada rakendusi süsteemides, kus on tuhandeid kauba riistvarasõlme, ja käidelda tuhandeid terabaite. Organisatsioonid võtavad Hadoopi kasutusele, kuna see on avatud lähtekoodiga tarkvara ja võib töötada kauba riistvaral (teie personaalarvuti).Esialgne kulude kokkuhoid on dramaatiline, kuna kauba riistvara on väga odav. Kui organisatsioonilised andmed suurenevad, peate selle salvestamiseks lisama käigult rohkem ja rohkem riistvara ja seega osutub Hadoop ökonoomseks.Lisaks on Hadoopi taga tugev Apache'i kogukond, mis aitab jätkuvalt kaasa selle edenemisele.

Nagu varem lubatud, olen selle Big Data Tutoriali ajaveebi kaudu andnud teile Big Data'is maksimaalse ülevaate. See on Big Data juhendaja lõpp. Järgmine samm edasi on Hadoopi tundmine ja õppimine. Meil on seeria Hadoopi õpetust ajaveebid, mis annavad üksikasjalikke teadmisi Hadoopi terviklikust ökosüsteemist.

Parimat, head Hadoopingut!

Nüüd, kui olete aru saanud, mis on suurandmed, vaadake autor Edureka, usaldusväärne veebiõppeettevõte, mille võrgustik koosneb enam kui 250 000 rahulolevast õppijast ja mis levib üle kogu maailma. Edureka Big Data Hadoopi sertifitseerimiskoolitus aitab õppijatel saada HDFS, lõnga, MapReduce, Pig, Hive, HBase, Oozie, Flume ja Sqoop ekspertideks, kasutades reaalajas kasutatavaid juhtumeid jaekaubanduse, sotsiaalse meedia, lennunduse, turismi ja rahanduse valdkonnas.

Kas teil on meile küsimus? Palun mainige seda kommentaaride jaotises ja võtame teiega ühendust.

Seonduvad postitused: