Andmeteaduse õpetus - õppige andmeteadust Scratchist!



See andmeteaduse õpetus on ideaalne neile, kes otsivad üleminekut Data Science'i domeenile. See sisaldab kõiki andmeteaduse põhitõdesid koos karjääriga.

Kas soovite alustada oma karjääri andmeteadlasena, kuid ei tea, kust alustada? Sa oled õiges kohas! Hei kutid, tere tulemast sellesse ägedasse Data Science Tutoriali blogisse, see annab teile alguse andmeteaduste maailma. Andmeteaduse kohta põhjalike teadmiste saamiseks võite registreeruda otseülekandeks autor Edureka 24/7 toe ja eluaegse juurdepääsuga. Vaatame, mida me täna õpime:

    1. Miks just andmeteadus?
    2. Mis on andmeteadus?
    3. Kes on andmeteadlane?
    4. Töösuundumused
    5. Kuidas lahendada probleemi andmeteaduses?
    6. Andmeteaduse komponendid
    7. Andmeteadlase töö rollid





Miks just andmeteadus?

On öeldud, et Data Scientist on '21. sajandi seksikaim töö'. Miks? Sest viimase paari aasta jooksul on ettevõtted oma andmeid salvestanud. Ja seda teevad kõik ettevõtted, on see järsku põhjustanud andmete plahvatuse. Andmetest on tänapäeval saanud kõige rikkalikum asi.

Aga mida te nende andmetega teete? Mõistame seda näite abil:



Oletame, et teil on mobiiltelefone tootev ettevõte. Andsite välja oma esimese toote ja sellest sai tohutu hitt. Igal tehnoloogial on oma elu, eks? Niisiis, nüüd on aeg midagi uut välja mõelda. Kuid te ei tea, mida tuleks uuendada, et vastata kasutajate ootustele, kes ootavad pikisilmi teie järgmist versiooni?

Keegi pakub teie ettevõttes ideed kasutada kasutajate loodud tagasisidet ja valida asjad, mida meie arvates kasutajad järgmises versioonis ootavad.

Mis puutub andmeteadusesse, siis saate rakendada mitmesuguseid andmekaevandustehnikaid, näiteks meeleolude analüüsi jne, ja saada soovitud tulemused.



See pole mitte ainult see, vaid saate teha paremaid otsuseid, võite tõhusate viiside abil vähendada oma tootmiskulusid ja anda klientidele seda, mida nad tegelikult tahavad!

Selle abil on Data Science'il loendamatul hulgal eeliseid ja seetõttu on teie ettevõttele muutunud täiesti vajalikuks Data Science Team.Sellised nõuded viisid tänapäeval õppeainena „andmeteaduse“ juurde ja seetõttu kirjutame selle ajaveebi teile andmeteaduste õpetuses. :)

Andmeteaduse õpetus: mis on andmeteadus?

Mõiste Data Science on hiljuti tekkinud matemaatilise statistika ja andmete analüüsi arenguga. Teekond on olnud hämmastav, me oleme andmeteaduse valdkonnas täna nii palju saavutanud.

Lähiaastatel suudame tulevikku ennustada, nagu väidavad MITi teadlased. Oma fantastiliste uuringutega on nad juba jõudnud tuleviku ennustamise verstapostini. Nüüd saavad nad oma masinaga ennustada, mis juhtub filmi järgmises stseenis! Kuidas? Noh, see võib teile praeguseks mõistmiseks olla veidi keeruline, kuid ärge muretsege selle ajaveebi lõpuks, teil on ka sellele vastus.

Tulles tagasi, rääkisime andmeteadusest, seda nimetatakse ka andmepõhiseks teaduseks, mis kasutab teaduslikke meetodeid, protsesse ja süsteeme, et saada teadmisi või teadmisi andmetest erinevates vormides, st kas struktureeritud või struktureerimata.

Mis on need meetodid ja protsessid, mida me täna selles andmeteaduse õpetuses arutame.

Kes edasi liigub, kes kogu selle ajurünnaku teeb või kes harjutab andmeteadust? A Andmeteadlane .

Kes on andmeteadlane?

Nagu pildilt näha, on andmeteadlane kõigi ametite kapten! Ta peaks olema valdav matemaatikas, peaks olema ärivaldkonnas ja tal peaks olema ka suured arvutiteaduste oskused. Hirmul? Ära ole. Kuigi kõigis nendes valdkondades peate olema hea, kuid isegi kui te pole, pole te üksi! Sellist asja nagu 'täielik andmeteadlane' pole olemas. Kui räägime ettevõttekeskkonnas töötamisest, jaotatakse töö meeskondade vahel, kusjuures igal meeskonnal on oma teadmised. Kuid asi on selles, et peaksite valdama vähemalt ühte nendest valdkondadest. Isegi kui need oskused on teie jaoks uued, chill! See võib võtta aega, kuid neid oskusi saab arendada ja uskuge mind, see oleks väärt aega, mille investeerite. Miks? Vaatame töö suundumusi.

if lause sql päringus

Andmeteadlase töötrendid

Noh, graafik ütleb kõik, mitte ainult pole palju teadustöötajaid, vaid ka töökohad on hästi tasustatud! Ja ei, meie ajaveeb ei näita palganumbreid, minge googeldage!

Nüüd teame, et andmeteaduse õppimine on tegelikult mõttekas mitte ainult sellepärast, et see on väga kasulik, vaid ka teil on selles lähitulevikus suurepärane karjäär.

Alustame oma teekonda andmeteaduse õppimisel kohe ja alustame

Kuidas lahendada probleemi andmeteaduses?

Nüüd arutame, kuidas peaks probleemile lähenema ja selle andmeteadusega lahendama. Andmeteaduse probleemid lahendatakse algoritmide abil. Kuid kõige suurem on hinnata, millist algoritmi ja millal kasutada?

Põhimõtteliselt on andmeteaduses silmitsi 5 liiki probleemidega.

Käsitleme kõiki neid küsimusi ja nendega seotud algoritme ükshaaval:

Kas see on A või B?

Selle küsimusega peame silmas probleeme, millele on kategooriline vastus, kuna fikseeritud lahendusega probleemides võiks vastus olla jah või ei, 1 või 0, huvitatud, võib-olla või mitte.

Näiteks:

K. Mis teil on, kas teed või kohvi?

Siin ei saa öelda, et soovite koksi! Kuna küsimus pakub ainult teed või kohvi, siis võite vastata ainult ühele neist.

Kui meil on ainult kahte tüüpi vastuseid, st jah või ei, 1 või 0, nimetatakse seda 2-klassi klassifikatsiooniks. Rohkem kui kahe võimaluse korral nimetatakse seda mitme klassi klassifikatsiooniks.

Kokkuvõtteks võib öelda, et kui puutute kokku küsimustega, mille vastus on kategooriline, lahendate Data Science'is need probleemid klassifitseerimisalgoritmide abil.

Selle andmeteaduse õpetuse järgmine probleem, millega võite kokku puutuda, võib-olla midagi sellist,

Kas see on imelik?

Sellised küsimused käsitlevad mustreid ja neid saab lahendada anomaalia tuvastamise algoritmide abil.

Näiteks:

Proovige seostada probleem 'kas see on imelik?' selle skeemi järgi,

Mis on ülaltoodud mustris imelik? Punane tüüp, kas pole?

Alati, kui mustris on katki, märgistab algoritm selle konkreetse sündmuse meie jaoks ülevaatamiseks. Krediitkaardiettevõtted on rakendanud selle algoritmi reaalset rakendust, kus kõik kasutaja ebatavalised tehingud on ülevaatamiseks märgistatud. Seega rakendatakse turvalisust ja vähendatakse inimeste jõupingutusi jälitustegevuses.

Vaatame selle andmeteaduse õpetuse järgmist probleemi, ära karda, tegeleb matemaatikaga!

Kui palju või mitu?

Need teist, kellele matemaatika ei meeldi, on kergendunud! Regressioonialgoritmid on siin!

Niisiis, alati, kui tekib probleem, mis võib nõuda numbreid või arvväärtusi, lahendame selle regressioonialgoritmide abil.

Näiteks:

Milline on homme temperatuur?

Kuna eeldame sellele probleemile vastuseks arvväärtust, lahendame selle regressioonialgoritmide abil.

Selles andmeteaduse õpetuses edasi liikudes arutleme järgmise algoritmi üle,

Kuidas see on korraldatud?

Oletame, et teil on andmeid, nüüd pole teil aimugi, kuidas neist andmetest aru saada. Siit ka küsimus, kuidas see on korraldatud?

Noh, saate selle lahendada klastrialgoritmide abil. Kuidas nad neid probleeme lahendavad? Vaatame:

Klastrialgoritmid rühmitavad andmed levinud omaduste järgi. Näiteks ülaltoodud diagrammil on punktid korraldatud värvide põhjal. Sarnaselt, olgu need andmed mis tahes, püüavad klastrialgoritmid mõista nende vahelist ühist ja seeläbi neid „klastreerida“.

Selle andmeteaduse õpetuse järgmine ja viimane probleem, millega võite kokku puutuda, on

Mida ma peaksin edasi tegema?

Alati, kui teil tekib mõni probleem, kus teie arvuti peab tegema otsuse teie väljaõppe põhjal, hõlmab see tugevdamisalgoritme.

Näiteks:

Teie temperatuuri reguleerimissüsteem, kui see peab otsustama, kas see peaks ruumi temperatuuri alandama või tõstma.

Kuidas need algoritmid töötavad?

Need algoritmid põhinevad inimese psühholoogial. Meile meeldib, kui meid hinnatakse eks? Arvutid rakendavad neid algoritme ja eeldavad, et neid koolitamisel hinnatakse. Kuidas? Vaatame.

Selle asemel, et õpetada arvutit, mida teha, lasete sellel otsustada, mida teha, ja selle toimingu lõpus annate kas positiivse või negatiivse tagasiside. Seega, selle asemel, et määratleda, mis on teie süsteemis õige ja mis vale, lasete oma süsteemil 'otsustada', mida teha ja lõpuks annate tagasisidet.

See on just nagu koera treenimine. Te ei saa kontrollida, mida teie koer teeb, eks? Kuid võite teda norida, kui ta valesti teeb. Samamoodi võib-olla patsutada talle selga, kui ta teeb seda, mida oodatakse.

Rakendame seda arusaama ülaltoodud näites, kujutage ette, et treenite temperatuuri reguleerimissüsteemi, nii et alati, kui ei. ruumis viibivate inimeste arv suureneb, peab süsteem toimima. Kas madalam temperatuur või tõstke seda. Kuna meie süsteem ei saa midagi aru, võtab see juhusliku otsuse, oletame, et see suurendab temperatuuri. Seetõttu annate negatiivset tagasisidet. Selle abil saab arvuti alati aru, kui ruumis kasvab inimeste arv, mitte kunagi temperatuuri tõsta.

Sarnaselt muude toimingutega peate andma tagasisidet.Iga tagasisidega, mida teie süsteem õpib, muutub see järgmise otsuse tegemisel täpsemaks, seda tüüpi õppimist nimetatakse tugevdavaks õppeks.

Nüüd hõlmavad käesolevas andmeteaduse õpetuses ülalkirjeldatud algoritmid ühist õppimispraktikat. Paneme masina õppima?

Mis on masinõpe?

See on tehisintellekti tüüp, mis muudab arvutid iseseisvaks õppimiseks, st selgesõnaliselt programmeerimata. Masinõppe abil saavad masinad ise oma koodi uuendada, kui nad satuvad uude olukorda.

Selle andmeteaduse õpetuse kokkuvõtteks teame nüüd, et andmeteadust toetab masinõpe ja selle analüüsi algoritmid. Kuidas me analüüsi teeme, kus me seda teeme. Andmeteadusel on lisaks mõned komponendid, mis aitavad meil kõigi nende küsimustega tegeleda.

Enne seda lubage mul vastata, kuidas MIT saab tulevikku ennustada, sest ma arvan, et te oskate seda nüüd seostada. Niisiis, MIT-i teadlased koolitasid oma mudelit filmidega ja arvutid õppisid, kuidas inimesed reageerivad või kuidas nad toimivad enne toimingu tegemist.

Näiteks kui kavatsete kellelegi kätt suruda, võtate käe taskust välja või toetute sellele inimesele. Põhimõtteliselt on iga toimingu külge kinnitatud 'eeltegevus'. Filmide abil arvutit koolitati nende “eeltoimingute” osas. Ja vaadates üha uusi filme, suutsid nende arvutid siis ennustada, milline võiks olla tegelase järgmine tegevus.

Lihtne pole? Las ma viskan teile veel ühe küsimuse selles andmeteaduse õpetuses! Millise masinõppe algoritmi nad selles rakendama peavad?

Andmeteaduse komponendid

1. Andmekogumid

Mida te analüüsite? Andmed, eks? Teil on vaja palju andmeid, mida saab analüüsida, need andmed sisestatakse teie algoritmidesse või analüüsivahenditesse. Neid andmeid saate erinevatest minevikus läbi viidud uuringutest.

2. R Stuudio

R on avatud lähtekoodiga programmeerimiskeel ja statistikakompuutrite ning graafika tarkvarakeskkond, mida toetab sihtasutus R. R-keelt kasutatakse ID Studio-s nimega R Studio.

Miks seda kasutatakse?

  • Programmeerimine ja statistiline keel
    • Lisaks statistilise keelena kasutamisele saab seda analüütilistel eesmärkidel kasutada ka programmeerimiskeelena.
  • Andmete analüüs ja visualiseerimine
    • Peale selle, et R on üks domineerivamaid analüütikatööriistu, on see ka üks populaarsemaid tööriistu andmete visualiseerimiseks.
  • Lihtne ja lihtne õppida
    • R on lihtne ja lihtne õppida, lugeda ja kirjutada

  • Vaba ja avatud lähtekoodiga
    • R on näide FLOSS-ist (Free / Libre ja Open Source Software), mis tähendab, et saab selle tarkvara koopiaid vabalt levitada, selle lähtekoodi lugeda, seda muuta jne.

R Studio oli analüüsi jaoks piisav, kuni meie andmekogumid muutusid tohutuks, ühtlasi struktureerimata. Seda tüüpi andmeid nimetati suurandmeteks.

3. Suured andmed

Suurandmed on nii suurte ja keerukate andmekogumite kogum, mida on raske käsitsi andmebaaside haldamise tööriistade või traditsiooniliste andmetöötlusrakenduste abil töödelda.

Nüüd pidime nende andmete taltsutamiseks välja mõtlema tööriista, sest ükski traditsiooniline tarkvara ei suutnud seda tüüpi andmetega hakkama saada ja seetõttu tulime välja Hadoopiga.

4. Hadoop

Hadoop on raamistik, mis aitab meil seda teha pood ja protsess suured andmekogumid paralleelselt ja levitamise viisil.

Keskendume Hadoopi poele ja töötleme seda osa.

Pood

Hadoopi salvestusosa haldab HDFS, st Hadoopi hajutatud failisüsteem. See tagab kõrge kättesaadavuse hajutatud ökosüsteemis. See toimib niimoodi, et see jagab sissetuleva teabe tükkideks ja jaotab need klastri erinevatesse sõlmedesse, võimaldades jaotatud salvestamist.

Protsess

MapReduce on Hadoopi töötlemise süda. Algoritmid teevad kaks olulist ülesannet, kaardistavad ja vähendavad. Kaardistajad jagavad ülesande väiksemateks ülesanneteks, mida töödeldakse paralleelselt. Kui kõik kaardistajad teevad oma osa tööst, koondavad nad oma tulemused kokku ja siis vähendatakse Reduce-protsessi abil neid tulemusi lihtsamaks. Hadoopi kohta lisateabe saamiseks võite läbi vaadata meie .

Kui kasutame andmeteaduses Hadoopi, on R Studio abil sisendi töötlemine keeruline, kuna see ei suuda hajutatud keskkonnas hästi toimida, seega on meil Spark R

5. Säde R

See on R-pakett, mis pakub Apache Sparki koos R-ga hõlpsat kasutamist. Miks te kasutate seda traditsiooniliste R-rakenduste puhul? Sest see pakub hajutatud andmeraami rakendust, mis toetab toiminguid nagu valimine, filtreerimine, liitmine jne, kuid suurtes andmekogumites.

mis on java keeles söe

Võta nüüd hinge! Oleme selle andmeteaduse õpetuse tehnilise osaga valmis, vaatame seda nüüd teie töö vaatenurgast. Ma arvan, et oleksite praeguseks andmeteadlase palgad googeldanud, kuid arutame siiski, millised on teie rollid andmeteadlasena.

Andmeteadlase töö rollid

Mõned silmapaistvad Data Scientisti ametinimetused on:

  • Andmeteadlane
  • Andmete insener
  • Andmete arhitekt
  • Andmehaldur
  • Andmete analüütik
  • Ärianalüütik
  • Andmete / Analyticsi haldur
  • Ärianalüüsi juht

Selle Data Science Tutoriali allpool olev Payscale.com tabel näitab andmeteadlase keskmist palka oskuste järgi USA-s ja Indias.

Aeg on küps Data Science'i ja Big Data Analyticsi teadmiste omandamiseks, et kasutada ära Data Science'i karjäärivõimalusi. See viib meid Data Science'i õpetusblogi lõppu. Loodan, et see ajaveeb oli informatiivne ja andis teile lisaväärtust. Nüüd on aeg siseneda andmeteaduste maailma ja saada edukaks andmeteadlaseks.

Edurekal on spetsiaalselt kureeritud mis aitab teil omandada teadmisi masinõppe algoritmidest, nagu K-Means Clustering, Otsustamispuud, Random Forest, Naive Bayes. Õpite ka statistika, aegridade, tekstikaevanduse mõisted ja sissejuhatuse süvendatud õppesse. Varsti algavad selle kursuse uued partiid !!

Kas teil on andmeteaduse õpetuses meile küsimus? Palun mainige seda kommentaaride jaotises ja võtame teiega ühendust.