Masinõppe statistika: juhend algajatele



See masinõppe statistikat käsitlev artikkel on põhjalik juhend erinevate statistikamõistete ja näidete kohta.

Andmete mõistmine ja suutlikkus neist väärtust luua on kümnendi oskus. Masinõpe on üks põhioskusi, mis aitab ettevõtetel seda täita. Alustamiseks peate siiski oma sihtasutused õigesti üles ehitama. Seega käsitlen selles artiklis mõningaid põhimõisteid ja pakun teile suuniseid masinõppes oma teekonna alustamiseks. Seega käsitletakse selles masinõppe statistikat käsitlevas artiklis järgmisi teemasid:

  1. Tõenäosus
  2. Statistika
  3. Lineaaralgebra

Masinõppe tõenäosus ja statistika:





Mis on tõenäosus?

Tõenäosus kvantifitseerib sündmuse toimumise tõenäosuse. Näiteks kui veeretate õiglast ja erapooletut surma, siis tõenäosus üks üles pööramine on 1/6 . Nüüd, kui te ei tea, whü? Siis on vastus üsna lihtne!

Seda seetõttu, et on kuus võimalust ja kõik on võrdselt tõenäolised (õiglane surm). Seetõttu võime lisada 1 + 1 + 1 + 1 + 1 + 1 = 6. Kuid kuna meid huvitavad sündmus, kuhu ilmub 1 . Seal on sündmus võib toimuda ainult ühel viisil. Seetõttu



1 ülespööramise tõenäosus = 1/6

Sarnaselt on lugu kõigi teiste numbritega, kuna kõik sündmused on võrdselt tõenäolised. Lihtne, eks?

Noh, selle näite sagedane tõenäosuse määratlus kõlaks järgmiselt - 1 ülespoole pöördumise tõenäosus on ühe pööramise kordade suhe kogu matriidi rullimiste arvuni, kui matriits rulliti lõpmatu arv korda.Kuidas on sellel mõtet?



Teeme selle huvitavamaks. Mõelge nendele kahele juhtumile - veeretasite 5 korda õiglast stanti. Ühel juhul on numbrite järjestus - [1,4,2,6,4,3]. Teisel juhul saame - [2,2,2,2,2,2]. Kumb on teie arvates tõenäolisem?

Mõlemad on võrdselt tõenäolised. Tundub veider eks?

Mõelge nüüd veel ühele juhtumile, kus kõik 5 rulli on sõltumatu . See tähendab, et üks rull ei mõjuta teist. Esimesel juhul, kui 6 tuleb kohale, polnud tal aimugi, et enne seda ilmus 2. Seega on kõik 5 rulli võrdselt tõenäolised.

Samamoodi võib sirgeid 2-sid teisel juhul mõista kui sõltumatute sündmuste jada. Ja kõik need sündmused on võrdselt tõenäolised. Kuna meil on ühesugused täringud, konkreetse arvu ilmumise tõenäosus juhul, kui üks on sama kui teine. Järgmisena mõistame selles masinõppe statistikat käsitlevas artiklis mõistet Iseseisvus.

Iseseisvus

Kaks üritust Öeldakse, et A ja B on sõltumatud, kui A esinemine ei mõjuta sündmust B . Näiteks kui viskate mündi ja rullite matriitsi, ei mõjuta matriitsi tulemus seda, kas mündil on pead või sabad. Ka selle eest kaks iseseisvat sündmust A ja B , tõenäosus, et A ja B võivad esineda koos . Nii näiteks, kui soovite tõenäosust, et münt näitab pead ja suremine näitab 3.

P (A ja B) = P (A) * P (B)

Seetõttu P = & frac12 (peade ülespööramise tõenäosus) * ⅙ (tõenäosus 3 üles pöörata) = 1/12

Eelmises näites mõlemal juhul P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Räägime nüüd sündmustest, mis pole iseseisvad. Mõelge järgmisele tabelile:

Rasvunud Pole rasvunud
SüdameprobleemidNeli, viisviisteist
Südameprobleeme pole1030

Uuriti 100 inimest. 60-l oli südameprobleeme ja 40-l mitte. 60-st südameprobleemidest 45 olid rasvunud. 40-st, kellel polnud südameprobleeme, oli 10 rasvunud. Kui keegi teilt küsib -

  1. Kui suur on südameprobleemide tõenäosus?
  2. Kui suur on südameprobleemide tõenäosus ja rasvumine?

Esimestele küsimustele on vastus lihtne - 60/100. Teise jaoks oleks see 15/100. Mõelge nüüd kolmandale küsimusele - inimene valiti juhuslikult. Tal avastati südamehaigus. Kui suur on tõenäosus, et ta on rasvunud?

Mõelge nüüd teile antavale teabele - on teada, et tal on südamehaigus. Seetõttu ei saa ta olla 40-aastane, kellel pole südamehaigusi. Võimalikke valikuid on ainult 60 (tabeli ülemine rida). Nüüd on nende vähenenud võimaluste hulgas tõenäosus, et ta on rasvunud, 45/60. Nüüd, kui olete teadnud, mis on iseseisvad sündmused, lubage meil järgmisena selles masinõppe statistikat käsitlevas artiklis mõista tingimuslikke tõenäosusi.

Tingimuslikud tõenäosused

Tingimuslike tõenäosuste mõistmiseks jätkame arutelu ülaltoodud näitega. Rasvumise ja südameprobleemide all kannatamise staatus ei ole sõltumatu. Kui rasvumine ei mõjutanud südameprobleeme, siis oleks südameprobleemidega inimeste rasvunud ja rasvumata juhtumite arv olnud sama.

Samuti anti meile teada, et inimesel on südameprobleeme ja me pidime välja selgitama tõenäosuse, et ta on rasvunud. Nii et tõenäosus sel juhul väidetavalt sõltub sellest, et tal on südameprobleemid. Kui sündmuse A esinemise tõenäosus on tingimuslik tingimusega B, esindame seda kui

milleks mongodbi kasutatakse

P (A | B)

Nüüd on olemas teoreem, mis aitab meil seda tinglikku tõenäosust arvutada. Seda nimetatakse Bayesi reegel .

P (A | B) = P (A ja B) / P (B)

Seda teoreemi saate kontrollida, ühendades äsja arutatud näite. Kui olete siiani aru saanud, võite alustada järgmist - Naiivne Bayes . See kasutab tingimuslikke tõenäosusi, et klassifitseerida, kas meil on rämpspost või mitte. See suudab täita paljusid muid klassifitseerimisülesandeid. Kuid sisuliselt on tingimuslik tõenäosus selle keskmes .

Statistika:

Statistika on kasutatakse suure hulga andmepunktide kokkuvõtmiseks ja järelduste tegemiseks. Andmeteaduses ja masinõppes puutute sageli kokku järgmise terminoloogiaga

  • Tsentraalsuse meetmed
  • Jaotused (eriti tavalised)

Tsentraliseerimismeetmed ja hinnavahe

Tähendab:

Mean on lihtsalt numbrite keskmine . Tähenduse teadasaamiseks tuleb arvud kokku liita ja jagada numbrite arvuga. Näiteks [1,2,3,4,5] keskmine on 15/5 = 3.

mean-statistics-for-machine-learning

Mediaan:

Mediaan on numbrite hulga keskmine element kui need on paigutatud kasvavas järjekorras. Näiteks on numbrid [1,2,4,3,5] järjestatud kasvavas järjekorras [1,2,3,4,5]. Keskmine neist on 3. Seetõttu on mediaan 3. Aga mis siis, kui arvude arv on paaris ja seetõttu puudub kesknumber? Sel juhul võtate kahe kõige keskmise numbri keskmise. 2n numbrite järjestuse kasvavas järjekorras keskmistage n-s ja (n + 1)thmediaani saamiseks number. Näide - [1,2,3,4,5,6] mediaan (3 + 4) / 2 = 3,5

Režiim:

Režiim on lihtsalt numbrite hulga kõige sagedasem number . Näiteks [1,2,3,3,4,5,5,5] režiim on 5.

Dispersioon:

Dispersioon ei ole kesksuse mõõt. See mõõdab kuidas teie andmed keskmisele levivad . See on kvantifitseeritud kui

xon N arvu keskmine. Võta punkt, lahuta keskmine, võta selle erinevuse ruut. Tehke seda kõigi N numbrite jaoks ja keskmistage need. Dispersiooni ruutjuurt nimetatakse standardhälbeks. Järgmisena mõistame selles masinõppe statistikat käsitlevas artiklis mõistet Normal Distribution.

Normaalne jaotus

Levitamine aitab meid mõista, kuidas meie andmeid levitatakse . Näiteks võib vanuse valimis olla noori rohkem kui vanemaid täiskasvanuid ja seega väiksemad vanuse väärtused rohkem kui suuremad. Kuidas aga defineerida jaotust? Vaatleme allpool toodud näidet

Y-telg tähistab tihedust. Selle jaotuse režiim on 30, kuna see on tipp ja seega kõige sagedasem. Samuti võime leida mediaani. Mediaan asub x-telje punktis, kus pool kõvera alusest pinnast on kaetud. Mis tahes normaaljaotuse all olev pindala on 1, kuna kõigi sündmuste tõenäosuste summa on 1. Näiteks

Mediaan ülaltoodud juhul on umbes 4. See tähendab, et kõvera alune pindala enne 4 on sama, mis pärast 4.

Näeme kolme normaaljaotust. Sinistel ja punastel on sama keskmine. Punasel on suurem dispersioon. Seega on see rohkem levinud kui sinine. Kuid kuna ala peab olema 1, on punase kõvera tipp sinisest kõverast lühem, et pindala püsiks konstantne.

Loodetavasti mõistsite põhistatistikat ja normaaljaotusi. Selle masinõppe statistikat käsitleva artikli järgmisena tutvuge lineaaralgebra kohta.

Lineaaralgebra

Kaasaegne tehisintellekt ei oleks võimalik ilma lineaaralgebrata. See moodustab Sügav õppimine ja seda on kasutatud isegi sellistes lihtsates algoritmides nagu . Alustame ilma pikema viivituseta.

stringi vaikeväärtus javas

Te peate olema vektoritega tuttav. Need on omamoodi geomeetrilised kujutised ruumis. Näiteks vektoril [3,4] on x-teljel 3 ühikut ja y-teljel 4 ühikut. Kaaluge järgmist pilti -

Vektoril d1 on x-teljel 0,707 ühikut ja y-teljel 0,707 ühikut. Vektoril on 1 mõõde. Sellel on tingimata suurus ja suund. Näiteks,

Ülaloleval pildil on vektor (4,3). Selle suurus on 5 ja see teeb x-teljega 36,9 kraadi.

Mis on maatriks? Maatriks on mitmemõõtmeline arvude massiiv. Milleks seda kasutatakse? Me näeme edasi. Kuid kõigepealt vaatame, kuidas seda kasutatakse.

Maatriks

Maatriksil võib olla palju mõõtmeid. Vaatleme kahemõõtmelist maatriksit. Sellel on read (m) ja veerud (n). Seetõttu on sellel m * n elementi.

Näiteks,

Sellel maatriksil on 5 rida ja 5 veergu. Nimetagem seda A. Seetõttu on A (2,3) kirje teises reas ja kolmandas veerus, mis on 8.

Nüüd, kui teate, mis on maatriks, laseme uurida maatriksi erinevaid toiminguid.

Maatriksioperatsioonid

Maatriksite lisamine

Kaks maatriksit sama mõõtmeid saab lisada. Lisamine toimub elementide kaupa.

Skalaarkorrutamine

Maatriksi saab korrutada skalaarkogusega. Selline korrutamine viib selle, et iga maatriksi kirje korrutatakse skalaariga. Skalaar on lihtsalt arv

Matrix Transpose

Maatriksi üleviimine on lihtne. Maatriksi A (m, n) puhul olgu A ’selle transpositsioon. Siis

A '(i, j) = A (j, i)

Näiteks,

Maatriksi korrutamine

See on ilmselt natuke keeruline kui muud toimingud. Enne kui sukeldume sellesse, määratleme kahe vektori vahel täpne korrutis.

Mõelge vektorile X = [1,4,6,0] ja vektorile Y = [2,3,4,5]. Siis X ja Y vaheline punktprodukt on defineeritud järgmiselt

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

rakendage prioriteetset järjekorda c ++

Niisiis, see on elementide kaupa korrutamine ja liitmine. Nüüd,vaatleme kahte maatriksit A ​​(m, n) ja B (n, k), kus m, n, k on mõõtmed ja seega täisarvud. Maatriksi korrutamise määratleme järgmiselt

Ülaltoodud näites saadakse toote (44) esimene element vasaku maatriksi esimese rea punkt-korrutisena parempoolse maatriksi esimese veeruga. Samamoodi saadakse 72 vasaku maatriksi esimese rea punktparandina parempoolse maatriksi teise veeruga.

Pange tähele, et vasakpoolse maatriksi puhul peaks veergude arv olema võrdne paremas veerus olevate ridade arvuga. Meie puhul on toode AB olemas, kuid mitte BA, kuna m ei ole võrdne k-ga. Kahe maatriksi A (m, n) ja B (n, k) korral on määratletud korrutis AB ja korrutise mõõt on (m, k) ((m, n), (n, k) kõige välimised mõõtmed )). Kuid BA pole määratletud, kui m = k.

Sellega jõuame selle masinõppe statistikat käsitleva artikli lõpuni. Loodan, et olete mõnes masinõppe sõnast aru saanud. Siin see siiski ei lõpe. Veendumaks, et olete tööstusharuks valmis, saate tutvuda Edureka andmeteaduse ja tehisintellekti kursustega. Neid võib leida