Segadusmaatriks masinõppes: teie ühekordne lahendus



See artikkel keskendub segiajamise maatriksile, mis on kõigi masinõppe algoritmide kõige olulisem aspekt, mida kasutatakse selle täpsuse hindamiseks.

Sisse , meil on tavaliselt 2 erinevat tüüpi juhtumit, ja probleem. Segiajamismaatriks aitab klassifitseerimismudeli täpsuse arvutamisel, mis aitab kaudselt klassifitseerimismudeli toimivust kirjeldada. See on mudeli hindamisel kõige olulisem samm. Käsitlen selles artiklis järgmisi teemasid:

1. Mis on segiajamise maatriks?





2. Segiajamise maatriksi täpsus ja komponendid

3. Täpsus, tagasikutsumine ja F-mõõtmine



4. Segadusmaatriksi loomine Pythoni ja Sklearn'i abil

Mis on segiajamise maatriks?

Segiajamise maatriks on prognoositud tulemuste ja tegelike tulemuste võrdluskokkuvõte mis tahes klassifitseerimisprobleemi kasutamise korral. Võrdluskokkuvõte on äärmiselt vajalik mudeli toimivuse kindlakstegemiseks pärast seda, kui seda on koolitatud mõne koolitusandmega. Accuracy-Confusion-MatrixBinaarse klassifikatsiooni kasutamise korral on segiajamise maatriks 2 × 2 maatriks, mis on näidatud allpool
Ennustatud klassi 1 väärtus EG: 1 Ennustatud klassi 2 väärtus EG: 0
Tegelik 1. klassi väärtus

mis on javas mööduv

EG: 1

TP (tõeliselt positiivne) FN (vale negatiivne)
Tegelik 2. klassi väärtus



EG: 0

FP (valepositiivne) TN (tõene negatiivne)

Ülaltoodud joonisel:
Meil on,

  • Tegelik 1. klassi väärtus = 1, mis sarnaneb binaarse tulemuse positiivse väärtusega.
  • Tegelik 2. klassi väärtus = 0, mis sarnaneb binaarse tulemuse negatiivse väärtusega.

Segiajamise maatriksi vasakpoolne indeks näitab põhimõtteliselt tegelikke väärtusi ja ülemine veerg näitab ennustatud väärtusi.

Segiajamise maatriksi loomisel on olemas erinevaid komponente. Komponente on nimetatud allpool

Positiivne (P): Prognoositav tulemus on positiivne (näide: pilt on kass)

Negatiivne (N): ennustatud tulemus on negatiivne (näide: pildid pole kass)

Tõeline positiivne (TP): Siin näitab TP põhimõtteliselt prognoositavat ja tegelikud väärtused on 1 (tõene)

Tõeline negatiivne (TN): Siin tähistab TN ennustatavat ja tegelik väärtus on 0 (vale)

Vale negatiivne (FN): Siin näitab FN, et prognoositav väärtus on 0 (negatiivne) ja tegelik väärtus on 1. Siin ei ühti mõlemad väärtused. Seega on see valenegatiivne.

Valepositiivne (FP): Siin näitab FP, et prognoositav väärtus on 1 (positiivne) ja tegelik väärtus on 0. Siin vastavad jällegi mõlemad väärtused. Seega on see valepositiivne.

Segiajamise maatriksi täpsus ja komponendid

Pärast segiajamise maatriksi loomist ja kõigi komponentide väärtuste määramist on meil täpsuse arvutamine üsna lihtne. Vaatame komponente, et sellest paremini aru saada.
  • Klassifikatsiooni täpsus

Ülaltoodud valemi põhjal on TP (tõeline positiivne) ja TN (tõene negatiivne) summa õige ennustatud tulemus. Seetõttu jagame täpsuse arvutamiseks protsentides kõigi teiste komponentidega. Kuid täpsuses on mõningaid probleeme ja me ei saa sellest täielikult sõltuda.

Mõelgem, et meie andmekogum on täielikult tasakaalustamata. Selle stsenaariumi korral võib 98% täpsus olla probleemse avalduse põhjal hea või halb. Seega on meil veel mõned võtmeterminid, mis aitavad meil arvutatud täpsuses kindel olla. Tingimused on järgmised:

  • TPR (tõeline positiivne määr) või tundlikkus:

Tõelise positiivse määra, mida tuntakse ka kui tundlikkust, mõõdetakse tõelise positiivse osakaalu tegelike positiivsete koguhulkade suhtes, mida tähistab (TP + FN)

Ennustatud klassi 1 väärtus EG: 1 Ennustatud klassi 2 väärtus EG: 0 Kokku
Tegelik 1. klassi väärtus

EG: 1

TP (tõeliselt positiivne) FN (vale negatiivne) Tegelikud positiivsed tulemused kokku
Tegelik 2. klassi väärtus

kuidas javas võimu teha

EG: 0

FP (valepositiivne)TN (tõene negatiivne)Tegelikud negatiivsed tulemused kokku
TPR = tõeline positiivne / (tõeline positiivne + valenegatiivne
  • TNR (tõeline negatiivne määr) või spetsiifilisus:

Tõeline negatiivne määr või spetsiifilisus mõõdab tegelike negatiivide osakaalu negatiivsete koguhulga suhtes

Ennustatud klassi 1 väärtus EG: 1 Ennustatud klassi 2 väärtus EG: 0 Kokku
Tegelik 1. klassi väärtus

EG: 1

TP (tõeliselt positiivne)FN (vale negatiivne)Tegelikud positiivsed tulemused kokku
Tegelik 2. klassi väärtus

EG: 0

FP (valepositiivne) TN (tõene negatiivne) Tegelikud negatiivsed tulemused kokku

TNR = tõene negatiivne / (tõene negatiivne + valepositiivne)

  • Valepositiivne määr (FPR):

Valepositiivne määr on prognoositud valepositiivse (FP) protsent prognoositavate positiivsete tulemuste koguarvust (TP + FP).

Ennustatud klassi 1 väärtus EG: 1 Ennustatud klassi 2 väärtus EG: 0
Tegelik klassi 1 väärtus EG: 1 TP (tõeliselt positiivne) FN (vale negatiivne)
Tegelik klassi 2 väärtus EG: 0 FP (valepositiivne) TN (tõene negatiivne)
Prognoositava positiivse summa kokku Prognoositava negatiivse summa kokku
FPR = valepositiivne / (tõeline positiivne + valepositiivne)
  • Vale negatiivne määr (FNR):

Vale negatiivne määr on prognoositud vale negatiivse (FP) protsent prognoositavate negatiivsete tulemuste koguarvust (TN + FN).

Ennustatud klassi 1 väärtus EG: 1 Ennustatud klassi 2 väärtus EG: 0
Tegelik klassi 1 väärtus EG: 1TP (tõeliselt positiivne) FN (vale negatiivne)
Tegelik klassi 2 väärtus EG: 0FP (valepositiivne) TN (tõene negatiivne)
Prognoositava positiivse summa kokku Prognoositava negatiivse summa kokku
FNR = vale negatiivne / (vale negatiivne + tõene negatiivne)

Täpsus, tagasikutsumine ja F-mõõtmine

  • Tagasikutsumine:

Tagasikutsumine sarnaneb tõelise positiivse määraga ja see on õigesti ennustatud positiivsete väärtuste (TP) koguarvu ja kõigi positiivsete väärtuste suhe.

  • Täpsus:

Täpsus näitab põhimõtteliselt kõiki punkte, mida mudel ennustas positiivseks ja kui suur protsent neist on tegelikult positiivsed.

Täpsus ja tagasikutsumine on mõõdikute tulemused, mis keskenduvad positiivsele klassile, nagu on näidatud ülaltoodud valemitest.

  • F-Mõõda

Nii et F-Measure on tehnika, mis ühendab nii täpsuse kui ka tagasikutsumise tehnikat ning kasutab tavalise aritmeetilise keskmise asemel harmoonilist keskmist, mille tõttu karistatakse äärmuslikke väärtusi. F-mõõdet nimetatakse ka F1-skooriks ja selle annab järgmine valem.

Vaatleme ühte näidet ja vaatame, kuidas saaksime arvutada täpsuse, täpsuse, tagasikutsumise ja F1-skoori.

N = 165 Ennustatud JAH Ennustatud EI
Tegelik JAH TP = 150 FN = 10
Praegune EI FP = 20 TN = 100
    • Täpsus = (TP + TN) / (TP + TN + FP + FN) = (150 + 100) / (150 + 100 + 20 + 10) = 0,89
    • Tagasikutsumine = TP / (TP + FN) = 150 / (150 + 10) = 0,93
    • Täpsus: TP / (TP + FP) = 150 / (150 + 20) = 0,88

  • F-mõõt = (2 * tagasikutsumine * täpsus) / (tagasikutsumine + eelvaade) = (2 * 0,93 * 0,88) / (0,93 + 0,88) = 0,90

Segadusmaatriksi loomine Pythoni ja Sklearn'i abil

Nüüd näeme näidet selle kohta, kuidas koos sklearni teegiga luua Pythonit kasutades segiajamise maatriks.

üks. Esialgu loome tegelike andmete loendi ja prognoosime täpsuse kontrollimiseks, nagu allpool näidatud

# Pythoni skript segiajamise maatriksi loomiseks. tegelikud_andmed = [1, 1, 0, 1, 0, 0, 1, 0, 0, 0,1,0,1] prognoositud andmed = [0, 1, 1, 1, 0, 0, 1, 0, 1, 0,1,0,1]

2. Peame importima segiajamise maatriksi sklearn'i teegist, nagu allpool näidatud:

lehelt sklearn.metrics impordi confusion_matrix

3. Järgmisena loome segiajamise maatriksi, nagu allpool näidatud:

lõplikud_tulemused = segaduse_maatriks (tegelikud_andmed, ennustatud_andmed)

Neli. Nüüd saame jätkata ja arvutada täpsuse, importides teeki, nagu allpool näidatud:

lehelt sklearn.metrics impordi täpsuse_skoor täpsus = täpsuse_hinde (tegelikud_andmed, ennustatud_andmed)

5. Lõpuks arvutame F1-skoori või F-mõõdiku, nagu allpool näidatud:

from sklearn.metrics impordi klassifikatsiooni_aruande aruanne = klassifikatsiooni_aruanne (tegelikud_andmed, ennustatud_andmed)

Allpool on täielik kood:

c ++ salvestusklass
tegelikud_andmed = [1, 1, 0, 1, 0, 0, 1, 0, 0, 0,1,0,1] prognoositud andmed = [0, 1, 1, 1, 0, 0, 1, 0, 1, 0,1,0,1] sklearn.metricsilt impordi confusion_matrix lõplikud_tulemused = confusion_matrix (tegelikud_andmed, ennustatud_andmed) print (lõplikud_tulemused) from sklearn.metrics impordi täpsuse_skooride täpsus = täpsuse_score (tegelikud_andmed, ennustatud_andmed) sklearn.metrics impordi klassifikatsiooni_aruande aruande (klassifikatsiooni_aruande ( tegelikud_andmed, ennustatud_andmed) print (täpsus) print (aruanne)

matrix

Nii jõuame selle artikliga lõpuni. Loodan, et kõik teie segadused segiajamise maatriksi osas on nüüd lahendatud.

Edureka oma aitab teil omandada teadmisi mitmesuguste masinõppe algoritmide kohta, nagu regressioon, klastrite moodustamine, otsustuspuud, juhuslik mets, naiivsed Bayes ja Q-Learning. See masinõpe, kasutades Pythoni koolitust, viib teid statistika, aegridade ja erinevate masinõppealgoritmide klasside mõisteteni, näiteks järelevalve-, järelevalve- ja tugevdamisalgoritmid. Andmeteaduse sertifitseerimiskursuse vältel lahendate meedias, tervishoius, sotsiaalmeedias, lennunduses ja personalitöös toimuvaid tegelikke juhtumiuuringuid.