Mis on masinõppes eriarvamused?

Selles artiklis käsitletakse masinõppe kallutatuse ja dispersiooni mõistet ning nende omavahelist suhet, mis määrab mudeli ennustava täpsuse.

Sisse , põhineb mudeli toimivus selle ennustustel ja kui hästi üldistab see nähtamatute, sõltumatute andmete suhtes. Üks viis mudeli täpsuse mõõtmiseks on mudeli kallutatuse ja hajuvuse arvestamine. Sellest artiklist saame teada, kuidas kallutatushälbed mängivad olulist rolli mudeli autentsuse määramisel. Selles artiklis käsitletakse järgmisi teemasid:

Taandamatu viga

Mis tahes mudel hinnatakse uue sõltumatu, nägemata andmekogumi ennustusvea põhjal. Viga pole midagi muud kui erinevus tegeliku väljundi ja prognoositud väljundi vahel. Vea arvutamiseks teeme redutseeritava ja taandamatu vea ehk bias-dispersiooni lagunemise liitmise.





Pöördumatud vead pole muud kui need vead, mida ei saa neist olenemata vähendada mida mudelis kasutate. Selle põhjustavad ebatavalised muutujad, millel on otsene mõju väljundmuutujale. Nii et teie mudeli tõhusaks muutmiseks jääb meile vähendatav viga, mida peame iga hinna eest optimeerima.

Taandataval veal on kaks komponenti - Kallutatus ja dispersioon , eelarvamuste olemasolu ja dispersioon mõjutavad mudeli täpsust mitmel viisil, näiteks ülekinnitamine, alamvarustus , jne.Heitkem pilk erapoolikusele ja dispersioonile, et mõista, kuidas taandatava veaga hakkama saada .



Mis on masinõppe kallutatus?

Bias on põhimõtteliselt see, kui kaugele oleme väärtust tegelikust väärtusest ennustanud. Me ütleme, et eelarvamused on liiga suured, kui keskmised prognoosid on tegelikest väärtustest kaugel.

Suure kallutatuse tõttu jääb algoritmil vahele sisend- ja väljundmuutujate domineeriv muster või seos. Kui eelarvamus on liiga suur, eeldatakse, et mudel on üsna lihtne ja ei mõista seose määramiseks andmekogumi keerukust ja seegapõhjustades alamvarustust.

Dispersioon masinõppemudelis?

Sõltumatul, nägemata andmekogumil või valideerimiskomplektil. Kui mudel ei toimi nii hästi kui koolitatud andmekogumiga, on võimalus, et mudelil on dispersioon. Põhimõtteliselt ütleb see, kui prognoositud väärtused on tegelikest väärtustest hajutatud.



Andmekogumi suur varieeruvus tähendab, et mudel on treeninud palju müra ja ebaoluliste andmetega. Nii põhjustades mudelis üleliigset paigaldamist. Kui mudeli dispersioon on suur, muutub see väga paindlikuks ja ennustab uute andmepunktide kohta valesti. Sest see on ennast häälestanud treeningkomplekti andmepunktidele.

Püüdkem ka eelarvamuste dispersiooni mõistet matemaatiliselt mõista. Olgu muutuja, mida ennustame Y-ks, ja teised sõltumatud muutujad X-ks. Oletagem nüüd, et kahe muutuja vahel on seos nii, et:

Y = f (X) + e

Ülaltoodud võrrandis Siin on on hinnanguline viga keskmise väärtusega 0. Kui klassifikaatori koostame sarnaste algoritmide abil lineaarne regressioon , jne on eeldatav ruutviga punktis x järgmine:

eks (x) = eelarvamused2+ Dispersioon + taandamatu viga

Mõistkem ka seda, kuidas eelarvamuste varieeruvus mõjutab a Masinõpe mudeli jõudlust.

Kuidas see mõjutab masinõppemudelit?

Võime eelarvamuste varieerumise seose jaotada nelja allpool loetletud kategooriasse:

liita sortimispuu 4 elementi
  1. Suur varianss - kõrge eelarvamused - mudel on ebajärjekindel ja keskmiselt ebatäpne
  2. Madal dispersioon - kõrge eelarvamused - mudelid on järjepidevad, kuid keskmiselt madalad
  3. Suur variatsioon - madal eelarvamus - mõnevõrra täpne, kuid keskmistega vastuoluline
  4. Väike dispersioon - madal eelarvamus - see on ideaalne stsenaarium, mudel on keskmiselt ühtlane ja täpne.

kallutatus-varieeruvus masinõppes-edureka

Ehkki kallutatuse ja dispersiooni tuvastamine mudelis on üsna ilmne. Suure dispersiooniga mudelil on madal treenimisviga ja kõrge valideerimisviga. Suure eelarvamuse korral on mudelil kõrge treeningviga ja valideerimisviga on sama mis treeningviga.

Kuigi tuvastamine tundub lihtne, on tegelik ülesanne see viia miinimumini. Sel juhul saame teha järgmist:

  • Lisage rohkem sisendfunktsioone
  • Keerulisem, tutvustades polünoomi tunnuseid
  • Vähendage seadustamise tähtaega
  • Rohkem treeningandmeid

Nüüd, kui teame, mis on kallutatus ja dispersioon ning kuidas see mõjutab meie mudelit, heitkem pilk eelarvamuste ja dispersioonide kompromissile.

Erapoolikuse kompromiss

Õige tasakaalu leidmist mudeli kallutatuse ja hajuvuse vahel nimetatakse Bias-Variance kompromissiks. Põhimõtteliselt on see viis veenduda, et mudel pole igal juhul liiga varustatud ega liiga varustatud.

Kui mudel on liiga lihtne ja sellel on väga vähe parameetreid, kannatab see suure kallutatuse ja väikese dispersiooni all. Teiselt poolt, kui mudelil on palju parameetreid, on sellel suur dispersioon ja väike eelarvamus. Selle kompromissi tulemuseks peaks olema nende kahe täiesti tasakaalustatud suhe. Ideaalis on iga masinõppemudeli eesmärk madal eelarvamus ja väike dispersioon.

Kokku viga

Mis tahes masinõppemudelis on eelarvamuste ja dispersioonide vaheline tasakaal ideaalse stsenaariumina ennustustäpsuse osas ning ülereguleerimise ja alakoormuse vältimisel. Optimaalne tasakaal kallutatuse ja dispersiooni vahel algoritmide keerukuse osas tagab, et mudelit ei saa kunagi üle ega ümber.

Statistilise mudeli ruudu keskmist viga käsitatakse ruudu eelarvamuse ning dispersiooni ja vea dispersiooni summana. Selle kõik võib panna totaalse vea sisse, kus meil on mudelis kallutatus, dispersioon ja taandamatud vead.

Mõistame, kuidas saame praktilise rakenduse abil kogu viga vähendada.

Oleme loonud a lineaarse regressiooni klassifikaator aastal Lineaarne regressioon masinõppes artikkel Edureka kohta, kasutades diabeedi andmekogumit scikit õppida raamatukogu.

Kui hindasime klassifikaatori keskmist ruutviga, saime kogu vea umbes 2500.

Kogu vea vähendamiseks andsime klassifikaatorisse rohkem andmeid ja vastutasuks vähendati keskmise ruudu viga 2000-le.

See on kogu vea vähendamise lihtne teostus, lisades mudelile rohkem treeningandmeid. Samamoodi võime tõhusa masinõppemudeli jaoks rakendada muid tehnikaid vea vähendamiseks ning eelarvamuste ja dispersioonide tasakaalu säilitamiseks.

See viib meid selle artikli lõppu, kus oleme Machis õppinud Bias-Varianceine Õppimine selle rakendamise ja kasutamise juhtumiga. Loodan, et teil on selge kõigega, mida teiega selles õpetuses jagati.

string on Java-s muutuv või muutumatu

Kui leiate, et see artikkel „Masinõppe eelarvamuste varieeruvus” on asjakohane, vaadake järgmist usaldusväärne veebiõppeettevõte, mille võrgustik sisaldab üle 250 000 rahuloleva õppija, levis üle kogu maailma.

Oleme siin, et aidata teid igal sammul oma teekonnal ja koostada õppekava, mis on mõeldud üliõpilastele ja spetsialistidele, kes soovivad olla . Kursus on loodud selleks, et anda teile algus Pythoni programmeerimises ja õpetada teid nii põhi- kui ka edasijõudnute Pythoni mõistete jaoks koos erinevate võimalustega meeldib , , jne.

Kui teil tekib küsimusi, esitage julgelt kõik oma küsimused jaotise „Kõhususe varieeruvus masinõppes” kommentaaride osas ja meie meeskond vastab sellele hea meelega.