Mis on masinõppes üleliigne ja kuidas seda vältida?



Selles artiklis käsitletakse masinõppes üleliigset paigaldamist koos näidete ja mõningate tehnikatega, et vältida masinõppemudelis üleliia paigaldamist.

Masinõppe mudeli ülesehitamine ei tähenda ainult andmete sisestamist, vaid on palju puudusi, mis mõjutavad mis tahes mudeli täpsust. Liigne paigaldamine on üks sellistest masinõppe puudujääkidest, mis takistab mudeli täpsust ja jõudlust. Selles artiklis käsitletakse järgmisi teemasid:

Mis on masinõppes üleküllus?

Statistiline mudel on väidetavalt üle paigaldatud, kui anname sellele palju rohkem andmeid kui vaja. Et see oleks võrreldav, kujutage ette, et proovite sobida liiga suurte rõivastega.





Kui mudel mahutab rohkem andmeid, kui see tegelikult vajab, hakkab ta püüdma andmetes mürarikkaid andmeid ja ebatäpseid väärtusi. Selle tulemusel väheneb mudeli efektiivsus ja täpsus. Heitkem pilk paarile ülerõivastuse näitele, et mõista, kuidas see tegelikult toimub.



Näiteid üleliigse paigaldamise kohta

Näide 1

Kui võtame lihtsa näite lineaarne regressioon , andmete koolitamine seisneb minimaalsete kulude väljaselgitamises kõige paremini sobiva joone ja andmepunktide vahel. Optimaalseima parima sobivuse väljaselgitamiseks kulude minimeerimiseks läbib see mitu kordust. Siin tuleb pildile üleliigne paigaldamine.



Ülaloleval pildil näha olev joon võib anda uue andmepunkti jaoks väga tõhusa tulemuse. Ülemäärase paigaldamise korral lubame andmekogumil treeningalgoritmi käivitades kulusid iga iteratsiooni arvuga vähendada.

Selle käivitamine liiga kaua tähendab madalamat hinda, kuid sobib ka andmekomplekti mürarikaste andmetega. Tulemus näeks välja selline, nagu alloleval graafikul.

See võib tunduda tõhus, kuid pole tegelikult nii. Sellise algoritmi peamine eesmärk nagu lineaarne regressioon on leida domineeriv trend ja sobitada andmepunktid vastavalt. Kuid sel juhul sobib rida kõikidele andmepunktidele, mis ei oma tähtsust mudeli tõhususele uute sisestuspunktide optimaalsete tulemuste prognoosimisel.

Vaatleme nüüd probleemilause abil kirjeldavamat näidet.

Näide 2

Probleemipüstituses: Mõelgem, kas tahame ennustada, kas jalgpallur saab esimese taseme jalgpalliklubis pesa, lähtudes tema praegusest sooritusest 2. taseme liigas.

Kujutage nüüd ette, treenime ja sobitame mudeli 10 000 sellise mängijaga, kellel on tulemused. Kui proovime algse andmekogumi tulemusi ennustada, siis oletame, et saime 99% täpsuse. Kuid erineva andmekogumi täpsus on umbes 50 protsenti. See tähendab, et mudel ei üldista hästi meie treeninguandmete ja nägemata andmete põhjal.

Nii näeb välja ülerõivastus. Masinõppes ja isegi andmeteaduses on see väga levinud probleem. Nüüd mõistame signaali ja müra.

Signaal vs müra

Ennustavas modelleerimises viitab signaal tõelisele aluseks olevale mustrile, mis aitab mudelil andmeid õppida. Teiselt poolt on müra ebaoluline ja juhuslikud andmed andmekogumis. Müra ja signaali mõiste mõistmiseks võtame näite elust.

Oletame, et tahame täiskasvanute seas vanust ja kirjaoskust modelleerida. Kui võtame valimi väga suurest osast elanikkonnast, leiame selge seose. See on signaal, samas kui müra häirib signaali. Kui teeme sama kohaliku elanikkonna puhul, muutub suhe poriseks. Seda mõjutaksid kõrvalekalded ja juhuslikkus, näiteks üks täiskasvanu läks varakult kooli või mõni täiskasvanu ei saanud endale haridust lubada jne.

Rääkides mürast ja signaalist masinõppe mõttes, eraldab hea masinõppe algoritm signaalid mürast automaatselt. Kui algoritm on liiga keeruline või ebaefektiivne, võib see õppida ka müra. Seega, mudeli üle sobitamine. Mõistkem ka masinõppes puudujääke.

Mis on alatoitumine?

Ülekäimise vältimiseks võiksime koolituse varasemas etapis peatada. Kuid see võib viia ka selleni, et mudel ei suuda koolitusandmetest piisavalt õppida, et tal võib olla raske domineerivat suundumust tabada. Seda tuntakse kui alatüüpi. Tulemus on sama, mis üleliigne, ebaefektiivsus tulemuste ennustamisel.

Nüüd, kui oleme aru saanud, mis on masinõppes alatäitmine ja ülepakkumine, proovigem mõista, kuidas masinõppes ülepakkumist tuvastada saame.

Kuidas tuvastada üleliigset paigaldamist?

Ülepaigaldamise peamine väljakutse on hinnata meie mudeli jõudluse täpsust uute andmetega. Enne täpsust ei saaks me täpsust hinnata.

Selle probleemi lahendamiseks võime algandmete kogumi jagada eraldi koolitus- ja testandmekogumiteks. Selle tehnika abil saame tegelikult ligikaudselt hinnata, kui hästi meie mudel uute andmetega töötab.

mis on abstraktsioon c ++

Mõistame seda ühe näitega, kujutage ette, et saame treeningukomplekti puhul 90% ja testikomplektis 50% täpsuse. Siis oleks see automaatselt mudeli punane lipp.

Veel üks viis ülepaisutamise tuvastamiseks on alustada lihtsustatud mudelist, mis on võrdlusalus.

Selle lähenemisviisi korral saate keerukamaid algoritme proovides mõista, kas lisakomplekssus on mudeli jaoks isegi väärt või mitte. Seda tuntakse ka kui Occami habemenuga , valib see kahe mudeli puhul põhimõtteliselt lihtsustatud mudeli võrreldava jõudluse korral. Kuigi üleliigse paigaldamise tuvastamine on hea tava,kuid ka üleliigse paigaldamise vältimiseks on mitu tehnikat. Heitkem pilk sellele, kuidas saaksime masinõppes üleliigset ära hoida.

Kuidas vältida masinõppes ülekoormamist?

Masinõppes ülereageerimise vältimiseks on mitu tehnikat, mis on loetletud allpool.

  1. Ristkinnitamine

  2. Treening rohkemate andmetega

  3. Funktsioonide eemaldamine

  4. Varajane peatumine

  5. Reguleerimine

  6. Kokkupanek

1. Ristkinnitamine

Üks võimsamaid funktsioone ülereguleerimise vältimiseks / vältimiseks on ristkinnitamine. Selle mõte on kasutada algseid treeningandmeid väikeste rongi-katse-jaotuste loomiseks ja seejärel kasutada neid jaotusi oma mudeli häälestamiseks.

Standardse k-kordse valideerimise korral jaotatakse andmed k-alamhulkadeks, mida nimetatakse ka voldideks. Pärast seda treenitakse algoritmi iteratiivselt k-1 voltides, kasutades ülejäänud komplektis olevaid katseid, mida nimetatakse ka holdout-voldiks.

Ristvalideerimine aitab meil hüperparameetreid häälestada ainult algse treeningukomplektiga. Põhimõtteliselt hoiab see testimiskomplekti lõpliku mudeli valimiseks eraldi kui tõelist nägemata andmekogumit. Seega, vältides üleliigset paigaldamist.

2. Rohkemate andmetega treenimine

See tehnika ei pruugi iga kord töötada, nagu oleme arutanud ka ülaltoodud näites, kus mudelit aitab märkimisväärse hulga elanikkonnaga koolitus. Põhimõtteliselt aitab see mudelil signaali paremini tuvastada.

Kuid mõnel juhul võivad suurenenud andmed tähendada ka mudeli suurema müra andmist. Kui koolitame mudelit suurema hulga andmetega, peame veenduma, et andmed on puhtad ning juhuslikkuse ja vasturääkivustega.

3. Funktsioonide eemaldamine

Kuigi mõnel algoritmil on funktsioonide automaatne valik. Märkimisväärse osa nende jaoks, kellel pole sisseehitatud funktsioonide valikut, võime üldistuse parandamiseks käsitsi eemaldada mõned ebaolulised funktsioonid sisendfunktsioonidest.

Üks võimalus seda teha on järelduse tegemine selle kohta, kuidas funktsioon mudelisse sobib. See on üsna sarnane koodi silumisele rea kaupa.

Juhul, kui funktsioon ei suuda mudeli asjakohasust selgitada, võime need tunnused lihtsalt tuvastada. Hea lähtepunkti jaoks võime kasutada isegi mõnda funktsioonide valimise heuristikat.

4. Varajane peatumine

Kui mudel treenib, saate iga korduse põhjal tegelikult mõõta, kui hästi mudel toimib. Saame seda teha seni, kuni iteratsioonid parandavad mudeli jõudlust. Pärast seda sobib mudel treeningandmetega üle, kuna üldistus pärast iga iteratsiooni nõrgeneb.

Seega tähendab varajane peatamine treeningprotsessi peatamist enne, kui mudel läbib punkti, kus mudel hakkab treeningandmeid üle sobitama. Seda tehnikat kasutatakse enamasti aastal sügav õppimine .

5. Reguleerimine

See tähendab põhimõtteliselt oma mudeli kunstliku lihtsamaks sundimist, kasutades laiemat tehnikat. See sõltub täielikult sellest, millist õppurit me kasutame. Näiteks võime kärpida a , kasutage a närvivõrk või lisage regressioonis kulufunktsioonile trahviparameeter.

kuidas kasutada skanneri klassi

Üsna sageli on seadistamine ka hüperparameeter. See tähendab, et seda saab häälestada ka ristvalideerimise teel.

6. Ansambel

See tehnika ühendab põhimõtteliselt erinevate masinõppemudelite ennustused. Allpool on loetletud kaks kõige tavalisemat komplekteerimismeetodit:

  • Kottide proovimine vähendab võimalikku mudelite üleküllastamist

  • Suurendamiskatsed lihtsamate mudelite ennustatavat paindlikkust parandada

Ehkki mõlemad on ansamblimeetodid, algab lähenemine täiesti vastassuundadest. Bagging kasutab keerukaid baasmudeleid ja püüab nende prognoose siluda, tõstes aga lihtsaid baasmudeleid ja üritades suurendada nende kompleksset keerukust.

Mis on sobivuse headus?

Statistilises modelleerimises viitab sobivuse headus sellele, kui tihedalt vastavad tulemused või prognoositud väärtused täheldatud või tõelistele väärtustele.Mudel, mis on signaali asemel õppinud müra, on üle paigaldatud, kuna see sobib treeningu andmekogumiga, kuid on uue andmekogumiga halvem.

Eelarvamuste ja dispersioonide kompromiss

Mõlemad dispersioonid ja eelarvamused on prognoosivigade vormid . Suure dispersiooni ja suure eelarvamuse kompromiss on statistikas ja masinõppes väga oluline mõiste. See on üks mõiste, mis mõjutab kõiki juhendatud masinõppe algoritme.

Kõrvalekaldumise ja dispersiooni kompromissil on väga oluline mõju mis tahes masinõppemudeli keerukuse, ala- ja liialdamise määramisele.

Eelarvamus

See pole midagi muud kui erinevus ennustatud väärtuste ja mudeli tegelike või tõeliste väärtuste vahel. Mudelil pole alati keeruline õppida üsna keerukatest signaalidest.

Kujutagem ette, et sobiks a lineaarne regressioon mittelineaarsete andmetega mudelile. Ükskõik kui tõhusalt mudel vaatlusi õpib, ei modelleeri see kõveraid tõhusalt. Seda tuntakse kui alatüüpi.

Dispersioon

See viitab mudeli tundlikkusele treeningandmete konkreetsete komplektide suhtes. Suure dispersiooniga algoritm loob kummalise mudeli, mis erineb drastiliselt treeningukomplektist.

Kujutage ette algoritmi, mis sobib piiranguteta ja ülipaindliku mudeliga, see õpib ka treeningkomplekti mürast, mis põhjustab üleliigset paigaldamist.

Bias-Dispersi kompromiss

Masinõppe algoritmi ei saa tajuda ühekordse meetodina mudeli koolitamiseks, selle asemel on tegemist korduva protsessiga.

Väikese dispersiooniga ja suure eelarvamusega algoritmid on vähem keerukad, lihtsa ja jäiga struktuuriga.

  • Nad koolitavad mudeleid, mis on järjepidevad, kuid keskmiselt ebatäpsed.

  • Nende hulka kuuluvad lineaarsed või parameetrilised algoritmid, nagu regressioon, , jne.

Suure dispersiooniga ja madala eelarvamusega algoritmid kipuvad olema keerukamad, paindliku struktuuriga.

  • Nad koolitavad mudeleid, mis on ebajärjekindlad, kuid keskmiselt täpsed.

  • Nende hulka kuuluvad mittelineaarsed või mitteparameetrilised algoritmid nagu , , jne.

See viib meid selle artikli lõppu, kus oleme õppinud masinõppes üleliigset paigaldamist ja mitmesuguseid tehnikaid selle vältimiseks. Loodan, et teil on selge kõigega, mida teiega selles õpetuses jagati.

Kui leiate, et see artikkel on masinõppes ülepaigutamine asjakohane, vaadake järgmist usaldusväärne veebiõppeettevõte, mille võrgustik sisaldab üle 250 000 rahuloleva õppija, levis üle kogu maailma.

Oleme siin, et aidata teid igal sammul oma teekonnal ja koostada õppekava, mis on mõeldud üliõpilastele ja spetsialistidele, kes soovivad olla . Kursus on loodud selleks, et anda teile algus Pythoni programmeerimises ja õpetada teid nii põhi- kui ka edasijõudnute Pythoni mõistete jaoks koos erinevate võimalustega meeldib , , jne.

on magistrikraadiga sama kraadi omandanud

Kui teil on küsimusi, küsige julgelt kõiki oma küsimusi jaotises „Ümberseadmine masinõppes” kommentaaride osas ja meie meeskond vastab sellele hea meelega.