Kuidas rakendada masinõppes lineaarset regressiooni?



See artikkel käsitleb lineaarse regressiooni mõistet masinõppes erinevate terminoloogiatega ja kasutusjuhtumit lineaarse regressiooni rakendamiseks.

Fookus pöörleb sisendi ja väljundi muutujate ümber, kasutades tulemuse ennustamiseks algoritmi. Kui pildile tuleb uus sisendmuutuja. Lineaarse regressiooni algoritm on juhendatud õppetehnika kaardistamisfunktsiooni lähendamiseks, et saada parimaid ennustusi. Selles artiklis õpime tundma masinõppe lineaarset regressiooni. Selles blogis käsitletakse järgmisi teemasid.

Mis on regressioon?

Regressiooni peamine eesmärk on tõhusa mudeli loomine sõltuvate atribuutide ennustamiseks hulga atribuutide muutujate põhjal. Regressiooniprobleem on siis, kui väljundmuutuja on kas tegelik või pidev väärtus, st palk, kaal, pindala jne.





Regressiooni võime määratleda ka statistilise vahendina, mida kasutatakse sellistes rakendustes nagu eluase, investeerimine jne. Seda kasutatakse sõltuva muutuja ja hulga sõltumatute muutujate vahelise suhte ennustamiseks. Heidame pilgu erinevat tüüpi regressioonivõtetele.

näide-lineaarne regressioon masinõppes - edureka

Regressiooni tüübid

Järgnevad on regressiooni tüübid.



  1. Lihtne lineaarne regressioon
  2. Polünoomne regressioon
  3. Toetage vektorregressiooni
  4. Otsustuspuu regressioon
  5. Juhuslik metsa taandareng

Lihtne lineaarne regressioon

Üks huvitavamaid ja levinumaid regressioonitehnikaid on lihtne lineaarne regressioon. Selles ennustame sõltumatute muutujate põhjal sõltuva muutuja tulemuse, muutujate suhe on lineaarne. Seega sõna lineaarne regressioon.

Polünoomne regressioon

Selles regressioonitehnikas muudame algsed tunnused antud kraadi polünoomi tunnusteks ja sooritame seejärel selle regressiooni.

Toetage vektorregressiooni

Sest regressiooni või SVR-i korral tuvastame maksimaalse marginaaliga hüpertasandi nii, et maksimaalne andmepunktide arv jääb nendesse piiridesse. See on üsna sarnane tugivektori masina klassifitseerimise algoritmiga.



Otsustuspuu regressioon

TO saab kasutada nii taandarenguks kui ka . Regressiooni korral kasutame jaotussõlme tuvastamiseks standardhälbe vähendamise abil algoritmi ID3 (Iterative Dichotomiser 3).

Juhuslik metsa taandareng

Juhuslikus metsaregressioonis koondame mitme otsustuspuu regressiooni ennustused. Nüüd, kui me teame erinevat tüüpi regressioonist, vaatame üksikasjalikult lihtsat lineaarset regressiooni.

Mis on lineaarne regressioon?

Lihtne lineaarne regressioon on regressioonitehnika, mille puhul sõltumatul muutujal on lineaarne seos sõltuva muutujaga. Diagrammil olev sirge sobib kõige paremini. Lihtsa lineaarse regressiooni põhieesmärk on kaaluda antud andmepunkte ja joonistada parim sobivusjoon, mis sobiks mudeli parimal viisil.

Enne lineaarse regressiooni algoritmi toimimise juurde asumist vaatame lihtsa lineaarse regressiooni abil mõnda olulist terminoloogiat.

Lineaarse regressiooni terminoloogiad

Järgmised terminoloogiad on olulised enne lineaarse regressiooni algoritmi juurde liikumist.

Kulude funktsioon

Parima sobivuse joon võib põhineda allpool toodud lineaarvõrrandil.

  • Ennustatav sõltuv muutuja tähistatakse Y-ga.
  • Y-telge puudutavat joont tähistatakse lõikepunktiga b0.
  • bükson joone kalle, x tähistab sõltumatuid muutujaid, mis määravad Y prognoosi.
  • Saadud ennustuse viga tähistatakse e-ga.

Funktsioon kulu annab b jaoks parimad võimalikud väärtused0ja büksandmepunktide jaoks sobivaima joone tegemiseks. Teeme selle teisendades selle probleemi minimeerimisprobleemiks, et saada b-le parimad väärtused0ja büks. Viga minimeeritakse selles probleemis tegeliku väärtuse ja prognoositava väärtuse vahel.

Vea minimeerimiseks valime ülaltoodud funktsiooni. Ruudutame veaerinevuse ja summeerime vea kõigi andmepunktide peale, jagamise andmepunktide koguarvu vahel. Seejärel annab toodetud väärtus kõigi andmepunktide keskmise ruudu vea.

Seda tuntakse ka kui MSE (Mean Squared Error) ja me muudame b väärtusi0ja büksnii, et MSE väärtus oleks minimaalselt arvutatud.

Gradiendi laskumine

Järgmine oluline terminoloogia lineaarse regressiooni mõistmiseks on gradientne laskumine. See on meetod b värskendamiseks0ja büksväärtused MSE vähendamiseks. Selle taga on idee jätkamine b0ja büksväärtusi, kuni vähendame MSE miinimumini.

B värskendamiseks0ja büks, võtame kulude funktsioonist gradiente. Nende gradientide leidmiseks võtame b suhtes osalised tuletised0ja büks. Need osalised tuletised on gradiendid ja neid kasutatakse b väärtuste värskendamiseks0ja büks.

luua objekti java koopia

Väiksem õppemäär võtab miinimumile lähemale, kuid see võtab rohkem aega ja suurema õppemäära korral. Kulutatud aeg on varem, kuid on võimalus ületada miinimumväärtus. Nüüd, kui oleme lineaarse regressiooni terminoloogiatega läbi saanud, heitkem pilk lineaarse regressiooni mõnele eelisele ja puudusele masinõppes.

Eelised ja puudused

Eelised Puudused
Lineaarne regressioon toimib lineaarselt eraldatavate andmete puhul erakordselt hästiLineaarsuse eeldus sõltuvate ja sõltumatute muutujate vahel
Lihtsam rakendada, tõlgendada ja tõhusam koolitadaSageli on see üsna altid müra ja ülepaisutamisele
See saab ülepaigaldamisega üsna hästi hakkama, kasutades mõõtmete vähendamise tehnikaid, seadistamist ja ristkinnitamistLineaarne regressioon on kõrvaltoimete suhtes üsna tundlik
Veel üks eelis on ekstrapoleerimine konkreetsest andmekogumist kaugemaleSee on altid multikollineaarsusele

Lineaarse regressiooni kasutamise juhtumid

  • Müügi prognoosimine

  • Riskianalüüs

  • Eluaseme rakendused hindade ja muude tegurite ennustamiseks

  • Finantsrakendused aktsiahindade, investeeringute hindamise jms prognoosimiseks

Lineaarse regressiooni põhiidee on leida seos sõltuvate ja sõltumatute muutujate vahel. Seda kasutatakse parima liini saamiseks, mis ennustaks tulemust väikseima veaga. Lineaarset regressiooni saame kasutada lihtsates reaalsetes olukordades, näiteks ennustades SAT-skoori õppetundide arvu ja muude otsustavate tegurite suhtes.

Seda silmas pidades heitkem pilk kasutusjuhtumile.

Kasutusjuht - lineaarse regressiooni rakendamine

Protsess toimub järgmiste sammudega:

  1. Andmete laadimine
  2. Andmete uurimine
  3. Andmete viilutamine
  4. Rongi- ja jagatud andmed
  5. Loo mudel
  6. Hinnake täpsust

Läheme lineaarse regressiooni rakendamise iga sammu üksikasjadesse.

1. Andmete laadimine

Alustame diabeedi põhiandmekogumiga, mis on juba olemas sklearn (scikit-learn) andmekogumite moodulis, et alustada oma teekonda lineaarse regressiooniga.

sklearn impordi andmekogumitest haigus = datasets.load_diabetes () print (haigus)

Väljund:

2. Andmete uurimine

Kui oleme andmete laadimise lõpetanud, saame alustada uurimist, kontrollides lihtsalt silte järgmise koodi abil.

print (haigus. võtmed ())

Väljund:

Ülaltoodud kood annab kõik andmekogumi sildid, pärast seda saame andmed viilutada, et saaksime rea lõpuks joonistada. Kasutame ka kõiki andmepunkte, praegu tükeldame andmetest veeru 2.

impordi numpy kui np haigus_X = haigus.andmed [:, np.newaxis, 2] print (haigus_X)

Väljund:

Pärast seda sammu jagame andmed rongiks ja testikomplektideks.

3. Andmete jagamine

haigus_X_treen = haigus_X [: - 30] haigus_X_test = haigus_X [-20:] haigus_Y_treen = haigus.siht [: - 30] haigus_Y_test = haigus.siht [-20:]

Järgmine osa hõlmab mudeli genereerimist, mis hõlmab ka linear_modeli importimist sklearnist.

4. Mudeli genereerimine

from sklearn import line_model reg = linear_model.LinearRegression () reg.fit (haigus_X_treen, haigus_Y_treen) y_predict = reg.prognoos (haigus_X_test)

Mudeli täpsuse hindamiseks kasutame scikit-learn keskmist ruutu viga.

5. Hindamine

täpsus = keskmine_ruudu_viga (haigus_Y_test, y_prognoos) print (täpsus) kaalud = reg.coef_ intercept = reg.intercept_ print (kaalud, pealtkuulamine)

Väljund:

Andmepunktide graafikul väljanägemise selgitamiseks joonistame ka graafikud.

import matplotlib.pyplot plt plt.scatter (haigus_X_test, haigus_Y_test) plt.plot (haigus_X_test, y_prognoos) plt.show ()

Väljund:

Selle stsenaariumi korral täpsema mudeli saamiseks võime kogu veeru asemel kasutada 2. veergu. See annaks täpsuse, nagu allpool näidatud:

#muutke ülaltoodud koodi veidi ja eemaldage joonistuskood vigade vältimiseks haigus_X = haigus.andmed

Väljund:

See viib meid selle artikli lõppu, kus oleme õppinud masinõppe lineaarse regressiooni kohta. Loodan, et teil on selge kõigega, mida teiega selles õpetuses jagati.

Kui leiate, et see artikkel jaotisest „Lineaarne regressioon masinõppeks” on asjakohane, vaadake järgmist usaldusväärne veebiõppeettevõte, mille võrgustik sisaldab üle 250 000 rahuloleva õppija, levis üle kogu maailma.

Kui teil on küsimusi, küsige julgelt kõiki küsimusi jaotise „Lineaarne regressioon masinõppeks” kommentaaride osas ja meie meeskond vastab sellele hea meelega.