Pythoni pandade õpetus: õppige pandasid andmete analüüsimiseks



Selles Pythoni pandade õpetuses saate õppida pandade erinevaid toiminguid. See sisaldab ka kasutusjuhtumit, kus saate Pandasid kasutades andmeid analüüsida.

Selles ajaveebis arutame Pythonis Pandase abil andmete analüüsimist.Täna on tööstuses kuum oskus, mis ületas üldise populaarsuse ja kasutamise poolest 2017. aastal PHP ja 2018. aastal C #.Enne Pandast rääkimist tuleb mõista Numpy massiivide mõistet. Miks? Kuna Pandas on avatud lähtekoodiga tarkvarakogu, mis on üles ehitatud . Selles Pythoni pandade õpetuses tutvustan teid järgmiste teemadega, mis on tulevaste ajaveebide põhialused:

Alustame. :-)





Mis on Python Pandas?

Pandasid kasutatakse andmetega manipuleerimiseks, analüüsimiseks ja puhastamiseks. Pythoni pandad sobivad hästi erinevat tüüpi andmete jaoks, näiteks:

  • Tabeliandmed koos heterogeenselt sisestatud veergudega
  • Järjestatud ja järjestamata aegridade andmed
  • Rida ja veeru siltidega meelevaldsed maatriksiandmed
  • Märgistamata andmed
  • Mis tahes muu vaatlus- või statistiliste andmekogumite vorm

Kuidas pandasid installida?

Pythoni pandade installimiseks minge käsureale / terminali ja tippige “pip install pandas” või muul juhul, kui teie süsteemi on installitud anaconda, sisestage lihtsalt “conda install pandas”. Kui installimine on lõpule jõudnud, minge oma IDE-sse (Jupyter, PyCharm jne) ja importige see lihtsalt, tippides: 'import pandas as pd'



php loo stringist massiivi

Pythoni pandade õpetuses edasi liikudes vaatame mõningaid selle toiminguid:

Pythoni pandade toimingud

Kasutades Pythoni pandasid, saate teha palju toiminguid seeriate, andmeraamide, puuduvate andmete, rühmitamise jms abil. Allpool on loetletud mõned tavalised andmetöötlusega seotud toimingud:



PandasOperations - Pythoni pandade õpetus - Edureka

Nüüd mõistame kõiki neid toiminguid ükshaaval.

Andmeraami viilutamine

Andmete viilutamiseks peate kasutama andmeraami. Ärge muretsege, andmeraam on kahemõõtmeline andmestruktuur ja kõige levinum pandade objekt. Nii et kõigepealt loome andmeraami.

Selle rakendamiseks PyCharmis leiate allpool toodud koodi:

impordi pandad kui pd XYZ_web = {'Päev': [1,2,3,4,5,6], 'Külalised': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) print (df)

Väljund :

Päeva külastajad 0 20 1 1000 1 20 2700 2 23 3 6000 3 15 4 1000 4 10 5400 5 34 6 350

Ülaltoodud kood teisendab sõnastiku pandade andmeraamiks koos vasakpoolse indeksiga. Lõigakem nüüd sellest andmeraamist konkreetne veerg. Vaadake allolevat pilti:

print (df.head (2))

Väljund:

Bounce_Rate päeva külastajad 0 20 1 1000 1 20 2700

Samamoodi, kui soovite andmete kahte viimast rida, tippige järgmine käsk:

print (df.saba (2))

Väljund:

Bounce_Rate päeva külastajad 4 10 5 400 5 34 6 350

Järgmisena tutvustame Python Pandase õpetuses liitmist ja liitumist.

Ühinemine ja liitumine

Liitmisel saate ühendada kaks andmeraami, et moodustada üks andmeraam. Samuti saate otsustada, milliseid veerge soovite ühiseks muuta. Lubage mul seda praktiliselt rakendada. Kõigepealt koostan kolm andmeraami, millel on mõned võtme-väärtuste paarid, ja ühendan seejärel andmeraamid kokku. Vaadake allolevat koodi:

HPI IND_GDP keskmine_määr 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Väljund:

impordi pandad pd df1 = pd.DataFrame ({'HPI: [80,90,70,60],' Int_Rate ': [2,1,2,3],' IND_GDP ': [50,45,45, 67]}, indeks = [2001, 2002, 2003, 2003, 2004]) df2 = pd.DataFrame ({'HPI: [80,90,70,60],' Int_Rate ': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, register = [2005, 2006,2007,2008]) ühendatud = pd.merge (df1, df2) print (ühendatud)

Nagu ülal näete, on need kaks andmeraami ühinenud ühtseks andmeraamiks. Nüüd saate määrata ka veeru, mille soovite tavaliseks muuta. Näiteks tahan, et veerg „HPI“ oleks tavaline ja kõige muu jaoks eraldi veerud. Nii et lubage mul seda praktiliselt rakendada:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI: [80,90,70,60],' Int_Rate ': [2,1,2,3],' IND_GDP ' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) ühendatud = pd.merge (df1, df2, on = 'HPI') print (ühendatud)

Väljund:

IND_GDP keskmine määr madalama taseme_HPI töötus 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Järgmisena andke meile aru liitumine pütooni pandade õpetuses. See on veel üks mugav meetod kahe erinevalt indekseeritud andmeraami ühendamiseks üheks tulemuseks. See on üsna sarnane operatsiooniga „ühendamine”, välja arvatud see, et liitumisoperatsioon asub veergude asemel indeksis. Rakendagem seda praktiliselt.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Töötus': [1,3,5,6]}, indeks = [2001, 2003,2004,2004]) liitus = df1. liitu (df2) print (ühendatud)

Väljund:

IND_GDP keskmine määr madalama taseme_HPI töötus 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Nagu ülaltoodud väljundis märkate, ei ole 2002. aastal (indeks) veergudele “madal_tier_HPI” ja “tööpuudus” väärtust lisatud, seetõttu on see trükkinud NaN (mitte arv). Hiljem 2004. aastal on mõlemad väärtused saadaval, seetõttu on see vastavad väärtused välja printinud.

Võite läbida selle Python Pandase õpetuse salvestuse, kus meie juhendaja on teemasid üksikasjalikult selgitanud näidetega, mis aitavad teil sellest kontseptsioonist paremini aru saada.

Python andmete analüüsimiseks | Pythoni pandade õpetus | Pythoni koolitus | Edureka


Pythoni pandade õpetuses edasi liikudes andke meile mõista, kuidas ühendada kahte andmeandmete raami.

Liitmine

Liitmine liimib põhimõtteliselt andmeraamid kokku. Saate valida dimensiooni, millele soovite liituda. Selleks kasutage lihtsalt pd.concat ja sisestage kooskaadrite loendisse. Vaatleme allpool toodud näidet.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI: [80,90,70,60],' Int_Rate ': [2,1,2,3],' IND_GDP ' : [50,45,45,67]}, register = [2005, 2006,2007,2008]) concat = pd.kass ([df1, df2]) print (konkat)

Väljund:

HPI IND_GDP keskmine_määr 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Nagu ülal näete, on kaks andmeraami liimitud ühte andmekraami, kus indeks algab alates 2001. aastast kuni 2008. aastani. Järgmisena saate veergude ühendamiseks, ühendamiseks või katkatseerimiseks määrata ka telje = 1. Vaadake allolevat koodi:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI: [80,90,70,60],' Int_Rate ': [2,1,2,3],' IND_GDP ' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) concat = pd.kass ([df1, df2], telg = 1) print (konkat)

Väljund:

HPI IND_GDP keskmine_hind NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Nagu eespool oskasite, on hulk puuduvaid väärtusi. See juhtub, kuna andmeraamidel ei olnud kõigi indeksite väärtusi, millega soovite liituda. Seetõttu peaksite teljega liitumisel või liitumisel veenduma, et kogu teave on õigesti üles seatud.

Muutke indeksit

Järgmisena tutvustame pythoni pandade õpetuses, kuidas muuta andmebaasis indeksi väärtusi. Näiteks loome sõnastikus mõne põhiväärtuste paariga andmekaadri ja muudame indeksi väärtusi. Vaatleme järgmist näidet:

Vaatame, kuidas see tegelikult juhtub:

impordi pandad kui pd df = pd.DataFrame ({'Päev': [1,2,3,4], 'Külalised': [200, 100 230 300], 'Põrge_hind': [20,45,60,10]}) df.set_index ('päev', kohapeal = tõene) print (df)

Väljund:

Bounce_Rate külastajate päev 1 20 200 2 45 100 3 60 230 4 10 300

Nagu ülaltoodud väljundis märkate, on indeksi väärtust veeru „Päev” suhtes muudetud.

Muutke veerupäiseid

Muutkem nüüd selle pythoni pandade õpetuse veeru päiseid. Võtame sama näite, kus ma muudan veeru päise väärtusest „Külastajad” väärtuseks „Kasutajad”. Nii et lubage mul seda praktiliselt rakendada.

impordi pandad kui pd df = pd.DataFrame ({'Päev': [1,2,3,4], 'Külalised': [200, 100 230 300], 'Põrge_hind': [20,45,60,10]}) df = df.rename (veerud = {'Külastajad:' Kasutajad '}) print (df)

Väljund:

Bounce_Rate Day kasutajad 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

Nagu ülal näete, on veeru päis „Visitors” muudetud väärtuseks „Users”. Järgmisena tutvustame püütoni pandade õpetuses andmete nuusutamist.

Andmete hüppamine

Rakenduses Data munging saate konkreetseid andmeid teisendada muus vormingus. Näiteks kui teil on .csv-fail, saate selle teisendada ka .html-i või mõnda muusse andmevormingusse. Nii et lubage mul seda praktiliselt rakendada.

impordi pandad kui pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-pank-noorte-töötusAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Kui olete selle koodi käivitanud, luuakse HTML-fail nimega „edu.html“. Võite faili tee otse kopeerida ja kleepida oma brauserisse, mis kuvab andmed HTML-vormingus. Vaadake järgmist ekraanipilti:


Järgmisena tutvustame püütonipandade õpetuses kasutust, mis räägib noorte globaalsest töötusest.

Pythoni pandade õpetus: kasutage juhtumit noorte töötuse andmete analüüsimiseks

Probleemipüstituses :Teile antakse andmekogum, mis koosneb töötute noorte osakaalust kogu maailmas aastatel 2010–2014. Peate kasutama seda andmekogumit ja leidma noorte osakaalu muutuse aastatel 2010–2011.

Esmalt mõistkem andmekogumit, mis sisaldab veerusid riigi nime, riigikoodi ja aastana 2010–2014. Kasutades nüüd pandasid, kasutame .csv-failivormingu faili lugemiseks pd.read_csv.
Vaadake allolevat ekraanipilti:

Liigume edasi ja teostame andmeanalüüsi, milles uurime töötute noorte protsentuaalset muutust aastatel 2010–2011. Seejärel visualiseerime sama raamatukogu, mis on Pythonis võimas visualiseerimise teek. Seda saab kasutada Pythoni skriptides, shellis, veebirakenduste serverites ja muudes GUI tööriistakomplektides. Lisateavet saate kasutada siit:

Rakendame nüüd PyCharmis koodi:

impordi pandad pd-ks impordi matplotlib.pyplot plt-st matplotlib-i impordistiilist style.use ('fivethirtirtightight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-pank-noorte-töötusAPI_ILO_country_YU.csv', index_col = 0) df = riik. head (5) df = df.set_index (['Riigikood']) sd = sd.reindex (veerud = ['2010', '2011']) db = sd.diff (telg = 1) db.plot (lahke = 'baar') plt.show ()

Nagu ülal näete, olen analüüsi teinud riigi andmeraami viies ülemises reas. Järgmisena olen määranud indeksi väärtuseks „Riigikood“ ja seejärel indekseerinud veeru uuesti aastateks 2010 ja 2011. Seejärel on meil veel üks andmekaader db, mis prindib kahe veeru erinevuse või töötute noorte protsendimuutuse aastatel 2010 kuni 2011. Lõpuks olen joonistanud ribaplaani, kasutades Pythonis Matplotlibi teeki.


Kui märkate ülaltoodud proovitükil Afganistanis (AFG) ajavahemikul 2010–2011, on töötute noorte arv kasvanud umbes 0,25%. Siis on Angolas (AGO) negatiivne trend, mis tähendab, et töötute noorte osakaalu on vähendatud. Samamoodi saate analüüsida erinevaid andmekogumeid.

Loodan, et minu ajaveeb saidil „Python Pandas Tutorial“ oli teie jaoks asjakohane. Püütoni ja selle erinevate rakenduste põhjalike teadmiste saamiseks võite registreeruda otseülekandeks autor Edureka 24/7 toe ja eluaegse juurdepääsuga.

Kas teil on meile küsimus? Palun mainige seda selle „Python Pandase õpetuse“ ajaveebi kommentaaride jaotises ja võtame teiega ühendust niipea kui võimalik.