Vodič za Python Pande: Naučite Pande za analizu podataka



U ovom vodiču za Python Pande naučit ćete razne operacije Panda. Uključuje i slučaj upotrebe u kojem podatke možete analizirati pomoću Panda.

Na ovom blogu raspravljat ćemo o analizi podataka pomoću Panda u Pythonu.Danas, je vruća vještina u industriji koja je premašila PHP u 2017. i C # u 2018. u pogledu ukupne popularnosti i upotrebe.Prije nego što razgovaramo o Pandama, moramo razumjeti koncept Numpyjevih nizova. Zašto? Budući da je Pandas softverska biblioteka otvorenog koda koja je izgrađena na vrhu . U ovom vodiču za Python Pande provest ću vas kroz sljedeće teme koje će poslužiti kao osnova za nadolazeće blogove:

Započnimo. :-)





Što su Python Pande?

Pandas se koristi za manipulaciju podacima, analizu i čišćenje. Python pande pogodne su za različite vrste podataka, kao što su:

  • Tablični podaci s heterogenim tipiziranim stupcima
  • Podaci o uređenim i neuređenim vremenskim serijama
  • Podaci proizvoljne matrice s oznakama redaka i stupaca
  • Neoznačeni podaci
  • Bilo koji drugi oblik promatračkih ili statističkih skupova podataka

Kako instalirati Pande?

Da biste instalirali Python Pande, idite na naredbeni redak / terminal i upišite “pip install pandas”, ili ako je u vašem sustavu instalirana anaconda, samo upišite “conda install pandas”. Po završetku instalacije idite na svoj IDE (Jupyter, PyCharm itd.) I jednostavno ga uvezite tako da upišete: “import pandas as pd”



Krećući se dalje u vodiču za Python pande, pogledajmo neke od njegovih operacija:

Python Pandas Operacije

Korištenjem Python pandi možete izvesti puno operacija sa serijama, okvirima podataka, podacima koji nedostaju, grupirati po itd. U nastavku su navedene neke od uobičajenih operacija za manipulaciju podacima:



PandasOperations - Vodič za Python Pande - Edureka

Sada, shvatimo sve ove operacije jednu po jednu.

Rezanje okvira podataka

Da biste izvršili rezanje podataka, potreban vam je podatkovni okvir. Ne brinite, podatkovni okvir je dvodimenzionalna struktura podataka i najčešći je objekt pande. Dakle, prvo stvorimo okvir podataka.

Pogledajte donji kod za njegovu implementaciju u PyCharm:

uvoz pandi kao pd XYZ_web = {'Dan': [1,2,3,4,5,6], 'Posjetitelji': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) ispis (df)

Izlaz :

Posjetitelji Bounce_Rate dana 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

Gornji kod pretvorit će rječnik u pandas Data Frame zajedno s indeksom slijeva. Sada, odrežemo određeni stupac iz ovog okvira podataka. Pogledajte donju sliku:

ispis (df.head (2))

Izlaz:

Posjetitelji Bounce_Rate dana 0 20 1 1000 1 20 2 700

Slično tome, ako želite zadnja dva retka podataka, upišite naredbu ispod:

kako koristiti skener u javi -
ispis (df.tail (2))

Izlaz:

Posjetitelji Bounce_Rate dana 4 10 5 400 5 34 6 350

Sljedeće u vodiču za Python Pandas, izvedimo spajanje i spajanje.

Spajanje i pridruživanje

Pri spajanju možete spojiti dva podatkovna okvira da biste stvorili jedan podatkovni okvir. Također možete odlučiti koje stupce želite učiniti zajedničkim. Dopustite mi da to implementiram praktički, prvo ću stvoriti tri okvira podataka, koji imaju neke parove ključ / vrijednost, a zatim spojiti okvire podataka zajedno. Pogledajte donji kod:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Izlaz:

uvezi pande kao pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) spojeno = pd.merge (df1, df2) ispis (spojeno)

Kao što vidite gore, dva podatkovna okvira spojena su u jedan podatkovni okvir. Sada također možete odrediti stupac koji želite učiniti zajedničkim. Na primjer, želim da stupac 'HPI' bude uobičajen, a za sve ostalo želim zasebne stupce. Dakle, dopustite mi da to praktično primijenim:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) spojeno = pd.merge (df1, df2, on = 'HPI') ispis (spojeno)

Izlaz:

IND_GDP Int_Rate Low_Tier_HPI Nezaposlenost 2001. 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Dalje, da razumijemo pridruživanje u tutorijalu za python pande. To je još jedna prikladna metoda kombiniranja dva različito indeksirana okvira podataka u jedan okvir podataka rezultata. Ovo je prilično slično operaciji 'spajanje', osim što će operacija spajanja biti na 'indeksu' umjesto na 'stupcima'. Primijenimo ga praktično.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Nezaposlenost': [1,3,5,6]}, indeks = [2001, 2003,2004,2004]) joined = df1. join (df2) ispis (pridruženo)

Izlaz:

IND_GDP Int_Rate Low_Tier_HPI Nezaposlenost 2001. 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Kao što možete primijetiti u gore navedenom izlazu, u 2002. godini (indeks) nema vrijednosti koja je priložena stupcima 'low_tier_HPI' i 'nezaposlenost', stoga je ispisao NaN (Nije broj). Kasnije 2004. godine dostupne su obje vrijednosti, stoga je ispisao odgovarajuće vrijednosti.

Možete proći kroz ovu snimku vodiča za Python Pandas gdje je naš instruktor detaljno objasnio teme s primjerima koji će vam pomoći da bolje razumijete ovaj koncept.

Python za analizu podataka | Vodič za Python Pande | Obuka za Python | Edureka


Krećući se dalje u udžbeniku Python pandi, shvatimo kako spojiti dva okvira podataka.

Spajanje

Spajanje u osnovi lijepi okvire podataka. Možete odabrati dimenziju na kojoj se želite spojiti. Za to samo upotrijebite 'pd.concat' i proslijedite popis podatkovnih okvira za spajanje. Razmotrite donji primjer.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) ispis (concat)

Izlaz:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Kao što vidite gore, dva podatkovna okvira slijepe se u jedan podatkovni okvir, gdje indeks započinje od 2001. godine pa sve do 2008. Dalje, možete odrediti i os = 1 kako biste se pridružili, spojili ili povezali u stupce duž stupaca. Pogledajte donji kod:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], osi = 1) ispis (concat)

Izlaz:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80,0 50,0 2,0 NaN NaN NaN 2002 90,0 45,0 1,0 NaN NaN NaN 2003 70,0 45,0 2,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2005 NaN NaN NaN 80,0 50,0 2,0 2006 NaN NaN NaN 90,0 45,0 1,0 2007 NaN NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Kao što možete gore, postoji gomila vrijednosti koje nedostaju. To se događa jer podatkovni okviri nisu imali vrijednosti za sve indekse na kojima se želite povezati. Stoga biste trebali osigurati da se sve informacije pravilno poredaju kada se spajate ili spajate na osi.

Promijenite indeks

Sljedeće u tutorialu za patone pythona, razumjet ćemo kako promijeniti vrijednosti indeksa u podatkovnom okviru. Na primjer, stvorimo podatkovni okvir s nekoliko parova vrijednosti ključeva u rječniku i promijenimo vrijednosti indeksa. Razmotrite primjer u nastavku:

Pogledajmo kako se to zapravo događa:

uvezi pande kao pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Dan', mjesto = True) ispis (df)

Izlaz:

Osnove sql poslužitelja za početnike
Bounce_Rate posjetitelji dan 1 20 200 2 45 100 3 60 230 4 10 300

Kao što možete primijetiti u gornjem izlazu, vrijednost indeksa promijenjena je s obzirom na stupac 'Dan'.

Promijenite zaglavlja stupaca

Promijenimo sada zaglavlja stupaca u ovom tutorialu za python pande. Uzmimo isti primjer, gdje ću zaglavlje stupca promijeniti iz 'Posjetitelji' u 'Korisnici'. Dakle, dopustite mi da to praktično provedem.

uvezi pande kao pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (stupci = {'Posjetitelji': 'Korisnici'}) print (df)

Izlaz:

Korisnici Bounce_Rate dana 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

Kao što vidite gore, zaglavlje stupca 'Posjetitelji' promijenjeno je u 'Korisnici'. Sljedeće u tutorialu za python pande, izvršimo mijenjanje podataka.

Mijenjanje podataka

U odjeljku Mijenjanje podataka možete pretvoriti određene podatke u drugi format. Na primjer, ako imate .csv datoteku, možete je pretvoriti i u .html ili bilo koji drugi format podataka. Dakle, dopustite mi da to praktično provedem.

uvezi pande kao pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-nezaposlenostAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Jednom kada pokrenete ovaj kôd, stvorit će se HTML datoteka pod nazivom 'edu.html'. Možete izravno kopirati put datoteke i zalijepiti je u svoj preglednik koji prikazuje podatke u HTML formatu. Pogledajte donji snimak zaslona:


Sljedeće u tutorialu za patone pythona, pogledajmo primjer upotrebe koji govori o globalnoj nezaposlenosti mladih.

zadana vrijednost char u javi

Vodič za Python Pandas: Slučaj za analizu podataka o nezaposlenosti mladih

Izjava o problemu :Dobivate skup podataka koji sastoji se od postotka nezaposlenih mladih na globalnoj razini od 2010. do 2014. Morate koristiti ovaj skup podataka i pronaći promjenu u postotku mladih za svaku zemlju od 2010. do 2011. godine.

Prvo, shvatimo skup podataka koji sadrži stupce kao Naziv države, Pozivni broj države i godinu od 2010. do 2014. Sada ćemo, koristeći pande, za čitanje datoteke formata .csv koristiti 'pd.read_csv'.
Pogledajte snimku zaslona u nastavku:

Krenimo dalje i izvršimo analizu podataka u kojoj ćemo doznati postotak promjene nezaposlenih mladih između 2010. i 2011. Tada ćemo to vizualizirati pomoću knjižnica, koja je moćna knjižnica za vizualizaciju u Pythonu. Može se koristiti u Python skriptama, ljusci, poslužiteljima web aplikacija i drugim GUI alatima. Ovdje možete pročitati više:

Sada ćemo implementirati kod u PyCharm:

uvezi pande kao pd uvezi matplotlib.pyplot kao plt iz matplotlib uvozi stil style.use ('petdesetdeset') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-nezaposlenostAPI_ILO_country_YU.csv', index_col = 0) df = country. head (5) df = df.set_index (['Pozivni broj države]] sd = sd.reindex (stupci = [' 2010 ',' 2011 ']) db = sd.diff (os = 1) db.plot (vrsta = 'bar') plt.show ()

Kao što vidite gore, izvršio sam analizu na gornjih 5 redaka okvira podataka zemlje. Dalje, definirao sam vrijednost indeksa kao 'Pozivni broj države', a zatim indeksiram stupac na 2010. i 2011. Zatim, imamo još jedan podatkovni okvir db, koji ispisuje razliku između dva stupca ili postotak promjene nezaposlene mladeži od 2010. do 2011. Konačno, nacrtao sam ploču pomoću biblioteke Matplotlib u Pythonu.


Ako ste primijetili u gornjoj zavjeri, u Afganistanu (AFG) između 2010. i 2011. godine zabilježen je porast nezaposlenih mladih od oko 0,25%. Tada u Angoli (AGO) postoji negativan trend što znači da je smanjen postotak nezaposlene mladeži. Slično tome, možete provesti analizu na različitim skupovima podataka.

Nadam se da je moj blog na temu 'Vodič za Python Pande' bio relevantan za vas. Da biste stekli detaljno znanje o pythonu, zajedno s raznim aplikacijama, možete se prijaviti za uživo Edureka s podrškom 24/7 i doživotnim pristupom.

Imate pitanje za nas? Molimo vas da ga spominjete u odjeljku za komentare ovog bloga 'Vodič za Python Pande', a mi ćemo vam se javiti što je prije moguće.