Knjižnica pandas omogoča enostavno vožnjo z znanostjo o podatkih, ki temelji na pythonu. To je priljubljena knjižnica Python za branje, združevanje, razvrščanje, čiščenje podatkov in še več. Čeprav je pandas enostavna za uporabo in uporabo na nizih podatkov, ima veliko funkcij za manipulacijo podatkov, ki se jih je treba naučiti.

Morda uporabljate pande, vendar obstaja velika verjetnost, da jih premalo izkoriščate za reševanje težav, povezanih s podatki. Tukaj je naš seznam dragocenih funkcij pand za manipulacijo podatkov, ki bi jih moral poznati vsak podatkovni znanstvenik.

Namestite pande v svoje virtualno okolje

Preden nadaljujemo, se prepričajte, da ste namestili pande v svoje virtualno okolje s pomočjo pip:

pip install pandas

Po namestitvi uvozite pande na vrhu vašega skripta in nadaljujmo.

1. pande. DataFrame

Uporabljaš pande. DataFrame() da ustvarite DataFrame v pandah. Obstajata dva načina za uporabo te funkcije.

DataFrame lahko oblikujete po stolpcu tako, da vnesete slovar v pande. DataFrame() funkcijo. Tukaj je vsak ključ stolpec, vrednosti pa vrstice:

instagram viewer
uvozi pande
Podatkovni okvir = pande. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
tiskanje (podatkovni okvir)

Druga metoda je oblikovanje podatkovnega okvirja po vrsticah. Toda tukaj boste ločili vrednosti (postavke vrstic) od stolpcev. Število podatkov na vsakem seznamu (podatki vrstice) se mora ujemati tudi s številom stolpcev.

uvozi pande
Podatkovni okvir = pande. Podatkovni okvir([[1, 4, 5], [7, 19, 13]], stolpci= ["J", "K", "L"])
tiskanje (podatkovni okvir)

2. Branje iz in pisanje v Excel ali CSV v pandah

S pandami lahko berete ali pišete v datoteke Excel ali CSV.

Branje datotek Excel ali CSV

Za branje Excelove datoteke:

#Zamenjajte example.xlsx s potjo vaše Excelove datoteke
DataFrame = DataFrame.read_excel("example.xlsx")

Takole lahko preberete datoteko CSV:

#Zamenjajte example.csv s potjo datoteke CSV
DataFrame = DataFrame.read_csv("example.csv")

Pisanje v Excel ali CSV

Pisanje v Excel ali CSV je dobro znana operacija pand. Priročno je tudi za shranjevanje na novo izračunanih tabel v ločene podatkovne liste.

Za pisanje na Excelov list:

DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")

Če želite pisati v CSV:

DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")

Z uporabo pandas lahko izračunate tudi osrednje težnje vsakega stolpca v DataFrame.

Tako dobite srednjo vrednost vsakega stolpca:

DataFrame.mean()

Za vrednost mediane ali načina zamenjajte pomeni() z mediana () oz način ().

4. DataFrame.transform

pande' DataFrame.transform() spremeni vrednosti DataFrame. Sprejema funkcijo kot argument.

Na primer, spodnja koda pomnoži vsako vrednost v DataFrame s tri z uporabo Pythonova lambda funkcija:

DataFrame = DataFrame.transform (lambda y: y*3)
tiskanje (podatkovni okvir)

5. DataFrame.isnull

Ta funkcija vrne logično vrednost in označi vse vrstice, ki vsebujejo ničelne vrednosti, kot Prav:

DataFrame.isnull()

Rezultat zgornje kode je lahko težko prebrati za večje nabore podatkov. Torej lahko uporabite isnull().sum() namesto tega funkcija. To vrne povzetek vseh manjkajočih vrednosti za vsak stolpec:

DataFrame.isnull().sum()

6. Dataframe.info

The info() funkcija je bistveno delovanje pand. Namesto tega vrne povzetek nemanjkajočih vrednosti za vsak stolpec:

DataFrame.info()

7. DataFrame.describe

The opiši () funkcija vam daje zbirno statistiko podatkovnega okvirja:

DataFrame.describe()

8. DataFrame.replace

Uporabljati DataFrame.replace() metode v pandah, lahko zamenjate izbrane vrstice z drugimi vrednostmi.

Na primer, če želite zamenjati neveljavne vrstice z Nan:

# Prepričajte se, da ste pip install numpy, da bo to delovalo
uvozi numpy
uvozi pande
# Če dodate ključno besedo inplace in jo nastavite na True, postanejo spremembe trajne:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
tiskanje (podatkovni okvir)

9. DataFrame.fillna

Ta funkcija vam omogoča, da prazne vrstice zapolnite z določeno vrednostjo. Vse lahko napolnite Nan vrstice v naboru podatkov s srednjo vrednostjo, na primer:

DataFrame.fillna (df.mean(), inplace = True)
tiskanje (podatkovni okvir)

Lahko ste tudi specifični za stolpec:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
tiskanje (podatkovni okvir)

10. DataFrame.dropna

The dropna() metoda odstrani vse vrstice, ki vsebujejo ničelne vrednosti:

DataFrame.dropna (inplace = True)
tiskanje (podatkovni okvir)

11. DataFrame.insert

Lahko uporabite pande' vstavi() funkcijo za dodajanje novega stolpca v DataFrame. Sprejema tri ključne besede, ime stolpca, seznam njegovih podatkov in svoje lokacija, ki je indeks stolpca.

To deluje tako:

DataFrame.insert (stolpec = 'C', vrednost = [3, 4, 6, 7], loc=0)
tiskanje (podatkovni okvir)

Zgornja koda vstavi nov stolpec v indeks nič stolpca (postane prvi stolpec).

12. DataFrame.loc

Lahko uporabiš lok za iskanje elementov v določenem indeksu. Če si želite ogledati vse elemente v tretji vrstici, na primer:

DataFrame.loc[2]

13. DataFrame.pop

Ta funkcija vam omogoča, da odstranite določen stolpec iz pandas DataFrame.

Sprejema a predmet ključno besedo, vrne pojavni stolpec in ga loči od preostalega podatkovnega okvirja:

DataFrame.pop (item= 'column_name')
tiskanje (podatkovni okvir)

14. DataFrame.max, min

Pridobivanje največjih in najmanjših vrednosti z uporabo pand je enostavno:

DataFrame.min()

Zgornja koda vrne najmanjšo vrednost za vsak stolpec. Če želite doseči maksimum, zamenjajte min z maks.

15. DataFrame.join

The pridruži se () funkcija pandas vam omogoča spajanje podatkovnih okvirjev z različnimi imeni stolpcev. Uporabite lahko levi, desni, notranji ali zunanji spoj. Če želite levo pridružiti DataFrameu z dvema drugima:

#Levo združi daljše stolpce s krajšimi
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
tiskanje (novDataFrame)

Če želite združiti DataFrames s podobnimi imeni stolpcev, jih lahko ločite tako, da vključite pripono na levo ali desno. To storite tako, da vključite lpripona oz rsuffix ključna beseda:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
tiskanje (novDataFrame)

16. DataFrame.combine

The združi () funkcija je priročna za združitev dveh podatkovnih okvirjev, ki vsebujeta podobna imena stolpcev na podlagi nastavljenih kriterijev. Sprejema a funkcijo ključno besedo.

Če želite na primer združiti dva podatkovna okvirja s podobnimi imeni stolpcev samo na podlagi največjih vrednosti:

newDataFrame = df.combine (df2, numpy.minimum)
tiskanje (novDataFrame)

Opomba: Določite lahko tudi funkcijo izbire po meri in vstavite numpy.minimum.

17. DataFrame.astype

The astype() funkcija spremeni vrsto podatkov določenega stolpca ali okvirja podatkov.

Če želite na primer spremeniti vse vrednosti v DataFrame v niz:

DataFrame.astype (str)

18. DataFrame.sum

The vsota () funkcija v pandah vrne vsoto vrednosti v vsakem stolpcu:

DataFrame.sum()

Najdete lahko tudi skupno vsoto vseh uporabljenih elementov cumsum():

DataFrame.cumsum()

19. DataFrame.drop

pande' spusti () funkcija izbriše določene vrstice ali stolpce v podatkovnem okviru. Za uporabo morate navesti imena stolpcev ali indeks vrstice in os.

Če želite odstraniti določene stolpce, na primer:

df.drop (stolpci=['stolpec1', 'stolpec2'], os=0)

Če želite na primer spustiti vrstice na indekse 1, 3 in 4:

df.drop([1, 3, 4], os=0)

20. DataFrame.corr

Želite najti korelacijo med celimi ali plavajočimi stolpci? pande vam lahko pomagajo doseči to z uporabo corr() funkcija:

DataFrame.corr()

Zgornja koda vrne nov DataFrame, ki vsebuje korelacijsko zaporedje med vsemi celimi ali plavajočimi stolpci.

21. DataFrame.add

The dodaj() funkcija vam omogoča, da vsaki vrednosti v DataFrame dodate določeno številko. Deluje tako, da se ponavlja skozi DataFrame in deluje na vsakem elementu.

Povezano:Kako uporabljati zanke For v Pythonu

Če želite na primer vsaki vrednosti v določenem stolpcu, ki vsebuje cela števila ali plavajoče vrednosti, dodati 20:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Tako kot funkcija seštevanja lahko od vsake vrednosti v podatkovnem okviru ali določenem stolpcu odštejete število:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

To je različica množenja funkcije seštevanja pand:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Podobno lahko razdelite vsako podatkovno točko v stolpcu ali podatkovnem okviru z določeno številko:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Uporabljati std() Funkcija pandas vam omogoča tudi izračun standardnega odklona za vsak stolpec v DataFrame. Deluje tako, da se ponavlja skozi vsak stolpec v naboru podatkov in izračuna standardni odklon za vsakega:

DataFrame.std()

26. DataFrame.sort_values

Vrednosti lahko razvrstite tudi naraščajoče ali padajoče glede na določen stolpec. Če želite razvrstiti DataFrame v padajočem vrstnem redu, na primer:

newDataFrame = DataFrame.sort_values ​​(po = "colmun_name", padajoče = True)

27. DataFrame.melt

The stopiti () funkcija v pandah obrne stolpce v DataFrame na posamezne vrstice. To je kot razkrivanje anatomije podatkovnega okvirja. Tako vam omogoča izrecno ogled vrednosti, dodeljene vsakemu stolpcu.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Ta funkcija vrne skupno število elementov v vsakem stolpcu:

DataFrame.count()

29. DataFrame.query

pande' poizvedba() omogoča klicanje predmetov z uporabo njihove indeksne številke. Če želite dobiti elemente v tretji vrstici, na primer:

DataFrame.query('4') # Pokličite poizvedbo na četrtem indeksu

30. DataFrame.where

The kje() funkcija je poizvedba pandas, ki sprejme pogoj za pridobivanje določenih vrednosti v stolpcu. Na primer, da bi dobili vse starosti, mlajše od 30 let, od an starost stolpec:

DataFrame.where (DataFrame['Age'] < 30)

Zgornja koda izpiše DataFrame, ki vsebuje vse starosti, mlajše od 30 let, vendar dodeli Nan na vrstice, ki ne izpolnjujejo pogoja.

S pandami ravnajte s podatki kot profesionalec

pandas je zakladnica funkcij in metod za obdelavo majhnih do velikih podatkovnih nizov s Pythonom. Knjižnica je prav tako uporabna za čiščenje, potrjevanje in pripravo podatkov za analizo ali strojno učenje.

Če si vzamete čas, da ga obvladate, vam zagotovo olajša življenje podatkovnega znanstvenika in je vredno truda. Zato vas prosimo, da izberete vse funkcije, ki jih lahko upravljate.

20 funkcij Pythona, ki jih morate poznati

Standardna knjižnica Python vsebuje številne funkcije za pomoč pri programskih opravilih. Spoznajte najbolj uporabne in ustvarite robustnejšo kodo.

Preberite Naprej

DelitiTweetE-naslov
Povezane teme
  • Programiranje
  • Python
  • Programiranje
  • bazo podatkov
O avtorju
Idowu Omisola (Objavljenih 123 člankov)

Idowu je navdušen nad vsemi pametnimi tehnologijami in produktivnostjo. V prostem času se igra s kodiranjem in, ko mu je dolgčas, preklopi na šahovnico, rad pa se občasno odmakne od rutine. Njegova strast, da ljudem pokaže pot okoli sodobne tehnologije, ga motivira, da piše več.

Več od Idowu Omisola

Naročite se na naše novice

Pridružite se našemu glasilu za tehnične nasvete, ocene, brezplačne e-knjige in ekskluzivne ponudbe!

Kliknite tukaj, da se naročite