Knjižnica pandas omogoča enostavno vožnjo z znanostjo o podatkih, ki temelji na pythonu. To je priljubljena knjižnica Python za branje, združevanje, razvrščanje, čiščenje podatkov in še več. Čeprav je pandas enostavna za uporabo in uporabo na nizih podatkov, ima veliko funkcij za manipulacijo podatkov, ki se jih je treba naučiti.
Morda uporabljate pande, vendar obstaja velika verjetnost, da jih premalo izkoriščate za reševanje težav, povezanih s podatki. Tukaj je naš seznam dragocenih funkcij pand za manipulacijo podatkov, ki bi jih moral poznati vsak podatkovni znanstvenik.
Namestite pande v svoje virtualno okolje
Preden nadaljujemo, se prepričajte, da ste namestili pande v svoje virtualno okolje s pomočjo pip:
pip install pandas
Po namestitvi uvozite pande na vrhu vašega skripta in nadaljujmo.
1. pande. DataFrame
Uporabljaš pande. DataFrame() da ustvarite DataFrame v pandah. Obstajata dva načina za uporabo te funkcije.
DataFrame lahko oblikujete po stolpcu tako, da vnesete slovar v pande. DataFrame() funkcijo. Tukaj je vsak ključ stolpec, vrednosti pa vrstice:
uvozi pande
Podatkovni okvir = pande. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
tiskanje (podatkovni okvir)
Druga metoda je oblikovanje podatkovnega okvirja po vrsticah. Toda tukaj boste ločili vrednosti (postavke vrstic) od stolpcev. Število podatkov na vsakem seznamu (podatki vrstice) se mora ujemati tudi s številom stolpcev.
uvozi pande
Podatkovni okvir = pande. Podatkovni okvir([[1, 4, 5], [7, 19, 13]], stolpci= ["J", "K", "L"])
tiskanje (podatkovni okvir)
2. Branje iz in pisanje v Excel ali CSV v pandah
S pandami lahko berete ali pišete v datoteke Excel ali CSV.
Branje datotek Excel ali CSV
Za branje Excelove datoteke:
#Zamenjajte example.xlsx s potjo vaše Excelove datoteke
DataFrame = DataFrame.read_excel("example.xlsx")
Takole lahko preberete datoteko CSV:
#Zamenjajte example.csv s potjo datoteke CSV
DataFrame = DataFrame.read_csv("example.csv")
Pisanje v Excel ali CSV
Pisanje v Excel ali CSV je dobro znana operacija pand. Priročno je tudi za shranjevanje na novo izračunanih tabel v ločene podatkovne liste.
Za pisanje na Excelov list:
DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")
Če želite pisati v CSV:
DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")
Z uporabo pandas lahko izračunate tudi osrednje težnje vsakega stolpca v DataFrame.
Tako dobite srednjo vrednost vsakega stolpca:
DataFrame.mean()
Za vrednost mediane ali načina zamenjajte pomeni() z mediana () oz način ().
4. DataFrame.transform
pande' DataFrame.transform() spremeni vrednosti DataFrame. Sprejema funkcijo kot argument.
Na primer, spodnja koda pomnoži vsako vrednost v DataFrame s tri z uporabo Pythonova lambda funkcija:
DataFrame = DataFrame.transform (lambda y: y*3)
tiskanje (podatkovni okvir)
5. DataFrame.isnull
Ta funkcija vrne logično vrednost in označi vse vrstice, ki vsebujejo ničelne vrednosti, kot Prav:
DataFrame.isnull()
Rezultat zgornje kode je lahko težko prebrati za večje nabore podatkov. Torej lahko uporabite isnull().sum() namesto tega funkcija. To vrne povzetek vseh manjkajočih vrednosti za vsak stolpec:
DataFrame.isnull().sum()
6. Dataframe.info
The info() funkcija je bistveno delovanje pand. Namesto tega vrne povzetek nemanjkajočih vrednosti za vsak stolpec:
DataFrame.info()
7. DataFrame.describe
The opiši () funkcija vam daje zbirno statistiko podatkovnega okvirja:
DataFrame.describe()
8. DataFrame.replace
Uporabljati DataFrame.replace() metode v pandah, lahko zamenjate izbrane vrstice z drugimi vrednostmi.
Na primer, če želite zamenjati neveljavne vrstice z Nan:
# Prepričajte se, da ste pip install numpy, da bo to delovalo
uvozi numpy
uvozi pande
# Če dodate ključno besedo inplace in jo nastavite na True, postanejo spremembe trajne:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
tiskanje (podatkovni okvir)
9. DataFrame.fillna
Ta funkcija vam omogoča, da prazne vrstice zapolnite z določeno vrednostjo. Vse lahko napolnite Nan vrstice v naboru podatkov s srednjo vrednostjo, na primer:
DataFrame.fillna (df.mean(), inplace = True)
tiskanje (podatkovni okvir)
Lahko ste tudi specifični za stolpec:
DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
tiskanje (podatkovni okvir)
10. DataFrame.dropna
The dropna() metoda odstrani vse vrstice, ki vsebujejo ničelne vrednosti:
DataFrame.dropna (inplace = True)
tiskanje (podatkovni okvir)
11. DataFrame.insert
Lahko uporabite pande' vstavi() funkcijo za dodajanje novega stolpca v DataFrame. Sprejema tri ključne besede, ime stolpca, seznam njegovih podatkov in svoje lokacija, ki je indeks stolpca.
To deluje tako:
DataFrame.insert (stolpec = 'C', vrednost = [3, 4, 6, 7], loc=0)
tiskanje (podatkovni okvir)
Zgornja koda vstavi nov stolpec v indeks nič stolpca (postane prvi stolpec).
12. DataFrame.loc
Lahko uporabiš lok za iskanje elementov v določenem indeksu. Če si želite ogledati vse elemente v tretji vrstici, na primer:
DataFrame.loc[2]
13. DataFrame.pop
Ta funkcija vam omogoča, da odstranite določen stolpec iz pandas DataFrame.
Sprejema a predmet ključno besedo, vrne pojavni stolpec in ga loči od preostalega podatkovnega okvirja:
DataFrame.pop (item= 'column_name')
tiskanje (podatkovni okvir)
14. DataFrame.max, min
Pridobivanje največjih in najmanjših vrednosti z uporabo pand je enostavno:
DataFrame.min()
Zgornja koda vrne najmanjšo vrednost za vsak stolpec. Če želite doseči maksimum, zamenjajte min z maks.
15. DataFrame.join
The pridruži se () funkcija pandas vam omogoča spajanje podatkovnih okvirjev z različnimi imeni stolpcev. Uporabite lahko levi, desni, notranji ali zunanji spoj. Če želite levo pridružiti DataFrameu z dvema drugima:
#Levo združi daljše stolpce s krajšimi
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
tiskanje (novDataFrame)
Če želite združiti DataFrames s podobnimi imeni stolpcev, jih lahko ločite tako, da vključite pripono na levo ali desno. To storite tako, da vključite lpripona oz rsuffix ključna beseda:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
tiskanje (novDataFrame)
16. DataFrame.combine
The združi () funkcija je priročna za združitev dveh podatkovnih okvirjev, ki vsebujeta podobna imena stolpcev na podlagi nastavljenih kriterijev. Sprejema a funkcijo ključno besedo.
Če želite na primer združiti dva podatkovna okvirja s podobnimi imeni stolpcev samo na podlagi največjih vrednosti:
newDataFrame = df.combine (df2, numpy.minimum)
tiskanje (novDataFrame)
Opomba: Določite lahko tudi funkcijo izbire po meri in vstavite numpy.minimum.
17. DataFrame.astype
The astype() funkcija spremeni vrsto podatkov določenega stolpca ali okvirja podatkov.
Če želite na primer spremeniti vse vrednosti v DataFrame v niz:
DataFrame.astype (str)
18. DataFrame.sum
The vsota () funkcija v pandah vrne vsoto vrednosti v vsakem stolpcu:
DataFrame.sum()
Najdete lahko tudi skupno vsoto vseh uporabljenih elementov cumsum():
DataFrame.cumsum()
19. DataFrame.drop
pande' spusti () funkcija izbriše določene vrstice ali stolpce v podatkovnem okviru. Za uporabo morate navesti imena stolpcev ali indeks vrstice in os.
Če želite odstraniti določene stolpce, na primer:
df.drop (stolpci=['stolpec1', 'stolpec2'], os=0)
Če želite na primer spustiti vrstice na indekse 1, 3 in 4:
df.drop([1, 3, 4], os=0)
20. DataFrame.corr
Želite najti korelacijo med celimi ali plavajočimi stolpci? pande vam lahko pomagajo doseči to z uporabo corr() funkcija:
DataFrame.corr()
Zgornja koda vrne nov DataFrame, ki vsebuje korelacijsko zaporedje med vsemi celimi ali plavajočimi stolpci.
21. DataFrame.add
The dodaj() funkcija vam omogoča, da vsaki vrednosti v DataFrame dodate določeno številko. Deluje tako, da se ponavlja skozi DataFrame in deluje na vsakem elementu.
Povezano:Kako uporabljati zanke For v Pythonu
Če želite na primer vsaki vrednosti v določenem stolpcu, ki vsebuje cela števila ali plavajoče vrednosti, dodati 20:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
Tako kot funkcija seštevanja lahko od vsake vrednosti v podatkovnem okviru ali določenem stolpcu odštejete število:
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
To je različica množenja funkcije seštevanja pand:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
Podobno lahko razdelite vsako podatkovno točko v stolpcu ali podatkovnem okviru z določeno številko:
DataFrame['interger_column'].div (20)
25. DataFrame.std
Uporabljati std() Funkcija pandas vam omogoča tudi izračun standardnega odklona za vsak stolpec v DataFrame. Deluje tako, da se ponavlja skozi vsak stolpec v naboru podatkov in izračuna standardni odklon za vsakega:
DataFrame.std()
26. DataFrame.sort_values
Vrednosti lahko razvrstite tudi naraščajoče ali padajoče glede na določen stolpec. Če želite razvrstiti DataFrame v padajočem vrstnem redu, na primer:
newDataFrame = DataFrame.sort_values (po = "colmun_name", padajoče = True)
27. DataFrame.melt
The stopiti () funkcija v pandah obrne stolpce v DataFrame na posamezne vrstice. To je kot razkrivanje anatomije podatkovnega okvirja. Tako vam omogoča izrecno ogled vrednosti, dodeljene vsakemu stolpcu.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Ta funkcija vrne skupno število elementov v vsakem stolpcu:
DataFrame.count()
29. DataFrame.query
pande' poizvedba() omogoča klicanje predmetov z uporabo njihove indeksne številke. Če želite dobiti elemente v tretji vrstici, na primer:
DataFrame.query('4') # Pokličite poizvedbo na četrtem indeksu
30. DataFrame.where
The kje() funkcija je poizvedba pandas, ki sprejme pogoj za pridobivanje določenih vrednosti v stolpcu. Na primer, da bi dobili vse starosti, mlajše od 30 let, od an starost stolpec:
DataFrame.where (DataFrame['Age'] < 30)
Zgornja koda izpiše DataFrame, ki vsebuje vse starosti, mlajše od 30 let, vendar dodeli Nan na vrstice, ki ne izpolnjujejo pogoja.
S pandami ravnajte s podatki kot profesionalec
pandas je zakladnica funkcij in metod za obdelavo majhnih do velikih podatkovnih nizov s Pythonom. Knjižnica je prav tako uporabna za čiščenje, potrjevanje in pripravo podatkov za analizo ali strojno učenje.
Če si vzamete čas, da ga obvladate, vam zagotovo olajša življenje podatkovnega znanstvenika in je vredno truda. Zato vas prosimo, da izberete vse funkcije, ki jih lahko upravljate.
Standardna knjižnica Python vsebuje številne funkcije za pomoč pri programskih opravilih. Spoznajte najbolj uporabne in ustvarite robustnejšo kodo.
Preberite Naprej
- Programiranje
- Python
- Programiranje
- bazo podatkov

Idowu je navdušen nad vsemi pametnimi tehnologijami in produktivnostjo. V prostem času se igra s kodiranjem in, ko mu je dolgčas, preklopi na šahovnico, rad pa se občasno odmakne od rutine. Njegova strast, da ljudem pokaže pot okoli sodobne tehnologije, ga motivira, da piše več.
Naročite se na naše novice
Pridružite se našemu glasilu za tehnične nasvete, ocene, brezplačne e-knjige in ekskluzivne ponudbe!
Kliknite tukaj, da se naročite