Velika podatkovna sredstva so neurejena, zlasti če jih morate črpati s spletnih mest, strežnikov ali drugih podatkovnih virov.
Aplikacije, ki temeljijo na uporabniškem vmesniku, kot je MS Excel, so dobre za ravnanje s preprostimi nabori podatkov, vendar imajo težave, ko se podatki povečajo. To je dober razlog, da preidete na Python za izvajanje bolj zapletenih operacij, ki temeljijo na podatkih.
Pythonova knjižnica tretje osebe, Pandas, vam v veliki meri pomaga pri hitrem razvrščanju obstoječih naborov podatkov. Če želite svoje podatke razvrstiti v Pythonu, ta članek obravnava nekaj načinov za dosego te naloge.
Predpogoji za uporabo Pythona za razvrščanje podatkov
Preden razvrstite svoje podatke v Pythonu, morate poskrbeti za nekaj predpogojev:
- Prenesite Python IDE. Uporabite lahko a IDE, združljiv s Pythonom, kot so Jupyter Notebook, PyCharm in Spyder, med drugim. Vsak od teh je združljiv z vsemi različicami Pythona.
- Namestite pande. Potrebovali boste paket pand, ki ga lahko namestite s PIP ali vašo najljubšo metodo.
- Vzorčni niz podatkov. Prenesi a vzorčni nabor podatkov vaditi navedene kode. Druga možnost je, da te postopke uporabite za svoje izključne podatke.
Uvažanje knjižnice Pandas v Python
Pandas je knjižnica Python drugega proizvajalca, ki jo lahko uporabite za obdelavo formatov podatkov Excel, CSV in drugih.
Če želite delati z vzorčno datoteko Excel, začnite z uvozom knjižnice pandas. Po tem boste uporabili postopek uvoza za branje Excelovih podatkov v Python.
Za uvoz knjižnice
uvoz pande kot pd
Ustvarite nov DataFrame za nalaganje Excelovih podatkov
datoteka = "Vzorec - Superstore.xls"
df = pd.read_excel (datoteka)
df.glava()
Kje:
- df je objekt DataFrame, ki shranjuje uvožene podatke.
- pd je vzdevek za knjižnico Pandas.
- read_excel je metoda za branje datoteke Excel v Python.
- mapa je pot do datoteke Excel.
- glavo je metoda, ki vrne prvih pet vrstic iz DataFrame.
Ko vaš program naloži podatke, lahko uporabite številne razpoložljive metode DataFrame, da jih razvrstite na različne načine.
1. Razvrščanje po enem stolpcu v DataFrame
Ker bodo vaši podatki imeli veliko vrstic in stolpcev, boste pogosto želeli podatke razvrstiti na podlagi določenega stolpca ali stolpcev.
Python privzeto razvrsti podatke v naraščajočem vrstnem redu. Če želite spremeniti vrstni red razvrščanja, morate to izrecno navesti v svoji kodi.
Razvrsti po enem stolpcu (naraščajoče)
df.sort_values (po = "identifikacijska številka stranke")
Razvrsti po enem stolpcu (padajoče)
Nastavite naraščajoče parameter za False da razvrstite svoj stolpec v padajočem vrstnem redu.
df.sort_values (po = "identifikacijska številka stranke", naraščajoče=False)
Kje:
- df je objekt DataFrame, ki vsebuje podatke.
- sort_values je metoda za razvrščanje po vrednostih podatkov.
- avtor je parameter za določanje imena stolpca.
- naraščajoče je parameter za določanje vrstnega reda razvrščanja.
2. Razvrščanje več stolpcev v DataFrame
Če to zahtevajo vaše zahteve, lahko svoj DataFrame(-e) razvrstite tudi na podlagi več stolpcev hkrati. V takem scenariju morate definirati sklice na stolpce na seznamu.
Razvrsti po več stolpcih naraščajoče
df.sort_values (by = ["identifikacijska številka stranke", "Mesto"])
Razvrsti po več stolpcih padajoče
Uporabite funkcijo naraščajoče = False da razvrstite svoje stolpce v padajočem vrstnem redu. Ne pozabite, da morate določiti imena stolpcev na seznamu, da jih razvrstite hkrati.
df.sort_values (by = ["identifikacijska številka stranke", "Mesto"], naraščajoče = False)
Razvrščanje po več stolpcih v različnih vrstnih redih
Kaj se zgodi, če želite razvrstiti en stolpec v padajočem vrstnem redu, drugega pa v naraščajočem vrstnem redu, ko smo odpravili osnove razvrščanja? Če želite vključiti te zahteve, morate svojo kodo nekoliko spremeniti.
Na primer, za razvrščanje Regija in Mesto stolpci v padajočem oziroma naraščajočem vrstnem redu:
df.sort_values (by = ["Regija", "Mesto"], naraščajoče = [False, True])
Razlaga te kode je preprosta; določite ime DataFrame in posredujete sort_values deluje skupaj z imeni stolpcev na seznamu. Moral bi uporabiti Boolean vrednosti za določitev vrstnega reda.
Takšen klic funkcije pomeni, da bo Python najprej razvrstil po stolpcu Region DataFrame v padajočem vrstnem redu. Nato bodo vrstice z enako regijo nadalje razvrščene po stolpcu Mesto v naraščajočem vrstnem redu.
3. Kako razvrstiti stolpce v DataFrame po indeksu
Indeksna spremenljivka je privzeta vrednost, dodeljena vsaki vrstici znotraj podatkovnega okvira Python. Vrednosti indeksa lahko določite ali pa pustite Pythonu, da sam nastavi vrednost indeksa.
Če želite podatke razvrstiti po vrednosti indeksa, lahko uporabite sort_index funkcijo. Ta funkcija razvršča na podlagi indeksa in ne na podlagi vrednosti, ki jih vsebuje izvirni nabor podatkov.
df.sort_index()
Tako kot pri sort_values lahko posredujete naraščajoče parameter za določitev smeri razvrščanja. Na primer, posredujte vrednost False za razvrščanje podatkov v padajočem vrstnem redu:
df.sort_index (naraščajoče = False)
4. Razvrščanje stolpcev v DataFrame namesto vrstic
Namesto razvrščanja vrstic v DataFrameu lahko razvrstite njegove stolpce. To lahko storite tako, da pokličete metodo sort_index in ji posredujete os parameter z vrednostjo 1:
df.sort_index (os=1)
Ta korak razvrsti DataFrame po njegovih stolpcih v naraščajočem vrstnem redu. Če želite razvrstiti stolpce DataFrame v padajočem vrstnem redu, lahko določite vrstni red razvrščanja v koraku razvrščanja.
df.sort_index (os=1, naraščajoče = False)
5. Spreminjanje DataFrame med njegovim razvrščanjem
Obe metodi razvrščanja delujeta tako, da vrneta kopijo izvirnih podatkov v na novo razvrščenem stanju. Če želite prihraniti prostor za shranjevanje ali preprosto napisati bolj jedrnato kodo, lahko namesto tega spremenite izvirne podatke DataFrame. Vsaka metoda sprejema na mestu logični parameter, ki spremeni podatke, namesto da vrne spremenjeno kopijo.
df.sort_values (by = ["identifikacijska številka stranke", "Mesto"], naraščajoče = False, inplace = True)
Učenje razvrščanja podatkov v Pythonu
Python posnema številne Excelove vgrajene funkcije z nekaj vrsticami kode. Od postopkov razvrščanja do ustvarjanja izdelanih vrtilnih tabel za vaše podatke, poimenujte jih sami in to lahko storite v Pythonu.
Če ste še novinec v Pythonu in se učite osnov, bodo ti koraki relativno enostavno izboljšali vaše sposobnosti kodiranja.