Uporabite knjižnico PandasAI Python, da izkoristite moč umetne inteligence in velikih jezikovnih modelov za izvajanje nalog analize podatkov.

Pandas je najbolj prevladujoča knjižnica za manipulacijo podatkovnih nizov in podatkovnih okvirov. To je že dolgo norma. Toda z napredkom umetne inteligence je bila razvita nova odprtokodna knjižnica, imenovana PandasAI, ki Pandas dodaja generativne zmogljivosti AI.

PandasAI ne nadomešča Pandas. Namesto tega daje svoje generativne zmogljivosti AI. Na ta način lahko izvedete analizo podatkov s klepetom s PandasAI. Nato povzame, kaj se dogaja v ozadju, in vam ponudi izhod vaše poizvedbe.

Namestitev PandasAI

PandasAI je na voljo prek PyPI (Python Package Index). Ustvarite novo virtualno okolje če uporabljate lokalni IDE. Potem uporabite upravitelja paketov pip da ga namestite.

pip namestite pandasai

Če uporabljate Google Colab, lahko naletite na napako konflikta odvisnosti, podobno tisti, ki je prikazana spodaj.

Ne vrnite različice IPython na nižjo različico. Samo znova zaženite svoje izvajalno okolje in znova zaženite blok kode. To bo rešilo težavo.

Celotna izvorna koda je na voljo v a Repozitorij GitHub.

Razumevanje vzorčnega nabora podatkov

Vzorčni nabor podatkov, s katerim boste upravljali s PandasAI, je nabor podatkov o cenah stanovanj v Kaliforniji podjetja Kaggle. Ta nabor podatkov vsebuje informacije o stanovanjih iz kalifornijskega popisa leta 1990. Ima deset stolpcev, ki zagotavljajo statistične podatke o teh hišah. Podatkovna kartica, ki vam pomaga izvedeti več o tem naboru podatkov, je na voljo na Kaggle. Spodaj je prvih pet vrstic nabora podatkov.

Vsak stolpec predstavlja posamezno statistiko hiše.

Povezovanje PandasAI z velikim jezikovnim modelom

Za povezavo PandasAI z a veliki jezikovni model (LLM) tako kot pri OpenAI, potrebujete dostop do njegovega ključa API. Če ga želite pridobiti, pojdite na OpenAI platforma. Nato se prijavite v svoj račun. Izberite API pod stranjo z možnostmi, ki se prikaže poleg.

Nato kliknite svoj profil in izberite Oglejte si ključe API možnost. Na strani, ki se prikaže naslednji klik Ustvari nov skrivni ključ gumb. Na koncu poimenujte svoj ključ API.

OpenAI bo ustvaril vaš ključ API. Kopirajte ga, saj ga boste potrebovali pri povezovanju PandasAI z OpenAI. Poskrbite, da boste ohranili ključ skrivnost, saj lahko vsak, ki ima dostop do njega, kliče OpenAI v vašem imenu. OpenAI bo nato zaračunal vaš račun za klice.

Zdaj, ko imate ključ API, ustvarite nov skript Python in prilepite spodnjo kodo. Te kode vam ne bo treba spreminjati, saj boste večino časa gradili na njej.

uvoz pande kot pd
od pandasai uvoz PandasAI

# Zamenjajte s svojim naborom podatkov ali podatkovnim okvirom
df = pd.read_csv("/content/housing.csv")

# Instanciirajte LLM
od pandasai.llm.openai uvoz OpenAI
llm = OpenAI(api_token="vaš žeton API")

pandas_ai = PandasAI(llm)

Zgornja koda uvozi PandasAI in Pandas. Nato prebere nabor podatkov. Končno ustvari instanco OpenAI LLM.

Zdaj ste pripravljeni na pogovor s svojimi podatki.

Izvajanje preprostih nalog z uporabo PandasAI

Če želite poizvedovati po svojih podatkih, posredujte svoj podatkovni okvir in svoj poziv instanci razreda PandasAI. Začnite s tiskanjem prvih petih vrstic nabora podatkov.

pandas_ai (df, poziv='Katerih je prvih pet vrstic nabora podatkov?')

Rezultat zgornjega poziva je naslednji:

Ta rezultat je enak tistemu iz prejšnjega pregleda nabora podatkov. To kaže, da PandasAI daje pravilne rezultate in je zanesljiv.

Nato preverite število stolpcev v vašem naboru podatkov.

pandas_ai (df, poziv=»Koliko stolpcev je v naboru podatkov? ')

Vrne 10, kar je pravilno število stolpcev v naboru podatkov California Housing.

Preverjanje, ali v naboru podatkov manjkajo vrednosti.

pandas_ai (df, poziv="Ali v naboru podatkov manjkajo vrednosti?")

PandasAI vrača, da je skupno_spalnic ima 207 manjkajočih vrednosti, kar je spet pravilno.

Obstaja veliko preprostih nalog, ki jih lahko opravite s PandasAI, niste omejeni na zgornje.

Izvajanje zapletenih poizvedb z uporabo PandasAI

PandasAI ne podpira le preprostih nalog. Uporabite ga lahko tudi za izvajanje kompleksnih poizvedb v naboru podatkov. Na primer, če želite v naboru podatkov o stanovanjih določiti število hiš, ki se nahajajo na otok, imajo vrednost več kot 100.000 dolarjev in imajo več kot 10 sob, lahko uporabite poziv spodaj.

pandas_ai (df, poziv= "Koliko hiš ima vrednost večjo od 100000,"
"so na otoku in skupno število spalnic je več kot 10?")

Pravilni rezultat je pet. To je enak rezultat, kot ga daje PandasAI.

Zapletene poizvedbe lahko analitiku podatkov vzamejo nekaj časa za pisanje in odpravljanje napak. Zgornji poziv potrebuje le dve vrstici naravnega jezika za izvedbo iste naloge. V mislih morate imeti točno tisto, kar želite doseči, PandasAI pa bo poskrbel za ostalo.

Risanje grafikonov z uporabo PandasAI

Grafikoni so pomemben del vsakega postopka analize podatkov. Analitikom podatkov pomaga vizualizirati podatke na človeku prijazen način. PandasAI ima tudi funkcijo risanja grafikonov. Samo posredovati morate podatkovni okvir in navodila.

Začnite z ustvarjanjem histograma za vsak stolpec v naboru podatkov. To vam bo pomagalo vizualizirati porazdelitev spremenljivk.

pandas_ai (df, poziv= "Izrišite histogram za vsak stolpec v naboru podatkov")

Rezultat je naslednji:

PandasAI je lahko narisal histogram vseh stolpcev, ne da bi moral posredovati njihova imena v pozivu.

PandasAI lahko tudi izriše grafikone, ne da bi mu izrecno povedali, kateri grafikon naj uporabi. Na primer, morda boste želeli ugotoviti korelacijo podatkov v nizu stanovanjskih podatkov. Če želite to doseči, lahko posredujete poziv na naslednji način:

pandas_ai (df, poziv= "Narišite korelacijo v naboru podatkov")

PandasAI izriše korelacijsko matriko, kot je prikazano spodaj:

Knjižnica izbere toplotni zemljevid in izriše korelacijsko matriko.

Posredovanje več podatkovnih okvirov instanci PandasAI

Delo z več podatkovnimi okviri je lahko težavno. Še posebej za osebo, ki je nova v analizi podatkov. PandasAI premosti to vrzel, saj je vse, kar morate storiti, posredovati oba podatkovna okvira in začeti uporabljati pozive za manipulacijo podatkov.

Ustvarite dva podatkovna okvira z uporabo Pandas.

zaposleni_podatki = {
'EmployeeID': [1, 2, 3, 4, 5],
'Ime': ['Janez', 'Ema', 'Liam', 'Olivia', 'William'],
'Oddelek': ['HR', 'Prodaja', 'IT', "trženje", 'Finance']
}

podatki o plačah = {
'EmployeeID': [1, 2, 3, 4, 5],
'Plača': [5000, 6000, 4500, 7000, 5500]
}

zaposleni_df = pd. DataFrame (podatki_zaposlenih)
plače_df = pd. DataFrame (podatki o plačah)

PandasAI lahko zastavite vprašanje, ki se nanaša na oba podatkovna okvira. Oba podatkovna okvira morate posredovati le instanci PandasAI.

pandas_ai([zaposleni_df, plače_df], "Kateri zaposleni ima največjo plačo?")

Vrača se Olivia kar je spet pravilen odgovor.

Izvajanje analize podatkov še nikoli ni bilo lažje, PandasAI vam omogoča klepet s svojimi podatki in njihovo enostavno analizo.

Razumevanje tehnologije, ki poganja PandasAI

PandasAI poenostavi postopek analize podatkov in s tem prihrani veliko časa analitikom podatkov. Toda abstrahira dogajanje v ozadju. Morate se seznaniti z generativnim AI, da boste lahko imeli pregled nad tem, kako PandasAI deluje pod pokrovom. To vam bo tudi pomagalo slediti najnovejšim inovacijam na področju generativne umetne inteligence.