Če želite analizirati nabor podatkov, morate najprej razumeti podatke. Včasih morda nimate predznanja o naboru podatkov, kar vam preprečuje, da bi kar najbolje izkoristili nabor podatkov. Kot podatkovni analitik lahko uporabite raziskovalno analizo podatkov (EDA) za pridobitev znanja o svojem naboru podatkov pred poglobljeno analizo.

Raziskovalna analiza podatkov (EDA) preiskuje nabor podatkov, da pridobi pomembne vpoglede. Postopek izvajanja EDA vključuje poizvedovanje po informacijah o strukturi in vsebini nabora podatkov.

Namestitev paketa Gota

Paket Gota je najbolj priljubljen za Analiza podatkov v Go; je kot Paket Python Pandas ampak za Go. Paket Gota vsebuje številne metode za analizo naborov podatkov in branje formatov JSON, CSV in HTML.

Zaženite ta ukaz na vašem terminalu v imeniku, kjer ste inicializirali datoteko modula Go:

pojdi get -u github.com/pojdi-gota/gota

Ukaz bo namestil Goto v lokalni imenik, pripravljen za uvoz paketa za uporabo.

Tako kot Pandas tudi Gota podpira operacije serij in podatkovnih okvirov. V paketu Gota sta dva podpaketa: serija in paket podatkovnega okvira. Uvozite lahko enega ali oba, odvisno od vaših potreb.

instagram viewer

uvoz (
"github.com/pojdi-gota/gota/serija"
"github.com/pojdi-gota/gota/dataframe"
)

Branje nabora podatkov s paketom Gota

Uporabite lahko katero koli datoteko CSV, vendar naslednji primeri prikazujejo rezultate iz nabor podatkov Kaggle, ki vsebuje podatke o cenah prenosnikov.

Gota vam omogoča branje formatov datotek CSV, JSON in HTML za ustvarjanje podatkovnih okvirov z uporabo ReadCSV, Preberi JSON, in ReadHTML metode. Takole naložite datoteko CSV v objekt podatkovnega okvira:

datoteka, napaka := os. Odpri("/pot/do/csv-datoteke.csv")

če napaka!= nič {
fmt. Println("napaka pri odprtju datoteke")
}

dataFrame := podatkovni okvir. Preberi CSV(datoteka)
fmt. Println (dataFrame)

Lahko uporabite Odprto metoda os paket za odpiranje datoteke CSV. Metoda ReadCSV prebere objekt datoteke in vrne objekt podatkovnega okvira.

Ko natisnete ta predmet, je izhod v obliki tabele. Z objektom dataframe lahko dodatno upravljate z različnimi metodami, ki jih ponuja Gota.

Objekt bo natisnil samo nekatere stolpce, če ima nabor podatkov več kot nastavljeno vrednost.

Pridobivanje dimenzije nabora podatkov

Dimenzije podatkovnega okvira so število vrstic in stolpcev, ki jih vsebuje. Te dimenzije lahko pridobite z uporabo Zatemnitve metoda objekta podatkovnega okvira.

var vrstice, stolpci = dataFrame. Dims()

Zamenjajte eno od spremenljivk s podčrtajem, da pridobite samo drugo dimenzijo. Prav tako lahko povprašate po številu vrstic in stolpcev posamično z uporabo Nrow in Ncol metode.

var vrstice = dataFrame. Nrow()
var stolpci = dataFrame. Ncol()

Pridobivanje podatkovnih vrst stolpcev

Če želite analizirati nabor podatkov, boste morali poznati vrste sestavljenih podatkov v stolpcih nabora podatkov. Te lahko pridobite z uporabo Vrste metoda vašega objekta dataframe:

var vrste = dataFrame. Vrste ()
fmt. Println (vrste)

Metoda Types vrne rezino, ki vsebuje podatkovne tipe stolpca:

Pridobivanje imen stolpcev

Za izbiro določenih stolpcev za operacije boste potrebovali imena stolpcev. Lahko uporabite Imena način, kako jih pridobiti.

var columnNames := dataFrame. imena()
fmt. Println (imena stolpcev)

Metoda Names vrne del imen stolpcev.

Preverjanje manjkajočih vrednosti

Morda imate nabor podatkov, ki vsebuje ničelne ali neštevilske vrednosti. Takšne vrednosti lahko preverite z uporabo HasNaN in IsNaN metode serijskega objekta:

aCol := dataFrame. Col("display_size")
var hasNull = aCol. HasNaN()
var niŠtevilka = aCol. IsNaN()

HasNan preveri, ali stolpec vsebuje ničelne elemente. IsNaN vrne rezino logičnih vrednosti, ki predstavljajo, ali je vsaka vrednost v stolpcu število.

Izvajanje deskriptivne statistične analize

Deskriptivna statistična analiza vam pomaga razumeti porazdelitev številskih stolpcev. Uporabljati Opišite metodo, lahko ustvarite deskriptivno statistično analizo svojega nabora podatkov:

opis := podatkovni okvir. Opišite()
fmt. Println (opis)

Metoda Describe vrne metrike, kot so povprečje, standardni odklon in največje vrednosti stolpcev v naboru podatkov. Povzema jih v obliki tabele.

Lahko ste tudi natančni in se osredotočite na stolpce in meritve, tako da izberete določen stolpec in nato poizvedujete za želeno meritev. Najprej bi morali pridobiti niz, ki predstavlja določen stolpec, nato pa uporabiti njegove metode tako:

aCol := dataFrame. Col("display_size")
var povprečje = aCol. Pomeni()
var mediana = aCol. Mediana()
var minimum = aCol. Najmanj ()
var standardni odklon = aCol. StdDev()
var največ = aCol. največ()
var kvantili25 = aCol. kvantil(25.0)

Te metode zrcalijo rezultate deskriptivne statistične analize, ki jo izvaja Describe.

Pridobivanje elementov v stolpcu

Ena od zadnjih nalog, ki jih boste želeli opraviti, je preverjanje vrednosti v stolpcu za splošen pregled. Lahko uporabite Zapisi metoda za ogled vrednosti stolpca.

aCol := dataFrame. Col ("blagovna znamka")
fmt. Println (aCol. Zapisi())

Ta metoda vrne rezino nizov, ki vsebujejo vrednosti v izbranem stolpcu:

Izvoz Gota Dataframe v datoteko

Če se odločite iti dlje in uporabiti paket Gota za popolno analizo podatkov, boste morali podatke shraniti v datoteke. Lahko uporabite Napiši CSV in WriteJSON metode podatkovnega okvira za izvoz datotek. Metode sprejmejo datoteko, ki jo boste ustvarili z uporabo os paketi Ustvari metoda.

Evo, kako lahko izvozite podatkovni okvir s paketom Gota.

dataFrame := podatkovni okvir. Preberi CSV(datoteka)
izhodna datoteka, napaka := os. Ustvari("izhod.csv")

če napaka!= nič {
dnevnik. Usodno (napaka)
}

napaka = dataFrame. WriteCSV(outputFile)

če napaka!= nič {
dnevnik. Fatalln("Prišlo je do napake pri zapisovanju vsebine podatkovnega okvira v datoteko")
}

The dataFrame spremenljivka je predstavitev podatkovnega okvira. Ko uporabljate Ustvari metoda os paket, ustvari novo, prazno datoteko z navedenim imenom in vrne datoteko. Metoda WriteCSV prevzame instanco datoteke in vrne napako oz nič če ni napake.

Raziskovalna analiza podatkov je pomembna

Razumevanje podatkov in naborov podatkov je bistveno za analitike podatkov in strokovnjake za strojno učenje. To je kritična operacija v njihovem delovnem ciklu in raziskovalna analiza podatkov je ena od tehnik, ki jo uporabljajo za dosego tega.

Paket Gota je še več. Uporabite ga lahko za različne funkcije prepiranja podatkov na enak način, kot bi uporabili knjižnico Python Pandas za analizo podatkov. Vendar Gota ne podpira toliko funkcionalnosti kot Pandas.