Pomanjkanje podatkov je pogosto večina ovir pri večini projektov na področju znanosti o podatkih. Vedeti, kako zbrati podatke za kateri koli projekt, ki se ga želite lotiti, je pomembna veščina, ki jo morate pridobiti kot podatkovni znanstvenik.

Znanstveniki in inženirji strojnega učenja zdaj uporabljajo sodobne tehnike zbiranja podatkov, da pridobijo več podatkov za algoritme usposabljanja. Če se nameravate lotiti svojega prvega projekta znanosti o podatkih ali strojnega učenja, morate biti sposobni dobiti tudi podatke.

Kako si lahko olajšate postopek? Oglejmo si nekaj sodobnih tehnik, s katerimi lahko zbirate podatke.

Zakaj potrebujete več podatkov za svoj projekt Data Science

Algoritmi strojnega učenja so odvisni od podatkov, da postanejo bolj natančni, natančni in napovedljivi. Ti algoritmi so usposobljeni z uporabo nizov podatkov. Vadbeni postopek je podoben temu, da malčka prvič naučite imena predmeta, nato pa mu omogočite, da ga prepozna, ko ga naslednjič vidi.

Ljudje potrebujejo le nekaj primerov za prepoznavanje novega predmeta. Za stroj to ne velja, saj potrebuje na stotine ali tisoče podobnih primerov, da se predmet seznani.

instagram viewer

Ti primeri ali predmeti za usposabljanje morajo biti v obliki podatkov. Namenski algoritem strojnega učenja nato preide skozi nabor podatkov, ki se imenuje vadbeni niz, in o njem izve več, da postane natančnejši.

To pomeni, da če ne zagotovite dovolj podatkov za urjenje algoritma, na koncu projekta morda ne boste dobili pravega rezultata, ker naprava nima dovolj podatkov, iz katerih bi se lahko učila.

Torej je treba dobiti ustrezne podatke za izboljšanje natančnosti vašega rezultata. Oglejmo si nekaj sodobnih strategij, s katerimi lahko to dosežete spodaj.

1. Strganje podatkov neposredno s spletne strani

Spletno strganje je avtomatiziran način pridobivanja podatkov iz spleta. V svoji najbolj osnovni obliki lahko spletno strganje vključuje kopiranje in lepljenje elementov na spletnem mestu v lokalno datoteko.

Vendar strganje po spletu vključuje tudi pisanje posebnih skriptov ali uporabo namenskih orodij za neposredno strganje podatkov s spletne strani. Lahko vključuje tudi bolj poglobljeno zbiranje podatkov z uporabo Aplikacijski vmesniki za programiranje (API), kot je Serpstack.

Z API-jem Serpstack črpajte uporabne podatke iz rezultatov iskanja

Z API-jem serpstack lahko preprosto poiščete informacije s strani z rezultati Googla in drugih iskalnikov.

Čeprav nekateri verjamejo, da bi strganje po spletu lahko povzročilo izgubo intelektualne lastnine, se to lahko zgodi le, če ljudje to storijo zlonamerno. Spletno strganje je zakonito in podjetjem pomaga pri boljših odločitvah z zbiranjem javnih informacij o svojih strankah in konkurenci.

Sorodno: Kaj je spletno strganje? Kako zbirati podatke s spletnih strani

Lahko na primer napišete skript za zbiranje podatkov iz spletnih trgovin za primerjavo cen in razpoložljivosti. Čeprav je morda nekoliko bolj tehnično, lahko surove medije, kot so zvočne datoteke in slike, zbirate tudi prek spleta.

Oglejte si spodnjo kodo, da si ogledate strganje spleta s Pythonom beautifulsoup4 Knjižnica razčlenjevalnika HTML.

iz bs4 uvozi BeautifulSoup
iz urllib.request uvoz urlopen
url = "Sem vnesite celoten URL ciljne spletne strani"
targetPage = urlopen (url)
htmlReader = targetPage.read (). decode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
tiskanje (webData.get_text ())

Pred zagonom kode boste morali namestiti knjižnico. Ustvarite navidezno okolje iz ukazne vrstice in namestite knjižnico tako, da zaženete pip namestite beautifulsoup4.

2. Preko spletnih obrazcev

Za zbiranje podatkov lahko uporabite tudi spletne obrazce. To je najbolj uporabno, če imate ciljno skupino ljudi, od katerih želite zbirati podatke.

Pomanjkljivost pošiljanja spletnih obrazcev je, da morda ne boste zbrali toliko podatkov, kot želite. To je zelo priročno za majhne projekte s področja znanosti o podatkih ali vadnice, vendar boste morda naleteli na omejitve, ko boste poskušali doseči veliko število anonimnih ljudi.

Čeprav obstajajo plačljive storitve spletnega zbiranja podatkov, jih posamezniki ne priporočajo, saj so večinoma predrage - razen če vas ne moti nekaj denarja za projekt.

Obstajajo različni spletni obrazci za zbiranje podatkov od ljudi. Eden izmed njih so Googlovi obrazci, do katerih lahko dostopate tako, da obiščete forms.google.com. Ti lahko uporabite Google Obrazce za zbiranje kontaktnih podatkov, demografski podatki in drugi osebni podatki.

Ko ustvarite obrazec, vse, kar morate storiti, je, da pošljete povezavo ciljni publiki po pošti, SMS-u ali na kakršen koli razpoložljiv način.

Vendar je Google Obrazci le en primer priljubljenih spletnih obrazcev. Obstaja veliko alternativ, ki opravljajo tudi odlične naloge za zbiranje podatkov.

Podatke lahko zbirate tudi prek družabnih omrežij, kot so Facebook, LinkedIn, Instagram in Twitter. Pridobivanje podatkov iz družabnih medijev je nekoliko bolj tehnično kot katera koli druga metoda. Popolnoma avtomatiziran in vključuje uporabo različnih orodij API.

Iz socialnih medijev je težko pridobiti podatke, saj so razmeroma neorganizirani in jih je ogromno. Ta vrsta nabora podatkov je lahko pravilno uporabna pri projektih na področju znanosti o podatkih, ki vključujejo spletno analizo sentimentov, analizo tržnih trendov in spletno blagovno znamko.

Twitter je na primer primer vira podatkov v družabnih omrežjih, kjer lahko z njim zberete veliko količino naborov podatkov tweepy Paket API Python, ki ga lahko namestite z pip namestite tweepy ukaz.

Za osnovni primer je blok kode za pridobivanje Twitter-jevih tvitov na domači strani videti tako:

uvoz tweepy
uvozi ponovno
myAuth = tweepy. OAuthHandler (sem prilepite ključ_potrošnika, tukaj prilepite ključ_potrošnika)
auth.set_access_token (sem prilepite access_token, tu prilepite access_token_secret)
preverite pristnost = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
za cilje v target_tweet:
tiskanje (targets.text)

Lahko obiščete docs.tweepy.org za dostop do spletnega mesta tweepy dokumentacijo za več podrobnosti o uporabi. Če želite uporabljati Twitterjev API, se morate prijaviti za račun razvijalca, tako da se odpravite na developer.twitter.com Spletna stran.

Facebook je še ena močna platforma za zbiranje podatkov v družabnih omrežjih. Uporablja posebno končno točko API, imenovano Facebook Graph API. Ta API razvijalcem omogoča zbiranje podatkov o vedenju določenih uporabnikov na platformi Facebook. Do dokumentacije API-ja Facebook Graph lahko dostopate na developers.facebook.com če želite izvedeti več o tem.

Podrobna razlaga zbiranja podatkov v družabnih omrežjih z API-jem presega obseg tega članka. Če želite izvedeti več, si oglejte dokumentacijo vsake platforme, kjer najdete poglobljeno znanje o njih.

Poleg pisanja skriptov za povezavo s končno točko API, podatki o družabnih omrežjih, ki zbirajo orodja tretjih oseb, kot so Strokovnjak za strganje na voljo so tudi številni drugi. Vendar ima večina teh spletnih orodij svojo ceno.

4. Zbiranje obstoječih naborov podatkov iz uradnih virov

Že obstoječe nabore podatkov lahko zbirate tudi iz verodostojnih virov. Ta metoda vključuje obisk uradnih bank podatkov in nalaganje preverjenih naborov podatkov iz njih. Za razliko od strganja po spletu in drugih možnosti je ta možnost hitrejša in zahteva malo ali nič tehničnega znanja.

Nabori podatkov o teh vrstah virov so običajno na voljo v oblikah CSV, JSON, HTML ali Excel. Nekaj ​​primerov verodostojnih virov podatkov je Svetovna banka, UNdatain več drugih.

Nekateri viri podatkov lahko trenutne podatke naredijo zasebne, da javnosti preprečijo dostop do njih. Vendar so njihovi arhivi pogosto na voljo za prenos.

Več uradnih virov nabora podatkov za vaš projekt strojnega učenja

Ta seznam vam mora dati dobro izhodišče za pridobivanje različnih vrst podatkov, s katerimi lahko sodelujete pri svojih projektih.

  • Portal odprtih podatkov EU
  • Nabori podatkov Kaggle
  • Iskanje Google Dataset
  • Data Hub
  • Register odprtih podatkov na AWS
  • Evropska vladna agencija - podatki in zemljevidi
  • Microsoft Research Open Data
  • Awesome Public Datasets Repository na GitHub
  • Podatki. Gov: Dom odprtih podatkov ameriške vlade

Obstaja veliko več virov od tega in skrbno iskanje vas bo nagradilo s podatki, ki so kot nalašč za vaše lastne projekte na področju znanosti o podatkih.

Združite te sodobne tehnike za boljše rezultate

Zbiranje podatkov je lahko dolgočasno, če so razpoložljiva orodja za nalogo omejena ali težko razumljiva. Čeprav starejše in običajne metode še vedno dobro delujejo in so jim v nekaterih primerih neizogibne, so sodobne metode hitrejše in zanesljivejše.

Namesto da se zanašamo na eno samo metodo, kombinacija teh sodobnih načinov zbiranja podatkov lahko prinese boljše rezultate.

E-naslov
5 Programska orodja Data Analytics, ki se jih lahko hitro naučite

Bi se radi lotili analitike podatkov? Tu je nekaj orodij, ki bi se jih morali naučiti.

Sorodne teme
  • Programiranje
  • Python
  • Veliki podatki
  • Strojno učenje
  • Zbiranje podatkov
  • Analiza podatkov
O avtorju
Idowu Omisola (45 objavljenih člankov)

Idowu je navdušen nad vsemi pametnimi tehnologijami in produktivnostjo. V prostem času se poigrava s kodiranjem in preklopi na šahovnico, ko mu je dolgčas, a se občasno rad tudi odmakne od rutine. Njegova strast do tega, da ljudem kaže pot okoli sodobne tehnologije, ga spodbuja, da piše več.

Več od Idowu Omisola

Naročite se na naše novice

Pridružite se našemu glasilu za tehnične nasvete, preglede, brezplačne e-knjige in ekskluzivne ponudbe!

Še en korak…!

Potrdite svoj e-poštni naslov v e-poštnem sporočilu, ki smo vam ga pravkar poslali.

.