Oglas
Ko gre za spletne baze podatkov in informacije, ki jih je mogoče najti znotraj tako imenovanega "nevidni splet 12 najboljših iskalnikov za raziskovanje nevidnega spletaGoogle ali Bing ne moreta iskati vsega. Če želite raziskati nevidni splet, morate uporabiti te posebne iskalnike. Preberi več «, nisem vaš tipičen uporabnik. Seveda porabim malo preveč svojega časa za pregledovanje spletnih podatkovnih baz na mestih, kot sta Nacionalni arhiv in branje CIA FOIA sobe, vendar moram reči, da me nič ne navduši bolj kot takrat, ko najdem tabelo, ki temelji na HTML, polno navidez zapletenih in nepovezanih podatkov.
Dejstvo je, da so podatkovne tabele zlati rudnik pomembnih resnic. Podatke pogosto zbirajo vojske zbiralcev podatkov s škornji na tleh. Imate ljudi iz ameriškega popisa, ki potujejo po vsej državi zaradi gospodinjskih in družinskih informacij. Imate neprofitne okoljske skupine, ki zbirajo vse vrste zanimivih informacij o okolju, onesnaževanju, globalnem segrevanju in še več. In če vas zanima paranormalno ali ufologija, so na voljo tudi nenehno posodobljene tabele z informacijami o opazovanjih čudnih predmetov na nebu nad nami.
Ironično bi si mislili, da bi katera koli vlada na svetu zanimala, kakšne vrste tuja plovila so opažena na nebu nad katero koli državo, a očitno ne – vsaj ne v ZDA. vseeno. V Ameriki je bila zbirka nenavadnih opazovanj obrti prenesena v skupine ljubiteljskih ljubiteljev, ki se zgrinjajo na nova opažanja NLP-jev kot molji na plamen. Moje zanimanje za ta opažanja pravzaprav ne izvira iz fascinacije nad vesoljci ali obrti z drugih planetov, temveč iz znanstvene fascinacije z vzorci – kje in zakaj več ljudi vidi stvari na nebu in ali bi ta opažanja lahko odražala nekaj zelo resničnega in veliko bolj prizemnega na.
Za raziskovanje količine podatkov, ki jih zbirajo skupine ljubiteljev NLP, sem dejansko razvil način za uvoz velikih tabel HTML podatke v Googlovo preglednico, nato pa manipulirajte in analizirajte te podatke, da izvlečete in odkrijete smiselne in pomembne informacije. V tem članku vam nameravam pokazati, kako narediti enako.
Pomembni podatki HTML v Googlovo preglednico
V tem primeru vam bom pokazal, kako uvoziti vse podatke, ki so lahko shranjeni v tabeli na katerem koli spletnem mestu v internetu, v vašo Google Preglednico. Pomislite na ogromno količino podatkov, ki so danes na voljo na internetu v obliki tabel HTML. Samo Wikipedija ima podatke v tabelah za teme, kot je globalno segrevanje, Urad za popis prebivalstva ZDA ima na tone naborov podatkov o populaciji, malo googlanja pa vam bo prineslo veliko več.
V mojem primeru začenjam z bazo podatkov v Nacionalnem centru za poročanje o NLP, ki dejansko izgleda, kot da bi lahko bila globoko spletna baza podatkov v slogu poizvedb, vendar če opazite Strukturiranje URL-jev je pravzaprav polkompleksen spletni sistem poročanja, sestavljen iz statičnih spletnih strani in statičnih tabel HTML – točno tisto, kar želimo, ko iščemo podatke uvoz.
NUForc.org je ena tistih organizacij, ki služi kot eno največjih centrov za poročanje o opazovanjih NLP-jev. Ni edini, vendar je dovolj velik, da najde nove nabore podatkov s trenutnimi opažanji za vsak mesec. Izberete si ogled podatkov, razvrščenih po merilih, kot sta država ali datum, in vsak od njih je na voljo v obliki statične strani. Če razvrstite po datumu in nato kliknete najnovejši datum, boste videli, da je tam navedena tabela statična spletna stran, poimenovana glede na obliko datuma.
Tako imamo zdaj vzorec za redno pridobivanje najnovejših informacij o opažanjih iz te baze podatkov, ki temelji na HTML. Vse kar morate storiti je, da uvozite prvo tabelo, uporabite najnovejši vnos (zgornji) za identifikacijo najnovejšo posodobitev, nato pa uporabite datum te objave, da ustvarite povezavo URL, kjer je tabela najnovejših podatkov HTML obstaja. To bo preprosto zahtevalo nekaj primerkov funkcije ImportHTML in nato nekaj kreativnih uporab funkcij za manipulacijo besedila. Ko končate, boste imeli eno svojih najbolj kul, samoposodabljajočih preglednic za poročanje. Začnimo.
Uvažanje tabel in obdelava podatkov
Prvi korak je seveda izdelava nove preglednice.
Torej, kako uvozite tabele HTML? Vse, kar potrebujete, je URL, kjer je shranjena tabela, in številka tabele na strani – običajno je prva navedena 1, druga 2 itd. Ker poznam URL te prve tabele, v kateri so navedeni datumi in število ogledov, je mogoče uvoziti tako, da v celico A1 vnesete naslednjo funkcijo.
=importhtml(“ http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)
H2 ima funkcijo "=ura (zdaj())«, zato se bo tabela posodabljala vsako uro. To je verjetno ekstremno za podatke, ki se to redko posodabljajo, zato bi se verjetno lahko izognil, da bi to delal vsak dan. Kakorkoli že, zgornja funkcija ImportHTML prinaša tabelo, kot je prikazano spodaj.
Na tej strani boste morali opraviti malo manipulacije s podatki, preden boste lahko sestavili URL za drugo tabelo z vsemi opažanji NLP-jev. Toda nadaljujte in ustvarite drugi list v delovnem zvezku.
Preden poskušate sestaviti ta drugi list, je čas, da iz te prve tabele izvlečete datum objave, da ustvarite povezavo do druge tabele. Težava je v tem, da je datum vnesen kot oblika datuma, ne kot niz. Torej, najprej morate uporabiti funkcijo TEXT, da pretvorite datum objave poročila v niz:
=besedilo (A2,”mm/dd/ll”)
V naslednji celici na desni morate uporabiti funkcijo SPLIT z ločilom "/", da razčlenite datum na mesec, dan in leto.
=razdelitev (D2,”/”)
Dobro izgleda! Vendar je treba vsako številko prisiliti na dvomestno. To storite v celicah tik pod njimi z ukazom TEXT znova.
=besedilo (E2,”00″)
Format "00" (to so ničle) prisili dve števki ali "0" kot nadomestno mesto.
Zdaj ste pripravljeni, da obnovite celoten URL v najnovejšo tabelo HTML z novimi opažanji. To lahko storite tako, da uporabite funkcijo CONCATENATE in združite vse bite informacij, ki ste jih pravkar izvlekli iz prve tabele.
= združiti (" http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
Zdaj boste na novem listu, ki ste ga ustvarili zgoraj (prazen list), naredili novo funkcijo "importhtml", vendar tokrat za prvo Parameter povezave URL, tako da se boste pomaknili nazaj na prvo preglednico in kliknili celico s povezavo URL, ki ste jo pravkar ustvarili.
Drugi parameter je "tabela", zadnji pa "1" (ker je tabela opazovanj prva in edina na strani). Pritisnite enter in zdaj ste pravkar uvozili celotno količino opažanj, ki so bila objavljena na ta datum.
Torej, verjetno mislite, da je to lepo dejanje novosti in vse – mislim, navsezadnje je to, kar ste naredili, izvlečeno obstoječe podatke iz tabele v internetu in jih preselili v drugo tabelo, čeprav zasebno v vaših Google Dokumentih račun. Da, to je res. Zdaj, ko je v vašem zasebnem računu za Google Dokumente, imate na dosegu roke orodja in funkcije za boljšo analizo teh podatkov in začetek odkrivanja neverjetnih povezav.
Uporaba vrtilnih poročil za analizo uvoženih podatkov
Pred kratkim sem napisal članek o uporabi Vrtilna poročila v Google Preglednici Čez noč postanite strokovni analitik podatkov z uporabo Googlovih orodij za poročila preglednicAli ste vedeli, da je eno izmed najboljših orodij za analizo podatkov pravzaprav Google Spreadsheet? Razlog za to ni samo zato, ker lahko naredi skoraj vse, kar si morda želite ... Preberi več izvajati vse vrste kul analize podatkov. No, enake neverjetne akrobacije analize podatkov lahko izvajate s podatki, ki ste jih uvozili iz interneta – vam omogoča, da odkrijete zanimive povezave, ki jih verjetno še nihče drug ni odkril ti.
Na primer, iz končne tabele opažanj se lahko odločim za uporabo vrtilnega poročila, da si ogledam število različne edinstvene oblike, o katerih so poročali v vsaki državi, v primerjavi s skupnim številom opazovanj v tej posamezni državi država. Nazadnje v razdelku za komentarje izločim tudi vse, kar omenja »tujce«, da upam, da izločim nekaj bolj krilnih vnosov.
To dejansko razkriva nekaj precej zanimivih stvari, kot je dejstvo, da ima Kalifornija očitno najvišjo število prijavljenih opažanj katere koli druge države, skupaj z razlikovanjem poročanja o največjem številu oblik plovila v država. Prav tako kaže, da so Massachusetts, Florida in Illinois veliki udarci tudi v oddelku za opazovanje NLP (vsaj po najnovejših podatkih).
Druga zanimiva stvar pri Googlovi preglednici je širok nabor grafikonov, ki so vam na voljo, vključno z geografskim zemljevidom, ki vam omogoča razporedite "vroče točke" podatkov v grafični obliki, ki resnično izstopa in naredi te povezave znotraj podatkov precej očitno.
Če dobro pomislite, je to res le vrh ledene gore. Če lahko zdaj uvozite podatke iz podatkovnih tabel na kateri koli strani v internetu, pomislite na možnosti. Pridobite najnovejše zaloge ali najnovejših 10 najboljših knjig in avtorjev na seznamu uspešnic New York Timesa ali najbolj prodajanih avtomobilov na svetu. Obstajajo tabele HTML o skoraj vseh temah, ki si jih lahko zamislite, in v mnogih primerih se te tabele pogosto posodabljajo.
ImportHtml vam omogoča, da svojo Google Preglednico priključite na internet in napajate podatke, ki obstajajo tam zunaj. Lahko postane vaše osebno središče informacij, ki jih lahko uporabite za manipulacijo in masiranje v obliko, s katero lahko dejansko delate. To je samo še ena zelo kul stvar, ki vam je všeč pri Googlovi preglednici.
Ste že kdaj uvozili podatke v svoje preglednice? Kakšne zanimivosti ste odkrili v teh podatkih? Kako ste uporabili podatke? Delite svoje izkušnje in ideje v spodnjem razdelku za komentarje!
Zasluge za slike: Poslovni graf
Ryan je diplomiral iz elektrotehnike. 13 let je delal na področju avtomatizacije, 5 let v IT, zdaj pa je inženir aplikacij. Nekdanji glavni urednik MakeUseOf, je govoril na nacionalnih konferencah o vizualizaciji podatkov in je bil predstavljen na nacionalni televiziji in radiu.