Ali ste vedeli, da je mogoče podatke s spletnega mesta postrgati z Google Preglednicami? Evo, kako lahko to storite.
Spletno strganje je zmogljiva tehnika za pridobivanje informacij s spletnih mest in njihovo samodejno analizo. Čeprav lahko to storite ročno, je to lahko dolgočasno in dolgotrajno opravilo. Orodja za spletno strganje naredijo postopek hitrejši in učinkovitejši, hkrati pa so nižji.
Zanimivo je, da imajo Google Preglednice potencial, da postanejo vaše orodje za spletno izrezovanje na enem mestu, zahvaljujoč funkciji IMPORTXML. Z IMPORTXML lahko preprosto postrgate podatke s spletnih strani in jih uporabite za analizo, poročanje ali katera koli druga opravila, ki temeljijo na podatkih.
Funkcija IMPORTXML v Google Preglednicah
Google Preglednice ponujajo vgrajeno funkcijo, imenovano IMPORTXML, ki vam omogoča uvoz podatkov iz spletnih formatov, kot so XML, HTML, RSS in CSV. Ta funkcija lahko spremeni igro, če želite zbirati podatke s spletnih mest brez uporabe zapletenega kodiranja.
Tukaj je osnovna sintaksa IMPORTXML:
=IMPORTXML(url, xpath_query)
- url: URL spletne strani, s katere želite postrgati podatke.
- xpath_query: poizvedba XPath, ki definira podatke, ki jih želite ekstrahirati.
XPath (XML Path Language) je jezik, ki se uporablja za krmarjenje po dokumentih XML, vključno s HTML, kar vam omogoča, da določite lokacijo podatkov znotraj strukture HTML. Razumevanje poizvedb XPath je bistveno za pravilno uporabo IMPORTXML.
Razumevanje XPath
XPath ponuja različne funkcije in izraze za navigacijo in filtriranje podatkov v dokumentu HTML. Obsežen vodnik po XML in XPath presega obseg tega članka, zato se bomo zadovoljili z nekaterimi bistvenimi pojmi XPath:
- Izbira elementa: Elemente lahko izberete z uporabo / in // za označevanje poti. na primer /html/body/div izbere vse elemente div v telesu dokumenta.
- Izbira atributa: Za izbiro atributov lahko uporabite @. na primer //@href izbere vse href atributi na strani.
- Predikatni filtri: Elemente lahko filtrirate z uporabo predikatov v oglatih oklepajih ([ ]). Na primer, /div[@class="container"] izbere vse div elemente z razredom posoda.
- Funkcije: XPath ponuja različne funkcije, kot npr vsebuje(), začne se z(), in besedilo() za izvajanje določenih dejanj, kot je preverjanje besedilne vsebine ali vrednosti atributov.
Kako ekstrahirati XPath s spletnega mesta
Doslej poznate sintakso IMPORTXML, poznate URL spletnega mesta in veste, kateri element želite izvleči. Kako pa dobite XPath elementa?
Ni vam treba poznati strukture spletnega mesta na pamet, da izvlečete podatke z IMPORTXML. Pravzaprav ima vsak brskalnik čudovito orodje, ki vam omogoča takojšnje kopiranje XPath katerega koli elementa.
Orodje Inspect Element vam omogoča ekstrahiranje XPath iz elementov spletnega mesta. Evo kako:
- Pomaknite se do spletne strani, ki jo želite postrgati, s svojim priljubljenim spletnim brskalnikom.
- Poiščite element, ki ga želite postrgati.
- Desni klik na element.
- Izberite Preglej element iz menija z desnim klikom. Vaš brskalnik bo odprl ploščo, ki prikazuje kodo HTML spletne strani. Ustrezen element HTML bo označen v kodi.
- Na plošči Pregled elementa z desno miškino tipko kliknite označeni element v kodi HTML.
- Kliknite Kopiraj XPath da kopirate naslov XPath elementa v odložišče.
Zdaj, ko imate vse, kar potrebujete, je čas, da vidite IMPORTXML v akciji in postrgate nekaj povezav.
IMPORTXML lahko uporabite za strganje vseh vrst podatkov s spletnih mest. To vključuje povezave, videoposnetke, slike in skoraj vse elemente spletnega mesta. Povezave so eden najvidnejših elementov v spletni analizi in o spletnem mestu se lahko veliko naučite samo z analizo strani, na katere vodi.
IMPORTXML vam omogoča hitro strganje povezav v Google Preglednicah in njihovo nadaljnje analiziranje z različnimi funkcijami, ki jih ponuja Google Preglednice.
Če želite postrgati vse povezave s spletne strani, lahko uporabite naslednjo formulo:
=IMPORTXML(url, "//a/@href")
Ta poizvedba XPath izbere vse href atributi a elemente, ki učinkovito ekstrahirajo vse povezave na strani.
=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a/@href")
Zgornja formula postrga vse povezave v članku Wikipedije.
Dobro je, da URL spletne strani vnesete v ločeno celico in se nato sklicujete na to celico. Tako boste preprečili, da bi vaša formula postala predolga in okorna. Enako lahko storite s poizvedbo XPath.
2. Strganje vseh besedil povezav
Če želite izvleči besedilo povezav skupaj z njihovimi URL-ji, lahko uporabite:
=IMPORTXML(url, "//a")
Ta poizvedba izbere vse elemente, iz rezultatov pa lahko izvlečete besedilo povezave in URL-je.
=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a")
Zgornja formula dobi besedila povezav v istem članku Wikipedije.
Včasih boste morda morali postrgati določene povezave na podlagi meril. Morda vas bo na primer zanimalo pridobivanje povezav, ki vsebujejo določeno ključno besedo, ali povezav, ki se nahajajo v določenem delu strani.
Z ustreznim poznavanjem XPath lahko natančno določite kateri koli element, ki ga iščete.
Če želite postrgati povezave, ki vsebujejo določeno ključno besedo, lahko uporabite funkcijo contains() XPath:
=IMPORTXML(url, "//a[contains(@href, 'keyword')]/@href")
Ta poizvedba izbere atribute href elementov, kjer href vsebuje navedeno ključno besedo.
=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a[contains(@href, 'record')]/@href")
Zgornja formula postrga vse povezave, ki vsebujejo besedni zapis v svojem besedilu znotraj vzorčnega članka Wikipedije.
Če želite postrgati povezave iz določenega odseka strani, lahko določite XPath odseka. Na primer:
=IMPORTXML(url, "//div[@class='section']//a/@href")
Ta poizvedba izbere atribute href elementov znotraj elementov div z razredom "section."
Podobno spodnja formula izbere vse povezave znotraj razreda div, ki imajo razred mw-content-container:
=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//div[@class='mw-content-container']//a/@href")
Treba je omeniti, da lahko IMPORTXML uporabljate za več kot spletno strganje. Družino funkcij IMPORT lahko uporabite za uvozite podatkovne tabele s spletnih mest v Google Preglednice.
Čeprav si Google Preglednice in Excel delijo večino funkcij, je družina funkcij IMPORT edinstvena za Google Preglednice. Za to boste morali razmisliti o drugih metodah uvozite podatke s spletnih mest v Excel.
Poenostavite spletno strganje z Google Preglednicami
Spletno strganje z Google Preglednicami in funkcijo IMPORTXML je vsestranski in dostopen način zbiranja podatkov s spletnih mest.
Če obvladate XPath in razumete, kako ustvariti učinkovite poizvedbe, lahko sprostite polni potencial IMPORTXML in pridobite dragocene vpoglede iz spletnih virov. Torej, začnite strgati in dvignite svojo spletno analizo na višjo raven!