Spletno strganje vključuje zbiranje informacij v obliki podatkov s spletnih strani ali strani. Čeprav vaše morda ni zavestno, ste med zbiranjem informacij tako ali drugače strgali tudi splet. Ampak to je ponavadi subtilno.
Strganje po spletu ali strganje zaslona je praviloma namensko, strokovnjaki pa avtomatizirajo zasnovo, da dobijo ogromne podatke. Ne glede na to, ali ročno kopirajo besedila na spletnem mestu, uporabljajo namenska orodja ali pišejo skripte za strganje po internetu, spletni strgala včasih močno prizadejo spletno mesto z več zahtevami hkrati.
Toda medtem ko številna podjetja zdaj izkoriščajo strganje po spletu za spodbujanje konkurenčne prednosti, je to dejansko zakonito?
Katera spletna mesta bi morali in ne bi smeli postrgati?
Internet je zbirka informacij, ki ljudem omogoča dostop do starih in sprotnih podatkov. Spletanje ali strganje zaslona obstaja že nekaj časa. Koliko pa ga morate uporabljati in katere spletne strani lahko strgate?
Nekatera spletna mesta so stroga s pajki ali strgali za zaslon in jih popolnoma blokirajo. Torej je očitno očitno, da takšnih spletnih mest ne bi smeli strgati. Toda ljudje to še vedno počnejo.
Na žalost takšna spletna mesta skoraj nič ne morejo storiti, da bi to ustavila, razen zakrpa vrzel.
Preden strgate spletno mesto, v idealnem primeru preverite, ali dovoljuje iskanje po vsebini ali ne. Običajno to lahko ugotovite s preverjanjem datoteke robots.txt na spletnem mestu. To lahko storite tako, da vnesete "[URL spletnega mesta] /robots.txt".
Robots.txt običajno nastavi pravila za različne pajke ali uporabniške agente. Vendar se ta pravila razlikujejo glede na spletno mesto. Medtem ko nekatera spletna mesta dovoljujejo pajkanje po vseh straneh, nekatera določajo strani, po katerih bot lahko pajka, nekatera pa naravnost blokirajo pajke.
Spletno mesto, ki vsem uporabniškim agentom preprečuje iskanje po vsebini vseh strani, običajno določa naslednja pravila:
uporabniški agent: *
Dovoli: /
Datoteka robots.txt, ki vsem botom prepreči iskanje po določenih imenikih ali straneh, je običajno videti tako:
uporabniški agent: *
Onemogoči: / URL na 1. stran
Ne dovoli: / URL na stran 2
Če robots.txt ne prepove strani, po kateri želite iskati, jo lahko verjetno strgate. V nasprotnem primeru se umaknite ali poiščite soglasje skrbnika. Lahko vam odobrijo dostop.
Poleg tega nekatera spletna mesta izrecno navajajo, ali dovoljujejo pajkanje ali ne v svojih pogojih uporabe. Nekateri to navajajo tudi na vrhu svoje datoteke robots.txt. Vedno preverite tudi to, da se prepričate, da delate prav.
Kako se zlorablja spletno strganje
Torej, če ste prejeli e-poštna sporočila ali sporočila SMS z spletnih strani ali ljudi, ki jim nikoli niste posredovali svojih osebnih podatkov, ste bili verjetno nekako strgani. In večinoma prek enega od vaših ročajev v družabnih omrežjih.
Kljub temu je strganje spleta včasih več kot zgolj zbiranje podatkov, ki se prikažejo na sprednji strani. Če se uporablja zlonamerno, lahko povzroči uhajanje osebnih in tajnih podatkov.
Medtem ko se večina platform socialnih medijev na to namršča, pajki, ki pajkajo, še vedno dostopajo do profilov ljudi, njihovi kontaktni podatki pa uhajajo in strgajo.
Poročali so, da ima Facebook na primer ranljivosti, ki so v preteklosti prinašale kontaktne podatke uporabnikov, čeprav jih uporabniki ohranjajo zasebne.
Podobno je LinkedIn pred kratkim utrpel varnostno kršitev, ki je povzročila uhajanje osebnih podatkov ki pripadajo več kot 500 milijonom računov. Posledično je ta ranljivost povzročila skupno rabo številnih e-poštnih naslovov in telefonskih številk brez soglasja lastnikov profila.
Ali je nezakonito strganje spletne strani?
Nikoli ni bilo sklepov o zakonitosti strganja po spletu. Namesto tega je poudarek na tem, kako pajek deluje od primera do primera, in kaj za dosego uporabljajo zbrane podatke.
Torej, namesto da bi sklepali o svoji zakonitosti, je strganje, če je to storjeno zlonamerno, nezakonito. Toda če je razumno, to ni nezakonito.
Po pričakovanjih pa se zdi, da obstaja strožja politika o strganju in uporabi podatkov v družabnih omrežjih, saj je zasebnost uporabnikov tako pomembna. Vseeno pa je vse še vedno odvisno od tega, kako ljudje strgajo podatke.
The Blog o pravu na internetu in socialnih medijih je analiziral primer hiQ Labs, podjetja za odstranjevanje podatkov, ki je leta 2019 dobilo tožbo proti LinkedInu, potem ko je poskušalo hiQ Labs preprečiti, da bi strgali javno dostopne podatke uporabnikov LinkedIna.
Ker hiQ Labs trdijo, da Zakon o računalniških prevarah in zlorabah (CFAA) prepoveduje samo nepooblaščen dostop, sodba potrdila, da so bili podatki LinkedIna javno dostopni, zato jih je kdor koli strgal, ker so dostopna.
Poleg tega so hiQ Labs strgane podatke uporabljali samo za zagotavljanje analitičnih rešitev podjetjem - tako da lahko sprejmejo boljše odločitve o zaposlovanju.
Nasprotno, Facebook je pred kratkim tožil razvijalce razširitev za Chrome ki so brez njihovega soglasja strgali profile uporabnikov Facebooka.
Podobno a spletno mesto copycat je tožil Facebook za strganje več informacij o profilu uporabnikov Instagrama in nato njihovo uporabo za ustvarjanje klonov. V skladu s tem poročilom je Facebook nato nadaljeval, da bi dobil trajno sodno odredbo zoper kršitelja.
To je nekaj primerov, ko bi ljudje morda nezakonito uporabljali strganje po spletu. Omenjena podjetja so podatke uporabnikov Facebooka zbirala lažno, brez soglasja njihovih uporabnikov. Kršilo je torej pravilnike o zasebnosti.
Torej, čeprav lahko strganje po spletu frustrira spletno mesto, s katerega pridobiva podatke, trenutno nobeno splošno pravilo ljudem ne preprečuje, da bi dobili, kar hočejo, če le ne kršijo internetnih zakonov.
Je spletno strganje sinonim za vdiranje?
O strganju spleta obstaja nekaj mitov. Eno od teh je prepričanje, da strganje spletnega mesta pomeni, da ste ga vdrli. Čeprav lahko vdiranje sčasoma privede do strganja podatkov, trditev, da izraz sam pomeni vdor v spletno mesto, ni resnična.
Spletno strganje lahko vključuje uporabo namensko orodje za pajkanje ali strganje, Aplikacijski programski vmesniki (API-ji) ali skripti za strganje po spletu za pridobivanje upodobljenih podatkov s spletnega mesta. V nasprotju s hekanjem niti ne ogrozi spletnega mesta, ki ga strga, niti ne moti izkušenj svojih uporabnikov.
Sorodno: Kaj je strganje po spletu? Kako zbirati podatke s spletnih strani
Torej, čeprav vdiranje vključuje nepooblaščen dostop, običajno v bazo podatkov spletnega mesta, spletno strganje cilja samo na podatke, ki so že vidni na sprednjem delu. Čeprav se lahko ljudje strgajo po spletu zlonamerno, to še vedno ni sinonim za vdiranje.
Poleg tega je v nasprotju s strganjem po spletu namerno in neetično vdiranje nezakonito.
Kakšne so prednosti strganja po spletu?
Spletno strganje ima veliko pozitivnih lastnosti in tudi nekatera tehnološka podjetja zdaj ponujajo svoje podatke prek API-jev. Te informacije običajno niso dovolj za oceno poslovnih trendov in sprejemanje odločitev.
Tako podjetja zdaj dobijo več podatkov s strganjem po spletu za izboljšanje praks in spodbujanje prodaje. Poleg tega raziskovalci podatkov algoritme strojnega učenja hranijo s podatki, zbranimi s strganjem zaslona.
Takšni podatki so lahko slike, ki se uporabljajo pri prepoznavanju slik, navadna besedila za analizo sentimenta ali neposredni podatki o izdelkih za analizo tržne inteligence in vedenja potrošnikov.
Sorodno: Edinstveni načini pridobivanja naborov podatkov za vaš projekt strojnega učenja
Tako je strganje po spletu še bolj koristno, ker če imate dostop do informacij, ki jih vaš konkurent nima, jih lahko premagate.
Medtem ko se nekatera spletna mesta namrščijo na spletne strgala, nekaterim, tudi storitvam e-trgovine, ni vseeno, če strgate njihove podatke ali ne. Spletni velikani, kot sta eBay in Salesforce, so svoj API začeli leta 2000 in programerjem prvič ponudili dostop do javnih podatkov.
Bi morali resnično strgati splet?
Ugotovili smo, da strganje po spletu ni nezakonito, če je izvedeno na pravi način. Zaskrbljujoče pa je tudi, kaj počnete s podatki, ki jih strgate. Torej, namesto da bi to zlorabili, uporabite za pridobivanje več spoznanj, ki vam in drugim pomagajo pri sprejemanju premišljenih odločitev.
Vendar vam strganje po spletu kot spretnost omogoča dostop do velikih kosov internetnih podatkov, ki vam ali vašemu podjetju lahko pomagajo ostati nad poslovno nišo. Kot podatkovni znanstvenik celo širi vaš obseg in izboljšuje vaše kodiranje in tehnične spretnosti.
Na primer, Python je eden od programskih jezikov, ki vam pomaga enostavno strgati spletno mesto s svojo knjižnico Beautiful Soup ali ogrodjem Scrapy.
Vas zanima strganje po spletu? Tukaj je opisano, kako s knjižnico Beautiful Soup Python strgate spletno mesto po vsebini in še več.
Preberite Naprej
- Varnost
- Programiranje
- Spletna varnost
- Spletno strganje
Idowu je navdušen nad vsemi pametnimi tehnologijami in produktivnostjo. V prostem času se igra s kodiranjem in preklopi na šahovnico, ko mu je dolgčas, a se občasno rad tudi odmakne od rutine. Njegova strast do tega, da ljudem pokaže pot okoli sodobne tehnologije, ga motivira, da piše več.
Naročite se na naše novice
Pridružite se našemu glasilu za tehnične nasvete, preglede, brezplačne e-knjige in ekskluzivne ponudbe!
Še en korak…!
Potrdite svoj e-poštni naslov v e-poštnem sporočilu, ki smo vam ga pravkar poslali.