Vas skrbi klepetalni roboti z umetno inteligenco, ki brskajo po vsebini vašega spletnega mesta? Na srečo jim lahko to preprečite. Evo kako.

Trenutno imajo klepetalni roboti z umetno inteligenco brezplačno licenco za strganje vašega spletnega mesta in uporabo njegove vsebine brez vašega dovoljenja. Vas skrbi, da bi taka orodja postrgala vašo vsebino?

Dobra novica je, da lahko orodjem AI preprečite dostop do vašega spletnega mesta, vendar obstaja nekaj opozoril. Tukaj vam pokažemo, kako blokirate bote z uporabo datoteke robots.txt za vaše spletno mesto, ter prednosti in slabosti tega početja.

Kako AI Chatboti dostopajo do vaše spletne vsebine?

Klepetalni roboti z umetno inteligenco se usposabljajo z uporabo več naborov podatkov, od katerih so nekateri odprtokodni in javno dostopni. Na primer, GPT3 je bil usposobljen z uporabo petih nizov podatkov, glede na raziskovalni članek, ki ga je objavil OpenAI:

  1. Common Crawl (60 % teže pri treningu)
  2. WebText2 (22 % teže v treningu)
  3. Knjige1 (8% teže v treningu)
  4. Knjige2 (8% teže v treningu)
  5. Wikipedia (3 % teže pri treningu)
instagram viewer

Common Crawl vključuje petabajte (na tisoče TB) podatkov s spletnih mest, zbranih od leta 2008, podobno kot Googlov iskalni algoritem išče spletno vsebino. WebText2 je nabor podatkov, ki ga je ustvaril OpenAI in vsebuje približno 45 milijonov spletnih strani, povezanih z objavami na Redditu z vsaj tremi glasovi za.

Torej v primeru ChatGPT bot z umetno inteligenco ne dostopa in ne pajka neposredno po vaših spletnih straneh – tako ali tako še ne. Čeprav je OpenAI napoved spletnega brskalnika, ki ga gosti ChatGPT je izrazil zaskrbljenost, da bi se to lahko spremenilo.

Medtem bi morali lastniki spletnih mest paziti na druge klepetalne robote z umetno inteligenco, saj jih je na trgu vse več. Bard je drugo veliko ime na tem področju, o katerem je zelo malo znanega nabore podatkov, ki se uporabljajo za njegovo usposabljanje. Očitno vemo, da Googlovi iskalni roboti nenehno brskajo po spletnih straneh, vendar to ne pomeni nujno, da ima Bard dostop do istih podatkov.

Zakaj so nekateri lastniki spletnih mest zaskrbljeni?

Največja skrb za lastnike spletnih mest je, da roboti z umetno inteligenco, kot so ChatGPT, Bard in Bing Chat, razvrednotijo ​​njihovo vsebino. Boti z umetno inteligenco uporabljajo obstoječo vsebino za ustvarjanje svojih odgovorov, hkrati pa zmanjšajo potrebo uporabnikov po dostopu do izvirnega vira. Namesto da uporabniki obiščejo spletna mesta za dostop do informacij, lahko preprosto pridobijo Google ali Bing, da ustvarita povzetek informacij, ki jih potrebujejo.

Ko gre za klepetalne robote z umetno inteligenco pri iskanju, je velika skrb lastnikov spletnih mest izguba prometa. V primeru Barda, AI bot redko vključuje citate v svoje generativne odgovore, ki uporabnikom sporoča, s katerih strani dobi podatke.

Torej, razen zamenjave obiskov spletnega mesta z odzivi AI, Bard odstrani skoraj vse možnosti, da bi izvorno spletno mesto prejelo promet – tudi če uporabnik želi več informacij. Bing Chat se na drugi strani pogosteje povezuje z viri informacij.

Z drugimi besedami, trenutna flota generativnih orodij AI je z uporabo dela ustvarjalcev vsebine sistematično nadomestiti potrebo po ustvarjalcih vsebin. Navsezadnje morate vprašati kakšno spodbudo to pusti lastnikom spletnih mest za nadaljevanje objavljanja vsebine. In v nadaljevanju, kaj se zgodi z roboti AI, ko spletna mesta prenehajo objavljati vsebino, od katere se zanašajo, da delujejo?

Kako blokirati bote z umetno inteligenco na vašem spletnem mestu

Če ne želite, da roboti z umetno inteligenco uporabljajo vašo spletno vsebino, jim lahko preprečite dostop do vašega spletnega mesta z uporabo robots.txt mapa. Na žalost morate blokirati vsakega posameznega bota in ga določiti z imenom.

Na primer, bot Common Crawl se imenuje CCBot in ga lahko blokirate tako, da v datoteko robots.txt dodate to kodo:

Uporabniški agent: CCBot
Disallow: /

S tem bo Common Crawl v prihodnje blokiral pajkanje vašega spletnega mesta, vendar ne bo odstranil nobenih podatkov, ki so bili že zbrani pri prejšnjih pajkanjih.

Če vas skrbi, da novi vtičniki ChatGPT dostopajo do vaše spletne vsebine, je OpenAI že objavil navodila za blokiranje njegovega bota. V tem primeru se bot ChatGPT imenuje ChatGPT-User in ga lahko blokirate tako, da v datoteko robots.txt dodate to kodo:

Uporabniški agent: ChatGPT-User
Disallow: /

Popolnoma druga težava pa je blokiranje botov z umetno inteligenco iskalnikov pri iskanju vsebine. Ker je Google zelo skrivnosten glede podatkov o usposabljanju, ki jih uporablja, je nemogoče ugotoviti, katere robote boste morali blokirati in ali bodo sploh upoštevali ukaze v vašem robots.txt datoteko (mnogi pajki tega ne storijo).

Kako učinkovita je ta metoda?

Blokiranje botov AI v vašem robots.txt je najučinkovitejša metoda, ki je trenutno na voljo, vendar ni posebej zanesljiva.

Prva težava je, da morate določiti vsakega bota, ki ga želite blokirati, toda kdo lahko sledi vsakemu botu AI, ki pride na trg? Naslednja težava je, da ukazi v vašem robots.txt datoteka so neobvezna navodila. Medtem ko Common Crawl, ChatGPT in mnogi drugi roboti spoštujejo te ukaze, jih veliko robotov ne.

Drugo veliko opozorilo je, da lahko robote z umetno inteligenco blokirate samo pri izvajanju prihodnjih pajkov. Ne morete odstraniti podatkov iz prejšnjih iskanj po vsebini ali poslati zahtev podjetjem, kot je OpenAI, da izbrišejo vse vaše podatke.

Na žalost ni preprostega načina, da vsem robotom z umetno inteligenco preprečite dostop do vašega spletnega mesta, ročno blokiranje vsakega posameznega robota pa je skoraj nemogoče. Tudi če ste v koraku z najnovejšimi roboti AI, ki gostujejo po spletu, ni nobenega zagotovila, da se bodo vsi držali ukazov v vašem robots.txt mapa.

Pravo vprašanje tukaj je, ali so rezultati vredni truda, in kratek odgovor je (skoraj zagotovo) ne.

Blokiranje botov z umetno inteligenco na vašem spletnem mestu ima tudi možne slabosti. Predvsem pa ne boste mogli zbrati pomembnih podatkov, da bi dokazali, ali orodja, kot je Bard, koristijo ali škodijo vaši strategiji iskalnega trženja.

Da, domnevate lahko, da je pomanjkanje citatov škodljivo, vendar samo ugibate, ali vam primanjkuje podatkov, ker ste robotom z umetno inteligenco preprečili dostop do vaše vsebine. Podobna zgodba je bila, ko je Google prvič predstavil predstavljeni izrezki iskanje.

Za ustrezne poizvedbe Google prikaže delček vsebine s spletnih strani na strani z rezultati in odgovori na uporabnikovo vprašanje. To pomeni, da uporabnikom ni treba klikniti na spletno stran, da bi dobili odgovor, ki ga iščejo. To je povzročilo paniko med lastniki spletnih mest in strokovnjaki za SEO, ki se zanašajo na ustvarjanje prometa iz iskalnih poizvedb.

Vendar pa so vrste poizvedb, ki sprožijo predstavljene izrezke, običajno iskanja nizke vrednosti, kot je »kaj je X« ali »kakšno je vreme v New Yorku«. Kdor želi poglobljene informacije ali izčrpno vremensko poročilo, bo še vedno kliknil, tisti, ki pa tega ne želijo, sploh niso bili nikoli tako dragoceni.

Morda boste ugotovili, da je podobna zgodba z generativnimi orodji AI, vendar boste potrebovali podatke, da to dokažete.

Ne hitite v nič

Lastniki spletnih mest in založniki so razumljivo zaskrbljeni zaradi tehnologije umetne inteligence in razočarani nad idejo, da roboti uporabljajo njihovo vsebino za ustvarjanje takojšnjih odzivov. Vendar to ni čas za hitenje v protiofenzivo. Tehnologija AI je hitro razvijajoče se področje in stvari se bodo še naprej hitro razvijale. Izkoristite to priložnost, da vidite, kako se stvari odvijajo, in analizirajte morebitne grožnje in priložnosti, ki jih umetna inteligenca prinaša na mizo.

Trenutni sistem zanašanja na delo ustvarjalcev vsebine, ki jih nadomesti, ni vzdržen. Ne glede na to, ali podjetja, kot sta Google in OpenAI, spremenijo svoj pristop ali vlade uvedejo nove predpise, je treba nekaj dati. Hkrati postajajo vse bolj očitne negativne posledice klepetalnih robotov z umetno inteligenco na ustvarjanje vsebin, kar lahko lastniki spletnih mest in ustvarjalci vsebin izkoristijo sebi v prid.