GPTBot verjetno ni to, kar mislite.

Ključni zaključki

  • OpenAI's GPTBot je spletni pajek, zasnovan za zbiranje podatkov z javnih spletnih mest, ki se nato uporabljajo za usposabljanje in izboljšanje modelov AI, kot sta GPT-4 in ChatGPT.
  • Nekatera največja spletna mesta na internetu blokirajo GPTBot, ker dostopa in uporablja avtorsko zaščiteno vsebino brez dovoljenja ali nadomestila ustvarjalcem.
  • Medtem ko lahko spletna mesta uporabljajo orodja, kot je robots.txt, da poskušajo blokirati GPTBot, ni nobenega zagotovila, da bo OpenAI upošteval zahteve, kar jim bo omogočilo nadzor nad dostopom do avtorsko zaščitenih podatkov.

Avgusta 2023 je OpenAI, elektrarna umetne inteligence, zaslužna za razvoj ChatGPT, objavila GPTBot, spletnega pajka, zasnovanega za prečkanje spleta in zbiranje podatkov.

Kmalu po tej objavi so nekatera največja spletna mesta na internetu botu preprečila dostop do njihovega spletnega mesta. Ampak zakaj? Kaj je OpenAI's GPTBot? Zakaj se ga velika spletna mesta bojijo in zakaj ga poskušajo blokirati?

Kaj je OpenAI's GPTBot?

GPTBot je spletni pajek, ki ga je ustvaril OpenAI za iskanje po internetu in zbiranje informacij za razvojne cilje AI OpenAI. Programiran je za iskanje po javnih spletnih mestih in pošiljanje podatkov nazaj na strežnike OpenAI. OpenAI nato uporabi te podatke za usposabljanje in izboljšanje svojih modelov umetne inteligence, s ciljem zgraditi vedno bolj napredne sisteme umetne inteligence. Za izdelavo prefinjenih modelov AI, kot je GPT-4 ali njegovih podrejenih izdelkov, kot je ChatGPT, so spletni pajki skoraj nepogrešljivi.

Usposabljanje modela AI zahteva ogromno količino podatkov in eden najučinkovitejših načinov za zbiranje teh podatkov je uporaba orodij, kot so spletni pajki. Pajki lahko sistematično brskajo po spletu, sledijo povezavam za indeksiranje velikih količin spletnih strani in ekstrahirajo ključne podatke, kot so besedilo, slike in metapodatki, ki se ujemajo z vnaprej določenim vzorcem.

Te podatke je nato mogoče strukturirati in vnesti v modele umetne inteligence za urjenje njihovih zmožnosti obdelave naravnega jezika ali zmožnosti generiranja slik ali jih usposobiti za druge naloge umetne inteligence. Z drugimi besedami, spletni pajki zbirajo podatke, ki omogočajo orodjem, kot sta ChatGPT ali DALL-E, da počnejo, kar počnejo.

Spletni pajki niso nov koncept. Verjetno jih je na milijone, ki brskajo po milijardah spletnih mest, ki so danes na voljo na internetu. In obstajajo vsaj od zgodnjih 90. let. GPTBot je le eden od takih pajkov v lasti OpenAI. Torej, kaj povzroča polemiko okoli tega posebnega spletnega pajka?

Zakaj velika tehnološka spletna mesta blokirajo GPTBot?

Po navedbah Business Insider, nekatera največja spletna mesta na svojem spletnem mestu aktivno blokirajo pajka OpenAI. Torej, če je končni cilj GPTBot pospešiti razvoj umetne inteligence, zakaj so nekatera največja spletna mesta na internetu, od katerih so nekatera tako ali drugače imela koristi od umetne inteligence, proti temu?

No, tukaj je stvar. Od ponovnega vzpona generativnih tehnologij umetne inteligence leta 2022 potekajo številne razprave o pravici podjetij umetne inteligence do skoraj neomejeno uporabljajo podatke, pridobljene s spleta, katerih velik del je zakonsko zaščiten s strani avtorske pravice. Nobeni jasni zakoni ne urejajo, kako ta podjetja zbirajo in uporabljajo podatke za lastno korist.

Torej v bistvu pajki, kot je GPTBot, brskajo po spletu, grabijo ustvarjalno delo ljudi v obliki besedila, slik ali drugih oblik medijev in jih uporabljati v komercialne namene, ne da bi pridobili kakršno koli dovoljenje, licenco ali nadomestilo za izvirnik ustvarjalci.

Tam zunaj je divji zahod in podjetja z umetno inteligenco grabijo vse, kar jim pride v roke. Velika spletna mesta, kot so Quora, CNN, New York Times, Business Insider in Amazon, niso preveč zadovoljna, da njihova ti pajki zbirajo avtorsko zaščiteno vsebino, zato lahko OpenAI od nje dobi finančno korist strošek.

Zato ta spletna mesta uvajajo "robots.txt", desetletja staro metodo za blokiranje spletnih pajkov. Po navedbah OpenAI, bo GPTBot upošteval navodila za pajkanje ali izogibanje pajkanju spletnih mest na podlagi pravil, vdelanih v robots.txt, majhno besedilno datoteko, ki spletnim pajkom pove, kako naj se obnašajo na spletnem mestu. Če imate svoje spletno mesto in bi radi preprečili, da bi GPTBot prigrabil vaše podatke, lahko pajkom OpenAI preprečite strganje vašega spletnega mesta.

Ali lahko spletna mesta res ustavijo GPTBot?

Čeprav so pajki, kot je GPTBot, nepogrešljivi za zbiranje ogromnih količin podatkov, potrebnih za usposobiti napredne sisteme umetne inteligence, obstajajo utemeljeni pomisleki glede avtorskih pravic in poštene uporabe, ki jih ne more biti prezrti.

Seveda obstajajo preprosta orodja, kot je robots.txt, ki jih je mogoče uporabiti za zaščito pred tem, toda ali bo GPTBot upošteval navodila v tej datoteki, je v celoti prepuščena OpenAI-ju. Nobenih zagotovil ni, da bodo to storili, in ni takojšnjega zanesljivega načina, da bi ugotovili, ali so to storili. V boju, da bi GPTBot preprečili dostop do avtorsko zaščitenih podatkov, ima OpenAI vsaj za zdaj prednost.