GPT-4 je tukaj in to so nove funkcije, ki bi jih morali preveriti.

OpenAI je končno predstavil svojo težko pričakovano posodobitev GPT, GPT-4. Large Language Model (LLM) ima nekaj zmogljivih novih funkcij in zmožnosti, ki so že šokirale uporabnike po vsem svetu.

Poleg tega, da je bistveno boljši od GPT-3.5, lahko obstoječi LLM, ki poganja OpenAI-jev virusni klepetalni robot ChatGPT, lahko razume bolj zapletene vnose, ima veliko večjo omejitev vnosa znakov, ima multimodalne zmožnosti in naj bi bil varnejši za uporaba.

1. GPT-4 lahko razume bolj zapletene vnose

Ena največjih novih funkcij GPT-4 je njegova sposobnost razumevanja bolj zapletenih in niansiranih pozivov. Po navedbah OpenAI, GPT-4 "izkazuje uspešnost na človeški ravni pri različnih strokovnih in akademskih merilih."

To je bilo dokazano tako, da je GPT-4 opravil več izpitov na ravni ljudi in standardiziranih testov, kot so SAT, BAR in GRE, brez posebnega usposabljanja. Ne samo, da je GTP-4 razumel in rešil te teste z razmeroma visoko oceno na vseh področjih, ampak je tudi vsakič premagal svojega predhodnika GPT-3.5.

instagram viewer
Avtorstvo slike: OpenAI

K zmožnosti razumevanja bolj niansiranih vnosnih pozivov pomaga tudi dejstvo, da ima GPT-4 veliko večjo omejitev besed. Novi model lahko obravnava pozive za vnos do 25.000 besed (za kontekst je bil GPT-3.5 omejen na 8.000 besed). To bo neposredno vplivalo na podrobnosti, ki jih lahko uporabniki vtisnejo v svoje pozive, s čimer bo model dobil veliko več informacij za delo in ustvaril daljše rezultate.

GPT-4 podpira tudi več kot 26 jezikov, vključno z jeziki z malo sredstev, kot so latvijščina, valižanščina in svahili. Pri primerjanju natančnosti treh strelov na merilu uspešnosti MMLU je GPT-4 premagal GPT-3.5 in druge vodilne LLM-je, kot sta PaLM in Chinchilla, glede zmogljivosti v angleškem jeziku v 24 jezikih.

2. Multimodalne zmogljivosti

Prejšnja različica ChatGPT je bil omejen samo na besedilne pozive. Nasprotno pa je ena od najnovejših funkcij GPT-4 njegova multimodalna zmogljivost. Model lahko sprejme besedilne in slikovne pozive.

To pomeni, da lahko AI sprejme sliko kot vhod ter jo interpretira in razume tako kot besedilni poziv. Ta zmožnost zajema vse velikosti in vrste slik in besedila, vključno z dokumenti, ki združujejo oboje, ročno narisane skice in celo posnetke zaslona.

Vendar zmožnosti branja slik GPT-4 presegajo preprosto interpretacijo slik. OpenAI je to predstavil v svojem toku za razvijalce (zgoraj), kjer je GPT-4 zagotovil ročno narisan model spletnega mesta s šalami. Model je dobil nalogo, da napiše kodo HTML in JavaScript, da bi maketo spremenil v spletno mesto, medtem ko bi šale zamenjal z dejanskimi.

GPT-4 je napisal kodo med uporabo postavitve, navedene v modelu. Po testiranju je koda ustvarila delujoče spletno mesto z, kot lahko ugibate, dejanskimi šalami. Ali to pomeni Napredek AI bo pomenil konec programiranja? Ne povsem, vendar je še vedno funkcija, ki bo prišla prav pri pomoči programerjem.

Čeprav se zdi ta funkcija obetavna, je še vedno v predogledu raziskave in ni javno dostopna. Poleg tega model potrebuje veliko časa za obdelavo vizualnih vnosov, pri čemer OpenAI sam navaja, da bi lahko zahtevalo delo in čas, da postane hitrejši.

3. Večja vodljivost

OpenAI tudi trdi, da ima GPT-4 visoko stopnjo vodljivosti. Prav tako je umetni inteligenci težje zlomiti lik, kar pomeni, da je manj verjetno, da bo odpovedal, ko bo implementiran v aplikaciji za igranje določenega lika.

Razvijalci lahko predpišejo slog in nalogo svojega AI tako, da opišejo smer v sporočilu "sistem". Ta sporočila omogočajo uporabnikom API-ja, da močno prilagodijo uporabniško izkušnjo znotraj določenih meja. Ker so ta sporočila tudi najlažji način za "jailbreak" modela, delajo tudi na tem, da bodo bolj varna. Predstavitev za GPT-4 je to točko zakoličila tako, da je uporabnika prepričala, da poskuša GPT-4 preprečiti, da bi bil sokratski učitelj, in odgovori na njihovo vprašanje. Vendar model ni hotel zlomiti značaja.

4. Varnost

OpenAI je porabil šest mesecev za izdelavo GPT-4 varnejši in bolj usklajeni. Podjetje trdi, da je 82 % manj verjetno, da se bo odzvalo na zahteve po neprimerni ali drugače prepovedani vsebini, 29 % večja verjetnost, da odzivati ​​v skladu s pravilniki OpenAI na občutljive zahteve in 40 % večja verjetnost, da bo ustvaril dejanske odgovore v primerjavi z GPT-3.5.

Ni popoln in še vedno lahko pričakujete, da bo občasno "haluciniral" in se lahko zmoti v svojih napovedih. Seveda ima GPT-4 boljše zaznavanje in moč napovedovanja, a vseeno ne smete slepo zaupati AI.

5. Izboljšave delovanja

Poleg ocenjevanja uspešnosti modela na človeških izpitih je OpenAI bota ocenil tudi na tradicionalnih merilih uspešnosti, zasnovanih za modele strojnega učenja.

Trdi, da GPT-4 "precej prekaša" obstoječe LLM in "najsodobnejše modele." Ta merila uspešnosti vključujejo zgoraj omenjeni MMLU, AI2 Reasoning Challenge (ARC), WinoGrande, HumanEval in Drop, ki vsi testirajo posamezne zmogljivosti.

Podobne rezultate boste našli pri primerjavi uspešnosti na merilih uspešnosti akademskega vida. Testi, ki se izvajajo, vključujejo VQAv2, TextVQA, ChartQA, AI2 Diagram (AI2D), DocVQA, Infographic VQA, TVQA in LSMDC, med katerimi je GPT-4 na vrhu. Vendar pa je OpenAI izjavil, da rezultati GPT-4 v teh testih "ne predstavljajo v celoti obsega njegovih zmogljivosti", saj raziskovalci vedno znova odkrivajo nove in zahtevnejše stvari, s katerimi se lahko spoprime model.

Majhen korak za GPT-4, velikanski skok za AI

Z večjo natančnostjo, varnostjo uporabe in naprednimi zmogljivostmi je bil GPT-4 objavljen v javnosti prek mesečne naročnine ChatGPT+, ki stane 20 na mesec. Poleg tega je OpenAI sodeloval z različnimi organizacijami, da bi z GPT-4 začel graditi izdelke, namenjene potrošnikom. Microsoft Bing, Duolingo, Stripe, Be My Eyes in Khan Academy so med drugim že implementirali GPT-4 v svoje izdelke.

GPT-4 je morda postopna posodobitev v primerjavi z GPT-3.5, vendar je na splošno velika zmaga za AI. Ko bo model postal bolj dostopen tako povprečnemu uporabniku kot razvijalcem prek API-ja, se zdi, da bo predstavljal dober primer za implementacije LLM na različnih področjih.