Verjetno ste že slišali za GPT OpenAI, vendar to niso edini LLM-ji v bloku.
Ključni zaključki
- OpenAI-jev GPT-4 je najnaprednejši in najpogosteje uporabljen veliki jezikovni model z 1,76 bilijona parametrov in multimodalnimi sposobnostmi.
- Claude 2 podjetja Anthropic tekmuje z GPT-4 pri nalogah kreativnega pisanja in se obdrži, čeprav ima manj sredstev.
- Čeprav Googlov PaLM 2 ni ubijalec GPT-4, je močan jezikovni model z močnimi večjezičnimi in ustvarjalnimi sposobnostmi. Falcon-180B je odprtokodni model, ki tekmuje s komercialnimi velikani in se lahko kosa z GPT-3.5.
Sezona umetne inteligence je in tehnološka podjetja proizvajajo velike jezikovne modele kot kruh iz pekarne. Novi modeli se hitro izdajajo in postaja jim pretežko slediti.
Toda med navalom novih izdaj se je le nekaj modelov povzpelo na vrh in se izkazalo kot pravi tekmeci v velikem prostoru jezikovnih modelov. Ko se bližamo koncu leta 2023, smo sestavili šest najbolj impresivnih velikih jezikovnih modelov, ki bi jih morali preizkusiti.
1. OpenAI GPT-4
GPT-4 je najnaprednejši javno dostopni veliki jezikovni model doslej. Razvil OpenAI in izšel marca 2023, GPT-4 je najnovejša ponovitev v seriji Generative Pre-trained Transformer ki se je začel leta 2018. S svojimi ogromnimi zmogljivostmi je GPT-4 postal eden najbolj razširjenih in najbolj priljubljenih modelov velikih jezikov na svetu.
Čeprav ni uradno potrjeno, viri ocenjujejo, da lahko GPT-4 vsebuje osupljivih 1,76 bilijona parametrov, približno desetkrat več kot njegov predhodnik GPT-3.5 in petkrat večji od Googlovega paradnega konja PaLM 2. Ta ogromen obseg omogoča multimodalne zmožnosti GPT-4, kar mu omogoča obdelavo besedila in slik kot vnosa. Posledično lahko GPT-4 poleg besedila razlaga in opisuje vizualne informacije, kot so diagrami in posnetki zaslona. Njegova multimodalna narava zagotavlja bolj človeško razumevanje podatkov iz resničnega sveta.
V znanstvenih merilih uspešnosti GPT-4 bistveno prekaša druge sodobne modele v različnih testih. Medtem ko samo merila uspešnosti ne pokažejo v celoti prednosti modela, so primeri uporabe v resničnem svetu pokazali, da je GPT-4 izjemno spreten pri intuitivnem reševanju praktičnih problemov. GPT-4 se trenutno zaračunava 20 USD na mesec in dostopen prek paketa ChatGPT Plus.
2. Anthropicov Claude 2
Čeprav ni tako priljubljen kot GPT-4, se lahko Claude 2, ki ga je razvil Anthropic AI, ujema s tehničnimi merili GPT -4 in zmogljivostjo v resničnem svetu na več področjih. Pri nekaterih standardiziranih testih, vključno z izbranimi izpiti, je Claude 2 boljši od GPT-4. Jezikovni model AI ima tudi izjemno boljše kontekstno okno pri približno 100.000 žetonih v primerjavi z modeloma žetonov GPT -4 z 8k in 32k. Čeprav večja dolžina konteksta ne pomeni vedno boljše zmogljivosti, razširjena zmogljivost Claude 2 zagotavlja jasne prednosti, kot je prebava celih knjig s 75.000 besedami za analizo.
V splošni zmogljivosti GPT-4 ostaja boljši, vendar naše interno testiranje kaže, da ga Claude 2 presega v več nalogah kreativnega pisanja. Claude 2 prav tako zaostaja za GPT-4 v spretnostih programiranja in matematike na podlagi naših ocen, vendar se odlikuje po zagotavljanju človeških, ustvarjalnih odgovorov. Ko smo vse modele na tem seznamu pozvali, naj napišejo ali prepišejo kreativno delo, šestkrat od desetih, smo izbrali rezultat Claude 2 zaradi njegovih naravno zvenečih rezultatov, podobnih človeškim. trenutno, Claude 2 je na voljo brezplačno prek chatbota Claude AI. Obstaja tudi 20 USD plačan načrt za dostop do dodatnih funkcij.
Čeprav ima manj finančne podpore kot velikani, kot sta OpenAI in Microsoft, se Anthropicov model Claude 2 AI drži v primerjavi s priljubljenimi modeli GPT in Googlovo serijo PaLM. Za AI z manj viri je Claude 2 izjemno konkurenčen. Če smo prisiljeni staviti na to, kateri obstoječi model ima najboljše možnosti, da se v bližnji prihodnosti kosa z GPT, se zdi Claude 2 najvarnejša stava. Čeprav je pri financiranju premajhen, napredne zmogljivosti Claude 2 kažejo, da se lahko kosa s celo dobro financirani velikani (čeprav je treba omeniti, da je Google prispeval več velikih prispevkov k antropski). Model presega svojo težo in obeta kot izzivalec v vzponu.
3. GPT-3.5 OpenAI
Čeprav je GPT-3.5 in njegovih 175 milijard parametrov zasenčen z izdajo GPT-4, ga ne smemo podcenjevati. Z iterativnimi finimi nastavitvami in nadgradnjami, osredotočenimi na zmogljivost, natančnost in varnost, je GPT-3.5 prišel daleč od prvotnega modela GPT-3. Čeprav nima večmodalnih zmogljivosti GPT -4 in zaostaja v dolžini konteksta in številu parametrov, GPT-3.5 ostaja zelo zmogljiv, pri čemer je GPT-4 edini model, ki lahko preseže njegovo vsestransko zmogljivost odločno.
Kljub temu, da je GPT-3.5 model druge stopnje v družini GPT, se lahko GPT-3.5 obdrži in celo prekaša vodilna modela Google in Meta na več merilih uspešnosti. V vzporednih preizkusih matematičnih in programskih veščin proti Googlovemu PaLM 2 razlike niso bile velike, GPT-3.5 je imel v nekaterih primerih celo rahlo prednost. Pri bolj kreativnih nalogah, kot sta humor in pisanje pripovedi, je GPT-3.5 odločno napredoval.
Medtem ko GPT-4 pomeni nov mejnik v AI, GPT-3.5 ostaja osupljivo zmogljiv model, ki se lahko kosa z in včasih tudi preseže celo najnaprednejše alternative. Njegovo nenehno izpopolnjevanje zagotavlja, da ostaja ustrezen tudi ob bolj bleščečih modelih naslednje generacije.
4. Googlov PaLM 2
Pri ocenjevanju zmogljivosti modela AI je preizkušena formula branje tehničnega poročila in preverite primerjalne rezultate, vendar vzemite vse, kar ste se naučili, z rezervo in preizkusite model sebe. Čeprav se morda zdi kontraintuitivno, se rezultati primerjalnih testov ne ujemajo vedno z zmogljivostjo v resničnem svetu za nekatere modele AI. Na papirju naj bi bil Googlov PaLM 2 morilec GPT-4, uradni rezultati testov pa kažejo, da se ujema z GPT-4 v nekaterih merilih. Toda pri vsakodnevni uporabi se pokaže drugačna slika.
Pri logičnem sklepanju, matematiki in ustvarjalnosti PaLM 2 zaostaja za GPT-4. Prav tako zaostaja za Anthropicovim Claudom v vrsti ustvarjalnih pisnih nalog. Kljub temu, da ne izpolnjuje svojih zahtev za ubijanje GPT-4, Googlov PaLM 2 ostaja močan jezikovni model sama po sebi, z ogromnimi zmogljivostmi. Velik del negativnega občutka okoli njega izvira iz primerjav z modeli, kot je GPT-4, in ne iz povsem slabe zmogljivosti.
S 340 milijardami parametrov se PaLM 2 uvršča med največje modele na svetu. Še posebej se odlikuje pri večjezičnih nalogah in ima močne matematične in programerske sposobnosti. Čeprav v tem ni najboljši, je PaLM 2 precej učinkovit tudi pri ustvarjalnih nalogah, kot je pisanje. Medtem ko so merila uspešnosti narisala optimistično sliko, ki se ni v celoti uresničila, PaLM 2 še vedno izkazuje impresivne sposobnosti umetne inteligence, čeprav ne prekaša vseh konkurentov na vseh področjih.
5. TII Falcon-180B
Če niste dohajali hitrega tempa izdaj jezikovnih modelov umetne inteligence, verjetno še nikoli niste srečali Falcon-180B. Falcon-180 s 180 milijardami parametrov, ki ga je razvil Inštitut za tehnološke inovacije ZAE, je eden najmočnejših odprtokodnih jezikovnih modelov, tudi če nimajo prepoznavnosti imen modelov GPT ali široke uporabe Metinih Lama 2. A da ne bo pomote – Falcon-180B se lahko kosa z najboljšimi v razredu.
Rezultati primerjalnih testov razkrivajo, da je Falcon-180B boljši od večine odprtokodnih modelov in tekmuje s komercialnimi velikani, kot je PaLM 2 in GPT-3.5. Pri testiranju nalog matematike, kodiranja, razmišljanja in kreativnega pisanja je celo premagal GPT-3.5 in PaLM 2 pri krat. Če razvrščamo GPT-4, GPT-3.5 in Falcon-180B, bi Falcon-180B postavili neposredno med GPT-4 in GPT-3.5 zaradi njegovih prednosti v več primerih uporabe.
Čeprav ne moremo z gotovostjo trditi, da je v splošni zmogljivosti boljši od GPT-3.5, je to dokazilo. Čeprav je nejasen, si ta model zasluži pozornost, ker se ujema ali presega zmogljivosti bolj znanih alternativ. Model Falcon-180B lahko preizkusite na Objem obraza (odprtokodna LLM platforma).
Llama 2, velik jezikovni model Meta AI s 70 milijardami parametrov, gradi na svojem predhodniku, Llama 1. Medtem ko je manjši od vodilnih modelov, Llama 2 bistveno prekaša večino javno dostopnih odprtokodnih LLM-jev v merilih uspešnosti in uporabi v resničnem svetu. Izjema bi bil Falcon-180B.
Llamo 2 smo preizkusili v primerjavi z GPT-4, GPT-3.5, Claude 2 in PaLM 2, da bi ocenili njene zmogljivosti. Ni presenetljivo, da je GPT-4 premagal Llamo 2 po skoraj vseh parametrih. Vendar se je Llama 2 v več ocenjevanjih obdržala proti GPT-3.5 in PaLM 2. Čeprav bi bilo netočno trditi, da je Llama 2 boljši od PaLM 2, je Llama 2 rešil številne težave, ki so motile PaLM 2, vključno z nalogami kodiranja. Claude 2 in GPT-3.5 sta na nekaterih področjih prehitela Llamo 2, vendar sta bila odločilno boljša le pri omejenem številu nalog.
Torej, čeprav ne presega zmogljivosti največjih lastniških modelov, odprtokodna Llama 2 presega svojo težo. Za odprto dostopen model dokazuje impresivno zmogljivost in se pri izbranih ocenah kosa z velikani AI, kot je PaLM 2. Llama 2 ponuja vpogled v prihodnji potencial odprtokodnih jezikovnih modelov.
Vrzel v zmogljivosti med modeli AI se manjša
Čeprav se področje umetne inteligence razvija z vrtoglavo hitrostjo, GPT-4 OpenAI ostaja vodilni v skupini. Medtem ko GPT-4 ostaja neprimerljiv v obsegu in zmogljivosti, modeli, kot je Claude 2, kažejo, da lahko z dovolj spretnosti manjši modeli tekmujejo na izbranih področjih. Googlov PaLM 2 kljub temu, da ni izpolnil nekaterih visokih pričakovanj, še vedno kaže izjemne zmogljivosti. In Falcon-180B dokazuje, da lahko odprtokodne pobude stojijo z ramo ob rami z industrijskimi titani, ki imajo dovolj sredstev.