Veliki jezikovni modeli (LLM) so na voljo v vseh oblikah in velikostih in vam bodo pomagali na kakršen koli način, ki se vam zdi primeren. Toda kateri je najboljši? Preizkusili smo prevladujoče umetne inteligence Alphabet, OpenAI in Meta.
Kaj morate vedeti o AI Chatbots
Umetna splošna inteligenca je že desetletja cilj računalniških znanstvenikov, umetna inteligenca pa je še dlje služila kot opora piscem znanstvene fantastike in filmskim ustvarjalcem.
AGI kaže inteligenco, ki je podobna človeškim kognitivnim sposobnostim, in Turingov test— preizkus zmožnosti stroja, da izkazuje inteligentno vedenje, ki se ne razlikuje od človekovega — je ostal skoraj neizpodbijan v sedmih desetletjih, odkar je bil prvič postavljen.
Nedavna konvergenca izjemno obsežnega računalništva, ogromnih količin denarja in osupljive količine informacij, ki je na voljo v odprtem internetu, je omogočilo tehnološkim velikanom, da usposobijo modele, ki lahko predvidijo naslednji besedni odsek – ali žeton – v zaporedju žetoni.
V času pisanja oboje Googlov Bard in OpenAI's ChatGPT so na voljo za uporabo in testiranje prek njihovih spletnih vmesnikov.
Metin jezikovni model, LLaMa, ni na voljo na spletu, vendar ga lahko enostavno prenesite in zaženite LLaMa na lastni strojni opremi in ga uporabite preko ukazne vrstice oz zaženite Dalai na svojem računalniku—ena od več aplikacij z uporabniku prijaznim vmesnikom.
Za namene preizkusa bomo izvajali model Alpaca 7B univerze Stanford – prilagoditev LLaMa – in ga primerjali z Bardom in ChatGPT.
Naslednje primerjave in preizkusi niso izčrpni, temveč vam nakazujejo ključne točke in zmogljivosti.
Kateri model velikega jezika je najlažje uporabiti?
Bard in ChatGPT zahtevata račun za uporabo storitve. Račune Google in OpenAI je enostavno in brezplačno ustvariti, vprašanja pa lahko začnete postavljati takoj.
Vendar pa boste za lokalno izvajanje LLaMa potrebovali nekaj specializiranega znanja ali sposobnost spremljanja vadnice. Potrebovali boste tudi veliko prostora za shranjevanje.
Kateri je najbolj zasebni model velikega jezika?
Tako Bard kot ChatGPT imata obsežno politiko zasebnosti, kar Google v svojih dokumentih večkrat poudarja da v svoj Bard ne smete vključiti informacij, ki bi se lahko uporabile za identifikacijo vas ali drugih pogovori."
Google privzeto zbira vaše pogovore in vašo splošno lokacijo na podlagi vašega naslova IP, vaših povratnih informacij in podatkov o uporabi. Ti podatki so shranjeni v vašem Google Računu do 18 mesecev. Čeprav lahko začasno ustavite shranjevanje svoje dejavnosti Bard, se morate zavedati, da "za pomoč pri kakovosti in izboljšanju naših izdelkov človeški pregledovalci berejo, komentirajo in obdelujejo vaše pogovore Bard."
Tudi uporaba Barda je predmet standarda Googlov pravilnik o zasebnosti.
Politika zasebnosti OpenAI je na splošno podobna in zbira podatke o naslovu IP in uporabi. V nasprotju z Googlovo časovno omejeno hrambo bo OpenAI "vaše osebne podatke hranil samo toliko časa, kolikor jih potrebujemo za zagotavljanje naših Storitev za vas ali za druge zakonite poslovne namene, kot je reševanje sporov, varnostni razlogi ali izpolnjevanje naših pravnih obveznosti."
Nasprotno pa lokalni model na vašem računalniku ne zahteva računa ali deljenja uporabniških podatkov z nikomer.
Kateri LLM ima najboljše splošno znanje?
Da bi preverili, kateri LLM ima najboljše splošno znanje, smo zastavili tri vprašanja.
Prvo vprašanje: "Katera državna zastava ima pet strani?" je pravilno odgovoril le Bard, ki je identificiral petstransko nacionalno zastavo Nepala.
ChatGPT je samozavestno trdil, da "ni državne zastave, ki bi imela pet stranic. Državne zastave so običajno pravokotne ali kvadratne oblike, za katere so značilne različne barve, vzorci in simboli.
Naš lokalni model se je približal z navedbo, da ima indijska državna zastava pet strani in je bila oblikovana leta 1916, da predstavlja indijsko gibanja za neodvisnost." Čeprav je ta zastava res obstajala in je imela pet stranic, je bila to zastava indijskega gibanja samoupravljanja - ne državna zastava.
Noben od naših modelov ni mogel odgovoriti, da je pravilen izraz za predmet v obliki graha »pisiform«, s ChatGPT tako daleč, da nakazuje, da ima grah "tridimenzionalno geometrijsko obliko, ki je popolnoma okrogla in simetrično."
Vsi trije chatboti so Franca Malerbo pravilno identificirali kot italijanskega astronavta in člana Evropskega parlamenta, pri čemer je Bard podal odgovor, ki je enako ubeseden kot del Malerbine Wikipedije vstop.
Kateri LLM je primeren za tehnična navodila?
Ko imate tehnične težave, vas bo morda zamikalo, da bi se za pomoč obrnili na chatbota. Čeprav tehnologija napreduje, nekatere stvari ostajajo enake. Električni vtič BS 1363 je v Veliki Britaniji, na Irskem in v mnogih drugih državah v uporabi od leta 1947. Vprašali smo jezikovne modele, kako to pravilno povezati.
Kabli, pritrjeni na vtič, imajo žico pod napetostjo (rjava), ozemljitveno žico (rumena/zelena) in ničelno žico (modra). Te morajo biti pritrjene na ustrezne sponke v ohišju vtiča.
Naša izvedba Dalai je pravilno identificirala vtič kot "angleški slog", nato pa skrenila s tečaja in namesto tega dala navodila za starejši okrogli vtič BS 546 skupaj s starejšimi barvami ožičenja.
ChatGPT je bil nekoliko bolj koristen. Pravilno je označil barve ožičenja in dal seznam materialov ter nabor osmih navodil. ChatGPT je tudi predlagal, da rjavo žico vstavite v terminal z oznako "L", modro žico v "N" terminal in rumeno žico v "E." To bi bilo pravilno, če bi bili terminali BS1363 označeni, vendar so niso.
Bard je identificiral pravilne barve za žice in nam naročil, naj jih povežemo z živimi, nevtralnimi in zemeljskimi terminali. Ni dal nobenih navodil, kako jih prepoznati.
Po našem mnenju. nobeden od chatbotov ni dal zadostnih navodil, da bi nekomu pomagal pravilno priključiti električni vtič BS 1363. Jedrnat in pravilen odgovor bi bil: "Modra na levi, rjava na desni."
Kateri LLM je dober za pisanje kode?
Python je uporaben programski jezik ki deluje na večini sodobnih platform. Našim modelom smo naročili uporabo Pythona in "zgradite osnovni program za računanje, ki lahko izvaja aritmetične operacije, kot so seštevanje, odštevanje, množenje in deljenje. Moral bi sprejeti uporabniški vnos in prikazati rezultat." To je eden od najboljši programski projekti za začetnike.
Medtem ko sta Bard in ChatGPT takoj vrnila uporabno in temeljito komentirano kodo, ki smo jo lahko preizkusili in preverili, se nobena koda iz našega lokalnega modela ni zagnala.
Kateri LLM pripoveduje najboljše šale?
Humor je eden od temeljev človeka in zagotovo eden najboljših načinov za razlikovanje med človekom in strojem. Vsakemu od naših modelov smo dali preprost poziv: "Ustvarite izvirno in smešno šalo."
Na srečo komikov povsod in celotnega človeštva nobeden od modelov ni bil sposoben ustvariti izvirne šale.
Bard je izdal klasiko: "Zakaj je strašilo dobilo nagrado? Bil je izjemen na svojem področju."
Tako naša lokalna implementacija kot ChatGPT sta ponudila stoka vredno: "Zakaj znanstveniki ne zaupajo atomom? Ker si izmislijo vse!"
Izpeljanka, a izvirna šala bi bila: "Kako so veliki jezikovni modeli podobni atomom? Oba si izmišljujeta stvari!"
Najprej ste prebrali tukaj, ljudje.
Noben klepetalni robot ni popoln
Ugotovili smo, da čeprav imajo vsi trije veliki jezikovni modeli svoje prednosti in slabosti, nobeden od njih ne more nadomestiti resničnega strokovnega znanja človeka s posebnim znanjem.
Medtem ko sta Bard in ChatGPT dala boljše odgovore na naše vprašanje o kodiranju in sta zelo enostavna za uporabo, lokalno izvajanje velikega jezikovnega modela pomeni, da vam ni treba skrbeti za zasebnost oz cenzura.
Če bi radi ustvarili odlično umetnost z umetno inteligenco, ne da bi vas skrbelo, da vas nekdo gleda čez ramo, je umetniški model z umetno inteligenco preprosto zagnati tudi na vašem lokalnem računalniku.