Uporabniki običajno dostopajo do velikih jezikovnih modelov (LLM) z uporabo uporabniškega vmesnika prek API-ja. Čeprav ponuja številne prednosti, uporaba API-jev prinaša tudi omejitve, kot je potreba po stalnem internetu povezava, omejene prilagoditve, morebitne varnostne težave in podjetja, ki omejujejo zmogljivosti modela prek a plačilni zid.

S kvantiziranimi LLM-ji, ki so zdaj na voljo na HuggingFace, in ekosistemi AI, kot so H20, Text Gen in GPT4All vam omogoča nalaganje uteži LLM v vaš računalnik, imate zdaj možnost za brezplačno, prilagodljivo in varno AI.

Za lažji začetek je tukaj sedem najboljših lokalnih/nepovezanih LLM, ki jih lahko uporabljate prav zdaj!

1. Hermes GPTQ

Najsodobnejši jezikovni model, natančno nastavljen z uporabo nabora podatkov 300.000 navodil Nous Research. Hermes temelji na Metinem LlaMA2 LLM in je bil natančno nastavljen z večinoma sintetičnimi izhodi GPT-4.

Model

Hermes 13b GPTQ

Velikost modela

7,26 GB

Parametri

13 milijard

Kvantizacija

4-bitni

Vrsta

LlaMA2

Licenca

GPL 3

instagram viewer

Uporaba LlaMA2 kot osnovnega modela omogoča Hermesu, da podvoji velikost konteksta ali največjo velikost žetona 4.096. S kombinacijo velikosti dolgega konteksta in arhitekture kodirnika je znano, da Hermes daje dolge odzive in nizke stopnje halucinacij. Zaradi tega je Hermes odličen model za različne obdelava naravnega jezika (NLP) naloge, kot je pisanje kode, ustvarjanje vsebine in biti chatbot.

Obstaja več kvantizacij in različic novega Hermes GPTQ. Priporočamo, da najprej preizkusite model Hermes-Llama2 13B-GPTQ, saj je to različica, ki jo je najlažje namestiti in ima še vedno odlično zmogljivost.

2. Falcon Instruct GPTQ

Avtorstvo slike: John Schnobrich/Unsplash

Ta kvantizirana različica Falcona temelji na arhitekturi samo za dekoder, ki je natančno nastavljena na vrhu TII-jevega surovega modela Flacon-7b. Osnovni model Falcon je bil usposobljen z uporabo izjemnih 1,5 bilijona žetonov, pridobljenih prek javnega interneta. Kot model dekoderja, ki temelji samo na navodilih in je licenciran pod Apache 2, je Falcon Instruct popoln za mala podjetja, ki iščejo model za prevajanje v jezik in vnos podatkov.

Model

Falcon-7B-Instruct

Velikost modela

7,58 GB

Parametri

7 milijard

Kvantizacija

4-bitni

Vrsta

Sokol

Licenca

Apache 2.0

Vendar ta različica Falcona ni idealna za natančno nastavljanje in je samo za sklepanje. Če želite Falcon natančno nastaviti, boste morali uporabiti neobdelani model, ki lahko zahteva dostop do strojne opreme za usposabljanje na ravni podjetja, kot je NVIDIA DGX ali Pospeševalniki umetne inteligence AMD Instinct.

3.GPT4ALL-J Groovy

Avtorstvo slike: Nubelson Fernandes/Unplash

GPT4All-J Groovy je model samo za dekoder, ki ga je natančno nastavil Nomic AI in je licenciran pod Apache 2.0. GPT4ALL-J Groovy temelji na izvirnem modelu GPT-J, za katerega je znano, da je odličen pri ustvarjanju besedila iz pozivov. GPT4ALL -J Groovy je bil natančno nastavljen kot model klepeta, ki je odličen za aplikacije za hitro in ustvarjalno ustvarjanje besedila. Zaradi tega je GPT4All-J Groovy idealen za ustvarjalce vsebin, saj jim pomaga pri pisanju in ustvarjalnih delih, pa naj gre za poezijo, glasbo ali zgodbe.

Model

GPT4ALL-J Groovy

Velikost modela

3,53 GB

Parametri

7 milijard

Kvantizacija

4-bitni

Vrsta

GPT-J

Licenca

Apache 2.0

Na žalost je bil osnovni model GPT-J usposobljen samo za nabor podatkov v angleščini, kar pomeni, da lahko tudi ta natančno nastavljeni model GPT4ALL-J samo klepeta in izvaja aplikacije za ustvarjanje besedila v angleščini.

4.WizardCoder-15B-GPTQ

Avtorstvo slike: James Harrison/Unsplash

Iščete model, posebej prilagojen za kodiranje? Kljub bistveno manjši velikosti je WizardCoder znan kot eden najboljših kodirnih modelov, ki presega druge modele, kot so LlaMA-65B, InstructCodeT5+ in CodeGeeX. Ta model je bil usposobljen z metodo Evol-Instruct, specifično za kodiranje, ki samodejno ureja vaše pozive, da postanejo učinkovitejši poziv, povezan s kodiranjem, ki ga lahko model bolje razume.

Model

WizardCoder-15B-GPTQ

Velikost modela

7,58 GB

Parametri

15 milijard

Kvantizacija

4-bitni

Vrsta

LlaMA

Licenca

bigcode-openrail-m

Ker je WizardCoder kvantiziran v 4-bitni model, se zdaj lahko uporablja na običajnih osebnih računalnikih, kjer ga lahko posamezniki uporabljajo za eksperimentiranje in kot pomočnika pri kodiranju za preprostejše programe in skripte.

5. Wizard Vicuna Uncensored-GPTQ

Wizard-Vicuna GPTQ je kvantizirana različica Wizard Vicuna, ki temelji na modelu LlaMA. Za razliko od večine LLM-jev, objavljenih v javnosti, je Wizard-Vicuna necenzuriran model z odstranjeno poravnavo. To pomeni, da model nima enakih varnostnih in moralnih standardov kot večina modelov.

Model

Čarovnik-Vicuna-30B-Necenzurirano-GPTQ

Velikost modela

16,94 GB

Parametri

30 milijard

Kvantizacija

4-bitni

Vrsta

LlaMA

Licenca

GPL 3

Čeprav morda predstavlja Težava pri nadzoru poravnave AI, imeti necenzuriran LLM prav tako pokaže najboljše iz modela, saj lahko odgovarja brez kakršnih koli omejitev. To tudi omogoča uporabnikom, da dodajo svojo prilagoditev po meri o tem, kako naj AI deluje ali odgovori na podlagi danega poziva.

6. Orca Mini-GPTQ

Avtorstvo slike: Alex Kondratiev/Unsplash

Želite eksperimentirati z modelom, usposobljenim za edinstveno učno metodo? Orca Mini je neuradna modelna izvedba Microsoftovih raziskovalnih dokumentov Orca. Usposabljali so ga po metodi učenja učitelj-učenec, kjer je bil nabor podatkov poln razlag namesto le pozivov in odgovorov. To bi v teoriji moralo imeti za posledico pametnejšega študenta, pri katerem lahko model razume problem, namesto da samo išče vhodne in izhodne pare, kot je to, kako delujejo tipični LLM-ji.

Model

Orca Mini-GPTQ

Velikost modela

8,11 GB

Parametri

3 milijarde

Kvantizacija

4-bitni

Vrsta

LlaMA

Licenca

MIT

S samo tremi milijardami parametrov je Orca Mini GPTQ enostavno zagnati tudi na manj zmogljivih sistemih. Vendar tega modela ne bi smeli uporabljati za nič profesionalnega, saj ustvarja lažne informacije, pristranske in žaljive odgovore. Ta model je treba uporabiti za učenje in eksperimentiranje z Orco in njenimi metodami.

7.LlaMA 2 Klepet GPTQ

LlaMA 2 je naslednik prvotnega LlaMA LLM, ki je ustvaril večino modelov na tem seznamu. LlaMA 2 je zbirka več LLM-jev, od katerih je vsak usposobljen z uporabo 7–70 milijard parametrov. Na splošno je bil LlaMA 2 predhodno usposobljen z uporabo 2 bilijonov žetonov podatkov, vzetih iz javno dostopnih podatkovnih nizov navodil.

Model

Falcon-40B-Instruct-GPTQ

Velikost modela

7,26 GB

Parametri

3 milijarde

Kvantizacija

4-bitni

Vrsta

OpenLlaMA

Licenca

EULA (meta licenca)

LlaMA 2 je namenjena komercialni in raziskovalni uporabi. Kot tak je ta model najbolje uporabiti po fini nastavitvi za boljšo zmogljivost pri določenih nalogah. Ta poseben model GPTQ klepeta LlaMA 2 je bil natančno nastavljen in optimiziran za angleški dialog, zaradi česar je popoln model za podjetja in organizacije kot chatbot z malo ali brez dodatnega usposabljanja potrebno. V skladu s pogoji lahko podjetja z manj kot 700 milijoni uporabnikov uporabljajo LlaMA 2 brez plačila licenčnine Mete ali Microsofta.

Preizkusite lokalne modele velikega jezika še danes

Nekateri od zgoraj naštetih modelov imajo več različic glede na parametre. Na splošno različice z višjimi parametri dajejo boljše rezultate, vendar zahtevajo zmogljivejšo strojno opremo, medtem ko bodo različice z nižjimi parametri ustvarile rezultate nižje kakovosti, vendar lahko delujejo na strojni opremi nižjega cenovnega razreda. Če niste prepričani, ali lahko vaš računalnik poganja model, poskusite najprej uporabiti različico z nižjimi parametri, nato nadaljujte, dokler ne začutite, da padec zmogljivosti ni več sprejemljiv.

Ker kvantizirani modeli na tem seznamu zavzamejo le nekaj gigabajtov prostora in platforme za uvajanje modelov, kot sta GPT4All in Text-Generation-WebUI je mogoče preprosto namestiti prek njihovih namestitvenih programov z enim klikom, preizkušanje več modelov in različic modelov ne bi smelo trajati veliko časa in truda.

Torej, kaj še čakaš? Preizkusite lokalni model še danes!