Uporabniki običajno dostopajo do velikih jezikovnih modelov (LLM) z uporabo uporabniškega vmesnika prek API-ja. Čeprav ponuja številne prednosti, uporaba API-jev prinaša tudi omejitve, kot je potreba po stalnem internetu povezava, omejene prilagoditve, morebitne varnostne težave in podjetja, ki omejujejo zmogljivosti modela prek a plačilni zid.
S kvantiziranimi LLM-ji, ki so zdaj na voljo na HuggingFace, in ekosistemi AI, kot so H20, Text Gen in GPT4All vam omogoča nalaganje uteži LLM v vaš računalnik, imate zdaj možnost za brezplačno, prilagodljivo in varno AI.
Za lažji začetek je tukaj sedem najboljših lokalnih/nepovezanih LLM, ki jih lahko uporabljate prav zdaj!
1. Hermes GPTQ
Najsodobnejši jezikovni model, natančno nastavljen z uporabo nabora podatkov 300.000 navodil Nous Research. Hermes temelji na Metinem LlaMA2 LLM in je bil natančno nastavljen z večinoma sintetičnimi izhodi GPT-4.
Model |
Hermes 13b GPTQ |
Velikost modela |
7,26 GB |
Parametri |
13 milijard |
Kvantizacija |
4-bitni |
Vrsta |
LlaMA2 |
Licenca |
GPL 3 |
Uporaba LlaMA2 kot osnovnega modela omogoča Hermesu, da podvoji velikost konteksta ali največjo velikost žetona 4.096. S kombinacijo velikosti dolgega konteksta in arhitekture kodirnika je znano, da Hermes daje dolge odzive in nizke stopnje halucinacij. Zaradi tega je Hermes odličen model za različne obdelava naravnega jezika (NLP) naloge, kot je pisanje kode, ustvarjanje vsebine in biti chatbot.
Obstaja več kvantizacij in različic novega Hermes GPTQ. Priporočamo, da najprej preizkusite model Hermes-Llama2 13B-GPTQ, saj je to različica, ki jo je najlažje namestiti in ima še vedno odlično zmogljivost.
2. Falcon Instruct GPTQ
Ta kvantizirana različica Falcona temelji na arhitekturi samo za dekoder, ki je natančno nastavljena na vrhu TII-jevega surovega modela Flacon-7b. Osnovni model Falcon je bil usposobljen z uporabo izjemnih 1,5 bilijona žetonov, pridobljenih prek javnega interneta. Kot model dekoderja, ki temelji samo na navodilih in je licenciran pod Apache 2, je Falcon Instruct popoln za mala podjetja, ki iščejo model za prevajanje v jezik in vnos podatkov.
Model |
Falcon-7B-Instruct |
Velikost modela |
7,58 GB |
Parametri |
7 milijard |
Kvantizacija |
4-bitni |
Vrsta |
Sokol |
Licenca |
Apache 2.0 |
Vendar ta različica Falcona ni idealna za natančno nastavljanje in je samo za sklepanje. Če želite Falcon natančno nastaviti, boste morali uporabiti neobdelani model, ki lahko zahteva dostop do strojne opreme za usposabljanje na ravni podjetja, kot je NVIDIA DGX ali Pospeševalniki umetne inteligence AMD Instinct.
3.GPT4ALL-J Groovy
GPT4All-J Groovy je model samo za dekoder, ki ga je natančno nastavil Nomic AI in je licenciran pod Apache 2.0. GPT4ALL-J Groovy temelji na izvirnem modelu GPT-J, za katerega je znano, da je odličen pri ustvarjanju besedila iz pozivov. GPT4ALL -J Groovy je bil natančno nastavljen kot model klepeta, ki je odličen za aplikacije za hitro in ustvarjalno ustvarjanje besedila. Zaradi tega je GPT4All-J Groovy idealen za ustvarjalce vsebin, saj jim pomaga pri pisanju in ustvarjalnih delih, pa naj gre za poezijo, glasbo ali zgodbe.
Model |
GPT4ALL-J Groovy |
Velikost modela |
3,53 GB |
Parametri |
7 milijard |
Kvantizacija |
4-bitni |
Vrsta |
GPT-J |
Licenca |
Apache 2.0 |
Na žalost je bil osnovni model GPT-J usposobljen samo za nabor podatkov v angleščini, kar pomeni, da lahko tudi ta natančno nastavljeni model GPT4ALL-J samo klepeta in izvaja aplikacije za ustvarjanje besedila v angleščini.
4.WizardCoder-15B-GPTQ
Iščete model, posebej prilagojen za kodiranje? Kljub bistveno manjši velikosti je WizardCoder znan kot eden najboljših kodirnih modelov, ki presega druge modele, kot so LlaMA-65B, InstructCodeT5+ in CodeGeeX. Ta model je bil usposobljen z metodo Evol-Instruct, specifično za kodiranje, ki samodejno ureja vaše pozive, da postanejo učinkovitejši poziv, povezan s kodiranjem, ki ga lahko model bolje razume.
Model |
WizardCoder-15B-GPTQ |
Velikost modela |
7,58 GB |
Parametri |
15 milijard |
Kvantizacija |
4-bitni |
Vrsta |
LlaMA |
Licenca |
bigcode-openrail-m |
Ker je WizardCoder kvantiziran v 4-bitni model, se zdaj lahko uporablja na običajnih osebnih računalnikih, kjer ga lahko posamezniki uporabljajo za eksperimentiranje in kot pomočnika pri kodiranju za preprostejše programe in skripte.
5. Wizard Vicuna Uncensored-GPTQ
Wizard-Vicuna GPTQ je kvantizirana različica Wizard Vicuna, ki temelji na modelu LlaMA. Za razliko od večine LLM-jev, objavljenih v javnosti, je Wizard-Vicuna necenzuriran model z odstranjeno poravnavo. To pomeni, da model nima enakih varnostnih in moralnih standardov kot večina modelov.
Model |
Čarovnik-Vicuna-30B-Necenzurirano-GPTQ |
Velikost modela |
16,94 GB |
Parametri |
30 milijard |
Kvantizacija |
4-bitni |
Vrsta |
LlaMA |
Licenca |
GPL 3 |
Čeprav morda predstavlja Težava pri nadzoru poravnave AI, imeti necenzuriran LLM prav tako pokaže najboljše iz modela, saj lahko odgovarja brez kakršnih koli omejitev. To tudi omogoča uporabnikom, da dodajo svojo prilagoditev po meri o tem, kako naj AI deluje ali odgovori na podlagi danega poziva.
6. Orca Mini-GPTQ
Želite eksperimentirati z modelom, usposobljenim za edinstveno učno metodo? Orca Mini je neuradna modelna izvedba Microsoftovih raziskovalnih dokumentov Orca. Usposabljali so ga po metodi učenja učitelj-učenec, kjer je bil nabor podatkov poln razlag namesto le pozivov in odgovorov. To bi v teoriji moralo imeti za posledico pametnejšega študenta, pri katerem lahko model razume problem, namesto da samo išče vhodne in izhodne pare, kot je to, kako delujejo tipični LLM-ji.
Model |
Orca Mini-GPTQ |
Velikost modela |
8,11 GB |
Parametri |
3 milijarde |
Kvantizacija |
4-bitni |
Vrsta |
LlaMA |
Licenca |
MIT |
S samo tremi milijardami parametrov je Orca Mini GPTQ enostavno zagnati tudi na manj zmogljivih sistemih. Vendar tega modela ne bi smeli uporabljati za nič profesionalnega, saj ustvarja lažne informacije, pristranske in žaljive odgovore. Ta model je treba uporabiti za učenje in eksperimentiranje z Orco in njenimi metodami.
7.LlaMA 2 Klepet GPTQ
LlaMA 2 je naslednik prvotnega LlaMA LLM, ki je ustvaril večino modelov na tem seznamu. LlaMA 2 je zbirka več LLM-jev, od katerih je vsak usposobljen z uporabo 7–70 milijard parametrov. Na splošno je bil LlaMA 2 predhodno usposobljen z uporabo 2 bilijonov žetonov podatkov, vzetih iz javno dostopnih podatkovnih nizov navodil.
Model |
Falcon-40B-Instruct-GPTQ |
Velikost modela |
7,26 GB |
Parametri |
3 milijarde |
Kvantizacija |
4-bitni |
Vrsta |
OpenLlaMA |
Licenca |
EULA (meta licenca) |
LlaMA 2 je namenjena komercialni in raziskovalni uporabi. Kot tak je ta model najbolje uporabiti po fini nastavitvi za boljšo zmogljivost pri določenih nalogah. Ta poseben model GPTQ klepeta LlaMA 2 je bil natančno nastavljen in optimiziran za angleški dialog, zaradi česar je popoln model za podjetja in organizacije kot chatbot z malo ali brez dodatnega usposabljanja potrebno. V skladu s pogoji lahko podjetja z manj kot 700 milijoni uporabnikov uporabljajo LlaMA 2 brez plačila licenčnine Mete ali Microsofta.
Preizkusite lokalne modele velikega jezika še danes
Nekateri od zgoraj naštetih modelov imajo več različic glede na parametre. Na splošno različice z višjimi parametri dajejo boljše rezultate, vendar zahtevajo zmogljivejšo strojno opremo, medtem ko bodo različice z nižjimi parametri ustvarile rezultate nižje kakovosti, vendar lahko delujejo na strojni opremi nižjega cenovnega razreda. Če niste prepričani, ali lahko vaš računalnik poganja model, poskusite najprej uporabiti različico z nižjimi parametri, nato nadaljujte, dokler ne začutite, da padec zmogljivosti ni več sprejemljiv.
Ker kvantizirani modeli na tem seznamu zavzamejo le nekaj gigabajtov prostora in platforme za uvajanje modelov, kot sta GPT4All in Text-Generation-WebUI je mogoče preprosto namestiti prek njihovih namestitvenih programov z enim klikom, preizkušanje več modelov in različic modelov ne bi smelo trajati veliko časa in truda.
Torej, kaj še čakaš? Preizkusite lokalni model še danes!