Meta's Llama 2 lahko uporabljate na spletu, vendar lahko prilagodite in personalizirate izkušnjo, če jo namestite na svoj lokalni računalnik.
Meta je izdala Llama 2 poleti 2023. Nova različica Llame je natančno prilagojena s 40 % več žetonov kot prvotni model Llama, s čimer se podvoji njena dolžina konteksta in znatno prekaša druge razpoložljive odprtokodne modele. Najhitrejši in najlažji način za dostop do Llama 2 je prek API-ja prek spletne platforme. Če pa želite najboljšo izkušnjo, je najboljša namestitev in nalaganje Llame 2 neposredno v računalnik.
S tem v mislih smo ustvarili vodnik po korakih o tem, kako uporabiti Text-Generation-WebUI za lokalno nalaganje kvantiziranega Llama 2 LLM v vaš računalnik.
Zakaj namestiti Llama 2 lokalno
Obstaja veliko razlogov, zakaj se ljudje odločijo neposredno zagnati Llamo 2. Nekateri to počnejo zaradi pomislekov glede zasebnosti, nekateri zaradi prilagajanja, tretji pa zaradi zmogljivosti brez povezave. Če raziskujete, natančno prilagajate ali integrirate Llama 2 za svoje projekte, potem dostop do Llame 2 prek API-ja morda ni za vas. Bistvo izvajanja LLM lokalno na vašem računalniku je zmanjšanje odvisnosti od
orodja AI tretjih oseb in uporabljajte AI kadarkoli in kjer koli, ne da bi vas skrbelo, da bi potencialno občutljivi podatki uhajali v podjetja in druge organizacije.Glede na to, začnimo z vodnikom po korakih za lokalno namestitev Llame 2.
Za poenostavitev stvari bomo uporabili namestitveni program z enim klikom za Text-Generation-WebUI (program, ki se uporablja za nalaganje Llame 2 z GUI). Da pa bo ta namestitveni program deloval, morate prenesti orodje za gradnjo Visual Studio 2019 in namestiti potrebne vire.
Prenesi:Visual Studio 2019 (Prost)
- Kar naprej in prenesite izdajo skupnosti programske opreme.
- Zdaj namestite Visual Studio 2019 in odprite programsko opremo. Ko je odprt, označite polje Razvoj namizja s C++ in pritisnite namestitev.
Zdaj, ko imate nameščen Desktop development with C++, je čas, da prenesete namestitveni program Text-Generation-WebUI z enim klikom.
2. korak: Namestite Text-Generation-WebUI
Namestitveni program Text-Generation-WebUI z enim klikom je skript, ki samodejno ustvari zahtevane mape in nastavi okolje Conda ter vse potrebne zahteve za zagon modela AI.
Če želite namestiti skript, prenesite namestitveni program z enim klikom s klikom na Koda > Prenesite ZIP.
Prenesi:Namestitveni program WebUI za ustvarjanje besedila (Prost)
- Ko jo prenesete, ekstrahirajte datoteko ZIP na želeno mesto in nato odprite ekstrahirano mapo.
- V mapi se pomaknite navzdol in poiščite ustrezen zagonski program za vaš operacijski sistem. Zaženite programe tako, da dvokliknete ustrezen skript.
- Če uporabljate Windows, izberite start_windows paketna datoteka
- za MacOS izberite start_macos zavoj za lupino
- za Linux, start_linux lupinski skript.
- Vaš protivirusni program lahko ustvari opozorilo; to je v redu Poziv je samo antivirus lažno pozitiven za izvajanje paketne datoteke ali skripta. Kliknite na Vseeno teci.
- Odpre se terminal in začne nastavitev. Na začetku se bo nastavitev ustavila in vas vprašala, katero GPE uporabljate. Izberite ustrezno vrsto GPE-ja, nameščenega v vašem računalniku, in pritisnite enter. Za tiste brez namenske grafične kartice izberite Brez (želim izvajati modele v načinu CPE). Upoštevajte, da je delovanje v načinu CPE veliko počasnejše v primerjavi z delovanjem modela z namenskim GPE.
- Ko je nastavitev končana, lahko zdaj lokalno zaženete Text-Generation-WebUI. To lahko storite tako, da odprete želeni spletni brskalnik in v URL vnesete navedeni naslov IP.
- WebUI je zdaj pripravljen za uporabo.
Vendar je program le nalagalnik modela. Prenesimo Llamo 2 za zagon nalagalnika modelov.
3. korak: Prenesite model Llama 2
Ko se odločate, katero ponovitev Llame 2 potrebujete, morate upoštevati kar nekaj stvari. Ti vključujejo parametre, kvantizacijo, optimizacijo strojne opreme, velikost in uporabo. Vse te informacije bodo označene v imenu modela.
- Parametri: Število parametrov, uporabljenih za usposabljanje modela. Večji parametri omogočajo zmogljivejše modele, vendar na ceno zmogljivosti.
- Uporaba: Lahko je standarden ali klepet. Model klepeta je optimiziran za uporabo kot klepetalni robot, kot je ChatGPT, medtem ko je standard privzeti model.
- Optimizacija strojne opreme: Nanaša se na strojno opremo, ki najbolje poganja model. GPTQ pomeni, da je model optimiziran za delovanje na namenski GPE, medtem ko je GGML optimiziran za delovanje na CPE.
- Kvantizacija: Označuje natančnost uteži in aktivacij v modelu. Za sklepanje je optimalna natančnost q4.
- Velikost: Nanaša se na velikost določenega modela.
Upoštevajte, da so lahko nekateri modeli razporejeni drugače in morda celo nimajo istih vrst prikazanih informacij. Vendar je ta vrsta konvencije o poimenovanju precej pogosta v HuggingFace Knjižnica modelov, zato je še vedno vredno razumeti.
V tem primeru je mogoče model identificirati kot srednje velik model Llama 2, usposobljen za 13 milijard parametrov, optimiziranih za sklepanje klepetov z namenskim CPE-jem.
Za tiste, ki delujejo na namenskem GPE, izberite a GPTQ model, medtem ko za tiste, ki uporabljajo CPE, izberite GGML. Če želite klepetati z modelom, kot bi klepetali s ChatGPT, izberite klepet, če pa želite preizkusiti model z vsemi njegovimi zmogljivostmi, uporabite standard model. Kar zadeva parametre, vedite, da bo uporaba večjih modelov zagotovila boljše rezultate na račun zmogljivosti. Osebno bi vam priporočal, da začnete z modelom 7B. Kar zadeva kvantizacijo, uporabite q4, saj je samo za sklepanje.
Prenesi:GGML (Prost)
Prenesi:GPTQ (Prost)
Zdaj, ko veste, katero ponovitev Llame 2 potrebujete, nadaljujte in prenesite želeni model.
V mojem primeru, ker to izvajam na ultrabooku, bom uporabil model GGML, natančno nastavljen za klepet, llama-2-7b-chat-ggmlv3.q4_K_S.bin.
Ko je prenos končan, vstavite model text-generation-webui-main > modeli.
Zdaj, ko ste svoj model prenesli in postavili v mapo modela, je čas, da konfigurirate nalagalnik modelov.
4. korak: Konfigurirajte Text-Generation-WebUI
Zdaj pa začnimo fazo konfiguracije.
- Še enkrat odprite Text-Generation-WebUI tako, da zaženete start_(vaš OS) datoteko (glejte prejšnje korake zgoraj).
- Na zavihkih nad GUI kliknite Model. V spustnem meniju modela kliknite gumb za osvežitev in izberite svoj model.
- Zdaj kliknite na spustni meni Modelni nakladalnik in izberite AutoGPTQ za tiste, ki uporabljajo model GTPQ in ctransformatorji za tiste, ki uporabljajo model GGML. Na koncu kliknite na obremenitev da naložite svoj model.
- Za uporabo modela odprite zavihek Klepet in začnite testirati model.
Čestitamo, uspešno ste naložili Llama2 na vaš lokalni računalnik!
Preizkusite druge LLM
Zdaj, ko veste, kako zagnati Llamo 2 neposredno na vašem računalniku z uporabo Text-Generation-WebUI, bi morali poleg Llame poleg Llame znati zagnati tudi druge LLM-je. Samo zapomnite si konvencije o poimenovanju modelov in da je na običajne osebne računalnike mogoče naložiti samo kvantizirane različice modelov (običajno natančnost q4). Veliko kvantiziranih LLM je na voljo na HuggingFace. Če želite raziskati druge modele, poiščite TheBloke v knjižnici modelov HuggingFace in morali bi najti veliko razpoložljivih modelov.