Bralci, kot ste vi, pomagajo podpirati MUO. Ko opravite nakup prek povezav na našem spletnem mestu, lahko zaslužimo partnersko provizijo. Preberi več.

OpenAI's Whisper je nova rešitev, ki temelji na umetni inteligenci in lahko pretvori vaš glas v besedilo. Najboljše od vsega pa je, da je brez stroškov.

Vendar pa obstaja ulov: njegova namestitev in uporaba je zahtevnejša od običajnega pripomočka za Windows. Še posebej, če želite uporabiti tenzorska jedra svojega GPE-ja Nvidia, da ga lepo pospešite.

Vendar ne skrbi. Zato smo tukaj! Preberite, če želite izvedeti, kako ga namestiti in uporabljati, pa tudi, če ga imate, da lahko Whisper izkoristi vaš Nvidia GPE.

Kaj je OpenAI's Whisper?

ChatGPT je danes v modi in smo že videli kako lahko uporabljate ChatGPT z OpenAI. Pa vendar to ni edini zanimiv projekt OpenAI.

Whisper, ki ga poganjajo globoko učenje in nevronske mreže, je sistem za obdelavo naravnega jezika, ki lahko "razume" govor in ga prepiše v besedilo. Je pa tudi nekaj posebnega, saj sedi na mestu prav med vsemi podobnimi rešitvami:

instagram viewer
  • Whisper je rešitev umetne inteligence, "izurjena" na naravnem jeziku. Torej je boljši pri razumevanju "normalnega" človeškega govora kot starejše rešitve.
  • Whisper nima vmesnika, niti ne more snemati zvoka. Prevzame lahko le obstoječe zvočne datoteke in izhodne besedilne datoteke.
  • Ker je dober pri "osmišljanju jezika", ima Whisper tudi supermoč samodejnega prevajanja v enem samem koraku.
  • Whisper ni spletna storitev in lahko deluje popolnoma brez povezave.
  • Če imate razmeroma sodoben grafični procesor Nvidia (GTX970 ali novejši), lahko Whisper deluje v "pospešenem načinu strojne opreme", da poveča svojo hitrost.
  • Ni potrebe po registraciji, nakupu licence ali nakupu naročnine.

Zakaj grafični procesorji AMD niso podprti?

Da bi bili grafični procesorji uporabni za več kot grafiko, bi morali delovati kot popolnoma programabilni procesorji. Zato je Nvidia ustvarila CUDA, ki se uradno imenuje "vzporedna računalniška platforma in programski model". Če želite izvedeti več o CUDA in povezani strojni opremi ("jedra CUDA"), preberite naš članek o kaj so jedra CUDA in kako izboljšajo igranje računalniških iger.

CUDA je lastniška tehnologija Nvidia, združljiva samo z grafičnimi procesorji Nvidia. Najbližji alternativi strojni opremi AMD sta OpenCL in Radeon Compute Platform. Če želite izvedeti več o primerjavi rešitev posameznega podjetja, si oglejte naš članek o AMD Compute Units vs. Jedra CUDA Nvidia.

V primerjavi z alternativami se CUDA šteje za zrelejšo, zmogljivejšo in lažjo za uporabo. Tako večina razvijalcev cilja le na CUDA, kar posledično pomeni, da njihova programska oprema izkorišča le prednosti strojne opreme na grafičnih procesorjih Nvidia. In to vključuje Whisper.

Kako prenesti in namestiti Whisper

Na žalost Whisper ni samostojna aplikacija, ki bi jo lahko prenesli, namestili in zagnali. Zanaša se na drugo programsko opremo, ki jo je treba prav tako namestiti.

Za Windows, da bo ta vodnik preprost, bomo v veliki meri uporabljali Chocolatey za namestitev večine potrebnih delov programske opreme. Oglejte si naš vodnik najhitrejši način za namestitev programske opreme Windows za več informacij o Chocolatey.

Za Linux in Mac bi moral biti postopek namestitve (razen spremenljivke poti Windows in paketnih datotek, ki jih bomo ustvarili, preprostih za uporabo), podoben.

  1. Če želite namestiti in uporabljati Whisper, morate imeti Python in njegovo PIP nameščeno orodje in dodano spremenljivki »Pot« sistema Windows. Za informacije o tem si oglejte naš članek o kako namestiti Python PIP v Windows, Mac in Linux.
  2. Namestite FFMPEG skozi Chocolatey s tem ukazom:
    čoko namestite ffmpeg
    Prav tako namestite njegovo različico Python z:
    pip3 namestite python-ffmpeg
  3. Na koncu namestite Whisper z njegove strani Github z:
    namestitev pip3 git+https://github.com/openai/whisper.git

Pridobivanje Whisperjeve različice, ki podpira CUDA

Čeprav Whisper ne uporablja grafičnih procesorjev Nvidia, je svetilka paket, na katerega se opira, ponuja različico, pospešeno s CUDA. Če uporabite to namesto "navadne" različice, lahko Whisper s pomočjo vašega GPE-ja Nvidia veliko hitreje dokonča svoje prepise.

Če želite, da Whisper uporablja jedra CUDA vaše GPE Nvidia:

  1. Če že imate nameščeno "vanilijevo" različico gorilnika, jo odstranite in očistite ostanke z:
    pip3 odstraniti svetilka
    Ko je končano, nadaljujte z:
    pip predpomnilnikčiščenje
  2. Namestite torchovo različico, ki podpira CUDA, z:
    pip3 namestite svetilka torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  3. Če želite preveriti, ali Whisper lahko uporablja vaš Nvidia GPE, uporabite:
    šepetati --pomoč | findstr -i pytorch
    Moral bi videti (privzeto: cuda) namesto (privzeto: cpu).

Kaj storiti, če se Torch ne namesti

Če med nameščanjem torcha naletite na napako »ni različice najdene«, boste morda morali namestiti starejšo različico Pythona vzporedno s trenutno.

Za to uporabite ta ukaz:

čoko namestite python --različica STAREJŠA_RAZLIČICA --drug ob drugem

Zamenjajte "OLDER_VERSION" z različico, na primer 3.10.

Nato uporabite pot sekundarne različice za vse "generične" ukaze Whisper (npr. "c:\Python310\Scripts\pip.exe" namesto samo "pip").

Kako posneti svoj glas

S katero koli aplikacijo za snemanje zvoka lahko svoj glas pretvorite v datoteko WAV ali MP3. Windows vključuje takšno aplikacijo – za več informacij o tem glejte kako uporabljati aplikacijo Snemalnik zvoka Windows 10.

Če želite možnost z več funkcijami, poskusite Drznost. Naučite se, kako to storiti, z našim vodnikom na kako uporabljati Audacity za snemanje zvoka v sistemih Windows in Mac.

Kako začeti prepisovati s šepetom

Čeprav Whisper nima uporabniku prijaznega GUI, je njegova uporaba izjemno preprosta.

Recimo, da imamo datoteko LatestNote.mp3 ki vsebuje govor v grščini, v mapi c:\MyAudioFilesin ga želite prevesti v angleščino ter prepisati v besedilno datoteko.

  1. Začnemo s tekom Ukazni poziv oz PowerShell.
  2. S tem ukazom "spremenimo imenik", kjer je shranjena zvočna datoteka:
    cd C:\MyAudioFiles
  3. Sprostimo Whisper v datoteki z:
    šepetati--modelosnova--jezikgr--nalogaprevestiLatestNote.mp3

Ko bo obdelana, se besedilna datoteka (z imenom "LatestNote.mp3.txt") prikaže v isti mapi. Odprite ga v urejevalniku besedil, kot je Beležnica za ogled prevedenega besedila.

Uporabili smo primer prevoda, ker je angleška transkripcija še enostavnejša: "izgubiti" morate samo zastavici "--language" in "-task". Tako bi bil za navaden prepis zgornji ukaz:

šepetati--modelosnovaLatestNote.mp3

Zastavica "model" je obvezna, ker Whisper uporablja eno od različnih možnosti. Razširimo jih, da vam pomagamo izbrati najboljše za vaše potrebe.

Kateri model izbrati?

Whisper ponuja različne jezikovne modele. Večji kot je model, bolj je izboljšana njegova natančnost, višje pa so tudi njegove strojne zahteve. To so:

  1. Majhen.
  2. Osnova.
  3. majhna.
  4. Srednje.
  5. Velik.

Večina govorcev angleščine, ki jim je materni jezik, bi morala ustrezati majhen oz osnova modeli. Negovorci angleščine bodo morda dosegli boljše rezultate z večjimi modeli, npr majhna in srednje.

Upoštevajte pa, da srednji in veliki modeli zahtevajo več kot 8 GB VRAM-a (to je "pomnilnik vašega GPU-ja").

Če želite izbrati enega od njih, podajte model za stikalom "--model" v ukazu:

šepetati --model majhen/majhen/srednji/velik [datoteka]

Na primer:

šepetati--modelmajhnaMoja_glasovna_zapiska.mp3

Kako poenostaviti svoj prepis

Če morate vsakič, ko želite prepisati nekaj zvoka, vnesti celoten ukaz Whisper, je lahko hitro dolgočasno. Naredimo globalno dostopno paketno datoteko, da poenostavimo postopek.

  1. Teči Windows Explorer in obiščite svoj pogon C:.
  2. Ustvarite mapo za svoje skripte in kopirajte njeno pot v odložišče.
  3. V meniju Start sistema Windows poiščite »pot« in izberite Uredite spremenljivke sistemskega okolja.
  4. Poišči Pot spremenljivka pod Uporabniške spremenljivke za YOUR_USERNAME. Dvokliknite nanjo, da jo uredite. Kliknite na Novoin prilepite pot do mape s skripti. Kliknite na v redu sprejeti spremembe.
  5. Vrnite se v mapo s skripti v Raziskovalcu. Tam ustvarite novo paketno datoteko z imenom "wht.bat". "V notranjosti" postavite ta ukaz:
    šepetati --model tiny --language en %1
  6. Ustvarite še dve paketni datoteki, "whs" in "whm".
  7. Postavite to znotraj prvega skripta:
    šepetati --model small --language en %1
  8. Postavite to znotraj drugega:
    šepetati --model media --language en %1

Čestitamo, zdaj imate tri skripte za preprosto uporabo majhnih, majhnih in srednjih modelov Whisper z vašimi zvočnimi datotekami! Če želite katero koli zvočno datoteko prepisati v besedilo:

  1. Poiščite datoteko z Raziskovalec datotek Windows.
  2. Desni klik na prazno mesto in izberite Odprite v terminalu.
  3. Vnesite ta ukaz in zamenjajte "wht" z "whs" ali "whm", če želite uporabiti majhne ali srednje jezikovne modele:
    kajVAŠA_AVDIO_DATOTEKA.mp3

Tipkanje s hitrostjo zvoka s šepetom

Tudi najhitrejši pisci na dotik se ne morejo kosati s hitrostjo, s katero govorimo. Vendar do nedavnega govorjenje namesto tipkanja ni bilo optimalno za ustvarjanje dokumentov.

Večina rešitev za pretvorbo glasu v besedilo je dala povprečne rezultate. Lahko bi našli nekaj rešitev, ki bi jih bilo vredno poskusiti, vendar so bile zapletene za uporabo ali drage. K sreči je Whisper vse to spremenil.

Po zgornjih korakih bi morali biti pripravljeni na prepis ali prevod svojega glasu z visoko natančnostjo z uporabo samo enega ukaza.