Proizvajalci ChatGPT imajo še eno orodje, ki želi razbremeniti vaše prste.

Isti ljudje, ki stojijo za ChatGPT, so ustvarili še eno orodje, ki temelji na AI, s katerim lahko danes povečate svojo produktivnost. Govorimo o Whisperju, rešitvi za pretvorbo glasu v besedilo, ki je zasenčila vse podobne rešitve pred njo.

Whisper lahko uporabite v svojih programih ali ukazni vrstici. In vendar to premaga njegov namen: tipkanje brez tipkovnice. Če ga morate za uporabo tipkati, zakaj bi ga uporabljali, da bi se izognili tipkanju? Na srečo lahko zdaj uporabljate Whisper prek grafičnega vmesnika namizja. Še bolje, lahko tudi prepiše vaš glas skoraj v realnem času. Poglejmo, kako lahko tipkate z glasom s programom Whisper Desktop.

Kaj je OpenAI's Whisper?

OpenAI's Whisper je sistem za samodejno prepoznavanje govora (na kratko ASR) ali, poenostavljeno povedano, je rešitev za pretvorbo govorjenega jezika v besedilo.

Vendar je za razliko od starejših sistemov za narekovanje in prepisovanje Whisper rešitev z umetno inteligenco, ki je usposobljena za več kot 680.000 ur govora v različnih jezikih. Whisper ponuja neprimerljivo natančnost in, kar je zelo impresivno, ni samo večjezičen, ampak lahko tudi prevaja med jeziki.

instagram viewer

Še pomembneje je, da je brezplačen in na voljo kot odprta koda. Zahvaljujoč temu so številni razvijalci njegovo kodo razdelili v lastne projekte ali ustvarili aplikacije, ki se zanašajo nanjo, kot je Whisper Desktop.

Če bi raje imeli "vanilijevo" različico Whisperja in vsestranskost terminala namesto okornih GUI, si oglejte naš članek o kako spremeniti svoj glas v besedilo s programom OpenAI Whisper za Windows.

Ali sta Whisper in Whisper Desktop enaka?

Kljub uradno zvenečemu imenu je Whisper Desktop grafični uporabniški vmesnik tretje osebe za Whisper, narejen za vse, ki bi raje klikali gumbe namesto tipkanja ukazov.

Whisper Desktop je samostojna rešitev, ki se ne zanaša na obstoječo namestitev Whisper. Kot bonus uporablja alternativno, optimizirano različico Whisperja, zato bi moral delovati bolje kot samostojna različica.

Ste na drugem koncu spektra in namesto da bi iskali lažji način za uporabo Whisperja kot terminala, iščete načine za njegovo implementacijo v lastne rešitve? Veselite se, kajti OpenAI je odprl dostop do API-jev ChatGPT in Whisper.

Prenesite in namestite Whisper Desktop

Čeprav je Whisper Desktop lažji za uporabo kot samostojni Whisper, je njegova namestitev bolj zapletena kot večkratno klikanje Naprej v čarovniku.

  1. Obisk Uradna stran Github za Whisper Desktop. Poglejte na desno in spodaj kliknite najnovejšo različico Izdaje.
  2. Spodaj Sredstva, kliknite WhisperDesktop.zip in ga prenesite na svoj računalnik.
  3. Ekstrahirajte preneseni arhiv v mapo in ga obiščite z upraviteljem datotek. V notranjosti boste našli aplikacijo Whisper Desktop. Dvokliknite nanj, da ga zaženete.
  4. Potrebujete tudi jezikovni model Whisper GCML dvojiški format. Whisper Desktop vam bo ponudil dve povezavi za pridobitev ene. Preskočite drugo povezavo za ustvarjanje lastnega modela, saj je to bolj zapleten postopek. Kliknite na Objem obraza da odprete to stran v privzetem brskalniku, od koder lahko prenesete datoteko, pripravljeno za uporabo.
  5. Različica namizja Whisper Desktop, ki smo jo uporabili med pisanjem tega članka, je zagotovila povezavo do zastarelega repozitorija na Hugging Face. Če naletite na isto težavo, si oglejte povezavo do a nova lokacija. Kliknite nanj, da obiščete novo skladišče.
  6. Kliknite na povezavo, ki vas bo pripeljala do razpoložljivih modeli.
  7. Na tem seznamu kliknite bodisi ggml-medij.bin oz ggml-medium.en.bin, odvisno od tega, ali želite večjezično ali samo angleško podporo v Whisperju.
  8. Končno bi morali priti na cilj. Bodite pozorni na vrstico, ki navaja, da je ta datoteka shranjena z Git LFS in je prevelika za prikaz, vendar jo lahko še vedno prenesete. Kliknite na Prenesi narediti točno to.
  9. Ko se datoteka prenese, uporabite svojega najljubšega upravitelja datotek (File Explorer bo zadostoval), da premaknete preneseno datoteko jezikovnega modela v isto mapo kot Whisper Desktop.

Prepisovanje z Whisper Desktop

Prepisovanje s programom Whisper Desktop je enostavno, vendar boste za uporabo aplikacije morda vseeno potrebovali en ali dva klika.

Znova zaženite Whisper Desktop. Ali (še vedno) pogreša pravilno pot do vašega prenesenega jezikovnega modela? Kliknite na gumb s tremi pikami na desni strani polja in ročno izberite datoteko, ki ste jo prenesli iz Hugging Face.

S tega mesta lahko uporabite tudi spustni meni poleg Implementacija modela da izberete, ali želite zagnati Whisper na vaši GPE (GPU), na CPE in GPE (Hibrid), ali samo na CPE (Referenca).

The Napredno vodi do več možnosti, ki vplivajo na to, kako bo Whisper deloval na vaši strojni opremi. Ker pa gumb jasno navaja, da so napredni, predlagamo, da jih prilagodite le, če odpravljate težave ali veste, kaj počnete. Če tukaj nastavite napačne vrednosti možnosti, se lahko zmanjša zmogljivost ali aplikacija postane neuporabna.

Kliknite V redu, da se premaknete na glavni vmesnik aplikacije.

Če že imate posnetek svojega glasu, ki ga želite spremeniti v pisno besedilo, kliknite na Prepis datoteke in ga izberite. Kljub temu bomo za ta članek uporabili Whisper Desktop za prepis v živo.

Ponujene možnosti so enostavne. Izberete lahko jezik Whisper bo uporabil, izberite, če želite prevesti med jeziki in omogočite aplikacije Konzola za odpravljanje napak.

Večina angleško govorečih uporabnikov lahko varno preskoči te možnosti in zagotovi le, da je pravilen zvočni vhod izbran v spustnem meniju poleg Naprava za zajemanje.

Poskrbi Shrani v besedilno datoteko in Pripni tej datoteki so omogočeni, da Whisper Desktop shrani svoj rezultat v datoteko, ne da bi prepisal njeno vsebino. Uporabi gumb s tremi pikami na desni strani polja poti do datoteke, da določite omenjeno besedilno datoteko.

Kliknite na Zajemi da začnete prepisovati svoj govor v besedilo.

Whisper Desktop vam bo pokazal tri indikatorje, ko zazna glasovno dejavnost, ko aktivno prepisuje in ko se postopek ustavi.

Govorite lahko, kolikor dolgo želite, in občasno bi morali videti prva dva indikatorja, ki utripata, medtem ko aplikacija vaš glas spreminja v besedilo. Kliknite Stop ko je končano.

Besedilna datoteka, ki ste jo izbrali, bi se morala odpreti v vašem privzetem urejevalniku besedila in v pisni obliki vsebovati vse, kar ste povedali, dokler niste kliknili Stop.

Upoštevati moramo, da lahko storite tudi nasprotno od tega, kar smo videli tukaj: pretvorite poljubno besedilo v govor. Tako lahko poslušate karkoli, kot bi bil podcast, namesto da bi utrujali oči z mežikanjem v zaslone. Za več informacij o tem si oglejte naš članek o nekaj najboljših brezplačnih spletnih orodij za prenos besedila v govor kot zvok MP3.

Nasveti za glasovno tipkanje na namizju Whisper

Čeprav je Whisper Desktop lahko rešitelj, saj vam omogoča pisanje z glasom veliko hitreje kot tipkanje, še zdaleč ni popoln.

Med našim testiranjem smo ugotovili, da lahko občasno jeclja, preskoči nekaj besed in se ne uspe prepisati, dokler ročno zaustavite in znova zaženite postopek ali pa se zataknete v zanki in znova prepisujete isto frazo večkrat.

Verjamemo, da so to začasne napake, ki bodo odpravljene, saj samostojni Whisper ne kaže enakih težav.

Razen teh manjših udarcev bi moralo biti pretvarjanje vašega glasu v besedilo preprosto z Whisper Desktop. Kljub temu smo med našimi testi ugotovili, da lahko deluje še bolje, če ...

  1. Namesto da bi izgovoril samo dve ali tri besede in se nato ustavil, vas lahko Whisper bolje razume, če nadaljujete dlje. Poskusite dati vsaj cel stavek naenkrat.
  2. Iz istega razloga se izogibajte večkratnemu zagonu in ustavljanju postopka prepisovanja.
  3. Kadarkoli ugotovite, da ste naredili napako, jo ignorirajte in nadaljujte. Zdi se, da je nalaganje in razkladanje jezikovnega modela najbolj zamuden del postopka glede na trenutno stanje Whisperja in naše razpoložljive strojne opreme. Tako je hitreje nadaljevati pogovor in nato popraviti svoje napake.
  4. Tako kot pri samostojni različici Whisperja je tudi tukaj najbolje uporabiti optimalen jezikovni model za razpoložljivo strojno opremo. Uporabite lahko do srednje model, če ima vaš GPE 8 GB VRAM-a. Za manj VRAM-a izberite manjše modele. Le izberite nekoliko natančnejše, a tudi veliko bolj zahtevne velik model, če uporabljate GPE s 16 GB VRAM-a ali več.
  5. Ne pozabite, da večji kot je jezikovni model, počasnejši je proces prepisovanja. Ne posegajte po modelu, ki je večji od potrebnega. Verjetno boste ugotovili, da vas lahko Whisper Desktop večino časa "razume" že pri srednjih ali manjših modelih, le z eno ali dvema napakama na odstavek.

Ali še tipkate? Uporabite svoj glas s šepetom

Kljub temu, da zahteva nekaj časa za nastavitev, kot boste videli, ko ga preizkusite, deluje Whisper Desktop veliko bolje kot večina alternativ, z veliko večjo natančnostjo in večjo hitrostjo.

Ko jo začnete uporabljati za tipkanje z glasom, bo vaša tipkovnica morda videti kot relikvija iz davnih časov.