Oglas

Zdaj se lahko pogovarjamo s skoraj vsemi našimi pripomočki, ampak kako to deluje? Ko vprašate "Kaj je to pesem?" ali recimo "Pokliči mamo", zgodi se čudež moderne tehnologije. In čeprav se zdi, da je na vrhunskemu robu, ta ideja pogovorov z napravami sega desetletja nazaj - skoraj kolikor se tiče znanstvenih fantazij!

Danes je večina pozornosti, ki jo namenjajo računalništvu na glasov, namenjena pametnim telefonom. Apple, Amazon, Microsoft in Google so na vrhu verige, vsak pa ponuja svoj način pogovora z elektroniko. Saj veste, kdo so: Siri, Alexa, Cortana in brezimen "Ok, Google". Kar odpira veliko vprašanje ...

Kako naprava sprejme govorjene besede in jih pretvori v ukaze, ki jih lahko razume? V bistvu gre za usklajevanje vzorcev in napovedovanje na podlagi teh vzorcev. Natančneje, prepoznavanje glasu je zapletena naloga Akustično modeliranje in Jezikovno modeliranje.

Akustično modeliranje: valovne oblike in telefoni

valovna oblika

Akustično modeliranje je postopek sprejemanja valovne oblike govora in njegove analize s pomočjo statističnih modelov. Najpogostejša metoda za to je

Skriti Markov modeliranje, ki se uporablja v tako imenovanem izgovorjava modeliranje razčleniti govor na sestavne dele, imenovane telefone (da jih ne bomo zamenjali z dejanskimi telefonskimi napravami). Microsoft je že vrsto let vodilni raziskovalec na tem področju.

Skriti Markov modeliranje: Verjetnostna stanja

Skriti Markov modeliranje je matematični model napovedanja, pri katerem se trenutno stanje določi z analizo izhoda. Wikipedija ima odličen primer uporabe dveh prijateljev.

Predstavljajte si dva prijatelja - lokalnega prijatelja in oddaljenega prijatelja -, ki živita v različnih mestih. Lokalni prijatelj želi ugotoviti, kakšno je vreme, kjer živi oddaljeni prijatelj, vendar se oddaljeni prijatelj želi samo pogovoriti o tem, kaj je naredil tisti dan: hoditi, nakupovati ali čistiti. Verjetnost vsake dejavnosti, odvisno od vremena.

Skriti Markov modeliranje

Pretvarjajte se, da so to edini podatki, ki so na voljo. Z njo lahko lokalni prijatelj najde trende, kako se je vreme spreminjalo iz dneva v dan, in s pomočjo teh trendov, ona lahko začne poučevati o tem, kakšno bo današnje vreme na podlagi aktivnosti njene prijateljice včeraj. (Diagram sistema lahko vidite zgoraj.)

Če želite bolj zapleten primer, si oglejte ta primer na Matlabu. Pri prepoznavanju glasu ta model v bistvu primerja vsak del valovne oblike s tistim, kar pride prej in kaj po njem, in s slovarjem valovnih oblik, da ugotovi, kaj se govori.

Če ustvarite "th" zvok, boste zvok preverili proti najverjetnejšim zvokom, ki običajno prihajajo pred in po njem. Mogoče to pomeni preverjanje zvoka "e", zvoka "at" in tako naprej. Ko se vzorec pravilno ujema, ima potem celo besedo. To je preveč poenostavitev, vendar lahko vidite Microsoftovo celotno pojasnilo je tukaj.

Jezikovno modeliranje: Več kot zvok

Akustično modeliranje vam bo pomagalo, da vas bo računalnik razumel, kaj pa homonimi in regionalne različice v izgovorjavi? Tu se začne igrati jezikovno modeliranje. Google je na tem področju pognal veliko raziskav, predvsem z uporabo N-gram modeliranje.

Ko Google poskuša razumeti vaš govor, to stori na podlagi modelov, ki izhajajo iz njegove množice bank prenosa glasov in prepisov YouTube. Vsi ti zabavno napačni video napisi so Googlu dejansko pomagali razvijati svoje slovarje. Prav tako so uporabili odpeljane GOOG-411 za zbiranje informacij o tem, kako ljudje govorijo.

shutterstock_70757203

Vsa ta jezikovna zbirka je ustvarila široko paleto izgovorov in narečja, ki so ustvarila robustni slovar besed in njihovo zvenenje. To omogoča tekme, ki imajo močno zmanjšano stopnjo napak kot ujemanje silovite sile na podlagi surovih verjetnosti. Lahko preberete kratek prispevek tukaj opisujejo njihove metode.

Čeprav je Google vodilni na tem področju, se razvijajo še drugi matematični modeli, vključno z neprekinjenim presledkom modelov in modelov pozicijskih jezikov, ki so naprednejše tehnike, ki so rojene na podlagi raziskav umetne inteligence. Te metode temeljijo na ponovitvi takega sklepanja, ki ga ljudje poslušamo med seboj. Te so veliko bolj napredne tako v smislu tehnologije, ki jih za njimi stoji, pa tudi matematike in programiranja, potrebnih za načrtovanje teh modelov.

N-Gram modeliranje: Verjetnost izpolnjuje spomin

N-gramsko modeliranje deluje na podlagi verjetnosti, vendar uporablja obstoječi slovar besed, da ustvari razvejano drevo možnosti, ki ga nato zaradi učinkovitosti izravnamo. Na nek način to pomeni, da N-gramsko modeliranje odpravlja veliko negotovosti pri prej omenjenem Skritem modelu Markov.

Kot smo že omenili, je moč te metode posledica velikega slovarja besede in uporabe, ne samo primitivno zvoki. To daje programu možnost, da pokaže razliko med homofoni, kot sta "rit" in "pesa". Kontekstualno je, kar pomeni, da program, ko govorite o sinočnjih rezultatih, ne potegne besed o boršu.

Toda ti modeli dejansko niso najboljši za jezik, predvsem zaradi težav s verjetnostmi besed v daljših stavkih. Ko dodate več besed v stavek, se vam ta model nekoliko zalomi, saj vaše zgodnje besede verjetno ne bodo naložile vsega, kar je potrebno za vašo popolno misel.

Vendar je preprost in enostaven za izvedbo, zato se odlično ujema s podjetjem, kot je Google, ki uživa v metanju strežnikov ob računskih težavah. V N-gramu Modelieng lahko nadalje berete na naslovu Univerza v Washingtonuali si lahko ogledate predavanje na Coursera.

Kričanje v oblakih: Aplikacije in naprave

Vsi, ki uporabljajo Siri, poznajo počasno počasno omrežno povezavo. To je zato, ker se vaši ukazi Siri pošiljajo po omrežju, da jih Apple dešifrira. Cortana za telefon Windows zahteva tudi pravilno povezavo z omrežjem. Nasprotno pa je Amazonov odmev le zvočnik Bluetooth brez vsakega interneta.

Zakaj razlika? Ker Siri in Cortana potrebujeta težke strežnike, da dekodirajo vaš govor. Bi to lahko storili v telefonu ali tablici? Seveda, vendar boste v tem procesu ubili delovanje in življenjsko dobo baterije. Samo bolj smiselno je obdelavo naložiti na namenske stroje.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Zamislite si tako: vaš ukaz je avto, ki je obtičal v blatu. Verjetno bi ga lahko sami izgnali z dovolj časa in truda, vendar bo trajalo nekaj ur in vas izčrpalo. Namesto tega pokličete pomoč na cesti in ti avtomobil potegnejo v samo nekaj minutah. Slaba stran je, da morate poklicati in jih čakati, vendar je to še vedno hitrejše in manj obdavčeno.

Namizni modeli, kot je Nuance, ponavadi uporabljajo lokalne vire zaradi močnejše strojne opreme. Konec koncev, po besedah ​​Stevea Jobsa, vaš namizje je tovornjak. (Zaradi česar je OS X nekoliko neumno) strežniki za njegovo obdelavo.) Torej, ko morate obdelovati jezik in glas, je že dovolj dobro opremljen, da z njim ravnate sam.

Po drugi strani Android omogoča razvijalcem, da v svoje aplikacije vključujejo prepoznavanje govora brez povezave. Google rad napreduje v tehnologiji in lahko stavite, da bodo druge platforme to sposobnost pridobile, ko bo njihova strojna oprema postala močnejša. Nikomur ni všeč, ko slaba pokritost ali slab sprejem lobotomizira svojo napravo.

Začnite uporabljati glasovne ukaze zdaj

Zdaj, ko poznate temeljne koncepte, bi se morali igrati z različnimi napravami. Preizkusite novo glasovno tipkanje v Google Dokumentih Kako je glasovno tipkanje nova najboljša funkcija Google DokumentovPrepoznavanje glasu se je v zadnjih letih izboljšalo s skoki in omejitvami. V začetku tega tedna je Google končno uvedel glasovno tipkanje v Google Dokumente. A je to sploh dobro? Pa ugotovimo! Preberi več . Kot da paket spletnega urada še ni bil dovolj zmogljiv, vam glasovni nadzor omogoča, da v celoti narekujete in formatirate svoje dokumente. To se širi na zmogljivo tehnologijo, ki so jo že zasnovali za Chrome in Android.

Druge ideje vključujejo nastavitev svojega Mac za uporabo glasovnih ukazov Kako uporabljati govorne ukaze na vašem Macu Preberi več in nastavite svoje Amazon Echo z avtomatizirano blagajno Kako lahko Amazon Echo postane vaš dom pameten domPametna domača tehnologija je še vedno v zgodnjih dneh, toda nov izdelek iz Amazona, imenovan "Echo", bo morda pomagal, da se bo preusmeril v glavni tok. Preberi več . V prihodnosti živite in se pogovarjajte s svojimi pripomočki - tudi če samo naročite več papirnatih brisač. Če ste odvisnik od pametnih telefonov, imamo tudi vaje za Siri 8 stvari, ki jih verjetno niste ugotovili, Siri ne bi mogel storitiSiri je postala ena izmed iPhone-ovih ključnih funkcij, vendar za mnoge ljudi ni vedno najbolj uporabna. Medtem ko je nekaj zaradi omejitev prepoznavanja glasu, nenavadnosti uporabe ... Preberi več , Cortana 6 najboljših stvari, ki jih lahko nadzorujete s Cortano v sistemu Windows 10Cortana vam lahko pomaga prostoročno uporabljati sistem Windows 10. Lahko ji omogočite, da išče vaše datoteke in splet, izračune ali potegne vremensko napoved. Tukaj smo zajeti nekaj njenih hladnejših veščin. Preberi več , in Android V redu, Google: 20 uporabnih stvari, ki jih lahko poveš s telefonom AndroidGoogle Assistant vam lahko pomaga veliko narediti v telefonu. Tu je cel kup osnovnih, vendar uporabnih OK Googlovih ukazov, ki jih morate preizkusiti. Preberi več .

Katera je vaša najljubša uporaba glasovnega nadzora? Sporočite nam v komentarjih.

Slikovni krediti: T-flex prek Shutterstocka, Terencehonles preko fundacije Wikimedia, Država Arizona, Cienpies Design prek Shutterstocka

Michael ni uporabljal Maca, ko so bili obsojeni, vendar ga lahko kodira v Applescript. Diplomiral je iz računalništva in angleščine; že nekaj časa piše o Macu, iOS-u in video igrah; in je že desetletje vsakdanji IT opica, specializiran za scenarije in virtualizacijo.