Zaznavanje fraz je le del postopka.
Zavpiti »Ok Google« z druge strani sobe, da spremenite glasbo ali ugasnete luči v sobi, je zagotovo občutek neverjetno, toda ta na videz preprost postopek poganja zapletena mreža tehnologij, ki delujejo v ozadju prizorov.
Skoraj vsak večji virtualni pomočnik na trgu ima klicno frazo, s katero zbudite pomočnika in se pogovorite. Toda kako glasovni pomočniki vedo, kdaj se pogovarjate z njimi?
Kako deluje zaznavanje fraz?
Kot je navedeno zgoraj, ima vsak glasovni pomočnik "sprožilno frazo" ali besedo za prebujanje, ki jo uporabite za prebujanje pomočnika in dajanje nadaljnjih ukazov. Postopek zaznavanja te fraze je bolj ali manj enak pri vsakem pomočniku, razen majhnih odtenkov. Kljub temu lahko te nianse pomenijo razliko med mimogrede izgovorjenim ukazom wake in večkratnim vzklikanjem včasih le, da pomočnik še naprej spi, kar je lahko včasih zelo nadležno, še posebej, če ste uporaba glasovnega pomočnika za pomoč pri umirjanju.
Na splošno ima večina "pametnih" zvočnikov majhno vezje, katerega edina naloga je zaznavanje ukaza za bujenje in nato sprožitev preostale strojne opreme. Večina obdelave poteka v oblaku, vendar je fraza zaznana v napravi zaradi očitnih razlogov zasebnosti. Zaznavanje fraz na telefonih deluje bolj ali manj enako.
Podrobnosti so večinoma prikrite, vendar ti sistemi za zaznavanje uporabljajo strojno učenje in globoke nevronske mreže (DNN) za usposabljanje modelov AI za zaznavanje vašega glasu in oblikovanje ključa. Ta ključ se nato uporabi za preverjanje, kdaj ste izgovorili določeno frazo, vse ostalo pa se pošlje v oblak za nadaljnjo obdelavo.
Google Assistant
Telefoni, ki podpirajo zaznavanje »OK Google«, so običajno opremljeni s sistemom za opazovanje ključnih besed (KWS), ki zazna frazo in nato popravi preostanek vaše poizvedbe v oblak. Ker imajo mobilne naprave omejeno računalniško moč in tudi življenjsko dobo baterije, ti sistemi običajno niso tako dobri kot tisti, ki jih najdete na zvočnikih Google Nest.
Ta sistem KWS v napravi nenehno zajema zvok iz mikrofonov naprave in sproži povezavo s strežnikom, ko zazna sprožilni stavek. Google uporablja tudi strežniško kontekstualno samodejno prepoznavanje govora (ASR) za izboljšanje splošne natančnosti svojega sistema KWS. Več o tem si lahko preberete v Googlov raziskovalni članek [PDF].
Siri
Siri glede zaznavanja »Hey Siri« deluje enako kot Google Assistant. Apple je bil presenetljivo odkrit glede delovanja sistema, ki vključuje "zelo majhen" prepoznavalec govora, ki deluje v ozadju in posluša samo ti dve besedi. Ta detektor uporablja DNN za pretvorbo akustičnega vzorca vašega glasu, posnetega v vsakem primeru, v verjetnostno porazdelitev zvokov govora, kar v bistvu ustvari oceno zaupanja.
Vaš iPhone ali Apple Watch to stori tako, da spremeni vaš glas v tok vzorcev valov s hitrostjo 16.000 na sekundo. To se nato zmanjša na zaporedje sličic, ki pokrivajo zvočni spekter približno 0,01 sekunde. Nato se skupno 20 teh sličic vnese v model zaznavanja, ki te vzorce pretvori v verjetnost.
Če sistem dovolj zanesljivo ugotovi, da ste rekli "Hej Siri," se Siri zbudi in pošlje ostalo poizvedbe v oblak, kjer poteka nadaljnja analiza in se izvede kakršno koli dejanje, ki ste ga zahtevali izvedel.
Seveda so dodani dodatni ukrepi za zagotavljanje učinkovitosti pomnilnika in baterije. Procesor Always On (AOP) vašega iPhona ima prav iz tega razloga dostop do mikrofonov naprave (na iPhonu 6S in novejšem) in majhen del njegove procesorske moči je rezerviran za zagon DNN. Apple se na svojem spletnem mestu za strojno učenje globoko poglobi v celoten sistem, strojno učenje.jabolko.
Alexa
Podobno kot Google Assistant in Siri tudi Alexa ne hrani večine svoje procesorske moči na nobenem od zvočnikov Echo, ki jih lahko kupite. Namesto tega zvočniki uporabljajo tisto, kar Amazon imenuje samodejno prepoznavanje govora (ASR), ki izgovorjene besede v bistvu pretvori v besedilo, kar osnovnemu sistemu omogoči, da jih interpretira in ustrezno ukrepa.
ASR je osnovni temelj delovanja Alexa. Še enkrat, na krovu je vgrajen sistem, ki posluša besede, ki zbujajo, v tem primeru "Alexa," "Amazon," "Echo" ali "Computer" in sproži preostanek sistema, ko je beseda za bujenje, ki jo vnaprej določi uporabnik odkrito. Lahko celo zbudite svojo napravo Alexa z "Hey Disney" če želiš.
Tako kot Google Assistant lahko tudi vi usposobite osnovni model AI Alexa, da bolje zazna vaš glas. Ta postopek vključuje ustvarjanje osnovnega "ključa", s katerim se primerja izgovorjena budilna beseda, in ko se najde ujemanje, se naprava ustrezno odzove.
Ali glasovni pomočniki vedno poslušajo?
Kot verjetno že ugibate, da, so. Drugače nikakor ne bi mogli zaznati budilnih besed. Vendar pa vam zaradi skrbi glede zasebnosti še ni treba zavreči vseh svojih pametnih zvočnikov.
Poslušanje vsega, kar uporabniki povedo, pošiljanje nazaj na oddaljeni strežnik in analiziranje (ali shranjevanje) zahteva ogromno strojne opreme in finančnih sredstev do te mere, da iz prakse ni smiselno perspektiva. Če k temu dodamo velike pomisleke glede zasebnosti, s katerimi se podjetja, kot so Google, Apple in Amazon, že ukvarjajo, ideja nima smisla.
To prav tako močno vpliva na delovanje telefonov in življenjsko dobo baterije s funkcijami zaznavanja besed v bujenju, predvsem Google Pixels in iPhone. Če vaš telefon nenehno posluša, kaj govorite, in ta zvok pošlje nazaj na oddaljeni strežnik, bo to izpraznilo vašo baterijo in zmanjšalo zmogljivost naprave.
Kdo ima najučinkovitejše zaznavanje fraz in zakaj?
Objektivno primerjati, kateri virtualni pomočnik ima najboljše objektivno zaznavanje besednih zvez, ni lahko, saj vsi uporabljajo nekoliko različne izvedbe istega splošnega koncepta. Vendar se zdi, da ima Google bolj dosledno zaznavanje besednih zvez zaradi prednosti Google Assistant v primerjavi s Siri in Alexa.
Kljub temu, da aplikacije, ki uporabljajo velike jezikovne modele (LLM), kot sta ChatGPT in Bing Chat, postajajo priljubljene, Google Assistant ohranja svoj položaj enega najbolj priljubljeni virtualni pomočniki preprosto zato, ker je z dotikom na vsaki napravi Android, od pametnih televizorjev do avtomobilskih stereo sistemov in seveda pametnih telefonov.
Siri in Alexa morata na tem področju nekaj nadoknaditi, a kar zadeva zaznavanje fraz, nista tako daleč. Kljub temu boste imeli boljše možnosti, da z druge strani sobe zbudite Google Assistant na vašem Pixelu, kot če bi imeli Siri na vašem iPhoneu, čeprav lahko povečajte zmogljivosti Siri z načinom Super Siri. Ker se Alexa večinoma uporablja na Amazonovi liniji zvočnikov Echo, je tu v manjši prednosti, glede na to, da so ti zvočniki zasnovani tako, da lahko ujamejo uporabnikov glas.
Umetna inteligenca je tako grozljiva kot priročna
Priklic vašega AI pomočnika samo z vašim glasom je lahko zelo priročno. Za funkcijo, ki se neopazno vključi v naša življenja, se v zakulisju dogaja marsikaj, na kar večina od nas pogosto ne pomisli.
Kljub temu ta priročnost s seboj prinaša tudi nelagodje, ker vaša naprava vedno posluša, kaj govorite. Do sedaj so prepoznavanje govora v napravi in besede za bujenje med tem, kar vaš virtualni pomočnik sliši, in tem, kar izgovorite.