Glasba Deepfake posnema slog določenega izvajalca, vključno z njegovim glasom. Kako je mogoče, da zveni tako resnično?
Glasba se je dolgo časa izogibala svetu globokih ponaredkov, ker je bilo preprosto preveč zapleteno sintetizirati glas nekoga. Vse se je spremenilo z napredkom tehnologije umetne inteligence. To je povzročilo glasovne klone znanih izvajalcev, ki jih je mogoče uporabiti za ustvarjanje novih vokalnih skladb.
Z orodji AI, ki postajajo vse bolj dostopna povprečnim ljudem, je deepfake glasba vedno večji problem. Evo, kaj je in kako je ustvarjeno.
Evolucija glasbe Deepfake
Ko slišite petje svojega najljubšega izvajalca na Spotifyju ali YouTubu, skoraj ne pomislite, da bi lahko bilo ponaredek, vendar je napredek AI to uresničil. Poleg lažnih slik in videoposnetkov obstaja tudi deepfake glasba.
Orodja AI lahko zvesto reproducirajo pevski glas osebe tako, da učijo model AI na zvočnih vzorcih njihovega glasu. Ustvarili so jih oboževalci umetnika ali oboževalci tehnologije umetne inteligence, vse več ljudi poskuša ustvariti vokalne dvojnike.
Ljudje že leta poskušajo sintetizirati glas z računalnikom, vse do leta 1961, ko je bil IBM 7094 prvi računalnik, ki je pel. Lahko slišite računalniško ustvarjen glas, ki poje Daisy Bell v YouTubovem posnetku in poskusite si predstavljati, kako neverjeten je bil ta trenutek.
Hitro naprej v 21. stoletje in tehnologija AI je izboljšala kakovost sintetiziranega glasu in nam omogočil, da počnemo stvari, za katere večina od nas do zdaj ni mislila, da so možne, na primer kloniranje glasov ljudi.
Samo poglejte ta posnetek Roberta Nicksona, ki svoj glas spreminja v umetnika in reperja Kanyeja Westa. Gledanje videa se zdi nenavadno, res zveni tako kot Kanye, vendar ga je tudi neprijetno gledati. Brez pretiranega razmišljanja o tem, kako bi lahko umetnik mislil ali čutil, in brez dovoljenja bi to lahko razumeli kot prisvajanje glasu nekoga.
Za razliko od računalniške upodobitve Daisy Bell lahko kloniranje vokalov z umetno inteligenco reproducira natančno podobnost glas nekoga, ki vključuje vse subtilne razlike v tembru, ki nam pomagajo prepoznati edinstven vokal nekoga profil. Nelicencirana in izvedena brez dovoljenja pa ima deepfake glasba nekaj resnih težav, ki jih bomo obravnavali kasneje.
Kako nastanejo pesmi Deepfake
Za ustvarjanje deepfake pesmi se uporabljajo različne metode, vendar mnoge od njih uporabljajo tehnologijo umetne inteligence. Odprtokodni projekti, kot so Projekt pretvorbe pevskega glasu SoftVC VITS na GitHubuso na primer razvili model AI, ki naredi to, kar piše v imenu: pretvori zvočni vzorec v petje.
Ta model vzame obstoječo zvočno datoteko nekoga, ki poje, in jo pretvori v glas nekoga drugega. Stvari, kot so besedilo in ritem izvirnega glasu, se ohranijo, vendar se ton, tember in osebne glasovne lastnosti pretvorijo v glas, ki ga določa nabor podatkov za usposabljanje.
Upoštevajte, da so lahko drugi deli pesmi še vedno proizvedeni ročno, na primer ustvarjanje taktov in melodij v istem slogu in žanru kot izvirni izvajalec.
Da bi ustvarili deepfake glasu Kanyeja Westa, je bilo treba v model SoftVC VITS vnesti nabor podatkov tretje osebe, ki bi vključeval vzorce pravega Kanyejevega glasu. Datoteko, ki je vsebovala nabor podatkov, je avtor od takrat odstranil, kar ni presenetljivo glede na mračno pravno ozemlje, ki bi lahko prišlo z nepooblaščenimi nabori podatkov.
Čeprav še ni bila spremenjena v komercialno aplikacijo, lahko najdete različico aplikacije Model SoftVC VITS v storitvi Google Collab ki je bolj uporabniku prijazen.
Dokler ne bodo vzpostavljene etične in pravne meje, je možno, da bodo aplikacije za kloniranje glasu, ki so preproste za uporabo, pojavno okno – ni preveč drugačno od aplikacije Drayk.it, ki je besedilni opis spremenila v pesmi, oblikovane po umetniku Drake. Kasneje so ga zaprli.
Nekatera druga orodja, ki se uporabljajo za ustvarjanje deepfake glasbe, vključujejo velike jezikovne modele, kot je ChatGPT, ki se lahko uporablja za pisanje besedil v slogu znanega izvajalca; in OpenAI-jev Jukebox in Googlov MusicLM, ki so generativni modeli umetne inteligence, ki lahko ustvarjajo glasbo v surovi zvočni obliki popolnoma iz nič.
Ali slišite razliko?
Skladba, ki jo je ustvaril anonimni uporabnik z imenom Ghostwriter, je aprila 2023 postala viralna na TikToku, v veliki meri zato, ker je vsebovala besedila, ki sta jih zapela umetnika Drake in The Weeknd. Seveda to niso bili pravi glasovi umetnikov, ampak lažni.
Če vokal ne bi bil tako dobra kopija originala, morda ne bi bil hit. Z malo kopanja bi lahko precej hitro ugotovili, ali gre za pravo stvar ali ne, toda samo z ušesi bi lahko le ugibali, ali je pristna.
Če želiš prepoznati sliko, ustvarjeno z AI obstaja vsaj nekaj vizualnih aberacij, ki bi jih lahko iskali. Kar zadeva zvok, znaki, kot so zvok nizke ločljivosti ali napake v skladbi, ne pomenijo veliko, saj so to kreativne izbire, ki se ves čas uporabljajo v glasbeni produkciji.
Še bolj zanimivo pa je, da je mnogim ljudem pesem resnično všeč, tudi potem ko odkrijejo, da to niso pravi glasovi Drakea ali The Weeknda. Občudovalci so poudarili, da ni bilo vse preprosto ustvarjeno z umetno inteligenco in da sta bila prava spretnost in delo vložena v pisanje besedil, komponiranje ritmov in sestavljanje celotne stvari.
Skladba je prišla na Spotify in YouTube, preden so jo v naslednjih dneh umaknili, vendar ne prej, preden so jo oboževalci prenesli kot mp3. Še vedno lahko najdete kopije pesmi na spletu, če iščete "Heart On My Sleeve, Drake ft. Teden".
Kmalu bo opazovanje razlike med vokalnimi kloni, ki jih ustvari umetna inteligenca, in pravim človeškim glasom postalo skoraj nemogoče. S tem v mislih se ljudje sprašujejo, ali je to sploh dobra uporaba tehnologije umetne inteligence ali celo zakonita uporaba le-te.
Težave z glasbo Deepfake
Po eni strani ljudje uživajo ob poslušanju mešanic svojih najljubših izvajalcev, ki so jih ustvarili oboževalci, in spoštujejo ustvarjalnost, s katero to uresničijo. Toda zmožnost imeti vokalne klone je v prvi vrsti odvisna od naborov podatkov, ki so lahko odobreni ali ne.
Brez dovoljenja se vzorci glasu osebe zberejo v nabor podatkov, ki se nato uporabi za usposabljanje modela glasovne pretvorbe AI. Podobno je težavi, s katero se sooča umetniki, ki želijo odstraniti svoje slike iz naborov podatkov o usposabljanju ki se uporabljajo za usposabljanje generatorjev slik AI, kot sta Dall-E ali Midjourney.
Tudi zakonodaja o avtorskih pravicah ni povsem pripravljena na spopadanje z deepfake glasbo. Leta 2020 je umetniku Jay-Z-ju spodletelo pri poskusu, da bi YouTube prisilil, da odstrani z umetno inteligenco ustvarjen zvok njegovega rapanja iz samospeva Williama Shakespearja »To Be or Not to Be«.
Ko se deepfake pesem naloži na Spotify ali YouTube, se pojavi tudi vprašanje, kdo služi denar. Ali bi morali zaslužiti denar s pesmijo, ki skoraj natančno kopira glas nekoga drugega?
Holly Herndon je ena umetnica, ki je poskušala ustvariti sistem, po katerem bi ji ljudje dajali nadomestilo v zameno za uporabo njenega glasovnega modela za ustvarjanje izvirnega dela. Medtem ko drugi umetniki, kot je Nick Cave, imajo nastopil proti AI, pisanje:
Pesmi nastajajo iz trpljenja, s čimer mislim, da temeljijo na zapletenem, notranjem človeškem boju ustvarjanja in, kolikor vem, algoritmi ne čutijo.
včasih, Besedilo, ustvarjeno z umetno inteligenco, lahko nima ustvarjalnosti vse skupaj pa so še vedno objavljene na spletu. AI lahko povzroči veliko slabe glasbe, v katero je bilo vloženega zelo malo truda.
Iskanje ravnovesja med glasbo in umetno inteligenco
Glasba Deepfake je ustvarjena z orodji AI in modeli AI, ki so bili usposobljeni na nepooblaščenih zbirkah podatkov. Nekateri modeli so odprtokodni in prosto dostopni, drugi pa so jih poskušali zapakirati v uporabniku prijazno aplikacijo.
Ko vse več ljudi dobi v roke globoko lažne glasbene modele ali aplikacije, je vredno razmisliti o vplivu na izvajalca. Pridobivanje soglasja za nabore podatkov o usposabljanju in nadomestilo za izvajalca so le nekatere od težav, ki prežijo na glasbeno tehnologijo umetne inteligence.