Googlov MusicLM se je zdel obetaven s svojo sposobnostjo ustvarjanja glasbe iz besedilnih pozivov. Toda po tem, ko smo ga preizkusili, se ni povsem izkazal.
Januarja 2023 je Google napovedal MusicLM, eksperimentalno orodje AI, ki lahko ustvarja glasbo na podlagi besedilnih opisov. Poleg te novice je Google izdal osupljivo raziskovalno nalogo za MusicLM, ki je mnoge ljudi osupnila nad zmožnostjo ustvarjanja glasbe iz zraka.
Glede na besedilni poziv je model obljubil, da bo ustvaril glasbo visoke ločljivosti, ki bo vsebovala vse vrste opisov od žanra do instrumenta do abstraktnih napisov, ki opisujejo znana umetniška dela. Zdaj, ko je MusicLM odprt za javnost, smo se odločili, da ga preizkusimo.
Googlov poskus ustvarjanja AI glasbenega generatorja
Spreminjanje besedilnega poziva, kot je "sproščujoči jazz", v skladbo, pripravljeno za predvajanje, je nedvomno sveti gral eksperimentov v glasbi z umetno inteligenco. Podobno kot pri znanih generatorjih slik z umetno inteligenco, kot sta Dall-E ali Midjourney, vam ni treba imeti niti trohice glasbenega znanja, da ustvarite skladbo z melodijo in ritmom.
Maja 2023 so lahko tisti, ki so se prijavili na Googlovo AI Test Kitchen, prvič preizkusili predstavitev. Pozdravljena z uporabniku prijazno spletno stranjo in nekaj vodilnimi pravili – elektronskimi in klasičnimi inštrumenti delujejo najbolje in ne pozabite določiti "vibe" – ustvariti delček glasbe je nepredstavljivo enostavno.
Hitrost je ena redkih stvari, ki jih MusicLM resnično zagotavlja, poleg vzorcev z relativno visoko zvestobo. Vendar pravega testa ni bilo mogoče izmeriti samo s štoparico. Ali lahko MusicLM ustvari pravo, poslušljivo glasbo, ki temelji na nekaj besedah? Ne ravno (kmalu bomo prišli do tega).
Kako uporabljati MusicLM v Googlovi AI Test Kitchen
Uporaba MusicLM je preprosta, prijavite se lahko na čakalno listo Googlova testna kuhinja AI če hočeš poskusiti.
V spletni aplikaciji boste videli besedilno polje, kjer lahko sestavite poziv iz nekaj besed v nekaj stavkov, ki opisujejo vrsto glasbe, ki jo želite slišati. Za najboljše rezultate Google svetuje, da "bodite zelo opisni" in dodaja, da poskusite vključiti razpoloženje in čustva glasbe.
Ko ste pripravljeni, pritisnite enter za začetek obdelave. V približno 30 sekundah vam bosta na voljo dva zvočna odlomka za avdicijo. Izmed obeh imate možnost podeliti pokal najboljšemu vzorcu, ki se ujema z vašim pozivom, kar posledično pomaga Googlu usposobiti model in izboljšati njegov rezultat.
Kako zveni MusicLM
Ljudje ustvarjamo glasbo že pred vsaj 40.000 leti brez dokončne predstave, ali je glasba nastala pred, po ali hkrati z razvojem jezika. Tako na nek način ni presenetljivo, da MusicLM še ni povsem razbil kode te starodavne univerzalne umetnosti.
Googlov raziskovalni članek MusicLM predlagal, da bi MusicLM lahko ustvaril glasbo iz napisov, ki pripadajo slavnim umetninam, in sledil navodila, kot je nemoteno spreminjanje žanra ali razpoloženja po zaporedju različnih pozive.
Preden smo se lotili tako visokih nalog, smo ugotovili, da mora MusicLM najprej premagati več temeljnih težav.
Težave z držanjem tempa
Najosnovnejša naloga vsakega glasbenika je preprosto igrati v taktu. Z drugimi besedami, držite se tempa. Presenetljivo je, da MusicLM tega ne zmore 100% časa.
Pravzaprav so ob 10-kratni uporabi istega poziva, ki proizvede 20 glasbenih skladb, samo tri bile pravočasne. Preostalih 17 vzorcev je bilo hitrejših ali počasnejših od določenega tempa, ki je bil zapisan v "utripih na minuto", kar je pogosto uporabljen izraz za opis glasbe.
V tem primeru smo uporabili poziv "solo klasični klavir, igran pri 80 utripih na minuto, mirno in meditativno". Ob natančnejšem poslušanju se je glasba pogosto pospešila ali upočasnila znotraj majhne dolžine vzorca.
Glasbi tudi ni bilo močnega utripa in je zvenelo, kot da bi nekdo pritisnil play sredi dela. Ne glede na to, ali je bilo to namerno ali ne, je težko oceniti, ali lahko MusicLM dejansko komponira pravi začetek ali konec glasbenega dela poleg tega, da se drži ritma.
Naključna izbira instrumenta
Morda se MusicLM še ni naučil igrati v strogem časovnem razporedu, zato smo prešli na drug pogost parameter glasbe. Želeli smo videti, ali bo ugodilo naši prošnji za določene instrumente.
Napisali smo več različnih pozivov, ki so vključevali opise, kot sta "Solo sintetizator" in "Solo bas kitara". Drugi so bili večji ansambli, kot sta "Godalni kvartet" ali "Jazz band". Na splošno se je zdelo, da imate 50:50 možnosti, da boste dobili, kar ste zahtevali.
Ena od teorij je, da model nekatere instrumente povezuje s priljubljenimi glasbenimi žanri. Vzemimo za primer poziv "Solo sintetizator, napredovanje akordov. Živahen in optimističen." Namesto da bi dobil sam zvok sintetizatorja, je MusicLM izdelal elektronsko skladbo skupaj z bobni in basom.
Možno je, da model preprosto ni imel dovolj podatkov in dovolj usposabljanja, da bi razumel posebno zahtevo za instrument.
Vokali so izven enačbe
V skladu s takratnimi omejitvami model ne bi produciral glasbe, ki bi vsebovala vokale. Mučna vprašanja MusicLM glede avtorskih pravic in hroščast vokal je verjeten dejavnik, zakaj se je Google odločil varno igrati z nastavitvijo te omejitve.
Toda po nekajčasnem eksperimentiranju z MusicLM smo ugotovili, da Googlov nadzor nad izhodom modela ni ravno železen. Nenavadno je, da bi poziv, kot je "akustična kitara", proizvedel skladbo, ki bi v ozadju vsebovala duhovite vokale, ki bi zveneli pridušeno in oddaljeno.
Čeprav to ni pogost pojav, vas vseeno pusti spraševati o sposobnosti MusicLM ustvariti prepričljive vokale.
S programsko opremo, kot sta VOCALOID in Synthesizer V, prednjačita Tehnologija glasovne sinteze s pomočjo umetne inteligence, zaradi izpuščanja vokalov iz trenutnega modela se sprašujemo, ali še ni dovolj dober, da bi lahko tekmoval z obstoječo tehnologijo. MusicLM morda čaka še dolga pot, preden ji bodo glasbeniki zapeli hvalo.
Prihodnost glasbenih generatorjev z umetno inteligenco
Čeprav je MusicLM premaknil generativno glasbeno tehnologijo umetne inteligence naprej, se mora vrniti v šolo in se naučiti še nekaj stvari, preden se lahko loti praktičnega dela v glasbeni industriji.
Pred tem je bil najboljši poskus generativne glasbe z umetno inteligenco model, imenovan JukeboxAI, ki ga izvaja OpenAI. Ni bil ravno v stanju, pripravljenem za uporabo, in trajalo je ogromnih devet ur, da je upodabljala samo eno minuto glasbe.
Za vaš trud bi verjetno dobili nazaj skladbo z resnično tujerodnim zvokom, prepredeno z zvočnimi popačenji in artefakti. Po drugi strani pa vam ne bo dolgčas poslušanje bizarnih kreacij, ki jih pričara Jukebox.
V luči tega je MusicLM naredil nekaj pomembnega napredka v smeri uporabniku prijaznega generatorja glasbe z umetno inteligenco. Modelu bi skoraj lahko oprostili njegove naključne izhode, ko pomislite, kako zelo zapleteno je ustvarjanje glasbe v surovi zvočni obliki.
Potem ko je model začel delovati, pa se zdi, da je MusicLM na pol pečen v primerjavi s tem, kar je Google objavil v svojem začetnem raziskovalnem članku. Generator slik z umetno inteligenco redko dobi napačno podobo Appla, prav tako bi moral generator glasbe z umetno inteligenco pravilno določiti nekaj osnov, kot so tempo in instrumenti.
Googlov MusicLM ni dosegel pričakovanj
S tehnološkimi podjetji, ki tekmujejo med seboj, da bi medsebojno tekmovala na področju umetne inteligence, se zdi, da je MusicLM vstopil v javna preskušanja, preden je bil pripravljen. Zdi se, da namesto pravilnega pridobivanja temeljev model uporablja veliko bolj nejasen in subjektiven pristop k ustvarjanju glasbe.
Google vas bo morda spodbudil, da ste s svojim pozivom natančni, vendar ne more dobro obvladati tempa in ni zagotovljeno, da boste vsakič dobili glasbila, ki ste jih zahtevali. MusicLM je morda zanimiva in dobra predstavitev zmogljivega napredka umetne inteligence, a če je glasba končni cilj, je do nje še dolga pot.