Google predstavil algoritem za generiranje glasbe
Jurij Kristan
31. jan 2023 ob 16:32:53
Pri Googlu so pokazali algoritem MusicLM, ki je sposoben iz pisanih navodil ustvarjati večminutne glasbene izdelke, tudi z vokali. Zaenkrat ga ne nameravajo dati na razpolago.
Bliskovit razvoj generativnih algoritmov že sili s področij teksta in podob ter se širi v sfero zvoka. Pri Googlu so zgradili algoritem MusicLM, ki sprejme tekstovna navodila različnih dolžin in natančnosti ter ustvarja glasbo dolžine od pol minute do več minut. Tako je mogoče med drugim odrediti, v kateri žanr naj izdelek spada in katera glasbila naj bodo vključena, pa tudi tematiko, oziroma vzdušje, kot je denimo "vzbujanje izkušnje izgubljenosti v vesolju". Generirati zna tudi vokale, ki pa zaenkrat niso slišati tako pristni kot sama glasba in vsebujejo povsem nesmiselno besedilo. Kot popišejo v spremljevalnem strokovnem članku, MusicLM gradi na obstoječem modelu AudioLM, ki ga je družba predstavila lansko jesen, z nekaj dodatnimi vključki. Princip ni čisto nov in sloni na moderni reprezentaciji zvoka s podatkovnimi žetoni (tokens), oziroma koščki, spojenimi z žetoni, ki predstavljajo jezikovni pomen (semantic tokens). To seveda pomeni, da je algoritem učen na bazi kombinacij kosov glasbe in tekstovnih označb - natančneje, na 5521 parih, ki izvirajo iz Googlovega podatkovnega seta AudioSet, ki bazira na posnetkih z YouTuba. Nato je MusicLM znanje pilil še na 280.000 urah neoznačene glasbe.
Računalniški algoritmi nam pri ustvarjanju glasbe pomagajo že dolgo, saj mnogi umetniki na ta ali oni način že desetletja v svoja dela vključujejo avtomatsko ustvarjene zvoke. Tudi generiranje na osnovi pisane besede ni ravno Googlov izum in v zadnjem času smo že videli veliko poskusov, od algoritma MubertAI do nekam hecnih zamisli, kot je Riffusion, ki uporablja slikovni generativni algoritem StableDiffusion, da najprej napravi spektrogram in ga nato spremeni v samo glasbo. MusicLM je od vseh naštetih predvsem neprimerno bolj zloščen in zmogljiv, saj so prenekateri vzorci, ki jih lahko poslušamo na predstavitveni strani, res že na zelo prepričljivi ravni (če odmislimo petje). Navduši tudi nekaj njegovih posebnih funkcij, kot je preobrazba nizkokakovostnih melodij, kot je na primer žvižganje, v višjekakovostno in bogatejšo glasbo. Res si ni težko na tej podlagi zamisliti zmogljivih storitev. Kljub temu pa so pri Googlu tudi s tem algoritmom zelo previdni in ga zaenkrat zaradi nevarnosti, ki jih predstavlja za avtorsko glasbo, še ne bodo ponudili v prosto rabo. Namen objave je tako prejkoslej akademski, saj dajejo na razpolago zgoraj omenjeno zbirko parov označenih podatkovnih kosov, pred nastopom stvarnih izdelkov pa bo verjetno moralo precej napredovati naše razumevanje pravnih vidikov algoritemsko generiranih vsebin.