»

Nvidiin jezikovni model za zvoke: Fugatto

Slo-Tech - Nvidia je predstavil novo orodje za ustvarjanje glasbe, ki deluje kot jezikovni model umetne inteligence. Fugatto (Foundational Generative Audio Transformer Opus 1) - napovednik res vsebuje sliko mačka - omogoča besedilni opis zvoka ali zvokov, ki jih želimo poustvariti, nato pa jih Fugatto zaigra. Nvidia ob tem poudarja, da je to prvi model, ki omogoča povsem nove in doslej nikoli slišane vrste zvokov. To je seveda precej drzna trditev, saj nekaj podobnega počnejo tudi drugi tovrstni modeli. Po drugi strani pa lahko Fugatto uporabimo za ustvarjanje povsem običajnih zvokov, ki jih potrebujemo v kakršnikoli produkciji, denimo zvok troblje na vlaku, ki se počasi prelije v igranje simfoničnega orkestra.

Druga možnost je uporaba za predelavo zvočnih posnetkov. Fugatto lahko obdelavo posnetek skladbe in - če mu tako naročimo z besedami - izolira vokal ali kakšen instrument. Lahko pa orodju naročimo, da v posnetek doda kakšen instrument. Spremeniti je možno tudi modulacijo, denimo jezni glas v prijetnega ipd. Ozadje, kolikor so ga smeli razkriti, so opisali v znanstvenem članku, kjer so Fugatto primerjali tudi z drugimi tovrstnimi modeli. Ni namreč edini ali prvi, saj je konkurenca (Stability AI, OpenAI, Google DeepMind,...

5 komentarjev

Google predstavil jezikovni model za glasbo

Slo-Tech - V skladu z Googlovim frontalnim napadom na umetno inteligenco, ki jo želijo uvesti povsod, so ta teden izdali tudi jezikovni model za glasbo. MusicLM, za katerega so še januarja ob tehnični predstavitvi zatrjevali, da javnosti še lep čas ne bo dostopen, je sedaj tu za vsakogar. Za preizkus se je treba registrirati.

MusicLM je na voljo v okviru aplikacije AI Test Kitchen na spletu, iOS ali Androidu. Uporabnikom omogoča, da iz besednih ukazov ustvarijo melodije. Podobno kot vizualni ali besedilni sorodniki je MusicLM tako iznajdljiv, kolikor je prožen ukaz (prompt). Pri ustvarjanju glasbe se obnese najbolje, če želeni rezultat čim bolj opišemo: zvrst in slog, ton, vzdušje, kakšna čustva naj budi itd.

Zanimivo je, da je Google januarja kot glavni pomislek pri hitri izdaji navajal etične izzive in avtorske pravice, saj je model rad vključeval avtorsko zaščitene drobce. A kot kaže, se je Google v sledečih mesecih z glasbeniki in založniki uspel dokopati do rešitve, ki je sprejemljiva....

1 komentar

Stability AI izdal svoj veliki jezikovni model

Slo-Tech - Kakor je Stability mešal štrene OpenAI-ju s svojim modelom za ustvarjanje slik Stable Diffusion, mu bodo tudi pri jezikovnih modelih. Pripravili so odprtkodni jezikovni model StableLM, ki je pod licenco CC BY-SA-4.0 na voljo vsakomur. Koda je dostopna na GitHubu, preizkusimo pa jo lahko na Hugging Face ali Replicate. Verzija za pogovor je takisto že dostopna.

StableLM je naučen na treh in sedmih milijardah parametrov, kar je precej manj od ChatGPT-jevih 175 milijard. Sicer prihajata tudi verziji s 15 in 65 milijardami parametrov, a velikost modela ni vse. StableLM v svoji srži smiselno nadaljuje besedilo, ki ga začne človek z ukazom (prompt), rezultat pa so smiselni odgovori. StableLM se lahko pogovarja kot človek, lahko pa tudi piše kodo. Ta je po prvih preizkusih še malce bolj robata kakor pri ChatGPT, a večja modela bosta bržkone boljša. Še vedno pa je boljši od Facebookovega LLaMA, dasiravno GPT-3.5 ali GPT-4.0 še ne dosega. StableLM se je učil na odprtem korpusu podatkov, ki...

4 komentarji

Meta pokazala svoj jezikovni model

Slo-Tech - ChatGPT je zaslovel, ker je bil dovolj dober in in dostopen sleherniku, a še zdaleč ni edini. Svoj jezikovni model (LLM) je razvila tudi Meta, ki se je pohvalila, da je primerljivo kakovosten, dasiravno desetkrat manjši. Poimenovali so ga LLaMA in prihaja v več inačicah, ki imajo od sedem do 65 milijard parametrov. GPT-3, na katerem temelji ChatGPT, jih ima 175 milijard. LLaMA-13B s trinajst milijardami parametri naj bi bil že boljši od ChatGPT, trdi Meta.

Meta trdi, da je njihov model povsem združljiv z avtorskimi pravicami, saj so pri treningu uporabljali le prosto dostopna besedila. V praksi so to na primer Wikipedia, korpus Common Crawl in C4. Zato je lahko celoten model tudi javno dostopen, če se bo Meta za to odločila. Za zdaj se še ni v celoti, tako da ga enostavno ne moremo preizkusiti, lahko pa to storijo raziskovalci. Oskubljena lama je na voljo na Githubu, raziskovalci pa lahko zaprosijo za dostop do polnega modela.

Znižanje zahtevnosti modela in njegova odprtost...

10 komentarjev

Jezikovni modeli so nova črna

Slo-Tech - Po velikanskem uspehu jezikovnega modela ChatGPT so se novosti oklenili vsi večji igralci na tem področju. Ta teden je Microsoft že predstavil integracijo v svoj iskalnik Bing, ki se je leta neuspešno kosal z Googlom, sedaj pa je morda našel svojo nišo. ChatGPT v sodelovanju z Bingom omogoča enostavnejše iskanje, kjer z iskalnikom komuniciramo kot s človekom in mu postavljamo vprašanja. Novo sodelovanje ni presenetljivo, saj je Microsoft med večjimi vlagatelji v OpenAI, ki so napisali ChatGPT.

Sledil je Google, ki je s svojim konkurentom Bard zaostal za pričakovanji. V reklami je med drugim Bard dejal, da je teleskop James Webb poskrbel za prvi posnetek eksoplaneta, kar še zdaleč ne drži, saj so prvi posnetki že iz leta 2004. Ko se je spodrsljaj razširil po spletu, so delnice podjetja padle za 10 odstotkov. Seveda razlog ni zgolj en spodrsljaj - spomnimo, da je Windows 98 med uradno predstavitvijo Plug and Play pokazal modri zaslon - temveč Googlov zaostanek na tem področju. Sredi...

28 komentarjev

Google predstavil algoritem za generiranje glasbe

vir: Google
Google - Pri Googlu so pokazali algoritem MusicLM, ki je sposoben iz pisanih navodil ustvarjati večminutne glasbene izdelke, tudi z vokali. Zaenkrat ga ne nameravajo dati na razpolago.

Bliskovit razvoj generativnih algoritmov že sili s področij teksta in podob ter se širi v sfero zvoka. Pri Googlu so zgradili algoritem MusicLM, ki sprejme tekstovna navodila različnih dolžin in natančnosti ter ustvarja glasbo dolžine od pol minute do več minut. Tako je mogoče med drugim odrediti, v kateri žanr naj izdelek spada in katera glasbila naj bodo vključena, pa tudi tematiko, oziroma vzdušje, kot je denimo "vzbujanje izkušnje izgubljenosti v vesolju". Generirati zna tudi vokale, ki pa zaenkrat niso slišati tako pristni kot sama glasba in vsebujejo povsem nesmiselno besedilo. Kot popišejo v spremljevalnem strokovnem članku, MusicLM gradi na obstoječem modelu AudioLM, ki ga je družba predstavila lansko jesen, z nekaj dodatnimi vključki. Princip ni čisto nov in sloni na moderni reprezentaciji zvoka s...

5 komentarjev

Zaživel je YouTube Gaming

Google - Po napovedih je zaživela spletna stran YouTube Gaming, ki je dosegljiva v formatih za namizni splet, iOS in Android. Gre za neposredno konkurenco že uveljavljeni strani Twitch, kjer je mogoče gledati odigrane igre. A po drugi strani ima YouTube več kot milijardo obiskovalcev, Twitch pa 34 milijonov.

Google se je svoj čas celo spogledoval z nakupom Twitcha, pa ga je potem za milijardo dolarjev prevzel Amazon. V Googlu so hitro zavihali rokave in začeli dodelovati YouTube tako, da je postal neposredna konkurenca. Izboljšali so streaming, dodali visoke ločljivosti in hitrost 60 sličic na sekundo. In sedaj je YouTube Gaming na voljo vsem. Priznati je treba, da se je Google res potrudil z dizajnom, a na koncu bo odločila...

36 komentarjev