»

Nvidiin jezikovni model za zvoke: Fugatto

Slo-Tech - Nvidia je predstavil novo orodje za ustvarjanje glasbe, ki deluje kot jezikovni model umetne inteligence. Fugatto (Foundational Generative Audio Transformer Opus 1) - napovednik res vsebuje sliko mačka - omogoča besedilni opis zvoka ali zvokov, ki jih želimo poustvariti, nato pa jih Fugatto zaigra. Nvidia ob tem poudarja, da je to prvi model, ki omogoča povsem nove in doslej nikoli slišane vrste zvokov. To je seveda precej drzna trditev, saj nekaj podobnega počnejo tudi drugi tovrstni modeli. Po drugi strani pa lahko Fugatto uporabimo za ustvarjanje povsem običajnih zvokov, ki jih potrebujemo v kakršnikoli produkciji, denimo zvok troblje na vlaku, ki se počasi prelije v igranje simfoničnega orkestra.

Druga možnost je uporaba za predelavo zvočnih posnetkov. Fugatto lahko obdelavo posnetek skladbe in - če mu tako naročimo z besedami - izolira vokal ali kakšen instrument. Lahko pa orodju naročimo, da v posnetek doda kakšen instrument. Spremeniti je možno tudi modulacijo, denimo jezni glas v prijetnega ipd. Ozadje, kolikor so ga smeli razkriti, so opisali v znanstvenem članku, kjer so Fugatto primerjali tudi z drugimi tovrstnimi modeli. Ni namreč edini ali prvi, saj je konkurenca (Stability AI, OpenAI, Google DeepMind,...

5 komentarjev

Googlov algoritem Lumiere zna spreminjati slog videa

vir: Google
Google - Pri Googlu so razkrili algoritem za generiranje videa Lumiere, ki tako po funkcijah kot prepričljivosti pošteno prekaša obstoječe rešitve.

Strojno ustvarjanje video posnetkov iz besedilnih ukazov sicer (še) ni tako v ospredju kot generatorji slik, saj gre za bistveno zahtevnejše področje, a prav tako napreduje s kar srhljivo naglico. Če smo se jeseni leta 2022 še nasmihali ob sila okornih pojavah na gibljivih sličicah iz Mete in Googla, je že v poldrugem letu situacija zaznavno drugačna, tako glede tehnologije kot razširjenosti. V Meti so lanskega novembra predstavili algoritem Emu, ki naj bi v prihodnje postal pomembno orodje za ustvarjanje vsebin na njihovih družbenih omrežjih. Podobno kot pri slikah, imamo tudi tu kopico izzivalcev, na primer orodje Runway; poleg pa je tudi Stability AI z odprtokodno različico takšnega programja, Stable Video Diffusion. Zvečine gre za kombinirane difuzne modele, ki skušajo glede na navodila najprej zgenerirati posamezne jedrne sličice, ki jih...

9 komentarjev

Ko GPT-4 Vision sreča ElevenLabs, dobimo umetnega Davida Attenborougha

Slo-Tech - Tehnologija obstaja že nekaj časa, a šele ko združimo njene različne pojavne oblike, postane zares jasno, česa je sposobna. Charlie Holtz je na X-u pokazal, kako je združil GPT-4 Vision, ki ustvari besedilni opis vizualnih podob, in tehnologija za kloniranje glasu ElevenLabs. Spisal je skripto, ki vsakih pet sekund zajame posnetek z njegove kamere, ga prek API posreduje GPT-4 Vision, nato pa besedilni opis prebere klon glasu Davida Attenborougha. Rezultati so zelo realistični.

Kodo je objavil tudi na GitHubu, a je brezplačno ni možno uporabiti. Za delovanje namreč potrebujemo dostop prek API do GPT-4 Vision in do ElevenLabs, ki ni zastonj, temveč se plačuje po žetonih. Če pa to imamo, so ovire le naša domišljija. Pietro Schirano je na primer pokazal, kako lahko lažni Steve Jobs ocenjuje in kritizira različne izdelke iz aplikacije Figma.

Tehnologija je torej tu in omogoča, da kdorkoli "reče" karkoli. Sedaj je treba razmisliti, kako jo regulirati in to tudi izvajati. ElevenLabs na...

5 komentarjev

Nove funkcije v Midjourney 5.2

Primerjava z leve: v3, v4, v5, v5.2

Slo-Tech - Program z generativno umetno inteligenco za ustvarjanje slik iz besedilnega opisa Midjourney je minuli teden dobil novo verzijo Midjourney 5.2. Ta prinaša nekaj uporabnih novosti, med katerimi bodo naročniki bržkone najbolj veseli možnosti zoom out, ki deluje podobno kot outpainting v konkurenčnem DALL-E. To uporabniku omogoča, da vzame obstoječo sliko in jo ohrani kot osrednji del nove slike, medtem ko Midjourney doriše okolico.

Druge novosti so takisto koristne. Prenovljeni "estetski sistem" obljublja boljšo kakovost posnetkov. Ukaz "--stylize" določa, kako realistična bo podoba. Odslej bo nova funkcija high variation mode privzeto vključena, s čimer bodo razlike med generacijami podob večje.

Novi model eksplicitno vključimo v nastavitvah (/settings) ali s stikalom "--v 5.2". Ključne kvalitativne razlike so več podrobnosti, boljše barve, ostrejše slike in kompleksne kompozicije. Prav tako naj bi bolje razumel opise in parameter "--stylize". Kdor želi uporabljati stari model,...

11 komentarjev

Google predstavil jezikovni model za glasbo

Slo-Tech - V skladu z Googlovim frontalnim napadom na umetno inteligenco, ki jo želijo uvesti povsod, so ta teden izdali tudi jezikovni model za glasbo. MusicLM, za katerega so še januarja ob tehnični predstavitvi zatrjevali, da javnosti še lep čas ne bo dostopen, je sedaj tu za vsakogar. Za preizkus se je treba registrirati.

MusicLM je na voljo v okviru aplikacije AI Test Kitchen na spletu, iOS ali Androidu. Uporabnikom omogoča, da iz besednih ukazov ustvarijo melodije. Podobno kot vizualni ali besedilni sorodniki je MusicLM tako iznajdljiv, kolikor je prožen ukaz (prompt). Pri ustvarjanju glasbe se obnese najbolje, če želeni rezultat čim bolj opišemo: zvrst in slog, ton, vzdušje, kakšna čustva naj budi itd.

Zanimivo je, da je Google januarja kot glavni pomislek pri hitri izdaji navajal etične izzive in avtorske pravice, saj je model rad vključeval avtorsko zaščitene drobce. A kot kaže, se je Google v sledečih mesecih z glasbeniki in založniki uspel dokopati do rešitve, ki je sprejemljiva....

1 komentar

Stability AI izdal svoj veliki jezikovni model

Slo-Tech - Kakor je Stability mešal štrene OpenAI-ju s svojim modelom za ustvarjanje slik Stable Diffusion, mu bodo tudi pri jezikovnih modelih. Pripravili so odprtkodni jezikovni model StableLM, ki je pod licenco CC BY-SA-4.0 na voljo vsakomur. Koda je dostopna na GitHubu, preizkusimo pa jo lahko na Hugging Face ali Replicate. Verzija za pogovor je takisto že dostopna.

StableLM je naučen na treh in sedmih milijardah parametrov, kar je precej manj od ChatGPT-jevih 175 milijard. Sicer prihajata tudi verziji s 15 in 65 milijardami parametrov, a velikost modela ni vse. StableLM v svoji srži smiselno nadaljuje besedilo, ki ga začne človek z ukazom (prompt), rezultat pa so smiselni odgovori. StableLM se lahko pogovarja kot človek, lahko pa tudi piše kodo. Ta je po prvih preizkusih še malce bolj robata kakor pri ChatGPT, a večja modela bosta bržkone boljša. Še vedno pa je boljši od Facebookovega LLaMA, dasiravno GPT-3.5 ali GPT-4.0 še ne dosega. StableLM se je učil na odprtem korpusu podatkov, ki...

4 komentarji