»

Googlov algoritem Lumiere zna spreminjati slog videa

vir: Google
Google - Pri Googlu so razkrili algoritem za generiranje videa Lumiere, ki tako po funkcijah kot prepričljivosti pošteno prekaša obstoječe rešitve.

Strojno ustvarjanje video posnetkov iz besedilnih ukazov sicer (še) ni tako v ospredju kot generatorji slik, saj gre za bistveno zahtevnejše področje, a prav tako napreduje s kar srhljivo naglico. Če smo se jeseni leta 2022 še nasmihali ob sila okornih pojavah na gibljivih sličicah iz Mete in Googla, je že v poldrugem letu situacija zaznavno drugačna, tako glede tehnologije kot razširjenosti. V Meti so lanskega novembra predstavili algoritem Emu, ki naj bi v prihodnje postal pomembno orodje za ustvarjanje vsebin na njihovih družbenih omrežjih. Podobno kot pri slikah, imamo tudi tu kopico izzivalcev, na primer orodje Runway; poleg pa je tudi Stability AI z odprtokodno različico takšnega programja, Stable Video Diffusion. Zvečine gre za kombinirane difuzne modele, ki skušajo glede na navodila najprej zgenerirati posamezne jedrne sličice, ki jih...

9 komentarjev

Na grammyjih umetna inteligenca še ne bo mogla slaviti

Reuters - Posodobljeni pravilnik za 66-to podelitev glasbenih nagrad Grammy najbolj natančneje doslej določa, kolikšno vlogo imajo lahko strojni algoritmi pri nastanku pesmi, ki se potegujejo za nagrade. Ne prav veliko.

Ta hip je strojno generiranje zvoka in govora na videz malo manj razvpito od tistega za besedila in slike, toda vtis je varljiv, saj tudi tu strojno učenje napreduje z velikimi koraki. Zato tudi področje glasbe vse bolj čuti pritisk strojno generiranih vsebin, kar je v zadnjih mesecih ponazorilo nekaj zanimivih dogodkov, kot je bil denimo vznik skrivnostne računalniške verzije Draka, ali pa najava Paula McCartneyja, da bodo s pomočjo strojne inteligence lansirali še en, zadnji komad Beatlesov. Ker je računalniška obdelava podatkov že dolgo časa praktično neobhoden del nastajanja popularne glasbe, so kriteriji za podeljevanje največjih nagrad lahko pokazatelj, koliko in na kakšne načine si strojno učenje tjakaj utira pot. Če gre soditi po najnovejšem pravilniku za nagrade...

10 komentarjev

Geoffrey Hinton z opozorili na nevarnosti strojnega učenja zapušča Google

The New York Times - Britansko-kanadski raziskovalec Geoffrey Hinton, ki velja za enega od utemeljiteljev globokega učenja z nevronskimi mrežami, pompozno zapušča Google, kjer je delal zadnjih deset let. In sicer predvsem iz strahu, da nam nadzor nad strojnimi algoritmi uhaja iz rok (plačljiv vir, alternativa).

Leta 1986 so David Rumelhart, Geoffrey Hinton in Ronald Williams v odmevni objavi pokazali, kako uporabiti metodo vzvratnega razširjanja (backpropagation) za bistveno pospešitev zmogljivosti učenja nevronskih mrež, kar velja za enega od mejnikov v strojnem učenju. Hinton ima razen tega na spisku še vrsto drugih dosežkov, denimo razvoj arhitekture nevronskih mrež AlexNet, z Alexom Krizhevskyjem in Ilyo Sutskeverjem. Ta iznajdba družine algoritmov za prepoznavo slik namreč pomeni enega od povodov za bliskovito širjenje strojne inteligence med spletne tehnologije v preteklem desetletju. Zaradi opisanih uspehov Geoffrey Hinton velja za enega od očetov umetne inteligence in je pred štirimi leti tudi...

6 komentarjev

Vrsta strokovnjakov poziva k polletni ustavitvi razvoja strojnega učenja

Slo-Tech - Organizacija Future of Life Institute je objavila javno pismo, v katerem več vidnih osebnosti s področja strojnega učenja in informacijskih tehnologij poziva k šestmesečnemu moratoriju na razvoj in lansiranje novih produktov s področja strojnega učenja.

Izjemno nagel razvoj rešitev s področja strojnega učenja v zadnjem letu, posebno veliki jezikovni modeli in generatorji podob, vzbuja strah, da pravna in akademska stroka ter zakonodajna telesa izgubljajo bitko za uspešno razumevanje in nadzorovanje takšne napredne tehnologije. Investicijska banka Goldman Sachs je na začetku tedna objavila poročilo, v katerem ugotavlja, da naj bi generativna strojna pamet v naslednjem desetletju v razvitih državah ob službo spravila okoli 300 milijonov ljudi, v zameno za od 7- do 10-odstotni dvig bruto družbenega proizvoda. Najnovejši modeli, kot je nedavno lansirani GPT-4, s skokovitim tempom izboljšujejo svojo učinkovitost in se na nekaterih testih jezikovnega znanja že odrežejo skoraj tako dobro...

67 komentarjev

Google predstavil algoritem za generiranje glasbe

vir: Google
Google - Pri Googlu so pokazali algoritem MusicLM, ki je sposoben iz pisanih navodil ustvarjati večminutne glasbene izdelke, tudi z vokali. Zaenkrat ga ne nameravajo dati na razpolago.

Bliskovit razvoj generativnih algoritmov že sili s področij teksta in podob ter se širi v sfero zvoka. Pri Googlu so zgradili algoritem MusicLM, ki sprejme tekstovna navodila različnih dolžin in natančnosti ter ustvarja glasbo dolžine od pol minute do več minut. Tako je mogoče med drugim odrediti, v kateri žanr naj izdelek spada in katera glasbila naj bodo vključena, pa tudi tematiko, oziroma vzdušje, kot je denimo "vzbujanje izkušnje izgubljenosti v vesolju". Generirati zna tudi vokale, ki pa zaenkrat niso slišati tako pristni kot sama glasba in vsebujejo povsem nesmiselno besedilo. Kot popišejo v spremljevalnem strokovnem članku, MusicLM gradi na obstoječem modelu AudioLM, ki ga je družba predstavila lansko jesen, z nekaj dodatnimi vključki. Princip ni čisto nov in sloni na moderni reprezentaciji zvoka s...

5 komentarjev

Iz navodil generiramo tudi 3D objekte

Magic3D

vir: Nvidia
Slo-Tech - Po slikah in videu se tekma v ustvarjanju digitalnih vsebin iz tekstovnih navodil začenja tudi pri 3D predmetih. Nvidia je z orodjem Magic3D odgovorila Googlu, ki je prejšnji mesec predstavil algoritem DreamFusion.

Algoritmi za generiranje vsebin iz navodil so bržkone prva tehnološka noviteta tega leta in trenutno pošteno burkajo področje umetnosti, ker sprožajo temeljna pravna ter etična vprašanja o tem, kdo si lahko lasti umetniške zamisli in na kakšen način jih lahko drugi povzemajo. Razvoj programja pa gre med temi polemikami nezadržno dalje: po tem, ko se je s področja 2D podob najprej prenesel še na gibljive sličice, oziroma kratki video format, je naslednja postaja ustvarjanje 3D objektov. Sredi oktobra so pri Googlu pokazali orodje DreamFusion, ki je prav tako izpeljanka iz njihovega difuznega slikovnega modela Imagen. Tridimenzionalne objekte napravi v dveh potezah; najprej z Imagenom nastane sličica, ki jo nato skozi metodo NeRF (Neural Radiance Fields) pretvorijo še v...

7 komentarjev

Računalnik zna iz navodil generirati video

vir: Google
Slo-Tech - V Meti in Googlu so predstavili strojno učena algoritma, ki iz pisanih navodil ustvarjata kratke filmčke.

Po tem, ko so algoritmi za generiranje slik iz tekstovnih navodil pošteno razburkali področje strojnega učenja, smo očitno že pri naslednji etapi v razvoju tovrstne umetne inteligence: gibljivih sličicah. Že letos spomladi so takšno programje, CogVideo, pokazali v kitajski raziskovalni skupini z univerze Tsinghua in Pekinške akademije za umetno inteligenco, sedaj pa so se na področje pognali tudi zahodni IT velikani. Najprej je konec septembra Metin laboratorij razkril algoritem Make-A-Video, pred dnevi pa so v Googlu pokazali še podobnega Imagen Video. Oba ustvarjata zelo kratke, petsekundne skupke gibljivih sličic, ki so sicer bolj animacije GIF kot pa resni video posnetki, pa vendarle - kot se je že pohvalil Zuckerberg, gre za novo področje napredka v strojni inteligenci, ki je še za stopnjo višje od generiranja slik iz navodil, in daje tudi primerno osupljive rezultate. S...

8 komentarjev

DALL-E zna sliko nadaljevati izven okvirjev

openai.com - V družbi za razvoj strojnega učenja OpenAI so predstavili novo zmogljivost svojega algoritma za generiranje slik DALL-E: vzorčno podobo zna z nekaj tekstovne pomoči nadaljevati izven prvotnih okvirjev.

Strojno generiranje podob iz tekstovnih navodil je trenutno eno najzanimivejših področij strojnega učenja. Ne zgolj zaradi bliskovitega napredka, saj novi algoritmi v tehnološko tekmo vstopajo skorajda mesečno, temveč tudi zaradi stvarnega učinka v praksi. Rešitve so se namreč že pririnile v dejanske izdelke; tako je TikTok sredi avgusta predstavil samodejno ustvarjanje risanih ozadij, ki se sicer ne more primerjati s slikarijami s čela napredka, a to niti ni namen. Tudi že lahko vidimo učinek na področje likovne umetnosti, saj se algoritmi že aktivno uporabljajo kot orodje, kar sproža vrsto polemik tako glede avtorstva kakor realne umetniške vrednosti slik, ki so bile ustvarjene s strojno pomočjo. Segment je torej sredi zelo aktivnega razvoja - in laboratoriji za strojno pamet so...

12 komentarjev

Generiranje slik iz teksta postaja tekma

tale korgi ni resničen

vir: Google
Google - Googlov laboratorij za strojno učenje je predstavil algoritem Imagen, za katerega trdijo, da ustvarja še boljše podobe kot OpenAIjev DALL-E 2.

Zadnji krik področja umetne inteligence so bržkone algoritmi za generiranje slik iz tekstovnih opisov, saj znajo ponekod ustvariti hudo markantne rezultate, kot je podoba tujske hobotnice s časopisom v rokah, ki lebdi skozi portal ali jutranje nakupovalne mrzlice v ekspresionističnem slogu. Z idejo so najbolj udarno pričeli v hiši OpenAI, ko so v začetku lanskega leta predstavili algoritem DALL-E, ki je pred poldrugim mesecem prešel v pošteno nadgrajeno drugo generacijo. Zdaj so se gibanju pridružili še v Googlu in predstavili algoritem Imagen. Kot večina tosortnih programov, tudi Imagen uporablja difuzni model, pri čemer zvito najprej ustvari nizkoločljivostno podobo, ki jo nato razteguje skozi več podalgoritmov, prav tako z difuznimi modeli.

Googlovi inženirji trdijo, da zanesljivo proizvaja boljše podobe od DALL-Eja 2 in so v ta namen...

6 komentarjev

OpenAI predstavil drugo generacijo algoritma DALL-E

openai.com - Laboratorij za strojno učenje OpenAI je pokazal algoritem DALL-E 2, za generiranje slik, ki bistveno nadgrajuje predhodnika in ustvarja navdušujoče verodostojne ter podrobne podobe (tudi) astronavtov na konju v rahlem drncu po Luni.

Lanskega januarja so v družbi za raziskovanje strojne inteligence OpenAI presenetili z algoritmom, ki je znal iz tekstovnega navodila presenetljivo dobro ustvariti želeno podobo. DALL-E je sicer res zvečine izrisal majhne sličice, ki so bile obenem značilno razmazane, kakor smo pri umetni pameti še vedno vajeni - toda že samo dejstvo, da je znal računalnik narisati "stol v podobi avokada", je presunil strokovno javnost. Na tej osnovi je področje hitro napredovalo in postreglo z zanimivimi aplikacijami, kot je Dream ali Baidujev algoritem ERNIE-ViLG. Pred dnevi so v OpenAI predstavili naslednika, DALL-E 2. Tudi njegove sposobnosti milo rečeno sezujejo, saj zna med drugim izrisati "plišaste medvedke v podobi norih znanstvenikov" ali "toplo oblečeno mišjo...

19 komentarjev

OpenAI nadgrajuje algoritem GPT-3 s prepoznavanjem slik

New Scientist - V laboratoriju za strojno učenje OpenAI so predstavili dva zanimiva nova algoritma, DALL-E in CLIP, ki gradita na njihovem razvpitem generatorju besedil GPT-3. Z njima zmogljivost prepoznave in ustvarjanja teksta prenašajo še na področje slik, s čimer želijo strojni inteligenci omogočiti več različnih smeri za učenje in povezovanje znanja.

Firma OpenAI je lani navdušila z algoritmom za ustvarjanje teksta GPT-3, ki iz kratkega nastavka napravi občasno kar strašljivo prepričljiva besedila. Toda kolikor so te sorte programi na prvi pogled impresivni, se začno hitro kazati njihove omejitve, ko jih pregledamo natančneje. GPT-3 se pri daljših besedilih izgubi, predvsem pa kaj kmalu postane jasno, da v resnici sploh ne razume, kaj besediči. Prav učenje dejanskega razumevanja ustvarjene vsebine je naslednja pomembna stopnica, na katero bo morala strojna inteligenca stopiti za nove preboje. Izziva so se v OpenAIju lotili tako, da so GPT-3 združili s prepoznavo in ustvarjanjem slikovnih...

1 komentar

DeepMindov algoritem MuZero se uči kot otrok

DeepMind - Alphabetov laboratorij za strojno inteligenco DeepMind je izgotovil nov algoritem, ki se je na samosvoj način izmojstril v igranju šaha, goja, šogija in Atarijevih arkadnih iger. Za učenje ne potrebuje predhodnega branja navodil ali vdelanih izkušenj, temveč se uči na podoben način kot otroci, s preizkušanjem posameznih potez in grajenjem notranjega modela igre, kar pomeni novo stopnjo v razvoju strojnih algoritmov z zmožnostjo posplošenega sklepanja.

Napredovanje DeepMindovih strojnih algoritmov je za nepoučenega opazovalca verjetno videti kot dolgočasno zbiranje naslovov prvaka v raznoraznih igrah. Toda zadaj se skriva zanimivo preizkušanje različnih pristopov k obvladovanju izzivov, ki nas utegnejo nekoč pripeljati do umetne inteligence, ki se bo znala odločati in učiti podobno kot človek. Sloviti AlphaGo, ki je v igri go nadvladal človeka, je - podobno kot šahovski algoritmi - uporabljal napredno različico drevesa dogodkov, ki za množico potez v prihodnosti pove predvideni...

43 komentarjev