»

Sora je navdušujoč generator videa iz OpenAI

openai.com - Pri OpenAI so udarili z najavo lastnega naprednega generatorja videa. Sora bistveno presega zmogljivosti dosedanjih tovrstnih algoritmov, vštevši nedavno predstavljenega Googlovega Lumiera.

Odkar sta Meta in Google pred poldrugim letom predstavila svoja prva generativna algoritma za ustvarjanje videa iz tekstovnih ukazov (text-to-video), se tudi to področje hitro razvija. Lansko leto smo videli razmah garažnih podvigov in kopico tekmecev velikanom, kot je Runway, konec letošnjega januarja pa je področje naprej bistveno potisnil Googlov algoritem Lumiere. Ves ta čas pa je med akterji nekdo zanimivo manjkal - namreč čudežni deček industrije OpenAI, ki je sicer z modeloma GPT in DALL-E zaštartal tako norijo okoli besedil kot slik. Očitno so zgolj čakali na pravi trenutek, kajti v četrtek predstavljeno orodje Sora ima glede na trditve in demonstracije podjetja zmogljivosti, ki bistveno presegajo predstave, ki smo jih doslej imeli o tem področju.

Generatorji videa so bili v rojstni...

40 komentarjev

Meta bo na svojih omrežjih označevala generirane slike

vir: Meta
Meta - V Meti so razgrnili načrte za soočanje z generiranimi podobami na svojih družbenih omrežjih v letošnjem letu. Pričeli bodo označevati strojno ustvarjene slike, napravljene z orodji drugih podjetij, in od uporabnikov zahtevali, da takšen material v lastnih objavah označijo.

Strojno napravljene slike so pošteno preplavile družbena omrežja in v lanskem letu so različni akterji, tako v mednarodni politiki kakor na strani razvijalcev spletnih tehnologij, pričeli z ukrepi za njihovo označevanje. V to smer gre denimo Bidnov izvršni ukaz iz lanske jeseni, medtem ko so podjetja predstavila več načinov za vdelavo podpisov v generirane podobe. Adobe je oktobra lani predstavil pečat Content Credentials, Google ima v beta preizkusu podpis SynthID, takšna funkcija pa je vgrajena tudi v metadata standard IPTC. Zbrane tehnologije nameravajo sedaj v Meti uporabiti za to, da bodo samodejno in hitro označevali strojno ustvarjene podobe na Facebooku, Instagramu in Threads. Doslej so sicer sami...

0 komentarjev

Googlov algoritem Lumiere zna spreminjati slog videa

vir: Google
Google - Pri Googlu so razkrili algoritem za generiranje videa Lumiere, ki tako po funkcijah kot prepričljivosti pošteno prekaša obstoječe rešitve.

Strojno ustvarjanje video posnetkov iz besedilnih ukazov sicer (še) ni tako v ospredju kot generatorji slik, saj gre za bistveno zahtevnejše področje, a prav tako napreduje s kar srhljivo naglico. Če smo se jeseni leta 2022 še nasmihali ob sila okornih pojavah na gibljivih sličicah iz Mete in Googla, je že v poldrugem letu situacija zaznavno drugačna, tako glede tehnologije kot razširjenosti. V Meti so lanskega novembra predstavili algoritem Emu, ki naj bi v prihodnje postal pomembno orodje za ustvarjanje vsebin na njihovih družbenih omrežjih. Podobno kot pri slikah, imamo tudi tu kopico izzivalcev, na primer orodje Runway; poleg pa je tudi Stability AI z odprtokodno različico takšnega programja, Stable Video Diffusion. Zvečine gre za kombinirane difuzne modele, ki skušajo glede na navodila najprej zgenerirati posamezne jedrne sličice, ki jih...

9 komentarjev

Google predstavil algoritem za generiranje glasbe

vir: Google
Google - Pri Googlu so pokazali algoritem MusicLM, ki je sposoben iz pisanih navodil ustvarjati večminutne glasbene izdelke, tudi z vokali. Zaenkrat ga ne nameravajo dati na razpolago.

Bliskovit razvoj generativnih algoritmov že sili s področij teksta in podob ter se širi v sfero zvoka. Pri Googlu so zgradili algoritem MusicLM, ki sprejme tekstovna navodila različnih dolžin in natančnosti ter ustvarja glasbo dolžine od pol minute do več minut. Tako je mogoče med drugim odrediti, v kateri žanr naj izdelek spada in katera glasbila naj bodo vključena, pa tudi tematiko, oziroma vzdušje, kot je denimo "vzbujanje izkušnje izgubljenosti v vesolju". Generirati zna tudi vokale, ki pa zaenkrat niso slišati tako pristni kot sama glasba in vsebujejo povsem nesmiselno besedilo. Kot popišejo v spremljevalnem strokovnem članku, MusicLM gradi na obstoječem modelu AudioLM, ki ga je družba predstavila lansko jesen, z nekaj dodatnimi vključki. Princip ni čisto nov in sloni na moderni reprezentaciji zvoka s...

5 komentarjev

Microsoft razvil zmogljiv algoritem za posnemanje govora

Microsoft - V Microsoftu so predstavili algoritem VALL-E, ki zmore oponašati posameznikov glas že zgolj na podlagi 3-sekundnega vzorca. Zaenkrat še ni na razpolago.

Ob aktualni poplavi generativnih algoritmov vizualnih vsebin, ki zmorejo ustvarjati slike, video posnetke in 3D modele, nezadržno napreduje tudi generiranje zvoka, oziroma človeškega govora. Pri Microsoftu so pred tednom dni predstavili takšen algoritem VALL-E, ki zmore pisani tekst pripovedovati z zvenom in emocionalnim patosom osebe, ki mu je predala že zgolj 3-sekundni vzorec svojega govora. Seveda izdelki, ki jih je mogoče slišati na predstavitveni strani, niso brezhibni in ponekod še vedno izpadejo precej robotski, toda kot prototip nove tehnologije algoritem vseeno navduši. Zaradi potenciala za ponarejanje identitete, oziroma zlorabe, ga Microsoft zaenkrat še ne bo spustil iz laboratorijev, podjetje pa je ravno pred dnevi vnovič podrobneje razdelalo svojo strategijo odgovorne rabe strojne inteligence.

VALL-E je sicer...

10 komentarjev

Iz navodil generiramo tudi 3D objekte

Magic3D

vir: Nvidia
Slo-Tech - Po slikah in videu se tekma v ustvarjanju digitalnih vsebin iz tekstovnih navodil začenja tudi pri 3D predmetih. Nvidia je z orodjem Magic3D odgovorila Googlu, ki je prejšnji mesec predstavil algoritem DreamFusion.

Algoritmi za generiranje vsebin iz navodil so bržkone prva tehnološka noviteta tega leta in trenutno pošteno burkajo področje umetnosti, ker sprožajo temeljna pravna ter etična vprašanja o tem, kdo si lahko lasti umetniške zamisli in na kakšen način jih lahko drugi povzemajo. Razvoj programja pa gre med temi polemikami nezadržno dalje: po tem, ko se je s področja 2D podob najprej prenesel še na gibljive sličice, oziroma kratki video format, je naslednja postaja ustvarjanje 3D objektov. Sredi oktobra so pri Googlu pokazali orodje DreamFusion, ki je prav tako izpeljanka iz njihovega difuznega slikovnega modela Imagen. Tridimenzionalne objekte napravi v dveh potezah; najprej z Imagenom nastane sličica, ki jo nato skozi metodo NeRF (Neural Radiance Fields) pretvorijo še v...

7 komentarjev

Računalnik zna iz navodil generirati video

vir: Google
Slo-Tech - V Meti in Googlu so predstavili strojno učena algoritma, ki iz pisanih navodil ustvarjata kratke filmčke.

Po tem, ko so algoritmi za generiranje slik iz tekstovnih navodil pošteno razburkali področje strojnega učenja, smo očitno že pri naslednji etapi v razvoju tovrstne umetne inteligence: gibljivih sličicah. Že letos spomladi so takšno programje, CogVideo, pokazali v kitajski raziskovalni skupini z univerze Tsinghua in Pekinške akademije za umetno inteligenco, sedaj pa so se na področje pognali tudi zahodni IT velikani. Najprej je konec septembra Metin laboratorij razkril algoritem Make-A-Video, pred dnevi pa so v Googlu pokazali še podobnega Imagen Video. Oba ustvarjata zelo kratke, petsekundne skupke gibljivih sličic, ki so sicer bolj animacije GIF kot pa resni video posnetki, pa vendarle - kot se je že pohvalil Zuckerberg, gre za novo področje napredka v strojni inteligenci, ki je še za stopnjo višje od generiranja slik iz navodil, in daje tudi primerno osupljive rezultate. S...

8 komentarjev

Generiranje slik iz teksta postaja tekma

tale korgi ni resničen

vir: Google
Google - Googlov laboratorij za strojno učenje je predstavil algoritem Imagen, za katerega trdijo, da ustvarja še boljše podobe kot OpenAIjev DALL-E 2.

Zadnji krik področja umetne inteligence so bržkone algoritmi za generiranje slik iz tekstovnih opisov, saj znajo ponekod ustvariti hudo markantne rezultate, kot je podoba tujske hobotnice s časopisom v rokah, ki lebdi skozi portal ali jutranje nakupovalne mrzlice v ekspresionističnem slogu. Z idejo so najbolj udarno pričeli v hiši OpenAI, ko so v začetku lanskega leta predstavili algoritem DALL-E, ki je pred poldrugim mesecem prešel v pošteno nadgrajeno drugo generacijo. Zdaj so se gibanju pridružili še v Googlu in predstavili algoritem Imagen. Kot večina tosortnih programov, tudi Imagen uporablja difuzni model, pri čemer zvito najprej ustvari nizkoločljivostno podobo, ki jo nato razteguje skozi več podalgoritmov, prav tako z difuznimi modeli.

Googlovi inženirji trdijo, da zanesljivo proizvaja boljše podobe od DALL-Eja 2 in so v ta namen...

6 komentarjev