»

Sora je navdušujoč generator videa iz OpenAI

openai.com - Pri OpenAI so udarili z najavo lastnega naprednega generatorja videa. Sora bistveno presega zmogljivosti dosedanjih tovrstnih algoritmov, vštevši nedavno predstavljenega Googlovega Lumiera.

Odkar sta Meta in Google pred poldrugim letom predstavila svoja prva generativna algoritma za ustvarjanje videa iz tekstovnih ukazov (text-to-video), se tudi to področje hitro razvija. Lansko leto smo videli razmah garažnih podvigov in kopico tekmecev velikanom, kot je Runway, konec letošnjega januarja pa je področje naprej bistveno potisnil Googlov algoritem Lumiere. Ves ta čas pa je med akterji nekdo zanimivo manjkal - namreč čudežni deček industrije OpenAI, ki je sicer z modeloma GPT in DALL-E zaštartal tako norijo okoli besedil kot slik. Očitno so zgolj čakali na pravi trenutek, kajti v četrtek predstavljeno orodje Sora ima glede na trditve in demonstracije podjetja zmogljivosti, ki bistveno presegajo predstave, ki smo jih doslej imeli o tem področju.

Generatorji videa so bili v rojstni...

40 komentarjev

Googlov algoritem Lumiere zna spreminjati slog videa

vir: Google
Google - Pri Googlu so razkrili algoritem za generiranje videa Lumiere, ki tako po funkcijah kot prepričljivosti pošteno prekaša obstoječe rešitve.

Strojno ustvarjanje video posnetkov iz besedilnih ukazov sicer (še) ni tako v ospredju kot generatorji slik, saj gre za bistveno zahtevnejše področje, a prav tako napreduje s kar srhljivo naglico. Če smo se jeseni leta 2022 še nasmihali ob sila okornih pojavah na gibljivih sličicah iz Mete in Googla, je že v poldrugem letu situacija zaznavno drugačna, tako glede tehnologije kot razširjenosti. V Meti so lanskega novembra predstavili algoritem Emu, ki naj bi v prihodnje postal pomembno orodje za ustvarjanje vsebin na njihovih družbenih omrežjih. Podobno kot pri slikah, imamo tudi tu kopico izzivalcev, na primer orodje Runway; poleg pa je tudi Stability AI z odprtokodno različico takšnega programja, Stable Video Diffusion. Zvečine gre za kombinirane difuzne modele, ki skušajo glede na navodila najprej zgenerirati posamezne jedrne sličice, ki jih...

9 komentarjev

Shutterstock začel prodajati slike umetne inteligence

Slo-Tech - Že oktobra smo poročali, da je Shutterstock sklenil dogovor z OpenAI, da bodo stvaritve njegove umetne inteligence DALL-E 2 vključene v Shutterstockove plačljive zbirke fotografij. Četrtletje pozneje so dogovor udejanjili in od danes je v zbirkah res grafika DALL-E 2. Na voljo je vsem uporabnikom plačljivih zbirk.

Fotografije umetne inteligence bodo zelo jasno predstavljene, zato pomote niso možne. V Shutterstock bo vključeno okno za ustvarjanje fotografij, enako kot deluje DALL-E 2 neposredno na spletni strani OpenAI. Takisto bo vsak poziv vrnil štiri slike, možno pa bo poiskati še dodatne. To se lahko v prihodnosti še spremeni, saj so slike umetne inteligence zelo kontroverzno področje z vidika avtorskih pravic. Generatorji so se učili s pregledovanjem milijard posnetkov, med katerimi so tudi avtorsko zaščiteni. Zaradi tega je v ZDA v teku že nekaj tožb, rezultati pa so negotovi. Konkurent Getty Images je prav zato dejal, da (še?) ne bo vključil slik umetne inteligence v svoje...

19 komentarjev

Microsoft razvil zmogljiv algoritem za posnemanje govora

Microsoft - V Microsoftu so predstavili algoritem VALL-E, ki zmore oponašati posameznikov glas že zgolj na podlagi 3-sekundnega vzorca. Zaenkrat še ni na razpolago.

Ob aktualni poplavi generativnih algoritmov vizualnih vsebin, ki zmorejo ustvarjati slike, video posnetke in 3D modele, nezadržno napreduje tudi generiranje zvoka, oziroma človeškega govora. Pri Microsoftu so pred tednom dni predstavili takšen algoritem VALL-E, ki zmore pisani tekst pripovedovati z zvenom in emocionalnim patosom osebe, ki mu je predala že zgolj 3-sekundni vzorec svojega govora. Seveda izdelki, ki jih je mogoče slišati na predstavitveni strani, niso brezhibni in ponekod še vedno izpadejo precej robotski, toda kot prototip nove tehnologije algoritem vseeno navduši. Zaradi potenciala za ponarejanje identitete, oziroma zlorabe, ga Microsoft zaenkrat še ne bo spustil iz laboratorijev, podjetje pa je ravno pred dnevi vnovič podrobneje razdelalo svojo strategijo odgovorne rabe strojne inteligence.

VALL-E je sicer...

10 komentarjev

Po DALL-E in ChatGPT je tu Point-E

Slo-Tech - OpenAI, ki je letos izdal generativno umetno inteligenco kot pomočnika za besedila (ChatGPT) in slike (DALL-E), je pripravil tudi orodje za 3-D modeliranje. Imenuje se Point-E in sicer ni najboljše orodje pod soncem, je pa za dva velikostna razreda hitrejše od konkurenčnih izdelkov. Vendarle pa je uporaba Point-E nekoliko bolj zapletena kot DALL-E in ChatGPT, saj nima spletnega vmesnika. Kodo moramo namestiti na računalnik in pognati s Pythonom.

Point-E je namenjen ustvarjanju 3D objektov iz preprostega besedna opisa (prompt), v čemer je podoben starejšim bratom. Umetna inteligenca zna povezati model, ki iz besedila ustvari podobo, in model, ki iz podobe ustvari 3-D model. Čeprav rezultati niso popolni, je uporaba enostavna in hitra. Za posamezen model potrebujemo minuto ali dve, odvisno od grafične kartice. Nekaj podobnega zna tudi Googlov DreamFusion, a je ta počasnejši in potratnejši.

Rezultati Point-E so "oblaki" kroglic ali točk, skratka množica diskretnih točk v prostoru,...

25 komentarjev

Iz navodil generiramo tudi 3D objekte

Magic3D

vir: Nvidia
Slo-Tech - Po slikah in videu se tekma v ustvarjanju digitalnih vsebin iz tekstovnih navodil začenja tudi pri 3D predmetih. Nvidia je z orodjem Magic3D odgovorila Googlu, ki je prejšnji mesec predstavil algoritem DreamFusion.

Algoritmi za generiranje vsebin iz navodil so bržkone prva tehnološka noviteta tega leta in trenutno pošteno burkajo področje umetnosti, ker sprožajo temeljna pravna ter etična vprašanja o tem, kdo si lahko lasti umetniške zamisli in na kakšen način jih lahko drugi povzemajo. Razvoj programja pa gre med temi polemikami nezadržno dalje: po tem, ko se je s področja 2D podob najprej prenesel še na gibljive sličice, oziroma kratki video format, je naslednja postaja ustvarjanje 3D objektov. Sredi oktobra so pri Googlu pokazali orodje DreamFusion, ki je prav tako izpeljanka iz njihovega difuznega slikovnega modela Imagen. Tridimenzionalne objekte napravi v dveh potezah; najprej z Imagenom nastane sličica, ki jo nato skozi metodo NeRF (Neural Radiance Fields) pretvorijo še v...

7 komentarjev

Shutterstock bo prodajal grafiko umetne inteligence DALL-E

Slo-Tech - Shutterstock je sklenil dogovor z OpenAI, ki je razvil algoritem DALL-E 2 za računalniško ustvarjanje posnetkov iz besedilnega opisa in ki je že mesec dni dostopen vsem, da bodo stvaritve umetne inteligence na voljo v plačljivih galerijah. Poleg vsebin, ki jih izdelajo ljudje, bo DALL-E 2 edini vir vsebin umetne inteligence. Nalaganje drugih vsebin, ki jih ustvari umetna inteligenca, je sicer prepovedano, ker avtorske pravice (še) niso jasno določene. To je legitimen razlog, ki pa seveda koristi tudi partnerstvu z OpenAI. Iz istega razloga Getty Images ne dovoli posnetkov umetne inteligence.

Izvršni direktor Shutterstocka Paul Hennessy je ob tem dejal, da se načini izražanja in ustvarjalnosti nenehno spreminjajo, čemur morajo slediti. Tak primer je tudi generativna tehnologija, ki stoji za DALL-E 2. Izvršni direktor OpenAI Sam Altman je dodal, da so navdušeni nad novim partnerstvom. Uporabniki Shutterstocka bodo namreč lahko nove fotografije generirali neposredno ob iskanju, saj...

9 komentarjev

Računalnik zna iz navodil generirati video

vir: Google
Slo-Tech - V Meti in Googlu so predstavili strojno učena algoritma, ki iz pisanih navodil ustvarjata kratke filmčke.

Po tem, ko so algoritmi za generiranje slik iz tekstovnih navodil pošteno razburkali področje strojnega učenja, smo očitno že pri naslednji etapi v razvoju tovrstne umetne inteligence: gibljivih sličicah. Že letos spomladi so takšno programje, CogVideo, pokazali v kitajski raziskovalni skupini z univerze Tsinghua in Pekinške akademije za umetno inteligenco, sedaj pa so se na področje pognali tudi zahodni IT velikani. Najprej je konec septembra Metin laboratorij razkril algoritem Make-A-Video, pred dnevi pa so v Googlu pokazali še podobnega Imagen Video. Oba ustvarjata zelo kratke, petsekundne skupke gibljivih sličic, ki so sicer bolj animacije GIF kot pa resni video posnetki, pa vendarle - kot se je že pohvalil Zuckerberg, gre za novo področje napredka v strojni inteligenci, ki je še za stopnjo višje od generiranja slik iz navodil, in daje tudi primerno osupljive rezultate. S...

8 komentarjev

DALL-E je sedaj prosto na voljo

openai.com - Pri OpenAI so odstranili čakalno vrsto za svoj slikovni algoritem DALL-E, s čimer predvsem odgovarjajo vse srditejši konkurenci, kot je Stable Diffusion.

Algoritemsko generiranje sličic iz teksta je eno najbolj zanimivih področij informacijske tehnologije v letošnjem letu; tako zaradi dih jemajočih podob, ki jih sedaj že na dnevni bazi sproducira množica uporabnikov širom sveta, kakor tudi zares nore hitrosti razvoja. Po tem, ko je družba OpenAI letošnjega aprila pokazala drugo generacijo algoritma DALL-E, namreč ne mine mesec, da ne bi na plano pokukal nov izzivalec, kakšna nova funkcija ali pa bizaren dogodek, kot je zmaga algoritemsko ustvarjene slike na umetniškem natečaju. Medtem ko je bilo še spomladi videti, da se bodo med seboj udarili tehnološki velikani ali vsaj z njihovim denarjem podprte entitete, pa se v zadnjem času v ospredje prebijajo tudi samostojne in odprte rešitve, kot sta Midjourney ter Stable Diffusion. Posebno slednji je zaradi odprtokodne narave v začetku...

28 komentarjev

DALL-E zna sliko nadaljevati izven okvirjev

openai.com - V družbi za razvoj strojnega učenja OpenAI so predstavili novo zmogljivost svojega algoritma za generiranje slik DALL-E: vzorčno podobo zna z nekaj tekstovne pomoči nadaljevati izven prvotnih okvirjev.

Strojno generiranje podob iz tekstovnih navodil je trenutno eno najzanimivejših področij strojnega učenja. Ne zgolj zaradi bliskovitega napredka, saj novi algoritmi v tehnološko tekmo vstopajo skorajda mesečno, temveč tudi zaradi stvarnega učinka v praksi. Rešitve so se namreč že pririnile v dejanske izdelke; tako je TikTok sredi avgusta predstavil samodejno ustvarjanje risanih ozadij, ki se sicer ne more primerjati s slikarijami s čela napredka, a to niti ni namen. Tudi že lahko vidimo učinek na področje likovne umetnosti, saj se algoritmi že aktivno uporabljajo kot orodje, kar sproža vrsto polemik tako glede avtorstva kakor realne umetniške vrednosti slik, ki so bile ustvarjene s strojno pomočjo. Segment je torej sredi zelo aktivnega razvoja - in laboratoriji za strojno pamet so...

12 komentarjev

Generiranje slik iz teksta postaja tekma

tale korgi ni resničen

vir: Google
Google - Googlov laboratorij za strojno učenje je predstavil algoritem Imagen, za katerega trdijo, da ustvarja še boljše podobe kot OpenAIjev DALL-E 2.

Zadnji krik področja umetne inteligence so bržkone algoritmi za generiranje slik iz tekstovnih opisov, saj znajo ponekod ustvariti hudo markantne rezultate, kot je podoba tujske hobotnice s časopisom v rokah, ki lebdi skozi portal ali jutranje nakupovalne mrzlice v ekspresionističnem slogu. Z idejo so najbolj udarno pričeli v hiši OpenAI, ko so v začetku lanskega leta predstavili algoritem DALL-E, ki je pred poldrugim mesecem prešel v pošteno nadgrajeno drugo generacijo. Zdaj so se gibanju pridružili še v Googlu in predstavili algoritem Imagen. Kot večina tosortnih programov, tudi Imagen uporablja difuzni model, pri čemer zvito najprej ustvari nizkoločljivostno podobo, ki jo nato razteguje skozi več podalgoritmov, prav tako z difuznimi modeli.

Googlovi inženirji trdijo, da zanesljivo proizvaja boljše podobe od DALL-Eja 2 in so v ta namen...

6 komentarjev

OpenAI predstavil drugo generacijo algoritma DALL-E

openai.com - Laboratorij za strojno učenje OpenAI je pokazal algoritem DALL-E 2, za generiranje slik, ki bistveno nadgrajuje predhodnika in ustvarja navdušujoče verodostojne ter podrobne podobe (tudi) astronavtov na konju v rahlem drncu po Luni.

Lanskega januarja so v družbi za raziskovanje strojne inteligence OpenAI presenetili z algoritmom, ki je znal iz tekstovnega navodila presenetljivo dobro ustvariti želeno podobo. DALL-E je sicer res zvečine izrisal majhne sličice, ki so bile obenem značilno razmazane, kakor smo pri umetni pameti še vedno vajeni - toda že samo dejstvo, da je znal računalnik narisati "stol v podobi avokada", je presunil strokovno javnost. Na tej osnovi je področje hitro napredovalo in postreglo z zanimivimi aplikacijami, kot je Dream ali Baidujev algoritem ERNIE-ViLG. Pred dnevi so v OpenAI predstavili naslednika, DALL-E 2. Tudi njegove sposobnosti milo rečeno sezujejo, saj zna med drugim izrisati "plišaste medvedke v podobi norih znanstvenikov" ali "toplo oblečeno mišjo...

19 komentarjev

OpenAI nadgrajuje algoritem GPT-3 s prepoznavanjem slik

New Scientist - V laboratoriju za strojno učenje OpenAI so predstavili dva zanimiva nova algoritma, DALL-E in CLIP, ki gradita na njihovem razvpitem generatorju besedil GPT-3. Z njima zmogljivost prepoznave in ustvarjanja teksta prenašajo še na področje slik, s čimer želijo strojni inteligenci omogočiti več različnih smeri za učenje in povezovanje znanja.

Firma OpenAI je lani navdušila z algoritmom za ustvarjanje teksta GPT-3, ki iz kratkega nastavka napravi občasno kar strašljivo prepričljiva besedila. Toda kolikor so te sorte programi na prvi pogled impresivni, se začno hitro kazati njihove omejitve, ko jih pregledamo natančneje. GPT-3 se pri daljših besedilih izgubi, predvsem pa kaj kmalu postane jasno, da v resnici sploh ne razume, kaj besediči. Prav učenje dejanskega razumevanja ustvarjene vsebine je naslednja pomembna stopnica, na katero bo morala strojna inteligenca stopiti za nove preboje. Izziva so se v OpenAIju lotili tako, da so GPT-3 združili s prepoznavo in ustvarjanjem slikovnih...

1 komentar

OpenAIjev pisalni algoritem GPT-3 je v beta testiranju

vir: Axios
Axios - Strojni algoritem za pisanje besedil GPT-3 - naslednik razvpitega GPT-2, ki si ga laboratorij OpenAI sprva menda ni upal spustiti v divjino - je prešel v fazo polodprtega javnega testiranja. Preizkuševalci so večjidel navdušeni, a zadeva še vedno kaže jasne omejitve trenutne generacije takšnih algoritmov.

Lanskega februarja je ena najbolj izpostavljenih razvojnih hiš za strojno učene algoritme, OpenAI, pokazala GPT-2, strojno inteligenco za pisanje prepričljivih besedil. Inženirji so takrat populistično dejali, da bi bilo program "tvegano ga kar tako spustiti iz laboratorijskih soban", zainteresirana javnost pa je seveda ugibala, ali gre za marketinško puhlico ali realne nevarnosti. GPT-2 je bil nedvomno korak naprej, saj je v nekaterih primerih izpisal srhljivo prepričljive skupke teksta, obenem pa je bila OpenAI takrat zares še neprofitna firma. Toda tekom lanskega leta se je situacija spremenila: družba se je usmerila v komercialne vode in v ta namen ustanovila tržno podružnico...

17 komentarjev

Strojna pamet slavi v Doti 2 in Quaku 3

Slo-Tech - Zadnji meseci so prinesli sveže novice o napredku umetne inteligence laboratorijev OpenAI in DeepMind v igranju iger s človeškimi nasprotniki. Strojna pamet OpenAI Five je prvič premagala eno vodilnih človeških ekip v Doti 2 na svetu, OG. DeepMindovi agenti pa so se znesli nad ljudmi v Quakovem načinu CTF.

Lansko poletje smo pisali, da v Doti 2 računalnik še ne nadvlada človeka, ko je algoritem OpenAI Five v ekshibicijskih bojih na prireditvi The International klonil proti človeškim profesionalcem. Manj kot leto dni dodatnega treninga je bilo potrebno, da je strojna pamet položaj obrnila sebi v prid, kajti sredi aprila so v dvoboju na dogodku OpenAI Five Finals padli aktualni svetovni prvaki z Internationala 2018, moštvo OG. Rezultat v igrah je bil 2:0 za...

10 komentarjev

OpenAI je ustvaril algoritem, ki si ga ne upa spustiti v divjino

theguardian.com - V laboratoriju za strojno inteligenco OpenAI so napravili algoritem za generiranje besedil, ki je po njihovem mnenju prenevaren, da bi ga v celoti dali v javnost.

Strojni algoritmi danes ne znajo zgolj prepoznavati vzorcev, temveč tudi ustvarjati nove vsebine, na primer slike in obraze. Seveda so še na stopnji, ko pozornega človeka zelo težko pretentajo, saj je večina njihovih stvaritev nepopolna, dostikrat pa naravnost groteskna. Toda očitno prihajamo v čas, ko bo strojna pamet postala tako sposobna, da bodo njene stvaritve težko razločljive od človeških. V družbi OpenAI, za katero stoji Elon Musk, so namreč ustvarili generator tekstovnih besedil, ki ga ne želijo spustiti iz laboratorija. Menijo, da je tako učinkovit, da bi pomenil...

52 komentarjev