»

Sora je tu

Slo-Tech - Skoraj leto dni po napovedih in prvih beta verzijah za preizkuševalce je OpenAI predstavil orodje za ustvarjanje videoposnetkov iz besednih opisov. Sora je veliki model, ki kot vhodne podatke jemlje besedilo, fotografije ali posnetke, nato pa iz njih ustvari videoposnetke. Te so lahko različnih formatov, dimenzij in dolžin, kar je pogojeno tudi z naročniškim paketom, ki ga sklene uporabnik. Ob tem poudarjajo, da je nova različica precej hitrejša od februarske, zato so ji nadeli delovno ime Sora Turbo. Na voljo je kot samostojno orodje (sora.com), ki pa terja naročnino na ChatGPT Plus ali Pro.

Prvi stane 20 dolarjev mesečno, drugi precej zajetnejših 200 dolarjev. Kdor ima dražjo različico, bo dobil polno Soro, ki zmore ustvarjati posnetke v ločljivosti 1080p, trajanju 20 sekund in brez omejitve števila poizkusov. Naročniki cenejšega paketa se bodo morali zadovoljiti z nižjo ločljivostjo in omejitvijo 50 posnetkov na mesec, če so zadovoljni s 480p. V nasprotnem primeru jih bodo lahko ustvarili manj, a nekoliko bolj podrobne (720p). V Sloveniji - in celi EU - Sora še ni na voljo, a naj bi se to spremenilo prihodnje leto. Trenutno imajo sicer težave po vsem svetu, ker je naval precejšen.

Bistveni del pri razvoju Sore je bila...

8 komentarjev

Google predstavil množico orodij na temelju Geminija

vir: Google
Google - Ob uvodu v razvijalsko konferenco Google I/O 2024 so pri velikanu razkrili kopico programskih novosti, ki se v glavnem tičejo integracije Geminija v njihovo popularno programje, videli pa smo tudi nekaj drugih razkritij, kot je generator videa Veo.

Pričel se je Googlov vsakoletni dogodek za razvijalce, konferenca I/O, ki jo zaštartajo s predstavitvijo novosti, ki nas čakajo v poletnih mesecih (krajši video povzetek). Kot je bilo pričakovati, je bila prezentacija močno osrediščena okoli potiskanja rešitev na osnovi strojnega učenja, se pravi predvsem družine algoritmov Gemini, videli pa smo tudi nekaj drugih zanimivosti. Kot so čivkali že vrabci, bodo skušali z Geminijem nadgraditi tako svoja pisarniška orodja kot iskalnik. Plačljivi uporabniki okolja Workspace, oziroma aplikacij Docs, Slides, Sheets, Drive in Gmail, bodo prihodnji mesec dobili vgrajeno podporo Geminija 1.5 Pro, ki bo zanje sestavljal pošto ali analiziral vsebino dokumentov. Iskalnik za začetek - v ZDA že prihodnji...

7 komentarjev

OpenAI predstavil Voice Engine za ustvarjanje govora

Slo-Tech - OpenAI je izdal orodje Voice Engine, ki ga razvijajo od konca leta 2022 in omogoča rekonstrukcijo glasu in izdelavo zvočnih posnetkov, za kar potrebujemo le 15-sekundo posnetek govora osebe. To zadostuje, da ustvari posnetke, na katerih oseba bere poljubno besedilo. Možnosti sta dve.

Posnetek je lahko v istem jeziku, torej v angleščini. Druga možnost pa so prevodi, saj lahko posnetek pripravijo tudi v španščini, nemščini, francoščini, kitajščini in japonščini. OpenAI pojasnjuje, da v tem primeru govorec obdrži naglas iz izvirnika. Če je torej vhodno besedilo v brezhibni francoščini, bo tudi ob prevodu in branju v angleščini govorec obdržal francoski akcent. Ponujajo še nekaj drugih možnosti, ki so vse namenjene pomoči uporabnikom.

Ker je tehnologijo možno tudi zlorabiti - ali bomo sploh še kdaj lahko zaupali "posnetkom" - bodo novo storitev javno razgrnili previdno in odgovorno, poudarjajo. Interno jo že uporabljajo, denimo v ChatGPT Voice in Read Aloud. Ob tem velja poudariti,...

6 komentarjev

Sora je navdušujoč generator videa iz OpenAI

openai.com - Pri OpenAI so udarili z najavo lastnega naprednega generatorja videa. Sora bistveno presega zmogljivosti dosedanjih tovrstnih algoritmov, vštevši nedavno predstavljenega Googlovega Lumiera.

Odkar sta Meta in Google pred poldrugim letom predstavila svoja prva generativna algoritma za ustvarjanje videa iz tekstovnih ukazov (text-to-video), se tudi to področje hitro razvija. Lansko leto smo videli razmah garažnih podvigov in kopico tekmecev velikanom, kot je Runway, konec letošnjega januarja pa je področje naprej bistveno potisnil Googlov algoritem Lumiere. Ves ta čas pa je med akterji nekdo zanimivo manjkal - namreč čudežni deček industrije OpenAI, ki je sicer z modeloma GPT in DALL-E zaštartal tako norijo okoli besedil kot slik. Očitno so zgolj čakali na pravi trenutek, kajti v četrtek predstavljeno orodje Sora ima glede na trditve in demonstracije podjetja zmogljivosti, ki bistveno presegajo predstave, ki smo jih doslej imeli o tem področju.

Generatorji videa so bili v rojstni...

40 komentarjev

Googlov algoritem Lumiere zna spreminjati slog videa

vir: Google
Google - Pri Googlu so razkrili algoritem za generiranje videa Lumiere, ki tako po funkcijah kot prepričljivosti pošteno prekaša obstoječe rešitve.

Strojno ustvarjanje video posnetkov iz besedilnih ukazov sicer (še) ni tako v ospredju kot generatorji slik, saj gre za bistveno zahtevnejše področje, a prav tako napreduje s kar srhljivo naglico. Če smo se jeseni leta 2022 še nasmihali ob sila okornih pojavah na gibljivih sličicah iz Mete in Googla, je že v poldrugem letu situacija zaznavno drugačna, tako glede tehnologije kot razširjenosti. V Meti so lanskega novembra predstavili algoritem Emu, ki naj bi v prihodnje postal pomembno orodje za ustvarjanje vsebin na njihovih družbenih omrežjih. Podobno kot pri slikah, imamo tudi tu kopico izzivalcev, na primer orodje Runway; poleg pa je tudi Stability AI z odprtokodno različico takšnega programja, Stable Video Diffusion. Zvečine gre za kombinirane difuzne modele, ki skušajo glede na navodila najprej zgenerirati posamezne jedrne sličice, ki jih...

9 komentarjev

Konkurenca izrablja kaos v OpenAI za posodobitve lastnih izdelkov

Claude

Slo-Tech - Pretekli teden je poleg drame v OpenAI postregel tudi s kopico novosti in posodobitev v širše uporabljanem programju s področja generativne umetne inteligence.

Direndaj v OpenAI, kjer so Sama Altmana najprej vrgli na cesto, nakar se je po bizarni kolobociji zmagoslavno vrnil na najvišji stolček, je industrijo širše spodbudil v lansiranje novih ali prenovljenih lastnih rešitev. Seveda so bile te brez dvoma v pripravi že dlje časa, toda gola količina novosti v preteklem tednu ustvarja vtis, da so inženirji ... malce pohiteli; na strani Microsofta in OpenAI zato, da bi podpornike pomirili, da njihove naložbe niso v nevarnosti, na strani konkurence zato, da bi si nemara odrezali nov košček pogače. OpenAI je še med burlesko odprl glasovno-pogovorne zmogljivosti ChatGPTja za vse uporabnike. Močno dejavni so bili v Googlu, najprej s posodobitvijo Barda. Ta zna v preizkusni različici po novem precej bolje kot ob septembrskem prvem lansiranju funkcije povzemati posnetke z YouTuba. To...

4 komentarji

OpenAI naznanil GPT-4

openai.com - Kot smo že nekaj časa pričakovali, so v OpenAI naposled najavili veliki jezikovni model GPT-4. Za rahlo presenečenje pa so obenem poskrbeli v Microsoftu, s priznanjem, da novi Bing Chat v bistvu na njem sloni že od začetka testiranja.

Skoraj 3 leta nas že ločijo od prvih vnašanj ukazov generativnemu jezikovnemu algoritmu, oziroma velikemu jezikovnemu modelu (LLM) GPT-3. Umotvor laboratorija OpenAI je postal eden od sinonimov za eksplozijo generativne strojne inteligence, ki je lani dosegla nove nivoje z generatorji slik in jesenskim lansiranjem pogovornega bota ChatGPT, letos pa z nebrzdano naglico poganja novo tekmo med tehnološkimi velikani. Posledica norije je bilo seveda mrzlično čakanje na novo različico GPTja, ki so ga sicer inženirji medtem iterativno nadgrajevali, tako da je bila lani v bistvu aktualna različica 3.5. Tudi šef OpenAIja, Sam Altman, je večkrat opozoril, da so pričakovanja bržkone prevelika in da bo GPT-4 nova evolucijska stopnja ter še daleč od kakšne...

27 komentarjev

Generiranje slik iz teksta postaja tekma

tale korgi ni resničen

vir: Google
Google - Googlov laboratorij za strojno učenje je predstavil algoritem Imagen, za katerega trdijo, da ustvarja še boljše podobe kot OpenAIjev DALL-E 2.

Zadnji krik področja umetne inteligence so bržkone algoritmi za generiranje slik iz tekstovnih opisov, saj znajo ponekod ustvariti hudo markantne rezultate, kot je podoba tujske hobotnice s časopisom v rokah, ki lebdi skozi portal ali jutranje nakupovalne mrzlice v ekspresionističnem slogu. Z idejo so najbolj udarno pričeli v hiši OpenAI, ko so v začetku lanskega leta predstavili algoritem DALL-E, ki je pred poldrugim mesecem prešel v pošteno nadgrajeno drugo generacijo. Zdaj so se gibanju pridružili še v Googlu in predstavili algoritem Imagen. Kot večina tosortnih programov, tudi Imagen uporablja difuzni model, pri čemer zvito najprej ustvari nizkoločljivostno podobo, ki jo nato razteguje skozi več podalgoritmov, prav tako z difuznimi modeli.

Googlovi inženirji trdijo, da zanesljivo proizvaja boljše podobe od DALL-Eja 2 in so v ta namen...

6 komentarjev

OpenAI predstavil drugo generacijo algoritma DALL-E

openai.com - Laboratorij za strojno učenje OpenAI je pokazal algoritem DALL-E 2, za generiranje slik, ki bistveno nadgrajuje predhodnika in ustvarja navdušujoče verodostojne ter podrobne podobe (tudi) astronavtov na konju v rahlem drncu po Luni.

Lanskega januarja so v družbi za raziskovanje strojne inteligence OpenAI presenetili z algoritmom, ki je znal iz tekstovnega navodila presenetljivo dobro ustvariti želeno podobo. DALL-E je sicer res zvečine izrisal majhne sličice, ki so bile obenem značilno razmazane, kakor smo pri umetni pameti še vedno vajeni - toda že samo dejstvo, da je znal računalnik narisati "stol v podobi avokada", je presunil strokovno javnost. Na tej osnovi je področje hitro napredovalo in postreglo z zanimivimi aplikacijami, kot je Dream ali Baidujev algoritem ERNIE-ViLG. Pred dnevi so v OpenAI predstavili naslednika, DALL-E 2. Tudi njegove sposobnosti milo rečeno sezujejo, saj zna med drugim izrisati "plišaste medvedke v podobi norih znanstvenikov" ali "toplo oblečeno mišjo...

19 komentarjev