Arhiv novic @ Slo-Tech

Novice » Povezane novice

Googlov algoritem Veo 3 proizvaja generiran video s sinhroniziranim zvokom

Jurij Kristan :: 25. maj 2025 ob 21:40
Ostala programska oprema

Google - Sredi tedna so pri Googlu lansirali tretjo generacijo svojega algoritma za generiranje videa Veo, ki se tokrat pošteno razlikuje od tekmecev v tem, da je zmožen gibljivim sličicam dodati primerno zgeneriran zvočni posnetek.

Od pomladi 2023, ko smo bili priče grotesknim podobam računalniško zgeneriranega Willa Smitha pri goltanju špagetov, so algoritmi za ustvarjanje video posnetkov napredovali z velikimi koraki. V približno dveh letih smo od posmeha vrednih izdelkov prišli do takšnih, kjer se je treba resno vprašati, ali bi jih bil povprečen uporabnik spleta res zmožen pravilno identificirati. Z najnovejšo, tretjo različico Googlovega algoritma Veo, je izziv postal še dodatno zapleten, ker je sposoben posnetku pripeti tudi govor ali zvok, kakršnega uporabnik zahteva s tekstovnim ukazom.

Pri tem ga sicer mestoma še lomi, saj denimo pade na hudomušnem testu Smithovega požiranja špagetov, ker ti hrustljajo. Toda z nekaj poizkušanja in sreče je mogoče napraviti posnetke, ki so že

Preberi več

20 komentarjev

Sora je tu

Matej Huš :: 10. dec 2024 ob 19:21
Znanost in tehnologija

Slo-Tech - Skoraj leto dni po napovedih in prvih beta verzijah za preizkuševalce je OpenAI predstavil orodje za ustvarjanje videoposnetkov iz besednih opisov. Sora je veliki model, ki kot vhodne podatke jemlje besedilo, fotografije ali posnetke, nato pa iz njih ustvari videoposnetke. Te so lahko različnih formatov, dimenzij in dolžin, kar je pogojeno tudi z naročniškim paketom, ki ga sklene uporabnik. Ob tem poudarjajo, da je nova različica precej hitrejša od februarske, zato so ji nadeli delovno ime Sora Turbo. Na voljo je kot samostojno orodje (sora.com), ki pa terja naročnino na ChatGPT Plus ali Pro.

Prvi stane 20 dolarjev mesečno, drugi precej zajetnejših 200 dolarjev. Kdor ima dražjo različico, bo dobil polno Soro, ki zmore ustvarjati posnetke v ločljivosti 1080p, trajanju 20 sekund in brez omejitve števila poizkusov. Naročniki cenejšega paketa se bodo morali zadovoljiti z nižjo ločljivostjo in omejitvijo 50 posnetkov na mesec, če so zadovoljni s 480p. V nasprotnem primeru jih bodo lahko ustvarili manj, a nekoliko bolj podrobne (720p). V Sloveniji - in celi EU - Sora še ni na voljo, a naj bi se to spremenilo prihodnje leto. Trenutno imajo sicer težave po vsem svetu, ker je naval precejšen.

Bistveni del pri razvoju Sore je bila...

Preberi več

8 komentarjev

Google predstavil množico orodij na temelju Geminija

Jurij Kristan :: 15. maj 2024 ob 08:01
Ostala programska oprema

vir: Google

Google - Ob uvodu v razvijalsko konferenco Google I/O 2024 so pri velikanu razkrili kopico programskih novosti, ki se v glavnem tičejo integracije Geminija v njihovo popularno programje, videli pa smo tudi nekaj drugih razkritij, kot je generator videa Veo.

Pričel se je Googlov vsakoletni dogodek za razvijalce, konferenca I/O, ki jo zaštartajo s predstavitvijo novosti, ki nas čakajo v poletnih mesecih (krajši video povzetek). Kot je bilo pričakovati, je bila prezentacija močno osrediščena okoli potiskanja rešitev na osnovi strojnega učenja, se pravi predvsem družine algoritmov Gemini, videli pa smo tudi nekaj drugih zanimivosti. Kot so čivkali že vrabci, bodo skušali z Geminijem nadgraditi tako svoja pisarniška orodja kot iskalnik. Plačljivi uporabniki okolja Workspace, oziroma aplikacij Docs, Slides, Sheets, Drive in Gmail, bodo prihodnji mesec dobili vgrajeno podporo Geminija 1.5 Pro, ki bo zanje sestavljal pošto ali analiziral vsebino dokumentov. Iskalnik za začetek - v ZDA že prihodnji...

Preberi več

7 komentarjev

OpenAI predstavil Voice Engine za ustvarjanje govora

Matej Huš :: 30. mar 2024 ob 13:47
Ostale najave

Slo-Tech - OpenAI je izdal orodje Voice Engine, ki ga razvijajo od konca leta 2022 in omogoča rekonstrukcijo glasu in izdelavo zvočnih posnetkov, za kar potrebujemo le 15-sekundo posnetek govora osebe. To zadostuje, da ustvari posnetke, na katerih oseba bere poljubno besedilo. Možnosti sta dve.

Posnetek je lahko v istem jeziku, torej v angleščini. Druga možnost pa so prevodi, saj lahko posnetek pripravijo tudi v španščini, nemščini, francoščini, kitajščini in japonščini. OpenAI pojasnjuje, da v tem primeru govorec obdrži naglas iz izvirnika. Če je torej vhodno besedilo v brezhibni francoščini, bo tudi ob prevodu in branju v angleščini govorec obdržal francoski akcent. Ponujajo še nekaj drugih možnosti, ki so vse namenjene pomoči uporabnikom.

Ker je tehnologijo možno tudi zlorabiti - ali bomo sploh še kdaj lahko zaupali "posnetkom" - bodo novo storitev javno razgrnili previdno in odgovorno, poudarjajo. Interno jo že uporabljajo, denimo v ChatGPT Voice in Read Aloud. Ob tem velja poudariti,...

Preberi več

6 komentarjev

Sora je navdušujoč generator videa iz OpenAI

Jurij Kristan :: 16. feb 2024 ob 09:56
Znanost in tehnologija

vir: openai.com

openai.com - Pri OpenAI so udarili z najavo lastnega naprednega generatorja videa. Sora bistveno presega zmogljivosti dosedanjih tovrstnih algoritmov, vštevši nedavno predstavljenega Googlovega Lumiera.

Odkar sta Meta in Google pred poldrugim letom predstavila svoja prva generativna algoritma za ustvarjanje videa iz tekstovnih ukazov (text-to-video), se tudi to področje hitro razvija. Lansko leto smo videli razmah garažnih podvigov in kopico tekmecev velikanom, kot je Runway, konec letošnjega januarja pa je področje naprej bistveno potisnil Googlov algoritem Lumiere. Ves ta čas pa je med akterji nekdo zanimivo manjkal - namreč čudežni deček industrije OpenAI, ki je sicer z modeloma GPT in DALL-E zaštartal tako norijo okoli besedil kot slik. Očitno so zgolj čakali na pravi trenutek, kajti v četrtek predstavljeno orodje Sora ima glede na trditve in demonstracije podjetja zmogljivosti, ki bistveno presegajo predstave, ki smo jih doslej imeli o tem področju.

Generatorji videa so bili v rojstni...

Preberi več

40 komentarjev

Googlov algoritem Lumiere zna spreminjati slog videa

Jurij Kristan :: 28. jan 2024 ob 21:30
Ostala programska oprema

vir: Google

Google - Pri Googlu so razkrili algoritem za generiranje videa Lumiere, ki tako po funkcijah kot prepričljivosti pošteno prekaša obstoječe rešitve.

Strojno ustvarjanje video posnetkov iz besedilnih ukazov sicer (še) ni tako v ospredju kot generatorji slik, saj gre za bistveno zahtevnejše področje, a prav tako napreduje s kar srhljivo naglico. Če smo se jeseni leta 2022 še nasmihali ob sila okornih pojavah na gibljivih sličicah iz Mete in Googla, je že v poldrugem letu situacija zaznavno drugačna, tako glede tehnologije kot razširjenosti. V Meti so lanskega novembra predstavili algoritem Emu, ki naj bi v prihodnje postal pomembno orodje za ustvarjanje vsebin na njihovih družbenih omrežjih. Podobno kot pri slikah, imamo tudi tu kopico izzivalcev, na primer orodje Runway; poleg pa je tudi Stability AI z odprtokodno različico takšnega programja, Stable Video Diffusion. Zvečine gre za kombinirane difuzne modele, ki skušajo glede na navodila najprej zgenerirati posamezne jedrne sličice, ki jih...

Preberi več

9 komentarjev

Konkurenca izrablja kaos v OpenAI za posodobitve lastnih izdelkov

Jurij Kristan :: 26. nov 2023 ob 14:19
Ostala programska oprema

Claude

Slo-Tech - Pretekli teden je poleg drame v OpenAI postregel tudi s kopico novosti in posodobitev v širše uporabljanem programju s področja generativne umetne inteligence.

Direndaj v OpenAI, kjer so Sama Altmana najprej vrgli na cesto, nakar se je po bizarni kolobociji zmagoslavno vrnil na najvišji stolček, je industrijo širše spodbudil v lansiranje novih ali prenovljenih lastnih rešitev. Seveda so bile te brez dvoma v pripravi že dlje časa, toda gola količina novosti v preteklem tednu ustvarja vtis, da so inženirji ... malce pohiteli; na strani Microsofta in OpenAI zato, da bi podpornike pomirili, da njihove naložbe niso v nevarnosti, na strani konkurence zato, da bi si nemara odrezali nov košček pogače. OpenAI je še med burlesko odprl glasovno-pogovorne zmogljivosti ChatGPTja za vse uporabnike. Močno dejavni so bili v Googlu, najprej s posodobitvijo Barda. Ta zna v preizkusni različici po novem precej bolje kot ob septembrskem prvem lansiranju funkcije povzemati posnetke z YouTuba. To...

Preberi več

4 komentarji

OpenAI naznanil GPT-4

Jurij Kristan :: 14. mar 2023 ob 22:59
Znanost in tehnologija

vir: openai.com

openai.com - Kot smo že nekaj časa pričakovali, so v OpenAI naposled najavili veliki jezikovni model GPT-4. Za rahlo presenečenje pa so obenem poskrbeli v Microsoftu, s priznanjem, da novi Bing Chat v bistvu na njem sloni že od začetka testiranja.

Skoraj 3 leta nas že ločijo od prvih vnašanj ukazov generativnemu jezikovnemu algoritmu, oziroma velikemu jezikovnemu modelu (LLM) GPT-3. Umotvor laboratorija OpenAI je postal eden od sinonimov za eksplozijo generativne strojne inteligence, ki je lani dosegla nove nivoje z generatorji slik in jesenskim lansiranjem pogovornega bota ChatGPT, letos pa z nebrzdano naglico poganja novo tekmo med tehnološkimi velikani. Posledica norije je bilo seveda mrzlično čakanje na novo različico GPTja, ki so ga sicer inženirji medtem iterativno nadgrajevali, tako da je bila lani v bistvu aktualna različica 3.5. Tudi šef OpenAIja, Sam Altman, je večkrat opozoril, da so pričakovanja bržkone prevelika in da bo GPT-4 nova evolucijska stopnja ter še daleč od kakšne...

Preberi več

27 komentarjev

Generiranje slik iz teksta postaja tekma

Jurij Kristan :: 26. maj 2022 ob 21:55
Znanost in tehnologija

tale korgi ni resničen

vir: Google

Google - Googlov laboratorij za strojno učenje je predstavil algoritem Imagen, za katerega trdijo, da ustvarja še boljše podobe kot OpenAIjev DALL-E 2.

Zadnji krik področja umetne inteligence so bržkone algoritmi za generiranje slik iz tekstovnih opisov, saj znajo ponekod ustvariti hudo markantne rezultate, kot je podoba tujske hobotnice s časopisom v rokah, ki lebdi skozi portal ali jutranje nakupovalne mrzlice v ekspresionističnem slogu. Z idejo so najbolj udarno pričeli v hiši OpenAI, ko so v začetku lanskega leta predstavili algoritem DALL-E, ki je pred poldrugim mesecem prešel v pošteno nadgrajeno drugo generacijo. Zdaj so se gibanju pridružili še v Googlu in predstavili algoritem Imagen. Kot večina tosortnih programov, tudi Imagen uporablja difuzni model, pri čemer zvito najprej ustvari nizkoločljivostno podobo, ki jo nato razteguje skozi več podalgoritmov, prav tako z difuznimi modeli.

Googlovi inženirji trdijo, da zanesljivo proizvaja boljše podobe od DALL-Eja 2 in so v ta namen...

Preberi več

6 komentarjev

OpenAI predstavil drugo generacijo algoritma DALL-E

Jurij Kristan :: 11. apr 2022 ob 02:16
Znanost in tehnologija

vir: openai.com

openai.com - Laboratorij za strojno učenje OpenAI je pokazal algoritem DALL-E 2, za generiranje slik, ki bistveno nadgrajuje predhodnika in ustvarja navdušujoče verodostojne ter podrobne podobe (tudi) astronavtov na konju v rahlem drncu po Luni.

Lanskega januarja so v družbi za raziskovanje strojne inteligence OpenAI presenetili z algoritmom, ki je znal iz tekstovnega navodila presenetljivo dobro ustvariti želeno podobo. DALL-E je sicer res zvečine izrisal majhne sličice, ki so bile obenem značilno razmazane, kakor smo pri umetni pameti še vedno vajeni - toda že samo dejstvo, da je znal računalnik narisati "stol v podobi avokada", je presunil strokovno javnost. Na tej osnovi je področje hitro napredovalo in postreglo z zanimivimi aplikacijami, kot je Dream ali Baidujev algoritem ERNIE-ViLG. Pred dnevi so v OpenAI predstavili naslednika, DALL-E 2. Tudi njegove sposobnosti milo rečeno sezujejo, saj zna med drugim izrisati "plišaste medvedke v podobi norih znanstvenikov" ali "toplo oblečeno mišjo...

Preberi več

19 komentarjev

Zadnje novice

Zadnji članki

Išči:

Novice » Povezane novice

Googlov algoritem Veo 3 proizvaja generiran video s sinhroniziranim zvokom

Sora je tu

Google predstavil množico orodij na temelju Geminija

OpenAI predstavil Voice Engine za ustvarjanje govora

Sora je navdušujoč generator videa iz OpenAI

Googlov algoritem Lumiere zna spreminjati slog videa

Konkurenca izrablja kaos v OpenAI za posodobitve lastnih izdelkov

OpenAI naznanil GPT-4

Generiranje slik iz teksta postaja tekma

OpenAI predstavil drugo generacijo algoritma DALL-E