»

Nvidiin jezikovni model za zvoke: Fugatto

Slo-Tech - Nvidia je predstavil novo orodje za ustvarjanje glasbe, ki deluje kot jezikovni model umetne inteligence. Fugatto (Foundational Generative Audio Transformer Opus 1) - napovednik res vsebuje sliko mačka - omogoča besedilni opis zvoka ali zvokov, ki jih želimo poustvariti, nato pa jih Fugatto zaigra. Nvidia ob tem poudarja, da je to prvi model, ki omogoča povsem nove in doslej nikoli slišane vrste zvokov. To je seveda precej drzna trditev, saj nekaj podobnega počnejo tudi drugi tovrstni modeli. Po drugi strani pa lahko Fugatto uporabimo za ustvarjanje povsem običajnih zvokov, ki jih potrebujemo v kakršnikoli produkciji, denimo zvok troblje na vlaku, ki se počasi prelije v igranje simfoničnega orkestra.

Druga možnost je uporaba za predelavo zvočnih posnetkov. Fugatto lahko obdelavo posnetek skladbe in - če mu tako naročimo z besedami - izolira vokal ali kakšen instrument. Lahko pa orodju naročimo, da v posnetek doda kakšen instrument. Spremeniti je možno tudi modulacijo, denimo jezni glas v prijetnega ipd. Ozadje, kolikor so ga smeli razkriti, so opisali v znanstvenem članku, kjer so Fugatto primerjali tudi z drugimi tovrstnimi modeli. Ni namreč edini ali prvi, saj je konkurenca (Stability AI, OpenAI, Google DeepMind,...

5 komentarjev

Ko GPT-4 Vision sreča ElevenLabs, dobimo umetnega Davida Attenborougha

Slo-Tech - Tehnologija obstaja že nekaj časa, a šele ko združimo njene različne pojavne oblike, postane zares jasno, česa je sposobna. Charlie Holtz je na X-u pokazal, kako je združil GPT-4 Vision, ki ustvari besedilni opis vizualnih podob, in tehnologija za kloniranje glasu ElevenLabs. Spisal je skripto, ki vsakih pet sekund zajame posnetek z njegove kamere, ga prek API posreduje GPT-4 Vision, nato pa besedilni opis prebere klon glasu Davida Attenborougha. Rezultati so zelo realistični.

Kodo je objavil tudi na GitHubu, a je brezplačno ni možno uporabiti. Za delovanje namreč potrebujemo dostop prek API do GPT-4 Vision in do ElevenLabs, ki ni zastonj, temveč se plačuje po žetonih. Če pa to imamo, so ovire le naša domišljija. Pietro Schirano je na primer pokazal, kako lahko lažni Steve Jobs ocenjuje in kritizira različne izdelke iz aplikacije Figma.

Tehnologija je torej tu in omogoča, da kdorkoli "reče" karkoli. Sedaj je treba razmisliti, kako jo regulirati in to tudi izvajati. ElevenLabs na...

5 komentarjev

OpenAI odprl API za GPT-4 vsem naročnikom

Slo-Tech - Čeprav GPT-4 obstaja že nekaj časa in ga naročniki ChatGPT tudi že lahko uporabljajo, je OpenAI šele sedaj najavil splošno dostopnost tega jezikovnega modela. To v praksi pomeni, da ni treba več čakati na vabilo, temveč imajo dostop vse stranke, ki naročijo plačljiv dostop. Na enak način so dostopni tudi GPT-3.5 Turbo, DALL·E in Whisper API.

GPT-4 je izšel marca, odtlej pa je prošnjo za vabilo oddalo več kot milijon strank. Do danes ga uporabljajo že številni izdelki, ki imajo dostop do modela prek API. Sedaj je GPT-4 na voljo strankam z zgodovino plačil, torej obstoječim naročnikom, medtem ko bodo vsi novi naročniki dostop pridobili najpozneje konec meseca. V trenutno dostopni verziji lahko model na enkrat ustvari do 13 strani besedila (8K). Sčasoma bodo te omejitve višje, so dodali.

Predhodnik, GPT-3, pa se bo počasi upokojil. OpenAI je dejal, da ga bodo aktivno podpirali do januarja prihodnje leto, nato pa bodo model ugasniti, da bi lahko računsko moč koristneje uporabili za...

17 komentarjev

Microsoft in Epic bosta pripeljala GPT-4 v medicino

Slo-Tech - Microsoft in Epic Systems sta sporočila, da bosta združila moči in pripeljala veliki jezikovni model GPT-4 v medicino. Z njim želita olajšati delo zdravstvenemu osebju, saj bo z njim možno pisati sporočila in analizirati zdravstvene kartone. Skeptiki so zelo zaskrbljeni.

Epic je največji ponudnik programske opreme za ameriške bolnišnice. Ocenjujejo, da njegove programe, denimo MyChart, uporablja približno 30 odstotkov ameriških bolnišnic. Po celem svetu ima elektronske kartone v njihovem sistemu več kot 300 milijonov pacientov. To pomeni, da ima Epic dostop do velikanske količine podatkov.

Microsoft pa je po drugi strani investitor v Open in nudi dostop do GPT-4 prek svojih storitev Azure (na voljo je API). To dvoje bi sedaj združili, pri čemer bi umetna inteligenca pomagala v dveh pogledih. GPT-4 je odličen v pisanju besedil in bo zdravstvenim delavcem pomagal pri snovanju sporočil za komunikacijo s pacienti. To je povsem smiselna uporaba, saj bo besedila tako ali tako še nekdo...

28 komentarjev

Vrsta strokovnjakov poziva k polletni ustavitvi razvoja strojnega učenja

Slo-Tech - Organizacija Future of Life Institute je objavila javno pismo, v katerem več vidnih osebnosti s področja strojnega učenja in informacijskih tehnologij poziva k šestmesečnemu moratoriju na razvoj in lansiranje novih produktov s področja strojnega učenja.

Izjemno nagel razvoj rešitev s področja strojnega učenja v zadnjem letu, posebno veliki jezikovni modeli in generatorji podob, vzbuja strah, da pravna in akademska stroka ter zakonodajna telesa izgubljajo bitko za uspešno razumevanje in nadzorovanje takšne napredne tehnologije. Investicijska banka Goldman Sachs je na začetku tedna objavila poročilo, v katerem ugotavlja, da naj bi generativna strojna pamet v naslednjem desetletju v razvitih državah ob službo spravila okoli 300 milijonov ljudi, v zameno za od 7- do 10-odstotni dvig bruto družbenega proizvoda. Najnovejši modeli, kot je nedavno lansirani GPT-4, s skokovitim tempom izboljšujejo svojo učinkovitost in se na nekaterih testih jezikovnega znanja že odrežejo skoraj tako dobro...

67 komentarjev

OpenAI naznanil GPT-4

openai.com - Kot smo že nekaj časa pričakovali, so v OpenAI naposled najavili veliki jezikovni model GPT-4. Za rahlo presenečenje pa so obenem poskrbeli v Microsoftu, s priznanjem, da novi Bing Chat v bistvu na njem sloni že od začetka testiranja.

Skoraj 3 leta nas že ločijo od prvih vnašanj ukazov generativnemu jezikovnemu algoritmu, oziroma velikemu jezikovnemu modelu (LLM) GPT-3. Umotvor laboratorija OpenAI je postal eden od sinonimov za eksplozijo generativne strojne inteligence, ki je lani dosegla nove nivoje z generatorji slik in jesenskim lansiranjem pogovornega bota ChatGPT, letos pa z nebrzdano naglico poganja novo tekmo med tehnološkimi velikani. Posledica norije je bilo seveda mrzlično čakanje na novo različico GPTja, ki so ga sicer inženirji medtem iterativno nadgrajevali, tako da je bila lani v bistvu aktualna različica 3.5. Tudi šef OpenAIja, Sam Altman, je večkrat opozoril, da so pričakovanja bržkone prevelika in da bo GPT-4 nova evolucijska stopnja ter še daleč od kakšne...

27 komentarjev

Shutterstock bo prodajal grafiko umetne inteligence DALL-E

Slo-Tech - Shutterstock je sklenil dogovor z OpenAI, ki je razvil algoritem DALL-E 2 za računalniško ustvarjanje posnetkov iz besedilnega opisa in ki je že mesec dni dostopen vsem, da bodo stvaritve umetne inteligence na voljo v plačljivih galerijah. Poleg vsebin, ki jih izdelajo ljudje, bo DALL-E 2 edini vir vsebin umetne inteligence. Nalaganje drugih vsebin, ki jih ustvari umetna inteligenca, je sicer prepovedano, ker avtorske pravice (še) niso jasno določene. To je legitimen razlog, ki pa seveda koristi tudi partnerstvu z OpenAI. Iz istega razloga Getty Images ne dovoli posnetkov umetne inteligence.

Izvršni direktor Shutterstocka Paul Hennessy je ob tem dejal, da se načini izražanja in ustvarjalnosti nenehno spreminjajo, čemur morajo slediti. Tak primer je tudi generativna tehnologija, ki stoji za DALL-E 2. Izvršni direktor OpenAI Sam Altman je dodal, da so navdušeni nad novim partnerstvom. Uporabniki Shutterstocka bodo namreč lahko nove fotografije generirali neposredno ob iskanju, saj...

9 komentarjev