Ko GPT-4 Vision sreča ElevenLabs, dobimo umetnega Davida Attenborougha
Matej Huš
19. nov 2023 ob 20:11:05
Tehnologija obstaja že nekaj časa, a šele ko združimo njene različne pojavne oblike, postane zares jasno, česa je sposobna. Charlie Holtz je na X-u pokazal, kako je združil GPT-4 Vision, ki ustvari besedilni opis vizualnih podob, in tehnologija za kloniranje glasu ElevenLabs. Spisal je skripto, ki vsakih pet sekund zajame posnetek z njegove kamere, ga prek API posreduje GPT-4 Vision, nato pa besedilni opis prebere klon glasu Davida Attenborougha. Rezultati so zelo realistični.
Kodo je objavil tudi na GitHubu, a je brezplačno ni možno uporabiti. Za delovanje namreč potrebujemo dostop prek API do GPT-4 Vision in do ElevenLabs, ki ni zastonj, temveč se plačuje po žetonih. Če pa to imamo, so ovire le naša domišljija. Pietro Schirano je na primer pokazal, kako lahko lažni Steve Jobs ocenjuje in kritizira različne izdelke iz aplikacije Figma.
Tehnologija je torej tu in omogoča, da kdorkoli "reče" karkoli. Sedaj je treba razmisliti, kako jo regulirati in to tudi izvajati. ElevenLabs na primer prepoveduje uporabo glasov ljudi, ki bi kršila pravice intelektualne lastnine oziroma avtorske pravice ali bila kako drugače nezakonita. Kako to preverjati v praksi, pa je težje vprašanje.