ChatGPT bo lahko sprejemal slike in govor

Jurij Kristan

26. sep 2023 ob 20:09:35

Pri OpenAI so naznanili skorajšnji prihod novih zmogljivosti v razvpitega pogovornega bota ChatGPT: poleg teksta mu bomo lahko predložili tudi slike in ga spraševali glasovno.

Ko so v OpenAI marca lansirali GPT-4, smo med teoretičnimi zmogljivostmi lahko zasledili tudi multimodalnost, se pravi organsko razumevanje različnih formatov informacij, v tem primeru poleg teksta še podobe. Toda dejansko uporabo teh funkcij v podjetju dozirajo zelo počasi; tako so se poleti povezali z družbo Be My Eyes, ki izdeluje istoimensko aplikacijo za pomoč slabovidnim, medtem ko navadnim uporabnikom tolmačenje slik še ni dosegljivo, domnevno predvsem zaradi bojazni pred nevarnostmi, ki jih takšne zmogljivosti potencialno pomenijo za našo zasebnost. Tudi Microsoft v Bing Chatu takšne dodatke preizkuša precej previdno. Sedaj je nastopil trenutek za preskok na novo stopnico, kajti "v roku dveh tednov" bodo naročniki na storitvi Plus in Enterprise lahko ChatGPTju posredovali tudi podobe ali ga ogovorili. "Nekaj pozneje" naj bi zmogljivosti dospele tudi v brezplačni režim, je pa zaenkrat videti, da bo čebljanje omejeno na telefonske različice aplikacije, se pravi za iOS in Android, tako da ga za računalniške spletne brskalnike še ne bo.

Glasovni del novosti je še najbolj premočrten: aplikacija za tolmačenje uporabnikovega govora koristi dobro znani model Whisper, ki govorance pretvori v tekst, kakršnega pozna GPT. V obratno smer, torej za strojni govor, bo mogoče v štartu izbirati med petimi različnimi glasovi. Pri podobah so podrobnosti manj jasne; verjetno gre za pravi multimodalni jezikovni model, morda pa si kje pomaga tudi z raznimi slikovnimi orodji, po katerih je OpenAI že tudi poznan, kot je CLIP. V praksi bo raba podobna Google Lens: ChatGPT bo skušal razbrati, kaj točno slike vsebujejo in glede na to odgovoriti na naša vprašanja. V promocijskih posnetkih je mogoče videti primere, kot je poziv chatbotu, naj iz slike kolesa pojasni, s katerim orodjem nastaviti njegovo sedalo. Brez dvoma bodo robotove zmote v takšnih situacijah precej zabavne.

V podjetju si deklarirano prizadevajo zagotoviti, da nove zmogljivosti ne bi ogrozile zasebnosti, zato ChatGPT zaenkrat še ne bo mogel prepoznavati resničnih oseb, oziroma obrazov. Prav tako naj bi budno pazili na rabo generiranega govora, ki nosi velik potencial za prevare in lažno propagando, denimo z oponašanjem znanih oseb. Strokovnjaki za etiko umetne inteligence so se že obregnili ob nekatere oglaševalske prijeme OpenAIja, denimo opazko, da naj bi bilo mogoče ChatGPT v glasovnem načinu uporabljati terapevtsko. V končni fazi pa se je spajanje pametnih glasovnih pomočnikov, kot so Alexa, Siri in Google Assistant, in pa velikih jezikovnih modelov napovedovalo že dolgo in očitno smo naposled na pragu takšnih hibridov. V to smer je pred tednom dni odločno zakorakal tudi Amazon.