Še ena zmaga za umetno inteligenco: branje z ustnic

Matej Huš

22. nov 2016 ob 18:16:22

Branje z ustnic je veščina, ki se pod žarometi javnosti največkrat znajde, ko je treba ugotoviti, kaj je nek zvezdnik zabrusil sodniku ali nasprotniku. Neupravičeno, saj gre za veščino, ki jo do neke mere podzavestno obvladamo in uporabljamo vsi (zato človeka laže razumete, ko stoji pred vami, kakor pa prek telefona), a pravo mojstrstvo je sila težko doseči, zlata vredna pa je za gluhe in naglušne. Googlov DeepMind je pokazal, da je tudi pri tem računalnik že boljši od človeka.

Njihova umetna inteligenca DeepMind, ki je letos že sesula prepričanje, da je človek superioren igralec goja, se je naučila tudi brati z ustnic. Za trening je dobila 5000 ur različnih televizijskih serij, v katerih je bilo izgovorjenih 118.000 stavkov. Šlo je za posnetke iz let 2010-2015. DeepMind se je tako naučil, kakšna je povezava med gibanjem ustnic in govorjeno besedo (zapisovanje po nareku mu že dlje časa ne povzroča težav).

Potem sta se pomerila DeepMind in profesionalni človeški bralec z ustnic. Dobila sta 200 naključno izbranih odlomkov iz letošnjega televizijskega programa. DeepMind je v 47 odstotkih popolnoma pravilno prepoznal govorjeno besedo, medtem ko je človeku to uspelo le v 12 odstotkih. Še kjer se je DeepMind zmotil, je običajno umanjkal le kakšen "s" ali kakšna podobna malenkost. DeepMind ni prvi računalniški sistem, ki zna brati z ustnic, je pa eden izmed najbolj dovršenih in predvsem najširše uporabnih. LipNet z Univerze v Oxfordu je prav tako soliden, a ima precej omejen besedni zaklad in zahteva lepo skladnjo. A kljub temu premaga človeka.

Branje z ustnic je torej naslednja veščina, kjer bomo morali priznati premoč umetni inteligenci. Z naraščajočo računsko močjo, miniaturizacijo, čedalje boljšim strojnim učenjem in internetom stvari to odpira zanimive možnosti, kot so razni pametni pripomočki za gluhe in podobno.