Microsoftova umetna inteligenca prevaja kitajščino kot ljudje

Matej Huš

16. mar 2018 ob 07:35:27

Razvoj strojnega prevajanja je že dolga leta v središču pozornosti znanstvenikov, ki se ukvarjajo z umetno inteligenco, in v zadnjem letu so rezultati resnično osupljivi. Microsoft pa sedaj trdi, da so uspeli razviti sistem za prevajanje iz kitajščine, katerega rezultati so tako dobri kot pri človeškem prevajalcu. Na osnovnem korpusu besedil newstest2017 je rezultat enako kakovosten, kot če bi prevajal človek, so ocenili neodvisni strokovnjaki.

Xuedong Huang, ki je pri Microsoftu zadolžen za področje jezika in prevajanja, pravi, da gre za pomemben mejnik pri analizi človeškega jezika. Dodaja, da je bil to vseskozi cilj in sanje celotne ekipe, niso pa si mislili, da ga bodo tako hitro dosegli. Ming Zhou iz Microsoft Research Asia ob tem opozarja, da jim je to uspelo na preizkusnem korpusu, sedaj pa morajo doseči še, da se bo sistem tako odrezal tudi na svežih novicah. Arul Menezes nadalje pojasnjuje, da je bil cilj pokazati, da strojni prevod človeške kakovosti obstaja. Zaradi tega so izbrali jezika, za katera obstajajo ogromni korpusu prevedenih besedil, in se osredotočili na besedila s splošnim besediščem.

Pri razvoju so uporabili več tehnik (dual learning, deliberation, joint training, agreement regularization). Dvojno učenje pomeni, da se povedi prevajajo iz kitajščine v angleščino in potem nazaj, sistem pa se ob vsaki iteraciji uči, kako bi prevod še izboljšal. V idealnem primeru je po dvojnem prevajanju rezultat enak. Pod deliberation network razumemo podobno vedenje kot pri ljudeh - večkratno prevajanje istega stavka, kjer je prevod vsakokrat nekoliko boljši. Skupno treniranje pomeni, da sistem prevede angleške stavke v kitajske, potem pa nove stavke v paru z originalom uporabi za povečanje podatkovne baze, ki se uporablja pri urjenju. Tako lahko iterativno povečujemo bazo za učenje. Zadnja tehnika pa obsega prevajanje iz leve proti desni in z desne proti levi. V idealnem primeru je prevod enak, ne glede na smer, v kateri beremo besede v stavku.

Sistem lahko preverimo tudi sami. Najprej bomo opazili, da je prevajalnik precej počasen. Microsoft pravi, da je produkcijska verzija hitrejša, a to je trenutno najboljši algoritem, ki ga imajo na voljo (je pa počasen). Prevajalnik vrne dva prevoda, ki sta oba zelo dobra, potem pa lahko izberemo boljšega in mu s tem pomagamo učiti se.