Google pokazal nevronske mreže, ki vidijo za vogal

Matej Huš

30. jun 2018 ob 09:07:38

Googlova enota DeepMind, ki je bila nekdaj svoje podjetje, pa jo je Google pametno kupil, je pokazala še eno sposobnost svojih nevronskih mrež. Razvili so sistem nevronskih mrež, ki sta sposobni iz le nekaj dvodimenzionalnih posnetkov izluščiti resnično prostorsko postavitev predmetov in jih potem izrisati iz poljubnega zornega kota. Težav jima ne delajo niti osvetlitev, senčenje, prekrivanje in drugi vizualni učinki.

Gre za sposobnost, ki se je ljudje priučimo izkušnjami in jo načeloma obvladamo tako dobro, da niti ne razmišljamo o njej. Če vidimo mizo pred steno, predpostavljamo, da je tudi stena, ki je zaradi mize ne vidimo, enake oblike in barve kot preostanek. Če vidimo fotografijo mize, si kar dobro predstavljamo, kako stoji v prostoru. Tudi če je na fotografiji ena noga zakrita, bomo intuitivno vedeli, kje stoji. Z malo vaje si lahko predstavljamo in narišemo, kako je nek prizor videti iz drugega zornega kota, saj poznamo tridimenzionalno postavitev predmetov. Za računalnike pa je to težak problem, a ne nerešljiv.

Ekipa DeepMinda je pripravila nevronski mreži, ki počneta točno to. Prva nevronska mreža kot vhodni podatek vzame več posnetkov istega prizora iz več zornih kotov in ga pretvori v matematično predstavitev postavitve predmetov. Druga nevronska mreža pa iz te predstavitve izriše prizor iz poljubnega novega zornega kota. Lahko bi rekli, da nevronski mreži opravljata različni obratni operaciji, in tudi učita se skupaj. Za učenje uporabljajo več posnetkov različnih, a podobnih sob. V njih so za zdaj preprosta telesa - krogle, kocke, stožci ipd. Na ta način se nevronska mreža nauči poiskati neodvisno predstavitev prizora, ki ni odvisna od konkretne postavitve predmetov v eni sobi, temveč deluje za vse. Potem pa se druga mreža uči iz tega narisati prizor. Če zahtevamo izris iz znanega zornega kota, mora biti rezultat enak eni vhodni fotografiji, sicer pa seveda ne. Nevronska mreža se ob tem nauči tudi cel kup pomožnih podatkov, denimo kako predmeti mečejo sence ali da so poleg mize običajno stoli.

Videoposnetek trenutnega stanja je videti osupljivo, a v DeepMindu poudarjajo, da je to le začetek in da tehnologija v praksi še ni uporabna. V prihodnosti jo morajo razširiti še na druge predmete in bitja, denimo drevesa, avtomobile in pse. Uporabnost take tehnologije bo velika zlasti v robotiki, kjer imajo roboti še vedno velike probleme s preprostim problemom - odbiti ali pobrati žogo, kaj šele pri kompleksnejših gibih.