» »

OpenAI nadgrajuje okrepitveno učenje z evolucijo

OpenAI nadgrajuje okrepitveno učenje z evolucijo

Slo-Tech - V laboratoriju OpenAI so objavili prve izsledke rabe njihovega novega sistema treninga strojne inteligence, pri katerem pogoje okrepitevega učenja zaostrujejo s tekmovanjem med agenti z različnimi cilji. Njihovi algoritmi so se v tem režimu spontano naučili uporabljati orodja, tudi na neslutene načine.

Odmevni uspehi strojne pameti v zadnjih letih, kot je premagovanje ljudi v Goju, Doti 2 in drugih igrah, slonijo na razmeroma preprostih principih globokih konvolucijskih nevronskih mrež in okrepitvenega učenja, kjer se algoritmi učijo skozi brezštevilne igre samih s seboj. Da bi odkrili morebitne nove in/ali hitrejše načine učenja, so v laboratoriju OpenAI (ki je v začetku leta postal delno komercialno usmerjen) agente vrgli v bolj dinamično okolje, kjer so bolj prišli do izraza evolucijski mehanizmi. In sicer tako, da so nasproti postavili dve ekipi, ki sta se igrali skrivalnice. Morda se to zdi zelo blizu bazičnemu reinforcement learningu, toda pri slednjem so pogoji veliko bolj statični.

Agentje so uporabljali poligon z nekaj preprostimi orodji, kot so kocke, zidovi in klančine. Po 25 milijonih iger so se skrivalniške ekipe naučile uporabiti kocke in zidove, da so zgradile skrivališče, v katerega iskalci niso mogli. Po 75 milijonih iger so se slednji priučili rabe klančin in z njihovo pomočjo prečili zidove. Toda le deset milijonov iger pozneje so skrivalci blokirali rampe in zopet preprečili dostop do skrivališč. Nato je prišel trenutek, ki ga inženirji niso pričakovali: iskalci so "pogruntali", da je mogoče s pomočjo klančin kocke zajahati in na njih odsrfati čez zidove. Naposled je po 380 milijonih iger nasprotna stran ugotovila, da mora blokirati vse elemente na poligonu, preden si zgradi skrivališče.

Izsledki nas lahko dosti naučijo o porajajočem se in dostikrat nenadejanem obnašanju umetne inteligence, kar bo izjemno pomembno, če ji bomo v prihodnosti zaupali vožnjo avtomobilov ali še pomembnejše reči. Za sam OpenAI pa so takšni koraki, ki rinejo napredek dalje, ključni, saj družba pravzaprav vse stavi na globoke konvolucijske mreže (oziroma popularno deep learning). Te imajo vrsto slabosti, kot so požrešnost za podatki, katastrofično pozabljanje in občutljivost na šum, ki jih primitivnost principa okrepitvenega učenja prav boleče izrazi. Zato se v zadnjih letih pojavljajo poskusi spajanja z drugimi sortami nevronskih mrež in njihovih arhitektur, ki se znajo učiti na manjših bazah podatkov. Če bi OpenAIjevi inženirji uspeli najti bistveno hitrejše načine učenja za svoje globoke mreže, bi to zopet dalo večjo težo njihovi (še vedno zelo vehementni) trditvi, da je prav njihov recept pravšen za eventuelen nastanek splošne umetne inteligence.

13 komentarjev

OK.d ::

Ja po miljardi preigranih iger bi že lahko naredili kakšno presenečenje v obliki skrite bombe;)
LPOK.d

bapjobs ::

Ko berem tole me prime da grem spilat Civilization ;)

packac ::

*Samo kot opomba. Na FRI-ju smo reinforcement learning prevajali kot spodbujevano učenje. Mogoče je to lepši prevod kot "okrepitveno učenje". (Vir: Inteligentni sistemi, Kononenko in Šikonja, tudi Spodbujevano učenje) @ Wikipedia.

Uros!no ::

Golden eye ::

Tnx za video.

Cash ::

Se še kdo sprašuje, če so ZF filmi sploh ZF filmi ali napovednik prohodnosti človeštva? Ker meje se podirajo...in, če se bo tako nadaljevalo, kje bomo čez recimo 300, 400 let?

vostok_1 ::

To je res daleč od artificial Intelligence, je pa revolucionarno orodje za repetitive mid-low repetitive tasks.

To bo več kot odlično za totalni nadzor populacije.
Ne samo nadzor tudi manipulacijo.
Tko kot so se hiderji naučili manipulirat objetke, tko bodo manipulirali nas.
Že tako sedaj dobivaš targeted ads, pol boš še dobival targeted tasks and incentives.
Komaj čakam, ko boste tlačani prvič subtilno dobili neko sporočilo/informacijo/napotek/itd. ki, vam bo pri dani odločitvi spremenil smer. Ta pa bo po dvojnem premisleku sumljivo v prid grofa.

Tk je. Tlaka bo nazaj v modi plebsi.
There will be chutes!
It came from the lab.
Like tears in rain. Time to die. v_1 2012-21

Spxy ::

Cash je izjavil:

Se še kdo sprašuje, če so ZF filmi sploh ZF filmi ali napovednik prohodnosti človeštva? Ker meje se podirajo...in, če se bo tako nadaljevalo, kje bomo čez recimo 300, 400 let?


Misliš čez 30, 40 let? :)

jype ::

vostok_1 je izjavil:

Tk je. Tlaka bo nazaj v modi plebsi.
Tebi podobni normiji boste edini sklonili glave in se sprijaznili s tem.

Aggressor ::

packac je izjavil:

*Samo kot opomba. Na FRI-ju smo reinforcement learning prevajali kot spodbujevano učenje. Mogoče je to lepši prevod kot "okrepitveno učenje". (Vir: Inteligentni sistemi, Kononenko in Šikonja, tudi Spodbujevano učenje) @ Wikipedia.


FRIjevo izrazje poznam, ampak se mi zdi v kontekstu nevronskih mrež precej neposrečeno, tako z vsebinskega kot jezikovnega vidika. Hkrati se strinjam, da je "okrepitveno" tudi nerodna beseda, ki sem jo uporabil zato, ker se je tu uporabljala že pred mano in je tako izrazje na portalu vsaj kolikor-toliko konsistentno. Ampak verjetno je res bolje, da se preide na ustreznejši izraz - sam navijam za "utrjevano".
en CRISPR na dan odžene zdravnika stran

vostok_1 ::

jype je izjavil:

vostok_1 je izjavil:

Tk je. Tlaka bo nazaj v modi plebsi.
Tebi podobni normiji boste edini sklonili glave in se sprijaznili s tem.


Ne bomo. Ker ti boš častu iz svojega funda, da organiziramo armed resistance.
There will be chutes!
It came from the lab.
Like tears in rain. Time to die. v_1 2012-21

kuall ::

Denar je sveta vladar in ravno tako kot je napredek vsega največji v kapitalstičnih državah, kjer se ljudje ukvarjajo s stvarmi, ki prinašajo denar, bo tudi pri AI tako, da bo največji uspeh na področjih, s katerimi se da kaj zaslužit, ne pa z nekimi brezveznimi igricami, kot je šah itd. Vozeči avti, prevajanje med jeziki so prava pot.

Druga stvar pa je, da ni težko naredit tisto, kar se mora. Vojne so bile gonilo napredka celo človeštvo. Zdej se je to ustavilo, ker so vsi prestrašeni zaradi nuklearne vojne. Ampak če bi recimo prišlo do situacije, da bi bilo to, ali bodo zmagali nacisti ali zavezniki odvisno od tega, kdo bo prej razvil pametne robote vojake, potem bi jih po moje kmalu dobili. Zdej pa bluzijo z raznimi igricami, ker imajo preveč časa.

vostok_1 ::

Ne bi jaz še odpisal vojn.
Ena se ravno kuha.
There will be chutes!
It came from the lab.
Like tears in rain. Time to die. v_1 2012-21


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

AI AlphaStar dosegel stopnjo velemojstra

Oddelek: Novice / Znanost in tehnologija
64530 (3211) TheBlueOne
»

Microsoft vlaga milijardo dolarjev v OpenAI

Oddelek: Novice / Ostale najave
138272 (7320) vostok_1
»

OpenAI je ustvaril algoritem, ki si ga ne upa spustiti v divjino (strani: 1 2 )

Oddelek: Novice / Znanost in tehnologija
5218461 (14030) FrRoSt
»

V Doti 2 računalnik še ne nadvlada človeka

Oddelek: Novice / Znanost in tehnologija
96242 (4424) bMozart

Več podobnih tem