OpenAI nadgrajuje okrepitveno učenje z evolucijo @ Slo-Tech

Novice » Znanost in tehnologija »
OpenAI nadgrajuje okrepitveno učenje z evolucijo

OpenAI nadgrajuje okrepitveno učenje z evolucijo

Jurij Kristan :: 19. sep 2019 ob 01:23
Znanost in tehnologija

Slo-Tech - V laboratoriju OpenAI so objavili prve izsledke rabe njihovega novega sistema treninga strojne inteligence, pri katerem pogoje okrepitevega učenja zaostrujejo s tekmovanjem med agenti z različnimi cilji. Njihovi algoritmi so se v tem režimu spontano naučili uporabljati orodja, tudi na neslutene načine.

Odmevni uspehi strojne pameti v zadnjih letih, kot je premagovanje ljudi v Goju, Doti 2 in drugih igrah, slonijo na razmeroma preprostih principih globokih konvolucijskih nevronskih mrež in okrepitvenega učenja, kjer se algoritmi učijo skozi brezštevilne igre samih s seboj. Da bi odkrili morebitne nove in/ali hitrejše načine učenja, so v laboratoriju OpenAI (ki je v začetku leta postal delno komercialno usmerjen) agente vrgli v bolj dinamično okolje, kjer so bolj prišli do izraza evolucijski mehanizmi. In sicer tako, da so nasproti postavili dve ekipi, ki sta se igrali skrivalnice. Morda se to zdi zelo blizu bazičnemu reinforcement learningu, toda pri slednjem so pogoji veliko bolj statični.

Agentje so uporabljali poligon z nekaj preprostimi orodji, kot so kocke, zidovi in klančine. Po 25 milijonih iger so se skrivalniške ekipe naučile uporabiti kocke in zidove, da so zgradile skrivališče, v katerega iskalci niso mogli. Po 75 milijonih iger so se slednji priučili rabe klančin in z njihovo pomočjo prečili zidove. Toda le deset milijonov iger pozneje so skrivalci blokirali rampe in zopet preprečili dostop do skrivališč. Nato je prišel trenutek, ki ga inženirji niso pričakovali: iskalci so "pogruntali", da je mogoče s pomočjo klančin kocke zajahati in na njih odsrfati čez zidove. Naposled je po 380 milijonih iger nasprotna stran ugotovila, da mora blokirati vse elemente na poligonu, preden si zgradi skrivališče.

Izsledki nas lahko dosti naučijo o porajajočem se in dostikrat nenadejanem obnašanju umetne inteligence, kar bo izjemno pomembno, če ji bomo v prihodnosti zaupali vožnjo avtomobilov ali še pomembnejše reči. Za sam OpenAI pa so takšni koraki, ki rinejo napredek dalje, ključni, saj družba pravzaprav vse stavi na globoke konvolucijske mreže (oziroma popularno deep learning). Te imajo vrsto slabosti, kot so požrešnost za podatki, katastrofično pozabljanje in občutljivost na šum, ki jih primitivnost principa okrepitvenega učenja prav boleče izrazi. Zato se v zadnjih letih pojavljajo poskusi spajanja z drugimi sortami nevronskih mrež in njihovih arhitektur, ki se znajo učiti na manjših bazah podatkov. Če bi OpenAIjevi inženirji uspeli najti bistveno hitrejše načine učenja za svoje globoke mreže, bi to zopet dalo večjo težo njihovi (še vedno zelo vehementni) trditvi, da je prav njihov recept pravšen za eventuelen nastanek splošne umetne inteligence.

13 komentarjev

OK.d :: 19. sep 2019, 07:35

Ja po miljardi preigranih iger bi že lahko naredili kakšno presenečenje v obliki skrite bombe

LPOK.d

bapjobs :: 19. sep 2019, 07:56

Ko berem tole me prime da grem spilat Civilization ;)

packac :: 19. sep 2019, 08:19

*Samo kot opomba. Na FRI-ju smo reinforcement learning prevajali kot spodbujevano učenje. Mogoče je to lepši prevod kot "okrepitveno učenje". (Vir: Inteligentni sistemi, Kononenko in Šikonja, tudi Spodbujevano učenje) @ Wikipedia.

Uros!no :: 19. sep 2019, 09:38

Golden eye :: 19. sep 2019, 10:59

Tnx za video.

Cash :: 19. sep 2019, 16:18

Se še kdo sprašuje, če so ZF filmi sploh ZF filmi ali napovednik prohodnosti človeštva? Ker meje se podirajo...in, če se bo tako nadaljevalo, kje bomo čez recimo 300, 400 let?

vostok_1 :: 19. sep 2019, 21:57

To je res daleč od artificial Intelligence, je pa revolucionarno orodje za repetitive mid-low repetitive tasks.

To bo več kot odlično za totalni nadzor populacije.
Ne samo nadzor tudi manipulacijo.
Tko kot so se hiderji naučili manipulirat objetke, tko bodo manipulirali nas.
Že tako sedaj dobivaš targeted ads, pol boš še dobival targeted tasks and incentives.
Komaj čakam, ko boste tlačani prvič subtilno dobili neko sporočilo/informacijo/napotek/itd. ki, vam bo pri dani odločitvi spremenil smer. Ta pa bo po dvojnem premisleku sumljivo v prid grofa.

Tk je. Tlaka bo nazaj v modi plebsi.

There will be chutes!
It came from the lab.
Like tears in rain. Time to die. v_1 2012-21

Spxy :: 19. sep 2019, 22:06

Cash je 19. sep 2019 ob 16:18 izjavil:

Se še kdo sprašuje, če so ZF filmi sploh ZF filmi ali napovednik prohodnosti človeštva? Ker meje se podirajo...in, če se bo tako nadaljevalo, kje bomo čez recimo 300, 400 let?

Misliš čez 30, 40 let?

jype :: 19. sep 2019, 22:11

vostok_1 je 19. sep 2019 ob 21:57 izjavil:

Tk je. Tlaka bo nazaj v modi plebsi.

Tebi podobni normiji boste edini sklonili glave in se sprijaznili s tem.

Aggressor :: 19. sep 2019, 22:29

packac je 19. sep 2019 ob 08:19 izjavil:

*Samo kot opomba. Na FRI-ju smo reinforcement learning prevajali kot spodbujevano učenje. Mogoče je to lepši prevod kot "okrepitveno učenje". (Vir: Inteligentni sistemi, Kononenko in Šikonja, tudi Spodbujevano učenje) @ Wikipedia.

FRIjevo izrazje poznam, ampak se mi zdi v kontekstu nevronskih mrež precej neposrečeno, tako z vsebinskega kot jezikovnega vidika. Hkrati se strinjam, da je "okrepitveno" tudi nerodna beseda, ki sem jo uporabil zato, ker se je tu uporabljala že pred mano in je tako izrazje na portalu vsaj kolikor-toliko konsistentno. Ampak verjetno je res bolje, da se preide na ustreznejši izraz - sam navijam za "utrjevano".

en CRISPR na dan odžene zdravnika stran

vostok_1 :: 19. sep 2019, 23:41

jype je 19. sep 2019 ob 22:11 izjavil:

vostok_1 je 19. sep 2019 ob 21:57 izjavil:
Tk je. Tlaka bo nazaj v modi plebsi.
Tebi podobni normiji boste edini sklonili glave in se sprijaznili s tem.

Ne bomo. Ker ti boš častu iz svojega funda, da organiziramo armed resistance.

There will be chutes!
It came from the lab.
Like tears in rain. Time to die. v_1 2012-21

kuall :: 20. sep 2019, 00:12

Denar je sveta vladar in ravno tako kot je napredek vsega največji v kapitalstičnih državah, kjer se ljudje ukvarjajo s stvarmi, ki prinašajo denar, bo tudi pri AI tako, da bo največji uspeh na področjih, s katerimi se da kaj zaslužit, ne pa z nekimi brezveznimi igricami, kot je šah itd. Vozeči avti, prevajanje med jeziki so prava pot.

Druga stvar pa je, da ni težko naredit tisto, kar se mora. Vojne so bile gonilo napredka celo človeštvo. Zdej se je to ustavilo, ker so vsi prestrašeni zaradi nuklearne vojne. Ampak če bi recimo prišlo do situacije, da bi bilo to, ali bodo zmagali nacisti ali zavezniki odvisno od tega, kdo bo prej razvil pametne robote vojake, potem bi jih po moje kmalu dobili. Zdej pa bluzijo z raznimi igricami, ker imajo preveč časa.

vostok_1 :: 20. sep 2019, 14:09

Ne bi jaz še odpisal vojn.
Ena se ravno kuha.

There will be chutes!
It came from the lab.
Like tears in rain. Time to die. v_1 2012-21

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	AI AlphaStar dosegel stopnjo velemojstra Aggressor Oddelek: Novice / Znanost in tehnologija	6	5459 (4140)	TheBlueOne 5. nov 2019 15:05:32
»	Microsoft vlaga milijardo dolarjev v OpenAI Aggressor Oddelek: Novice / Ostale najave	13	11111 (10159)	vostok_1 25. jul 2019 13:33:17
»	OpenAI je ustvaril algoritem, ki si ga ne upa spustiti v divjino (strani: 1 2 ) Aggressor Oddelek: Novice / Znanost in tehnologija	52	25583 (21152)	FrRoSt 20. feb 2019 22:16:18
»	V Doti 2 računalnik še ne nadvlada človeka Aggressor Oddelek: Novice / Znanost in tehnologija	9	7255 (5437)	bMozart 30. avg 2018 20:56:40

Več podobnih tem

Zadnje novice

Zadnji članki

Išči:

Novice » Znanost in tehnologija »
OpenAI nadgrajuje okrepitveno učenje z evolucijo

OpenAI nadgrajuje okrepitveno učenje z evolucijo