Teollisuusuutiset

Onko AlphaZero kelvollinen pelaamaan?

2018-06-02

DeepMind, joka on Googlen omistama tekoälytysyhtiö, on julkaissut uuden paperin, jossa kuvataan, miten joukkue käytti AlphaGo-koneoppimisjärjestelmää uuden AlphaZero-projektin rakentamiseksi. AlphaZero käyttää AI-tekniikkaa, jota kutsutaan vahvistusopetukseksi, joka käyttää vain perussääntöjä, ei ihmiskokemusta, koulutusta tyhjästä, pyyhkäisee lautapeliä AI.

AlphaZero voitti ensin Goin ja räjähti toisen lautapelin: Samoissa olosuhteissa järjestelmällä oli kahdeksan tuntia harjoittelua ja voitti ensimmäisen AI: n, joka voitti ihmisen - Li Shishi -versio AlphaGo; 4 tunnin harjoittelun jälkeen AI Elmo voitti vahvan shakkipelin AI Stockfishin ja voitti voimakkaimman (japanilaisen shakki) AI Elmon 2 tunnissa. Jopa vahvin Go-pelaaja, AlphaGo, ei säästynyt. Koulutettu 34 tuntia, AlphaZero voitti AlphaGo Zeron, joka koulutti 72 tuntia.

Kaavio / Pelin pudotukset, vedot tai häviöt AlphaZero-näkökulmasta (DeepMind Team Paperista)

Oppimisen vahvistaminen on niin voimakasta. Mikä se on?

Adit Deshpande, Kalifornian yliopistosta tunnettu Los Angeles (UCLA) tunnettu blogin julkaisema sarja artikkeleita Deep Learning Research Reviewista blogissaan, joka selittää AlphaGon voiton voiman. Hänen artikkelissaan hän esitteli, että koneoppimisen ala voidaan jakaa kolmeen luokkaan: valvottu oppiminen, valvomaton oppiminen ja vahvistusopetus. Vahvistustekniikka voi oppia erilaisia ​​toimintoja eri tilanteissa tai ympäristöissä parhaiden tulosten saavuttamiseksi.

Kuva / Adit Deshpanden blogi Deep Learning Research Review 2. viikko: Vahvistustekniikka

Kuvittelemme pieni robotti pienessä huoneessa. Emme ohjelmoi tätä robottia liikuttamaan tai kävelemään tai ryhtymään mihinkään toimiin. Se vain seisoo siellä. Haluamme sen siirtyvän huoneen nurkkaan, saamaan palkkion pisteitä, kun tulet sinne, ja menettää pisteitä joka kerta, kun menet. Toivomme, että robotti saavuttaa määrätyn paikan niin pitkälle kuin mahdollista, ja robotti voi liikkua neljään suuntaan: itään, etelään, länteen ja pohjoiseen. Robotit ovat itse asiassa hyvin yksinkertaisia. Millainen käyttäytyminen on arvokkainta? Tietenkin se on nimetty paikka. Jotta voisimme saada suurimman palkkion, emme voi antaa robotteille vain sellaisia ​​toimia, jotka maksimoivat arvon.
Kuva / Adit Deshpanden blogi Deep Learning Research Review 2. viikko: Vahvistustekniikka

Mikä on AlphaZeron ihmisten shakkipelien räjähdyksen arvo?

AlphaGo Zero on läpimurto, onko AlphaZero myös? Ulkopuoliset asiantuntijat analysoivat, että jälkimmäisellä oli neljä läpimurtoa tekniikassa:

Ensinnäkin, AlphaGo Zero optimoi voitto-suhdeluvun mukaisesti, pitää vain voittoa, negatiivisia kahdenlaisia ​​tuloksia; Ja AlphaZero on tuloksen mukaan optimoitu, on ottanut huomioon mahdollisuuden, kuten tie.

Toiseksi, AlphaGo Zero muuttaa ohjaimen suuntaamista vahvistusopetukseen, kun taas AlphaZero ei. Go-kortti on pinottu, mutta shakki ja shakki eivät ole, joten AlphaZero on monipuolisempi.

Kolme, AlphaGo Zero valitsee jatkossakin parhaan vaihtoehdon korvaushyvityksestä, kun taas AlphaZero päivittää vain hermoverkon, mikä vähentää harhaanjohtavien tulosten riskiä.

4. AlphaGo Zeron hakuosion hyperparametrit saadaan Bayesian optimoinnilla. Valinnalla on suuri vaikutus arviointitulokseen. AlphaZero käyttää samoja hyperparametreja kaikkiin peleihin, joten pelikohtaisia ​​muutoksia ei tarvitse tehdä.

Neljäs paradigma vanhempi koneenoppimisen arkkitehti Tu Weiwei kertoi geekpuistolle, että AlphaZerolla on läpimurtoja ja rajoituksia:

Ensinnäkin, DeepMind Tämän opinnäytetyön ydin on todistaa AlphaGo Zero -strategian monipuolisuus shakkiongelmana; menetelmässä ei ole erityistä kohtaa. AlphaZero on itse asiassa AlphaGo Zero -strategian laajennettu versio Goista muihin vastaaviin lautapeleihin ja voittaa muun teknologiapohjaisen lautapelin AI. He olivat parasta ennen.

Toiseksi, AlphaZero on vain "universaali" moottori samankaltaisille lautapeleille, joilla on hyvin määritelty ja täydellinen tietopeli. AlphaZerolla on edelleen vaikeuksia entistä monimutkaisemmissa asioissa.

Aikaisemmin, kun Ryukyu Sun Jian tulkasi AlphaGo Zeroa, hän sanoi: "Vahvistettu oppiminen voidaan laajentaa moniin muihin aloihin, eikä sitä ole niin helppoa käyttää todellisessa maailmassa. Esimerkiksi vahvistusopetusta voidaan käyttää uusien lääkkeiden ja uusien lääkkeiden tutkimiseen. Rakenne on etsittävä. Haun jälkeen se tehdään lääkkeeksi. Sitten kuinka todella testata lääkettä on tehokas. Tämä suljetun silmukan hinta on erittäin kallis ja erittäin hidas. On hyvin vaikeaa tehdä niin yksinkertainen kuin pelata shakkia. "

Kolmanneksi, AlphaZero tarvitsee myös paljon tietojenkäsittelyresursseja suhteellisen "yksinkertaisen" shakki ongelma, ja hinta on erittäin korkea. Geekpuistojen mukaan DeepMind totesi paperissa, että he käyttivät 5000 ensimmäisen sukupolven TPU: tä itsenäisten pelien luomiseen ja käyttivät 64 toisen sukupolven TPU: ta neuroverkkojen kouluttamiseen. Aiemmin jotkut asiantuntijat sanoivat tietylle medialle, että vaikka TPU: n suorituskyky on hämmästyttävä, kustannukset ovat hyvin korkeat. Jotkut kansainvälisen pääomasijoitusorganisaation sijoittajat ovat myös ystävyneet tässä ympyrässä. Yksi sanoista on: "Tämä kallis siru, katson vain ..."

Neljänneksi, nykyinen AlphaZero voi olla kaukana "Go God" -kohdasta. Siirry. Voittajat eivät edusta Jumalaa. Nykyinen verkon rakenne ja koulutusstrategia eivät ole optimaalisia. Oikeastaan ​​kannattaa tutkia lisää.

Vaikka on olemassa tiettyjä rajoituksia, sen sovellusskenaarioita kannattaa kaivata. On monia muita tutkimusaloja, jotka kannattaa kiinnittää huomiota tutkimuksen suuntaan, joka tekee koneoppimisesta yleisluontoisempia, kuten AutoML: n, muuttoliiketoiminnan oppimisen ja niin edelleen. Samalla on myös kiinnitettävä huomiota siihen, miten saada yleisempi AI-moottori halvemmalla kustannuksella (laskentakustannukset, alan asiantuntijakustannukset) ja tehdä AI: sta arvokkaampi käytännön sovelluksissa.

Tippumatkat ovat erityinen alue. Geekpuistojen mukaan DJ: t käyttävät keinotekoista älykkyyttä tekniikkaa, joka vastaa kuljettajia ja matkustajia kohtuuttomilta suoraviivaisilta etäisyyksiltä (mahdollisesti jokien yli) toimeksiantoihin. Matkustajille, joilla on vähiten aikaa autoihin, kokenut paljon teknistä optimointia. He kohtasivat myös ongelmia ja työskentelivät kovasti heille: Kun kehitetään keinotekoisia älykkyysjärjestelmiä, voidaan käyttää GPU-klustereita kuten GPU-klustereita. Kuitenkin, kun kuljettajat ja matkustajat sovitetaan, tarvitaan reaaliaikaista suorituskykyä ja kokoonpanoa vähennetään. Siksi tarkkuuden varmistaminen on myös tutkimusta. Henkilökunta on tutkinut asiaa.

Mutta Tu Weiwei vahvisti DeepMindin pyrkimykset "yleisen keinotekoisen älykkyyden" suuntaan.