DeepCube -løsningsmetoden kan gå ud over terning til anden forskning

En illustration af DeepCube. Uddannelses- og løsningsprocessen er opdelt i ADI og MCTS. Først, vi træner iterativt et DNN ved at estimere den sande værdi af inputtilstandene ved hjælp af bredde-første søgning. Derefter, ved hjælp af DNN til at guide efterforskning, vi løser terninger ved hjælp af Monte Carlo Tree Search. Kredit:arXiv:1805.07470 [cs.AI]

Frigør måder, hvorpå en maskine kan løse Rubiks terning? Mange hold kan rejse sig og sige været der, gjort det. Vi har set masser af overskrifter, også, på, hvordan de klokket ind for at sætte tidsrekorder. Så hvad er det store ved den nyeste maskinopløsning-terninghistorie?

David Grossman i Populær mekanik bemærkede, at Californiens forskere tog tingene til den tredje dimension med en algoritme, der kan finde ud af at løse en Rubiks terning.

Et team fra University of California Irvine står bag en tilgang, der vakte særlig opmærksomhed. "Løsning af Rubiks terning uden menneskelig viden" er titlen på deres papir, som beskriver deres udforskning, og papiret er på arXiv.

Stephen McAleer, Forest Agostinelli, Alexander Shmakov og Pierre Baldi er forfatterne.

"Vi introducerer Autodidactic Iteration:en ny algoritme til forstærkningslæring, der er i stand til at lære sig selv at løse Rubiks terning uden menneskelig bistand."

Paul Lilly i HotHardware :Maskiner bruger typisk en selvlæringsmetode baseret på et belønningssystem. Forskere fodrer maskinen med spillereglerne, og derefter bruger den en belønningsproces til at afgøre, om et træk var et godt eller et dårligt,

Imidlertid, som forfatterne skrev, "for mange kombinatoriske optimeringsmiljøer, belønninger er sparsomme, og afsnit stopper ikke med garanti. "

De tog Autodidactic Iteration -stien. De sagde, "For at løse Rubiks terning ved hjælp af forstærkningslæring, algoritmen lærer en politik. Politikken bestemmer, hvilket skridt der skal tages i en given stat. "

MIT Technology Review fastgjort, hvordan det fungerer. "I betragtning af en uløst terning, maskinen skal beslutte, om et specifikt træk er en forbedring af den eksisterende konfiguration. At gøre dette, det skal være i stand til at evaluere trækket. Autodidaktisk iteration gør dette ved at starte med den færdige terning og arbejde baglæns for at finde en konfiguration, der ligner det foreslåede træk. "

Forfatterne skrev, at "DeepCube opdagede en bemærkelsesværdig mængde af Rubiks Cube -viden under sin træningsproces, herunder viden om, hvordan man bruger komplekse permutationsgrupper og strategier, der ligner de bedste menneskelige 'speed-cubers'. "

Deres træningsmaskine var en 32-core Intel Xeon E5-2620 server med tre NVIDIA Titan XP GPU'er. De kaldte deres solver DeepCube.

Lillys vurdering:Det er ikke en perfekt løsning på problemet, men er fejlfri med hensyn til nøjagtighed.

Holdet udtalte i avisens abstrakt, at "Vores algoritme er i stand til at løse 100% af tilfældigt krypterede terninger, mens den opnår en median løsningslængde på 30 træk - med mindre end eller lig med opløsere, der anvender viden om menneskeligt domæne."

Hvorfor det betyder noget:det er en terningeløsende historie og mere. Teamet nævnte yderligere mål.

"Udover yderligere arbejde med Rubiks terning, vi arbejder på at udvide denne metode til at finde omtrentlige løsninger på andre kombinatoriske optimeringsproblemer såsom forudsigelse af proteintertiær struktur. Mange kombinatoriske optimeringsproblemer kan betragtes som sekventielle beslutningsproblemer, i så fald kan vi bruge forstærkningslæring. "

MIT Technology Review sagde den nye tilgang tacklede "et vigtigt problem inden for datalogi - hvordan man løser komplekse problemer, når hjælpen er minimal."

Ideelt set, sagde Lilly, "det kan føre til at finde helbredelser mod sygdomme, hvis metoden er i stand til at arbejde så godt på sådanne ting, som den gør med at løse en Rubiks terning. "

MIT Technology Review :"Den rigtige test, selvfølgelig, vil være, hvordan denne tilgang håndterer mere komplekse problemer, såsom proteinfoldning. Vi vil se, hvordan det fungerer. "

Sidste artikelOptisk scanningsteknologi, der bruges til at gendanne voksoptagelser af oprindelige sprog

Næste artikelPurdue -fonemprojekt skaber en ny haptisk kommunikationsfremtid