Den nye tilgang tillader kunstig intelligens at lære at genkende transformerede billeder meget hurtigere. Kredit:Diogo Matias
Et hold italienske matematikere, herunder en neurovidenskabsmand fra Champalimaud Center for the Unknown (CCU), i Lissabon, Portugal, har vist, at kunstige synsmaskiner kan lære at genkende komplekse billeder hurtigere ved at bruge en matematisk teori, der blev udviklet for 25 år siden af en af denne nye undersøgelses medforfattere. Deres resultater er blevet offentliggjort i tidsskriftet Nature Machine Intelligence .
I de seneste årtier har maskinsyns ydeevne er væsentligt forbedret. Kunstige systemer kan nu lære at genkende stort set ethvert menneskeligt ansigt eller at identificere enhver enkelt fisk, der bevæger sig i en tank.
Sådanne maskiner er, faktisk, elektroniske modeller af netværk af biologiske neuroner, og deres mål er at simulere hjernens funktion, som udmærker sig ved disse visuelle opgaver uden nogen bevidst indsats fra vores side.
Men hvordan lærer disse kunstige neurale netværk egentlig? I tilfælde af ansigtsgenkendelse, for eksempel, de gør det ved at tilegne sig erfaringer om, hvordan menneskelige ansigter ser ud i form af en række portrætter. Mere specifikt, efter at være blevet digitaliseret til en matrix af pixelværdier, hvert billede er "knust" inde i det neurale netværk, som så udtrækker generelle, meningsfulde træk fra sættet af prøveansigter (såsom øjnene, mund, næse, etc).
Denne dybe læring gør det muligt for maskinen at spytte et andet sæt værdier ud, hvilket igen vil gøre det muligt for den at identificere et ansigt, den aldrig har set før i en databank af ansigter (meget ligesom en fingeraftryksdatabase), og derfor forudsige hvem det ansigt tilhører med stor nøjagtighed.
Historien om kloge Hans
Men før det neurale netværk kan udføre dette godt, det er typisk nødvendigt at præsentere det med tusindvis af ansigter (dvs. matricer af tal). I øvrigt, selvom disse maskiner har haft stadig større succes med mønstergenkendelse, faktum er, at ingen rigtig ved, hvad der foregår indeni dem, mens de lærer opgaver. De er dybest set sorte kasser.
Hvad dette betyder er, at det ikke er muligt at afgøre, hvilke eller hvor mange funktioner maskinen rent faktisk udtrækker fra de indledende data - og ikke engang hvor mange af disse funktioner der virkelig er meningsfulde til ansigtsgenkendelse.
"For at illustrere dette, overvej paradigmet for den kloge hest, "siger første forfatter til undersøgelsen Mattia Bergomi, der arbejder i Systems Neuroscience Lab på CCU. Historien, fra de tidlige år af det 20. århundrede, angår en hest i Tyskland kaldet Clever Hans, som hans herre hævdede havde lært at udføre regning og annoncere resultatet af tilføjelser, subtraktioner, osv. ved at stemple en af hans forreste hove på jorden det rigtige antal gange. Mange mennesker var overbeviste om, at han kunne tælle; hesten blev endda anmeldt af New York Times . Men derefter, i 1907, en tysk psykolog viste, at hesten var, faktisk, opfanger ubevidste signaler i sin herres kropssprog, der fortalte den, hvornår den skulle stoppe med at trykke.
"Det er det samme med maskinlæring; der er ingen kontrol over, hvordan det fungerer, eller hvad den har lært under træning, " forklarer Bergomi. Maskinen, har ikke på forhånd kendskab til ansigter, bare på en eller anden måde gør sine ting - og det virker.
Dette fik forskerne til at spørge, om der kunne være en måde at injicere noget viden om den virkelige verden om ansigter eller andre objekter i det neurale netværk før træning for at få det til at udforske et mere begrænset rum af mulige funktioner i stedet for at overveje dem alle - inklusive dem, der er umulige i den virkelige verden. "Vi ville kontrollere rummet med indlærte funktioner, " siger Bergomi. "Det ligner forskellen mellem en middelmådig skakspiller og en ekspert:Den første ser alle mulige træk, mens sidstnævnte kun ser de gode, " tilføjer han.
En anden måde at sige det på, han siger, er ved at sige, at "vores undersøgelse adresserer følgende enkle spørgsmål:Når vi træner et dybt neuralt netværk til at skelne vejskilte, hvordan kan vi fortælle netværket, at dets arbejde vil være meget lettere, hvis det kun skal bekymre sig om simple geometriske former som cirkler og trekanter?"
Forskerne begrundede, at denne tilgang ville reducere træningstiden væsentligt - og vigtigst af alt, give dem et tip om, hvad maskinen kan gøre for at opnå sine resultater. "At give mennesker lov til at drive læreprocessen af læremaskiner er grundlæggende for at bevæge sig hen imod en mere forståelig kunstig intelligens og reducere de skyhøje omkostninger i tid og ressourcer, som nuværende neurale netværk kræver for at blive trænet, " han siger.
Hvad er der i en form?
En abstrakt matematisk teori kaldet topologisk dataanalyse (TDA) var nøglen. De første skridt i udviklingen af TDA blev taget i 1992 af den italienske matematiker Patrizio Frosini, medforfatter af den nye undersøgelse, i øjeblikket ved universitetet i Bologna. "Topologi er en af de reneste former for matematik, "siger Bergomi." Og indtil for nylig, folk troede, at topologi ikke ville være anvendelig til noget konkret i lang tid, indtil TDA blev kendt i de sidste par år."
Topologi er en slags udvidet geometri, der, i stedet for at måle linjer og vinkler i stive former (såsom trekanter, firkanter, kegler, etc.), søger at klassificere meget komplekse genstande efter deres form. For en topolog, for eksempel, en doughnut og et krus er det samme objekt:den ene kan deformeres til den anden ved at strække eller komprimere.
Nu, tingen er, nuværende neurale netværk er ikke gode til topologi. For eksempel, de genkender ikke roterede objekter. Til dem, det samme objekt vil se helt anderledes ud hver gang det roteres. Det er netop derfor, at den eneste løsning er at få disse netværk til at "memorere" hver konfiguration separat - i tusindvis. Og det er netop, hvad forfatterne planlagde at undgå ved at bruge TDA.
Tænk på TDA som et matematisk værktøj til at finde meningsfuld intern struktur (topologiske funktioner), i ethvert komplekst objekt, der kan repræsenteres som et stort sæt tal. Dette opnås ved at se på dataene gennem visse velvalgte "linser, "eller filtre. Selve data kan handle om ansigter, finansielle transaktioner eller kræftoverlevelsesrater. TDA gør det muligt at lære et neuralt netværk at genkende ansigter uden at skulle præsentere det med hver af de forskellige orienteringer, ansigter kan antage i rummet. Maskinen genkender nu alle ansigter som et ansigt, selv i forskellige roterede positioner.
I deres undersøgelse, forskerne testede fordelene ved at kombinere maskinlæring og TDA ved at lære et neuralt netværk at genkende håndskrevne cifre. Resultaterne taler for sig selv.
Da disse netværk er dårlige topologer og håndskrift kan være meget tvetydig, to forskellige håndskrevne cifre kan vise sig at være umulige at skelne for nuværende maskiner - og omvendt, de kan identificere to forekomster af det samme håndskrevne ciffer som forskellige. Opgaven kræver at præsentere netværket, som ikke ved noget om cifre i den virkelige verden, med tusindvis af billeder af hver af de 10 cifre skrevet med alle slags skråninger, kalligrafier, etc.
For at tilføre viden om cifre, teamet opbyggede et sæt a priori funktioner, som de betragtede som meningsfulde - med andre ord, et sæt "linser", hvorigennem netværket ville se cifrene - og tvang maskinen til at vælge blandt disse linser for at se på billederne. Antallet af billeder (dvs. den tid), der er nødvendig for det TDA-forstærkede neurale netværk for at lære at skelne fem fra syv, hvor dårligt skrevet er, samtidig med at den bevarer sin forudsigelsesevne, faldet til under 50.
"Det, vi matematisk beskriver i vores undersøgelse, er, hvordan man håndhæver visse symmetrier, og dette giver en strategi til at bygge maskinlæringsmidler, der er i stand til at lære fremtrædende funktioner fra nogle få eksempler ved at drage fordel af den viden, der tilføres som begrænsninger, "siger Bergomi.
Betyder det, at den indre funktion af læremaskiner, der efterligner hjernen, vil blive mere gennemsigtige i fremtiden? muliggør ny indsigt i selve hjernens indre funktion? Under alle omstændigheder, dette er et af Bergomis mål. "Forståeligheden af kunstig intelligens er nødvendig for dens interaktion og integration med biologisk intelligens, " siger han. Han arbejder i øjeblikket, i samarbejde med sin kollega Pietro Vertechi, på at udvikle en ny slags neural netværksarkitektur, der vil give mennesker mulighed for hurtigt at injicere viden på højt niveau i disse netværk for at kontrollere og fremskynde deres træning.