Forskere ved Los Alamos ser på nye måder at sammenligne neurale netværk på. Dette billede blev skabt med en kunstig intelligens-software kaldet Stable Diffusion, ved hjælp af prompten "Kig ind i den sorte boks af neurale netværk." Kredit:Los Alamos National Laboratory
Et hold ved Los Alamos National Laboratory har udviklet en ny tilgang til sammenligning af neurale netværk, der ser inden for den "sorte boks" af kunstig intelligens for at hjælpe forskere med at forstå neurale netværksadfærd. Neurale netværk genkender mønstre i datasæt; de bruges overalt i samfundet, i applikationer som virtuelle assistenter, ansigtsgenkendelsessystemer og selvkørende biler.
"Forskersamfundet inden for kunstig intelligens har ikke nødvendigvis en fuldstændig forståelse af, hvad neurale netværk gør; de giver os gode resultater, men vi ved ikke hvordan eller hvorfor," sagde Haydn Jones, forsker i Advanced Research in Cyber Systemgruppe i Los Alamos. "Vores nye metode gør et bedre stykke arbejde med at sammenligne neurale netværk, hvilket er et afgørende skridt mod en bedre forståelse af matematikken bag AI."
Jones er hovedforfatter til papiret "Hvis du har trænet en, har du trænet dem alle:lighed mellem arkitekturer øges med robusthed", som blev præsenteret for nylig på konferencen om usikkerhed i kunstig intelligens. Ud over at studere netværkslighed er papiret et afgørende skridt i retning af at karakterisere opførselen af robuste neurale netværk.
Neurale netværk er højtydende, men skrøbelige. For eksempel bruger selvkørende biler neurale netværk til at opdage tegn. Når forholdene er ideelle, gør de dette ganske godt. Men den mindste aberration – såsom et klistermærke på et stopskilt – kan få det neurale netværk til at fejlidentificere skiltet og aldrig stoppe.
For at forbedre neurale netværk ser forskere på måder at forbedre netværkets robusthed på. En state-of-the-art tilgang involverer at "angribe" netværk under deres træningsproces. Forskere introducerer med vilje aberrationer og træner AI til at ignorere dem. Denne proces kaldes modstridende træning og gør det i bund og grund sværere at narre netværkene.
Jones, Los Alamos-samarbejdspartnerne Jacob Springer og Garrett Kenyon og Jones' mentor Juston Moore anvendte deres nye metrik for netværkslighed på modstandsdygtigt trænede neurale netværk og fandt overraskende, at modstandsdygtig træning får neurale netværk i computervisionsdomænet til at konvergere til meget ens datarepræsentationer, uanset netværksarkitektur, efterhånden som omfanget af angrebet øges.
"Vi fandt ud af, at når vi træner neurale netværk til at være robuste over for modstridende angreb, begynder de at gøre de samme ting," sagde Jones.
Der har været en omfattende indsats i industrien og i det akademiske samfund på at søge efter den "rigtige arkitektur" til neurale netværk, men Los Alamos-holdets resultater indikerer, at indførelsen af modstridende træning indsnævrer dette søgerum væsentligt. Som følge heraf behøver AI-forskersamfundet måske ikke bruge så meget tid på at udforske nye arkitekturer, velvidende at modstandsdygtig træning får forskellige arkitekturer til at konvergere til lignende løsninger.
"Ved at finde ud af, at robuste neurale netværk ligner hinanden, gør vi det nemmere at forstå, hvor robust AI virkelig kan fungere. Vi afslører måske endda hints om, hvordan perception opstår hos mennesker og andre dyr," sagde Jones. + Udforsk yderligere