Har AI-systemer virkelig deres eget hemmelige sprog?

Kredit:Giannis Daras / DALL-E

En ny generation af kunstig intelligens (AI) modeller kan producere "kreative" billeder on-demand baseret på en tekstprompt. Personer som Imagen, MidJourney og DALL-E 2 er begyndt at ændre den måde, kreativt indhold laves på, hvilket har konsekvenser for ophavsret og intellektuel ejendom.

Selvom outputtet af disse modeller ofte er slående, er det svært at vide præcis, hvordan de producerer deres resultater. I sidste uge fremsatte forskere i USA den spændende påstand, at DALL-E 2-modellen kunne have opfundet sit eget hemmelige sprog til at tale om objekter.

Ved at bede DALL-E 2 om at oprette billeder, der indeholder teksttekster, og derefter føre de resulterende (vrøvl) billedtekster tilbage i systemet, konkluderede forskerne, at DALL-E 2 mener, at Vicootes betyder "grøntsager", mens Wa ch zod rea refererer til "havdyr". at en hval kan spise".

Disse påstande er fascinerende, og hvis de er sande, kan de have vigtige sikkerheds- og fortolkningsimplikationer for denne slags store AI-modeller. Så hvad er det egentlig, der foregår?

Har DALL-E 2 et hemmeligt sprog?

DALL-E 2 har formentlig ikke et "hemmeligt sprog". Det er måske mere præcist at sige, at det har sit eget ordforråd – men selv da kan vi ikke vide det med sikkerhed.

Først og fremmest er det på dette stadium meget svært at verificere eventuelle påstande om DALL-E 2 og andre store AI-modeller, fordi kun en håndfuld forskere og kreative praktikere har adgang til dem. Alle billeder, der deles offentligt (f.eks. på Twitter) bør tages med et temmelig stort gran salt, fordi de er blevet "cherry-plukket" af et menneske blandt mange outputbilleder genereret af AI.

Selv dem med adgang kan kun bruge disse modeller på begrænsede måder. For eksempel kan DALL-E 2-brugere generere eller ændre billeder, men kan (endnu) ikke interagere med AI-systemet mere dybt, for eksempel ved at ændre koden bag kulisserne. Det betyder, at "forklarlig AI"-metoder til at forstå, hvordan disse systemer fungerer, ikke kan anvendes, og det er udfordrende at systematisk undersøge deres adfærd.

Hvad sker der så?

En mulighed er, at "gibberish"-sætninger er relateret til ord fra ikke-engelske sprog. For eksempel ligner Apoploe, der ser ud til at skabe billeder af fugle, det latinske Apodidae, som er det binomiale navn på en familie af fuglearter.

Dette virker som en plausibel forklaring. For eksempel blev DALL-E 2 trænet på en meget bred vifte af data skrabet fra internettet, som omfattede mange ikke-engelske ord.

Lignende ting er sket før:store AI-modeller med naturligt sprog har ved et tilfælde lært at skrive computerkode uden bevidst træning.

Handler det hele om tokens?

Et punkt, der understøtter denne teori, er det faktum, at AI-sprogmodeller ikke læser tekst, som du og jeg gør. I stedet deler de inputtekst op i "tokens", før de behandler den.

Forskellige "tokeniserings"-tilgange har forskellige resultater. At behandle hvert ord som et token virker som en intuitiv tilgang, men det giver problemer, når identiske tokens har forskellige betydninger (som hvordan "match" betyder forskellige ting, når du spiller tennis, og når du starter en ild).

På den anden side giver det at behandle hver karakter som et token et mindre antal mulige tokens, men hver enkelt formidler meget mindre meningsfuld information.

DALL-E 2 (og andre modeller) bruger en in-between tilgang kaldet byte-pair encoding (BPE). Undersøgelse af BPE-repræsentationerne for nogle af sludderordene tyder på, at dette kunne være en vigtig faktor for at forstå det "hemmelige sprog".

Ikke hele billedet

Det "hemmelige sprog" kunne også bare være et eksempel på "skrald ind, skrald ud"-princippet. DALL-E 2 kan ikke sige "Jeg ved ikke, hvad du taler om", så det vil altid generere en form for billede fra den givne inputtekst.

Uanset hvad, er ingen af disse muligheder fuldstændige forklaringer på, hvad der sker. For eksempel ser det ud til, at fjernelse af individuelle tegn fra volapykord korrumperer de genererede billeder på meget specifikke måder. Og det ser ud til, at individuelle volapykord ikke nødvendigvis kombineres for at producere sammenhængende sammensatte billeder (som de ville, hvis der virkelig var et hemmeligt "sprog" under dynen).

Hvorfor er dette vigtigt

Ud over intellektuel nysgerrighed, undrer du dig måske over, om noget af dette faktisk er vigtigt.

Svaret er ja. DALL-E's "hemmelige sprog" er et eksempel på et "adversarielt angreb" mod et maskinlæringssystem:en måde at bryde systemets tilsigtede adfærd ved bevidst at vælge input, som AI ikke håndterer godt.

En grund til, at modstridende angreb er bekymrende, er, at de udfordrer vores tillid til modellen. Hvis AI fortolker volapykord på utilsigtede måder, kan det også fortolke meningsfulde ord på utilsigtede måder.

Modstridende angreb rejser også sikkerhedsproblemer. DALL-E 2 filtrerer inputtekst for at forhindre brugere i at generere skadeligt eller misbrugende indhold, men et "hemmeligt sprog" af sludderord kan tillade brugere at omgå disse filtre.

Nyere forskning har opdaget modstridende "trigger-sætninger" for nogle sproglige AI-modeller - korte nonsens-sætninger såsom "zoning tapping fiennes", der pålideligt kan udløse modellerne til at udspy racistisk, skadeligt eller partisk indhold. Denne forskning er en del af den igangværende indsats for at forstå og kontrollere, hvordan komplekse deep learning-systemer lærer af data.

Endelig rejser fænomener som DALL-E 2s "hemmelige sprog" bekymringer om fortolkning. Vi ønsker, at disse modeller skal opføre sig, som et menneske forventer, men at se struktureret output som svar på volapyk forvirrer vores forventninger.

Skinne lys over eksisterende bekymringer

Du husker måske bulderet i 2017 over nogle Facebook-chat-bots, der "opfandt deres eget sprog". Den nuværende situation ligner, at resultaterne er bekymrende – men ikke i betydningen "Skynet kommer til at overtage verden".

I stedet fremhæver DALL-E 2s "hemmelige sprog" eksisterende bekymringer om robustheden, sikkerheden og fortolkningen af deep learning-systemer.

Indtil disse systemer er mere udbredt tilgængelige – og især indtil brugere fra et bredere sæt af ikke-engelsk kulturel baggrund kan bruge dem – vil vi ikke være i stand til rigtigt at vide, hvad der foregår.

Men i mellemtiden, hvis du gerne vil prøve at generere nogle af dine egne AI-billeder, kan du tjekke en frit tilgængelig mindre model, DALL-E mini. Bare vær forsigtig med, hvilke ord du bruger til at bede modellen (engelsk eller volapyk – dit opkald).

Sidste artikelEXPLAINER:Er Elon Musks aftale om at købe Twitter ved at falde fra hinanden?

Næste artikelHvordan vil vandkraft styrke en verden med vedvarende energi?