Videnskab
 science >> Videnskab >  >> Elektronik

Forvandling af sanser til medier:Kan vi lære kunstig intelligens at opfatte?

Kredit:Pixabay/CC0 Public Domain

Mennesker opfatter verden gennem forskellige sanser:vi ser, føler, hører, smager og lugter. De forskellige sanser, som vi opfatter, er flere informationskanaler, også kendt som multimodale. Betyder det, at det, vi opfatter, kan ses som multimedie?

Xue Wang, Ph.D. Kandidat hos LIACS, omsætter perception til multimedier og bruger kunstig intelligens (AI) til at udtrække information fra multimodale processer, svarende til hvordan hjernen behandler information. I sin forskning har hun testet læreprocesser af AI på fire forskellige måder.

Sæt ord i vektorer

Først så Xue på ordindlejret læring:oversættelsen af ​​ord til vektorer. En vektor er en størrelse med to egenskaber, nemlig en retning og en størrelse. Konkret omhandler denne del, hvordan klassificeringen af ​​oplysninger kan forbedres. Xue foreslog brugen af ​​en ny AI-model, der forbinder ord med billeder, hvilket gør det lettere at klassificere ord. Mens man testede modellen, kunne en observatør blande sig, hvis AI gjorde noget forkert. Forskningen viser, at denne model klarer sig bedre end en tidligere brugt model.

Ser på underkategorier

Et andet fokus i forskningen er billeder ledsaget af anden information. Til dette emne observerede Xue potentialet i at mærke underkategorier, også kendt som finkornet mærkning. Hun brugte en specifik AI-model for at gøre det nemmere at kategorisere billeder med lidt tekst omkring. Den kombinerer grove etiketter, som er generelle kategorier, med finkornede etiketter, underkategorierne. Tilgangen er effektiv og hjælpsom til at strukturere lette og vanskelige kategoriseringer.

Find relationer mellem billeder og tekst

For det tredje undersøgte Xue billed- og tekstassociering. Et problem med dette emne er, at transformationen af ​​denne information ikke er lineær, hvilket betyder, at den kan være svær at måle. Xue fandt en potentiel løsning på dette problem:hun brugte kernebaseret transformation. Kernel står for en specifik klasse af algoritmer inden for maskinlæring. Med den brugte model er det nu muligt for AI at se betydningsforholdet mellem billeder og tekst.

Find kontrast i billeder og tekst

Til sidst fokuserede Xue på billeder ledsaget af tekst. I denne del skulle AI se på kontraster mellem ord og billeder. AI-modellen udførte en opgave kaldet phrase grounding, som er sammenkædningen af ​​navneord i billedtekster til dele af billedet. Der var ingen observatør, der kunne blande sig i denne opgave. Forskningen viste, at kunstig intelligens kan forbinde billedregioner med navneord med en gennemsnitlig nøjagtighed for dette forskningsfelt.

Opfattelsen af ​​kunstig intelligens

Denne forskning giver et stort bidrag til området for multimedieinformation:vi ser, at AI kan klassificere ord, kategorisere billeder og linke billeder til tekst. Yderligere forskning kan gøre brug af metoderne foreslået af Xue og vil forhåbentlig føre til endnu bedre indsigt i multimedieopfattelsen af ​​AI.

Varme artikler