En ny algoritme oversætter symbolsk viden til vektorrum for at kombinere deduktiv ræsonnement med maskinlæring. Kredit:Maxat Kulmanov
En matematisk ramme, der bygger bro mellem menneskelig læsbar viden på højt niveau og statistiske data, er blevet udviklet af et KAUST-team og forventes at forbedre maskinlæring.
Mennesker er afhængige af mønstre, etiketter og orden for at give mening i verden. Vi kategoriserer, klassificere og skabe forbindelser mellem relaterede ting og ideer, skabe symboler, som vi kan bruge til at dele information. Kunstig intelligens, på den anden side, trænes mest effektivt ved hjælp af rå numeriske data. Hvordan, derefter, kan kunstig intelligens algoritmer gøre brug af vores store lager af symbolsk viden? Dette er et irriterende problem, som hvis revnet, kunne åbne et enormt nyt multidimensionelt bibliotek til maskinlæring og kunstig intelligens.
Robert Höhndorf, Maxat Kulmanov og deres samarbejdspartnere ved KAUSTs Computational Bioscience Research Center og Halifax University, Canada, har udviklet en matematisk bro mellem disse tilsyneladende uforenelige former for information.
"Der er et stort hul i kunstig intelligensforskning mellem tilgange baseret på symbolske repræsentationer på højt niveau, som er forståelige for mennesker, og de subsymbolske tilgange, der bruges til at træne kunstige neurale netværk, " forklarer Kulmanov. "Symboliske tilgange er bygget på logiske relationer, mens subsymboliske tilgange er afhængige af statistik og kontinuerlige vektorrum med reelt nummer."
Forskerne satte sig for at udvikle en "embedding"-funktion, der kortlægger en matematisk struktur til en anden på en måde, der bevarer nogle af funktionerne i den første struktur.
"Indlejringer bruges, fordi den anden struktur kan være mere egnet til nogle operationer, " siger Hoehndorf. "I dette arbejde, vi kortlagde et formelt sprog, kaldet en beskrivelseslogik, ind i et vektorrum med rigtige tal, som nemmere kan bruges til maskinlæring, såsom computerlighed og udførelse af forudsigelige operationer."
Beskrivelseslogikker er meget brugt i biologi og biomedicin til at beskrive formaliserede teorier, såsom genernes funktioner og den terminologi, der bruges i medicinsk diagnose.
"Logik, såsom beskrivelseslogik, har været grundlaget for kunstige intelligenssystemer siden 1960'erne og er blevet studeret i matematik i mere end 100 år, " siger Hoehndorf. "Bygger på denne forskningshistorie, vi skabte en indlejringsfunktion, der ikke kun projicerer symboler ind i et vektorrum, men genererer også algebraiske modeller for at fange symbolernes semantik inden for beskrivelseslogik."
Nøglen til holdets præstation er at forbinde indlejringen med modelteori, som gjorde det muligt at trække på etableret viden og skabe den første indlejring, der bevarer semantikken.
"Vores metode er direkte anvendelig til hundredvis af formaliserede teorier inden for biologisk og biomedicinsk forskning og hundredvis af biologiske databaser, " siger Kulmanov. "I fremtiden, vi vil anvende vores metode på flere problemer inden for biologi, som vi håber vil forbedre biomedicinske anvendelser af kunstig intelligens."