AI Aristo tager videnskabstesten, opstår multiple-choice superstjerne

Kredit:aristo

Aristo har bestået en amerikansk naturvidenskabstest i ottende klasse. Hvis du får at vide, at Aristo er en seriøs dreng, der elsker at læse alt, hvad han kan om Faraday og spiller på trommer, vil du sige, hvad så, Big deal.

Aristo, selvom, er et kunstigt intelligensprogram, og forskere vil gerne have, at verden ved, at dette er en stor ting, som "et benchmark i AI-udvikling, " som Melissa Locker kaldte det ind Hurtigt selskab .

Vi mener, bare tænk over det. Cade Metz, i New York Times , har tænkt over det. "Fire år siden, mere end 700 dataloger konkurrerede i en konkurrence om at bygge kunstig intelligens, der kunne bestå en 8. klasses naturvidenskabstest. Der var $80, 000 i præmiepenge på linjen. De flunkede alle sammen. Selv det mest sofistikerede system kunne ikke klare sig bedre end 60 % i testen. AI kunne ikke matche de sproglige og logiske færdigheder, som eleverne forventes at have, når de går i gymnasiet."

Så hvem står bag testen, der i 2019 endelig imponerede? Ikke et dårligt gæt:Allen Institute for Artificial Intelligence, som er under opsyn af Oren Etzioni. Deres system havde de rigtige svar til mere end 90 procent af spørgsmålene i testen, og det stopper ikke der – systemet fik over 80 procent af de korrekte svar på flervalgsspørgsmål uden diagram i en naturvidenskabelig eksamen i 12. klasse.

Vi ser nu på "betydelige fremskridt i udviklingen af kunstig intelligens, der kan forstå sprog og efterligne menneskers logik og beslutningstagning, " sagde Metz.

Til den direkte historie, du bør læse "Fra 'F' til 'A' på N.Y. Regents Science Exams:An Overview of the Aristo Project, ", som nu er oppe på arXiv. Dette projekt var en seksårig mission for at besvare naturvidenskabelige eksamener i folkeskolen og gymnasiet.

Forfatterne var udmærket klar over, at AI ikke tidligere havde lavet et imponerende show med at udføre på ønskede niveauer. Med al AI's beherskelse på Go, Poker og fare, de sagde, "det rige udvalg af standardiserede eksamener er forblevet en skelsættende udfordring. Selv i 2016, det bedste AI-system opnåede kun 59,3% på en 8. klasses naturvidenskabseksamen."

AI'en tog multiple choice-tests; tallet på 90 procent var på eksamens ikke-diagram, multiple choice spørgsmål.

Sådan beskriver AI2 sin ikke-menneskelige sus:"Aristo samler maskinlæsning og NLP, tekstuel inddragelse og slutning, begrundelse med usikkerhed, statistiske teknikker over store korpora, og diagramforståelse for at udvikle den første "vidende maskine" om videnskab."

Holdet forkælede Aristo af en bagtanke, mindre at gøre med at klappe sig selv på skulderen og mere om, hvad de kunne lære af Aristos adfærd ved naturvidenskabelige eksamener, "Da disse spørgsmål tester mange af de nøglefærdigheder, der kræves til maskinintelligens, " de sagde.

I deres papir, de forklarede mere om gode grunde til at udnytte standardiserede naturvidenskabelige eksamener.

"Standardiserede test, især naturvidenskabelige eksamener, er et sjældent eksempel på en udfordring, der opfylder disse krav. Selvom det ikke er en fuld test af maskinintelligens, de udforsker adskillige evner, der er stærkt forbundet med intelligens, herunder sprogforståelse, ræsonnement, og brug af sund fornuft viden. Et af de mest interessante og tiltalende aspekter ved naturvidenskabelige eksamener er deres graduerede og mangefacetterede karakter; forskellige spørgsmål udforsker forskellige former for viden, varierer væsentligt i vanskeligheder. Af denne grund, de er blevet brugt som en overbevisende – og udfordrende – opgave for feltet i mange år."

Nye pralerettigheder:Aristo, forfatterne sagde, er det første system, der opnår en score på over 90 procent på ikke-diagrammet, multiple choice del af New York Regents 8th Grade Science Exam.

Stephen Johnson ind Stor Tænk skrev om Aristos manglende evne til at lave diagrammer. Han sagde "systemet er kun designet til at fortolke sprog, hvilket betyder, at den kan besvare multiple choice-spørgsmål, men ikke dem, der indeholder en illustration eller graf."

Ikke desto mindre, forestillingen viste, at "moderne NLP-metoder kan resultere i beherskelse af denne opgave."

For instituttet, Aristos bedrift tages ikke som en siddepinde på bjerget, men snarere et skridt i en ønsket retning. De kalder det en milepæl "på den lange vej mod en maskine, der har en dyb forståelse af videnskab og opnår Paul Allens originale drøm om en digital Aristoteles."

Sidste artikelDeepfake challenge sigter mod at finde værktøjer til at bekæmpe manipulation

Næste artikelNaturens smukkeste forestillinger kunne inspirere næste generation af kunstig intelligens