Kunstig intelligens er ved at vokse til et centralt værktøj i kemisk forskning, der tilbyder nye metoder til at tackle komplekse udfordringer, som traditionelle tilgange kæmper med. En undertype af kunstig intelligens, der er blevet brugt i stigende grad i kemi, er maskinlæring, som bruger algoritmer og statistiske modeller til at træffe beslutninger baseret på data og udføre opgaver, som den ikke eksplicit er programmeret til.
Men for at lave pålidelige forudsigelser kræver maskinlæring også store mængder data, hvilket ikke altid er tilgængeligt i kemisk forskning. Små kemiske datasæt giver simpelthen ikke nok information til, at disse algoritmer kan trænes på, hvilket begrænser deres effektivitet.
Forskere i teamet af Berend Smit ved EPFL har fundet en løsning i store sprogmodeller som GPT-3. Disse modeller er fortrænede på enorme mængder af tekster og er kendt for deres brede evner til at forstå og generere menneskelignende tekst. GPT-3 danner grundlaget for den mere populære kunstig intelligens ChatGPT.
Undersøgelsen, offentliggjort i Nature Machine Intelligence , afslører en ny tilgang, der væsentligt forenkler kemisk analyse ved hjælp af kunstig intelligens. I modsætning til den oprindelige skepsis stiller metoden ikke direkte GPT-3 kemiske spørgsmål.
"GPT-3 har ikke set det meste af den kemiske litteratur, så hvis vi stiller ChatGPT et kemisk spørgsmål, er svarene typisk begrænset til, hvad man kan finde på Wikipedia," siger Kevin Jablonka, undersøgelsens ledende forsker.
"I stedet finjusterer vi GPT-3 med et lille datasæt konverteret til spørgsmål og svar, hvilket skaber en ny model, der er i stand til at give nøjagtig kemisk indsigt."
Denne proces involverer at give GPT-3 en samlet liste over spørgsmål og svar. "For højentropi-legeringer er det for eksempel vigtigt at vide, om en legering forekommer i en enkelt fase eller har flere faser," siger Smit. "Den kurerede liste over spørgsmål og svar er af typen:Q='Er (navnet på højentropi-legeringen) enkeltfaset?" A='Ja/Nej.'"
Han fortsætter, "I litteraturen har vi fundet mange legeringer, hvoraf svaret er kendt, og vi brugte disse data til at finjustere GPT-3. Det, vi får tilbage, er en raffineret AI-model, der er trænet til kun at besvare dette spørgsmål med et ja eller nej."
I test besvarede modellen, trænet med relativt få spørgsmål og svar, korrekt over 95 % af meget forskellige kemiske problemer, hvilket ofte oversteg nøjagtigheden af avancerede maskinlæringsmodeller. "Pointen er, at det her er lige så nemt som at lave en litteratursøgning, som virker for mange kemiske problemer," siger Smit.
Et af de mest slående aspekter ved denne undersøgelse er dens enkelhed og hurtighed. Traditionelle maskinlæringsmodeller kræver måneder at udvikle og kræve omfattende viden. I modsætning hertil tager den tilgang, der er udviklet af Jablonka, fem minutter og kræver ingen viden.
Implikationerne af undersøgelsen er dybe. Den introducerer en metode så let som at udføre en litteratursøgning, der kan anvendes til forskellige kemiske problemer. Evnen til at formulere spørgsmål som "Er udbyttet af et [kemikalie] lavet med denne (opskrift) højt?" og modtage præcise svar kan revolutionere, hvordan kemisk forskning planlægges og udføres.
I papiret siger forfatterne:"Ved siden af en litteratursøgning kan forespørgsel efter en grundlæggende model (f.eks. GPT-3,4) blive en rutinemæssig måde at starte et projekt på ved at udnytte den kollektive viden indkodet i disse grundlæggende modeller." Eller, som Smit kort og præcist udtrykker det:"Det her kommer til at ændre den måde, vi laver kemi på."
Flere oplysninger: Kevin Maik Jablonka, Er GPT alt hvad du behøver for at opdage lavdata i kemi?, Nature Machine Intelligence (2024). DOI:10.1038/s42256-023-00788-1
Journaloplysninger: Nature Machine Intelligence
Leveret af Ecole Polytechnique Federale de Lausanne
Sidste artikelMysteriet med en ny nellikelignende bismag i appelsinjuice løst
Næste artikelForskere afslører en uhåndgribelig flaskehals, der holder den globale indsats tilbage for at omdanne kuldioxidaffald til brugbare produkter