Videnskab
 science >> Videnskab >  >> Elektronik

Med lidt træning, maskinlæringsalgoritmer kan afdække skjult videnskabelig viden

Berkeley Lab -forskere fandt ud af, at tekstudvinding af materialevidenskabelige abstrakter kunne vise nye termoelektriske materialer. Kredit:Berkeley Lab

Jo da, computere kan bruges til at spille skak på stormester-niveau (skak_computer), men kan de gøre videnskabelige opdagelser? Forskere ved US Department of Energy's Lawrence Berkeley National Laboratory (Berkeley Lab) har vist, at en algoritme uden uddannelse i materialevidenskab kan scanne teksten i millioner af papirer og afdække ny videnskabelig viden.

Et team ledet af Anubhav Jain, en videnskabsmand i Berkeley Labs Division Energy Storage &Distributed Resources, indsamlede 3,3 millioner abstracts af publicerede materialevidenskabelige artikler og førte dem ind i en algoritme kaldet Word2vec. Ved at analysere forholdet mellem ord kunne algoritmen forudsige opdagelser af nye termoelektriske materialer år i forvejen og foreslå endnu ukendte materialer som kandidater til termoelektriske materialer.

"Uden at fortælle det noget om materialevidenskab, det lærte begreber som det periodiske system og krystalstrukturen af ​​metaller, "sagde Jain." Det antydede teknikkens potentiale. Men nok det mest interessante, vi fandt ud af, er, du kan bruge denne algoritme til at løse huller i materialeforskning, ting, som folk burde studere, men ikke har studeret hidtil. "

Resultaterne blev offentliggjort 3. juli i tidsskriftet Natur . Undersøgelsens hovedforfatter, "Uovervåget ordindlejring fanger latent viden fra materialevidenskabslitteratur, "er Vahe Tshitoyan, en postdoktor i Berkeley Lab, der nu arbejder på Google. Sammen med Jain, Berkeley Lab -forskere Kristin Persson og Gerbrand Ceder var med til at lede undersøgelsen.

"Papiret fastslår, at tekstudvinding af videnskabelig litteratur kan afdække skjult viden, og at ren tekstbaseret ekstraktion kan etablere grundlæggende videnskabelig viden, "sagde Ceder, som også har en ansættelse ved UC Berkeleys Institut for Materialevidenskab og Teknik.

Tshitoyan sagde, at projektet var motiveret af vanskelighederne med at give mening om den overvældende mængde publicerede undersøgelser. "På alle forskningsområder er der 100 års tidligere forskningslitteratur, og hver uge kommer der snesevis flere undersøgelser ud, "sagde han." En forsker kan kun få adgang til en brøkdel af det. Vi troede, kan maskinlæring gøre noget for at udnytte al denne kollektive viden på en uovervåget måde - uden at have brug for vejledning fra menneskelige forskere? "

'Konge - dronning + mand =?'

Teamet indsamlede de 3,3 millioner abstracts fra artikler offentliggjort i mere end 1, 000 tidsskrifter mellem 1922 og 2018. Word2vec tog hver af de cirka 500, 000 forskellige ord i disse abstracts og hver omdannet til en 200-dimensionel vektor, eller en matrix på 200 tal.

"Det vigtige er ikke hvert tal, men ved at bruge tallene til at se, hvordan ord er relateret til hinanden, "sagde Jain, der leder en gruppe, der arbejder med opdagelse og design af nye materialer til energianvendelser ved hjælp af en blanding af teori, beregning, og data mining. "For eksempel kan du fratrække vektorer ved hjælp af standard vektormatematik. Andre forskere har vist, at hvis du træner algoritmen på ikke -videnskabelige tekstkilder og tager vektoren, der er resultatet af 'king minus queen, 'du får det samme resultat som' mand minus kvinde. ' Det finder ud af forholdet uden at du fortæller det noget. "

Tilsvarende når han er uddannet i materialevidenskabelig tekst, algoritmen var i stand til at lære betydningen af ​​videnskabelige termer og begreber, såsom metals krystalstruktur, simpelthen baseret på ordenes positioner i abstracts og deres forekomst med andre ord. For eksempel, ligesom det kunne løse ligningen "konge - dronning + mand, "det kunne finde ud af, at for ligningen" ferromagnetisk - NiFe + IrMn "ville svaret være" antiferromagnetisk ".

Mendelejevs periodiske system er til højre. Word2vecs repræsentation af elementerne, projiceret på to dimensioner, er til venstre. Kredit:Berkeley Lab

Word2vec var endda i stand til at lære forholdet mellem elementer i det periodiske system, da vektoren for hvert kemisk element blev projiceret på to dimensioner.

Forudsiger opdagelser år i forvejen

Så hvis Word2vec er så smart, kunne den forudsige nye termoelektriske materialer? Et godt termoelektrisk materiale kan effektivt omdanne varme til elektricitet og er fremstillet af sikre materialer, rigeligt og let at producere.

Berkeley Lab -teamet tog de bedste termoelektriske kandidater foreslået af algoritmen, som rangerede hver forbindelse efter dens ordvektors lighed med ordet "termoelektrisk". Derefter kørte de beregninger for at verificere algoritmens forudsigelser.

Af de 10 bedste forudsigelser, de fandt alle havde beregnet effektfaktorer lidt højere end gennemsnittet af kendte termoelektriske; de tre bedste kandidater havde effektfaktorer over 95. percentilen af ​​kendt termoelektrisk.

Derefter testede de, om algoritmen kunne udføre eksperimenter "i fortiden" ved kun at give den abstrakte op til, sige, år 2000. Igen, af de bedste forudsigelser, et betydeligt antal dukkede op i senere undersøgelser - fire gange mere end hvis materialer lige var blevet valgt tilfældigt. For eksempel, tre af de fem bedste forudsigelser, der er uddannet i data op til 2008, er siden blevet opdaget, og de resterende to indeholder sjældne eller giftige elementer.

Resultaterne var overraskende. "Jeg havde ærligt talt ikke forventet, at algoritmen var så forudsigelig for fremtidige resultater, "Jain sagde." Jeg havde tænkt, at algoritmen måske kunne være beskrivende for, hvad folk havde gjort før, men ikke komme med disse forskellige forbindelser. Jeg var temmelig overrasket, da jeg ikke kun så forudsigelserne, men også begrundelsen bag forudsigelserne, ting som den halve Heusler-struktur, som er en virkelig varm krystalstruktur for termoelektriske i disse dage. "

Han tilføjede:"Denne undersøgelse viser, at hvis denne algoritme var på plads tidligere, nogle materialer kunne tænkes at være blevet opdaget år i forvejen. "Sammen med undersøgelsen frigiver forskerne de top 50 termoelektriske materialer, der er forudsagt af algoritmen. De vil også frigive de ord, der er nødvendige for, at folk kan lave deres egne applikationer, hvis de vil at søge på, sige, et bedre topologisk isoleringsmateriale.

Næste, Jain sagde, at teamet arbejder på en smartere, mere kraftfuld søgemaskine, tillader forskere at søge abstrakter på en mere nyttig måde.

Undersøgelsen blev finansieret af Toyota Research Institute. Andre medforfattere af undersøgelsen er Berkeley Lab-forskere John Dagdelen, Leigh Weston, Alexander Dunn, og Ziqin Rong, og UC Berkeley -forsker Olga Kononova.


Varme artikler