Lavdimensionel ensartet manifold tilnærmelsesprojektion for at visualisere, hvordan neurale netværk lærer semantisk lighed mellem naturlige billeder. Kredit:Joshua Agar/Lehigh University
At forstå struktur-egenskabsrelationer er et nøglemål for materialeforskning, ifølge Joshua Agar, et fakultetsmedlem i Lehigh University's Department of Materials Science and Engineering. Og alligevel eksisterer der i øjeblikket ingen metrik til at forstå strukturen af materialer på grund af strukturens kompleksitet og multidimensionelle natur.
Kunstige neurale netværk, en form for maskinlæring, kan trænes til at identificere ligheder – og endda korrelere parametre som struktur og egenskaber – men der er to store udfordringer, siger Agar. Den ene er, at størstedelen af de store mængder data, der genereres af materialeeksperimenter, aldrig bliver analyseret. Det skyldes i høj grad, at sådanne billeder, produceret af forskere i laboratorier over hele verden, opbevares sjældent på en brugbar måde og deles normalt ikke med andre forskerhold. Den anden udfordring er, at neurale netværk ikke er særlig effektive til at lære symmetri og periodicitet (hvor periodisk et materiales struktur er), to træk af yderste vigtighed for materialeforskere.
Nu, et team ledet af Lehigh University har udviklet en ny maskinlæringstilgang, der kan skabe lighedsprojektioner via maskinlæring, gør det muligt for forskere at søge i en ustruktureret billeddatabase for første gang og identificere tendenser. Agar og hans samarbejdspartnere udviklede og trænede en neural netværksmodel til at inkludere symmetri-bevidste funktioner og anvendte derefter deres metode til et sæt af 25, 133 piezorespons kraftmikroskopibilleder indsamlet på forskellige materialesystemer over fem år ved University of California, Berkeley. Resultaterne:de var i stand til at gruppere lignende klasser af materiale sammen og observere tendenser, danner et grundlag for at begynde at forstå struktur-egenskabsforhold.
"En af nyhederne i vores arbejde er, at vi byggede et specielt neuralt netværk til at forstå symmetri, og vi bruger det som en feature extractor for at gøre det meget bedre til at forstå billeder, " siger Agar, en hovedforfatter af papiret, hvor arbejdet er beskrevet:"Symmetri-bevidst rekursiv billedlighedsudforskning for materialemikroskopi, " offentliggjort i dag i npj Beregningsmaterialer . Ud over Agar, forfattere omfatter, fra Lehigh University:Tri N.M. Nguyen, Yichen Guo, Shuyu Qin og Kylie S. Frew og, fra Stanford University:Ruijuan Xu. Nguyen, en hovedforfatter, var bachelor på Lehigh University og er nu i gang med en ph.d. på Stanford.
Holdet var i stand til at nå frem til fremskrivninger ved at anvende Uniform Manifold Approximation and Projection (UMAP), en ikke-lineær dimensionalitetsreduktionsteknik. Denne tilgang, siger Agar, giver forskere mulighed for at lære "...på en uklar måde, topologien og strukturen på højere niveau af dataene og komprimer dem ned til 2D."
"Hvis du træner et neuralt netværk, resultatet er en vektor, eller et sæt tal, der er en kompakt beskrivelse af funktionerne. Disse funktioner hjælper med at klassificere ting, så man lærer en vis lighed, " siger Agar. "Det, der produceres, er stadig ret stort i rummet, selvom, fordi du måske har 512 eller flere forskellige funktioner. Så, så vil du komprimere det til et rum, som et menneske kan forstå, såsom 2D, eller 3D-eller, måske , 4D."
Ved at gøre dette, Agar og hans team var i stand til at tage de 25, 000-plus billeder og grupper meget lignende klasser af materiale sammen.
"Lignende typer strukturer i materiale er semantisk tæt på hinanden, og også visse tendenser kan observeres, især hvis du anvender nogle metadatafiltre, " siger Agar. "Hvis du begynder at filtrere efter, hvem der har foretaget deponeringen, hvem har lavet materialet, hvad prøvede de at gøre, hvad er materialesystemet... man kan virkelig begynde at forfine og få mere og mere lighed. Den lighed kan så knyttes til andre parametre som egenskaber."
Lavdimensionel ensartet manifold tilnærmelsesprojektion, der viser symmetribevidst billedlighed fra en database på mere end 25, 000 piezorespons kraft mikroskopi billeder. Kredit:Joshua Agar/Lehigh University
Dette arbejde viser, hvordan forbedret datalagring og -styring hurtigt kan fremskynde materialeopdagelser. Ifølge Agar, af særlig værdi er billeder og data genereret af mislykkede eksperimenter.
"Ingen offentliggør mislykkede resultater, og det er et stort tab, for nogle år senere gentager nogen den samme række af eksperimenter, " siger Agar. "Så, du spilder rigtig gode ressourcer på et eksperiment, der sandsynligvis ikke vil fungere."
I stedet for at miste al den information, de data, der allerede er blevet indsamlet, kan bruges til at generere nye tendenser, der ikke er set før og fremskynde opdagelsen eksponentielt, siger Agar.
Denne undersøgelse er den første "use case" af en innovativ ny datalagringsvirksomhed, der har til huse på Oak Ridge National Laboratory kaldet DataFed. DataFed, ifølge sin hjemmeside er "...en fødereret, store datalagring, samarbejde, og fuld-livscyklus-styringssystem til beregningsvidenskab og/eller dataanalyse inden for distribuerede højtydende computing (HPC) og/eller cloud-computing-miljøer."
"Mit team hos Lehigh har været en del af design og udvikling af DataFed i forhold til at gøre det relevant for videnskabelige use cases, " siger Agar. "Lehigh er den første live implementering af dette fuldt skalerbare system. Det er en fødereret database, så enhver kan åbne deres egen server og være bundet til den centrale facilitet."
Agar er maskinlæringsekspert på Lehigh Universitys Presidential Nano-Human Interface Initiative-team. Det tværfaglige initiativ, integration af samfundsvidenskab og teknik, søger at transformere den måde, som mennesker interagerer med instrumenter til videnskabelig opdagelse for at fremskynde innovationer.
"Et af hovedmålene med Lehighs Nano/Human Interface Initiative er at lægge relevant information ved fingerspidserne af eksperimentel for at give handlingsorienteret information, der tillader mere informeret beslutningstagning og fremskynder videnskabelig opdagelse, " siger Agar. "Mennesker har begrænset kapacitet til hukommelse og erindring. DataFed er et moderne Memex; det giver en hukommelse af videnskabelig information, som let kan findes og genkaldes."
DataFed giver et særligt kraftfuldt og uvurderligt værktøj til forskere, der beskæftiger sig med tværfaglig teamvidenskab, giver forskere, der samarbejder om teamprojekter placeret på forskellige/fjerne steder, adgang til hinandens rådata. Dette er en af nøglekomponenterne i vores Lehigh Presidential Nano/Human Interface (NHI) Initiativ for at accelerere videnskabelig opdagelse, " siger Martin P. Harmer, Alcoa Foundation professor i Lehighs afdeling for materialevidenskab og teknik og direktør for Nano/Human Interface Initiative.