I løbet af det sidste årti er generative deep learning-modeller blevet anvendt med succes til design af nye lægemiddelmolekyler, organiske synteseruter og funktionelle molekyler skræddersyet til elektroniske/optoelektroniske enheder. Dette er i vid udstrækning muliggjort af tilgængeligheden af SMILES-repræsentation for molekyler - en inverterbar og invariant repræsentation velegnet til naturlige sprogbehandlingsmodeller som tilbagevendende neurale netværk, transformatorer osv.
At designe krystallinske uorganiske faste stoffer med ønskede egenskaber er dog stadig en formidabel udfordring. Dette skyldes primært manglen på en "SMILES-ækvivalent" krystalrepræsentation til at bygge bro mellem periodiske solid state-materialer og avancerede deep learning-arkitekturer.
Tidligere metoder til omvendt krystaldesign byggede for det meste på 3D voxel-gitter eller absolutte rumlige koordinater til at repræsentere strukturer. Men disse tilgange mangler i bund og grund rotationsinvarians. Der er også forsøg på at bruge krystalgrafer, som er invariante, men ikke inverterbare på grund af fraværet af eksplicit periodicitet eller sammensætningsinformation. For at løse denne udfordring foreslog vi en ny krystalrepræsentation kaldet SLICES. Undersøgelsen er publiceret i tidsskriftet Nature Communications .
Nøglemotivationen bag udviklingen af SLICES er at skabe en krystalrepræsentation, der er inverterbar og invariant, analog med SMILES-repræsentationen, der anvendes bredt til molekylært omvendt design (figur 1). Invertibilitet betyder, at repræsentationen utvetydigt kan konverteres tilbage til den oprindelige krystalstruktur. Dette er afgørende for, at generative modeller kan udføre omvendt design, hvor modellerne skaber nye krystalstrukturer, der afkodes fra repræsentationen.
Invarians indikerer, at repræsentationen forbliver uændret under translationer, rotationer og permutationer af krystalstrukturen. Tilfredsstillende invarianser gør det muligt for repræsentationen udelukkende at fokusere på kodning af den væsentlige topologiske og kompositoriske information i et system frem for overfladiske træk, der ændrer sig under transformationer. Dette reducerer redundans og forbedrer læringseffektiviteten.
Ved at tilfredsstille invertibilitet og invarianser muliggør SLICES effektiv udforskning af det store kemiske sammensatte rum for krystallinske materialer ved hjælp af dybe generative modeller.
Konceptuelt koder SLICES topologien og sammensætningen af krystalstrukturer til strenge, ligesom SMILES konverterer molekylære grafer til linjenotationer. Mere specifikt udnytter SLICES det matematiske koncept med "mærkede kvotientgrafer" til at repræsentere periodiske krystalstrukturer. Atomerne og bindingerne i en enhedscelle er kortlagt til noder og kanter af kvotientgrafen. Yderligere mærker tildeles kanter, der angiver de periodiske skiftvektorer, der kræves for at forbinde ækvivalente atomer i naboenhedsceller.
Et eksempel er krystalstrukturen af diamant (figur 1), som indeholder to carbonatomer bundet sammen i den primitive enhedscelle. SLICES-strengen koder eksplicit for atomsymbolerne "C" og kantetiketten "001", der angiver den periodiske binding, der udbreder sig langs [001]-retningen. Ved at parse SLICES-strengen kan både sammensætningen og forbindelsen af diamantstrukturen opnås.
Navnlig koder SLICES kun information om topologi og sammensætning. Attributter som atomare koordinater og gitterparametre er ikke eksplicit indlejret. Dette gør SLICES invariable over for translationer, rotationer og atomindekspermutationer.
Rekonstruering af krystalstrukturer fra SLICES
Mens indkodning af krystaller i SLICES er relativt ligetil, ligger udfordringen i at sikre invertibilitet - evnen til nøjagtigt at genopbygge krystalstrukturer fra SLICES-strengene. For at opnå invertibilitet udviklede vi en rekonstruktionspipeline (figur 2) for SLICES, der indeholder tre nøgletrin:
Genopbygningsydelsen blev benchmarket på en database indeholdende mere end 40.000 eksperimentelt kendte materialer med op til 20 atomer pr. enhedscelle. Genopbygningsrørledningen til SLICES var i stand til at rekonstruere 94,95% af de oprindelige strukturer, hvilket væsentligt overgik tidligere metoder. Denne inverterbarhed af SLICES giver mulighed for generering af nye strukturer fra indlærte repræsentationer, hvilket er nøglen til omvendt materialedesign.
Anvendelse i omvendt design af funktionelle materialer
Som en demonstration anvendte vi SLICES i det omvendte design af direkte smalbånds-halvledere til optoelektroniske enheder ved hjælp af tilbagevendende neurale netværk (RNN). Arbejdsgangen består af (figur 3):
Gennem denne arbejdsgang, der kombinerer SLICES, RNN og high-throughput-beregninger, blev 14 nye halvledere med direkte båndgab i det optimale område opdaget (figur 4). Dette viser løftet om SLICES som en muliggører for accelereret opdagelse af funktionelle materialer ved hjælp af generativ AI.
Reget generering af nye materialer med specificerede dannelsesenergier
Derudover anvender vi en betinget recurrent neural network (cRNN) arkitektur, som illustreret i figur 5, til at generere SLICES strenge svarende til krystaller med en ønsket dannelsesenergi specificeret af brugeren. Fordelingen af dannelsesenergier for de genererede strukturer skifter tættere på den specificerede målværdi i forhold til datasætfordelingen. SLICES-baseret cRNN overgår betydeligt tidligere avancerede modeller. Denne tilgang markerer et betydeligt fremskridt i evnen til at designe og opdage nye materialer på en kontrolleret og præcis måde.
Som den første streng-baserede inverterbare og invariante krystalrepræsentation åbner SLICES mange spændende muligheder i det omvendte design af krystallinske faste stoffer, ligesom SMILES har gjort det for molekyler i det seneste årti. Bare i de sidste par år har vi været vidne til enorme fremskridt inden for generative modeller lige fra billeder, videoer, tale til proteiner og molekyler. Vi forestiller os, at solide materialer er den næste grænse, takket være denne nye kapacitet til dataeffektiv, kemi-integreret udforskning, bemyndiget af repræsentationer som SLICES.
Denne historie er en del af Science X Dialog, hvor forskere kan rapportere resultater fra deres publicerede forskningsartikler. Besøg denne side for at få oplysninger om ScienceX Dialog og hvordan du deltager.
Flere oplysninger: Hang Xiao et al., En invertibel, invariant krystalrepræsentation til invers design af solid state-materialer ved brug af generativ dyb læring, Nature Communications (2023). DOI:10.1038/s41467-023-42870-7
Journaloplysninger: Nature Communications
Hang Xiao er tilknyttet School of Interdisciplinary Studies, Lingnan University; han fik sin ph.d. fra Columbia University. Yan Chen er tilknyttet Laboratory for Multiscale Mechanics and Medical Science, SV LAB, School of Aerospace, Xi'an Jiaotong University, hvor han også fik sin ph.d.
Sidste artikelEn ny bioimaging metode til at fremskynde og forenkle kemikalieidentifikation i væv
Næste artikelUndersøgelse præsenterer ny vej til elektrokemisk styring af ionselektivitet