Videnskab
 science >> Videnskab >  >> Kemi

Notationssystem gør det muligt for forskere at kommunikere polymerer lettere

I BigSMILES, polymere fragmenter er repræsenteret af en liste over gentagne enheder omgivet af krøllede parenteser. De kemiske strukturer af de gentagne enheder er kodet ved hjælp af normal SMILES-syntaks, men med yderligere bindingsdeskriptorer, der specificerer, hvordan forskellige gentagne enheder er forbundet for at danne polymerer. Dette enkle design af syntaks ville muliggøre kodning af makromolekyler over en bred vifte af kemi. Kredit:Tzyy-Shyang Lin

At have en kompakt, dog robust, strukturelt baseret identifikator eller repræsentationssystem for molekylære strukturer er en nøglefaktor for effektiv deling og formidling af resultater inden for forskningsmiljøet. Sådanne systemer lægger også det væsentlige grundlag for maskinlæring og anden datadrevet forskning. Mens der er gjort betydelige fremskridt for små molekyler, polymersamfundet har kæmpet med at komme frem til et effektivt repræsentationssystem.

For små molekyler, den grundlæggende forudsætning er, at hver enkelt kemisk art svarer til en veldefineret kemisk struktur. Dette gælder ikke for polymerer. Polymerer er i sig selv stokastiske molekyler, der ofte er ensembler med en fordeling af kemiske strukturer. Denne vanskelighed begrænser anvendeligheden af ​​alle deterministiske repræsentationer udviklet for små molekyler. I et papir udgivet 12. september i ACS Central Science , forskere ved MIT, Duke University, og Northwestern University rapporterer et nyt repræsentationssystem, der er i stand til at håndtere den stokastiske natur af polymerer, kaldet BigSMILES.

"BigSMILES adresserer en væsentlig udfordring i den digitale repræsentation af polymerer, " forklarer Connor Coley Ph.D. '19, medforfatter til avisen. "Polymerer er næsten altid ensembler af flere kemiske strukturer, genereret gennem stokastiske processer, så vi kan ikke bruge de samme strategier til at nedskrive deres strukturer som for små molekyler."

Medforfattere er Coley; lektor i kemiteknik Bradley D. Olsen ved MIT; Warren K. Lewis professor i kemiteknik Klavs F. Jensen ved MIT; assisterende professor i kemi Julia A. Kalow ved Northwestern University; lektor i kemi Jeremiah A. Johnson ved MIT; William T. Miller professor i kemi Stephen L. Craig ved Duke University; kandidatstuderende Eliot Woods ved Northwestern University; kandidatstuderende Zi Wang ved Duke University; kandidatstuderende Wencong Wang ved MIT; kandidatstuderende Haley K. Beech ved MIT; gæsteforsker Hidenobu Mochigase ved MIT; og kandidatstuderende Tzyy-Shyang Lin ved MIT.

Der er flere linjenotationer til at kommunikere molekylær struktur, med forenklet molekylær-input line-entry system (SMILES) som det mest populære. SMILES anses generelt for at være den mest læselige variant, med langt den bredeste softwaresupport. I praksis, SMILES giver et enkelt sæt repræsentationer, der er velegnede som etiketter for kemiske data og som en hukommelseskompakt identifikator til dataudveksling mellem forskere. Som et tekstbaseret system, SMILES passer også naturligt til mange tekstbaserede maskinlæringsalgoritmer. Disse egenskaber har gjort SMILES til et perfekt værktøj til at omsætte kemividen til en maskinvenlig form, og det er med succes blevet anvendt til forudsigelse af små molekyleegenskaber og computerstøttet synteseplanlægning.

Polymerer, imidlertid, har modstået beskrivelse af dette og andre strukturelle sprog. Dette skyldes, at de fleste strukturelle sprog såsom SMILES er designet til at beskrive molekyler eller kemiske fragmenter, der er veldefinerede atomistiske grafer. Da polymerer er stokastiske molekyler, de har ikke unikke SMILES-repræsentationer. Denne mangel på en ensartet navne- eller identifikationskonvention for polymermaterialer er en af ​​de største forhindringer, der bremser udviklingen af ​​polymerinformatikområdet. Mens banebrydende indsats inden for polymerinformatik, såsom Polymer Genome Project, har demonstreret anvendeligheden af ​​SMILES-udvidelser i polymerinformatik, den hurtige udvikling af ny kemi og den hurtige udvikling af materialeinformatik og datadrevet forskning gør behovet for en universelt anvendelig navnekonvention for polymerer vigtigt.

"Maskinlæring giver en enorm mulighed for at accelerere kemisk udvikling og opdagelse, " siger Lin He, fungerende viceafdelingsdirektør for National Science Foundation (NSF) afdeling for kemi. "Dette udvidede værktøj til at mærke strukturer, specielt udviklet til at løse de unikke udfordringer, der er forbundet med polymerer, forbedrer i høj grad søgbarheden af ​​kemiske strukturelle data, og bringer os et skridt tættere på at udnytte datarevolutionen."

Forskerne har skabt en ny strukturelt baseret konstruktion som en tilføjelse til den meget succesrige SMILES-repræsentation, der kan behandle polymermaterialers tilfældige natur. Da polymerer er molekyler med høj molmasse, denne konstruktion hedder BigSMILES. I BigSMILES, polymere fragmenter er repræsenteret af en liste over gentagne enheder omgivet af krøllede parenteser. De kemiske strukturer af de gentagne enheder er kodet ved hjælp af normal SMILES-syntaks, men med yderligere bindingsdeskriptorer, der specificerer, hvordan forskellige gentagne enheder er forbundet for at danne polymerer. Dette enkle design af syntaks ville muliggøre kodning af makromolekyler over en bred vifte af forskellige kemier, inklusive homopolymer, tilfældige copolymerer og blokcopolymerer, og en række molekylære forbindelser, lige fra lineære polymerer til ringpolymerer til endda forgrenede polymerer. Som i SMILES, BigSMILES repræsentationer er kompakte, selvstændige tekststrenge.

"Standardisering af den digitale repræsentation af polymere strukturer med BigSMILES vil tilskynde til deling og aggregering af polymerdata, forbedring af modelkvaliteten over tid og styrkelse af fordelene ved dens brug, " siger Jason Clark, materialerne førende i Open Innovation for Renewable Chemicals and Materials på Braskem, som ikke var tilknyttet forskningen. "BigSMILES er et væsentligt bidrag til feltet, idet det adresserer behovet for et fleksibelt system til at repræsentere komplekse polymerstrukturer digitalt."

Clark tilføjer, "De udfordringer, som plastindustrien står over for i sammenhæng med den cirkulære økonomi begynder med kilden til råmaterialer og fortsætter hele vejen gennem end-of-life management. At tackle disse udfordringer kræver det innovative design af polymerbaserede materialer, som traditionelt har lidt under lange udviklingscyklusser. Fremskridt inden for kunstig intelligens og maskinlæring har vist løfte om at accelerere udviklingscyklussen for applikationer, der anvender metallegeringer og små organiske molekyler, motiverer plastindustrien til at søge en parallel tilgang." BigSMILES digitale repræsentationer letter evalueringen af ​​struktur-ydelsesforhold ved anvendelse af datavidenskabelige metoder, han siger, i sidste ende accelerere konvergensen til polymerstrukturerne eller sammensætningerne, der vil hjælpe med at muliggøre den cirkulære økonomi.

"Et væld af komplicerede polymerstrukturer kan konstrueres gennem sammensætningen af ​​tre nye grundlæggende operatorer og originale SMILES-symboler, siger Olsen, "Hele kemiområder, materialevidenskab, og teknik, herunder polymervidenskab, biomaterialer, materialekemi, og meget af biokemi, er baseret på makromolekyler, som har stokastiske strukturer. Dette kan grundlæggende opfattes som et nyt sprog for, hvordan man skriver strukturen af ​​store molekyler."

"En af de ting, jeg er begejstret for, er, hvordan dataindtastningen i sidste ende kan være knyttet direkte til de syntetiske metoder, der bruges til at fremstille en bestemt polymer, " siger Craig, "På grund af det, der er mulighed for rent faktisk at indfange og behandle mere information om molekylerne, end der typisk er tilgængelig fra standardkarakteriseringer. Hvis dette kan lade sig gøre, det vil muliggøre alle mulige opdagelser."

Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.




Varme artikler