Paradigm4 giver brugerne mulighed for at integrere data fra kilder som genomisk sekventering, biometriske mål, miljømæssige faktorer, og mere i deres forespørgsler for at muliggøre nye opdagelser på tværs af en række life science-områder. Kredit:Massachusetts Institute of Technology
Som teknologier som enkeltcellet genomisk sekventering, forbedret biomedicinsk billeddannelse, og medicinske "tingenes internet"-enheder spreder sig, nøgleopdagelser om menneskers sundhed findes i stigende grad inden for store skare af komplekse biovidenskabelige og sundhedsdata.
Men at drage meningsfulde konklusioner ud fra disse data er et vanskeligt problem, der kan involvere at sammensætte forskellige datatyper og manipulere enorme datasæt som svar på forskellige videnskabelige forespørgsler. Problemet handler lige så meget om datalogi, som det handler om andre områder af videnskaben. Det er her, Paradigm4 kommer ind.
Virksomheden, grundlagt af Marilyn Matz SM '80 og Turing Award vinder og MIT professor Michael Stonebraker, hjælper medicinalvirksomheder, forskningsinstitutioner, og biotekvirksomheder gør data til indsigt.
Det opnår dette med et computerbaseret databasestyringssystem, der er bygget fra bunden til at være vært for de forskellige, mangefacetterede data på grænserne af life science forskning. Det inkluderer data fra kilder som nationale biobanker, kliniske forsøg, det medicinske internet af tingene, menneskelige celleatlas, medicinske billeder, miljømæssige faktorer, og multi-omics, et felt, der omfatter studiet af genomer, mikrobiomer, metabolomer, og mere.
Ud over systemets unikke arkitektur, virksomheden har også bygget dataforberedelse, metadatahåndtering, og analyseværktøjer til at hjælpe brugerne med at finde de vigtige mønstre og sammenhænge, der lurer i alle disse tal.
I mange tilfælde, kunder udforsker datasæt, som grundlæggerne siger, er for store og komplekse til at blive repræsenteret effektivt af traditionelle databasestyringssystemer.
"Vi er ivrige efter at gøre det muligt for forskere og dataforskere at gøre ting, de ikke kunne gøre før, ved at gøre det nemmere for dem at håndtere storskalaberegning og maskinlæring på forskellige data, " siger Matz. "Vi hjælper videnskabsmænd og bioinformatikere med at samarbejde, reproducerbar forskning til at stille og besvare svære spørgsmål hurtigere."
Et nyt paradigme
Stonebraker har været en pioner inden for databasestyringssystemer i årtier. Han har startet ni virksomheder, og hans innovationer har sat standarder for den måde, moderne systemer giver folk mulighed for at organisere og få adgang til store datasæt.
Meget af Stonebrakers karriere har fokuseret på relationelle databaser, som organiserer data i kolonner og rækker. Men i midten af 2000'erne, Stonebraker indså, at en masse data, der genereres, bedre ville blive lagret ikke i rækker eller kolonner, men i multidimensionelle arrays.
For eksempel, satellitter bryder jordens overflade i store firkanter, og GPS-systemer sporer en persons bevægelse gennem disse firkanter over tid. Denne operation involverer vertikale, vandret, og tidsmålinger, der ikke nemt kan grupperes eller på anden måde manipuleres til analyse i relationelle databasesystemer.
Stonebraker mindes, at hans videnskabelige kolleger klagede over, at tilgængelige databasestyringssystemer var for langsomme til at arbejde med komplekse videnskabelige datasæt inden for områder som genomik, hvor forskere studerer forholdet mellem befolkningsskala multi-omics data, fænotypiske data, og lægejournaler.
"[Relationelle databasesystemer] scanner enten vandret eller lodret, men ikke begge, " Stonebraker forklarer. "Så du har brug for et system, der gør begge dele, og det kræver en lagermanager nede i bunden af systemet, som er i stand til at bevæge sig både vandret og lodret gennem et meget stort array. Det er, hvad Paradigm4 gør."
I 2008 Stonebraker begyndte at udvikle et databasestyringssystem på MIT, der lagrede data i multidimensionelle arrays. Han bekræftede, at tilgangen gav store effektivitetsfordele, tillader analytiske værktøjer baseret på lineær algebra, herunder mange former for maskinlæring og statistisk databehandling, skal anvendes på enorme datasæt på nye måder.
Stonebraker besluttede at omdanne projektet til en virksomhed i 2010, da han gik sammen med Matz, en succesfuld iværksætter, der var med til at stifte Cognex Corporation, en stor industriel maskinvisionsvirksomhed, der blev børsnoteret i 1989. Grundlæggerne og deres team gik i gang med at opbygge nøglefunktioner i systemet, inklusive dets distribuerede arkitektur, der tillader systemet at køre på billige servere, og dets evne til automatisk at rense og organisere data på nyttige måder for brugerne.
Grundlæggerne beskriver deres databasestyringssystem som en beregningsmotor for videnskabelige data, og de har kaldt det SciDB. Oven på SciDB, de udviklede en analyseplatform, kaldet REVEAL discovery engine, baseret på brugernes daglige forskningsaktiviteter og forhåbninger.
"Hvis du er videnskabsmand eller dataforsker, Paradigms REVEAL- og SciDB-produkter tager sig af al datastrid og beregningsmæssig 'VVS og ledninger, "så du ikke behøver at bekymre dig om at få adgang til data, flytte data, eller opsætning af parallel distribueret databehandling, " siger Matz. "Dine data er klar til videnskab. Stil blot dit videnskabelige spørgsmål, og platformen orkestrerer al datahåndtering og beregning for dig."
SciDB er designet til at blive brugt af både forskere og udviklere, så brugere kan interagere med systemet gennem grafiske brugergrænseflader eller ved at udnytte statistiske sprog og programmeringssprog som R og Python.
"Det har været meget vigtigt at sælge løsninger, ikke byggeklodser, " siger Matz. "En stor del af vores succes inden for biovidenskab med topfarmaer og biotek og forskningsinstitutter er at bringe dem vores REVEAL suite af applikationsspecifikke løsninger på problemer. Vi giver dem ikke en analytisk platform, der er et sæt LEGO-klodser; vi giver dem løsninger, der håndterer de data, de håndterer dagligt, and solutions that use their vocabulary and answer the questions they want to work on."
Accelerating discovery
Today Paradigm4's customers include some of the biggest pharmaceutical and biotech companies in the world as well as research labs at the National Institutes of Health, Stanford University, og andre steder.
Customers can integrate genomic sequencing data, biometric measurements, data on environmental factors, and more into their inquiries to enable new discoveries across a range of life science fields.
Matz says SciDB did 1 billion linear regressions in less than an hour in a recent benchmark, and that it can scale well beyond that, which could speed up discoveries and lower costs for researchers who have traditionally had to extract their data from files and then rely on less efficient cloud-computing-based methods to apply algorithms at scale.
"If researchers can run complex analytics in minutes and that used to take days, that dramatically changes the number of hard questions you can ask and answer, " Matz says. "That is a force-multiplier that will transform research daily."
Beyond life sciences, Paradigm4's system holds promise for any industry dealing with multifaceted data, including earth sciences, where Matz says a NASA climatologist is already using the system, and industrial IoT, where data scientists consider large amounts of diverse data to understand complex manufacturing systems. Matz says the company will focus more on those industries next year.
In the life sciences, imidlertid, the founders believe they already have a revolutionary product that's enabling a new world of discoveries. Ned ad linjen, they see SciDB and REVEAL contributing to national and worldwide health research that will allow doctors to provide the most informed, personalized care imaginable.
"The query that every doctor wants to run is, when you come into his or her office and display a set of symptoms, the doctor asks, "Who in this national database has genetics that look like mine, symptoms that look like mine, lifestyle exposures that look like mine? And what was their diagnosis? What was their treatment? And what was their morbidity?" Stonebraker explains. "This is cross correlating you with everybody else to do very personalized medicine, and I think this is within our grasp."
Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.