Hvordan big data omformer aldrende forskning og uddannelse

Kredit:CC0 Public Domain

Big data-alderen er her:Verden har skabt mere data i de seneste to år end i hele menneskehedens tidligere historie. USC Leonard Davis School of Gerontology-forskere dissekerer skattekister af information – fra så forskellige kilder som hjernescanninger og det menneskelige genom – for at give næring til banebrydende forskning om at forbedre, hvordan vi ældes, og at omforme gerontologiuddannelsen for at sætte fremtidige videnskabsfolk i stand til at få indflydelse på et felt i forandring.

Gerontologi er klar til at tage fat på de nyeste værktøjer – til dels fordi feltet altid har involveret store datasæt, siger Mireille Jacobson, en mikroøkonom og lektor i gerontologi ved USC Leonard Davis School. For eksempel, hendes arbejde har været afhængig af store befolkningsdatasæt - og på en måde, det har ikke ændret sig, hun siger. "Det er mest, at flere og flere data er tilgængelige."

Jacobson arbejder med data fra Medicare og andre offentligt tilgængelige databaser for at forstå, hvordan sygesikring påvirker ældre menneskers velbefindende. For eksempel, en analyse af Medicare-data viste, at modtagelse af Medicare-ydelser kan hjælpe med at reducere økonomisk stress hos mennesker over 65. Hun forsker også i sundhedsudbydere, og hvordan de træffer omsorgsbeslutninger som reaktion på forskellige eksterne faktorer, herunder nye screeningsanbefalinger og medicinmangel.

"Bestræbelsen på at digitalisere og gøre alt tilgængeligt elektronisk er en ny ting, " tilføjer hun.

Jacobson er en del af en gruppe gerontologiforskere ved USC Leonard Davis School, som dykker ned i store datasæt for bedre at forstå aldring og levetid. Deres arbejde har vigtige konsekvenser for uddannelse af studerende og for at skabe bedre datasæt, som kan hjælpe forskere med bedre at forstå individuelle risikofaktorer, identificere genernes rolle i sygdom og udvikle mere præcise interventioner.

Bevægelse på tværs af discipliner

Em Arpawong, forskningsassistent professor i gerontologi og direktør for Gerontology Bioinformatics Core, søger at samle forskellig information for bedre at forstå, hvordan genetiske og miljømæssige komponenter interagerer for at resultere i forskellige sundhedsresultater hos ældre voksne. Hendes nuværende arbejde integrerer brugen af både genomomfattende og tvillinge- og familiemodelleringstilgange fra store datasæt, der repræsenterer hundredtusindvis af individer over mange årtier, såsom U.S. Health and Retirement Study og Project Talent Aging Study, som begge spænder over årtiers opfølgning med titusindvis af deltagere.

Arpawong siger, at det at studere aldring er unikt inden for sundhedsforskning, fordi der er så meget, der sker tidligt i livet, som påvirker en persons bane senere.

"Jeg tager en livslang udviklingstilgang til at studere virkningerne af tidligere livsbetingelser på sundhed senere i livet, herunder genetik, adfærd og kontekstuelle faktorer såsom socioøkonomisk status og familiemodgang, " hun siger, "og dette kræver at sammensætte en masse datastykker."

At arbejde på projekter som at skabe et indeks over skrøbelighed, udvikling af en genomomspændende scanning for depressiv symptomologi hos ældre voksne, at beregne, hvordan genetiske og miljømæssige faktorer bidrager til aldringsrelaterede kognitive ændringer og at vurdere stabiliteten af MR-markører for demens kræver mange færdigheder på forskellige områder - og samarbejde. Der er et ekstra lag af kompleksitet, når forskere skal oversætte resultater fra dyrestudier af genetiske markører til mennesker.

"Fokus for mit arbejde med Bioinformatics Core er oversættelsen, eller samarbejde med folk om oversættelsen, af deres resultater fra modelsystemer såsom mus til menneskelige befolkningsdata, " siger Arpawong.

Det er lidt af en cirkulær proces:Ofte, forskerne bruger data fra mennesker til at se på virkningen af resultaterne fra dyremodelsystemerne. Når de først finder nogle ting i menneskelige data, de kredser tilbage og kører disse eksperimenter i dyremodellerne for at se, om der er nogle årsagsmekanismer. Denne datadrevne udforskning åbner op for mange nye måder at forstå aldring på, fordi det ikke er muligt at udføre disse typer translationelle og integrative gerontologistudier udelukkende på mennesker, givet vores lange levetid og vidt forskellige livsmiljøer.

"[Denne oversættelse] er blevet en større del af arbejdet her i Gerontologi, som har været fascinerende og er med til at accelerere tempoet i forskningsresultater på tværs af discipliner, der traditionelt har fungeret mere uafhængigt, " siger Arpawong.

Arbejdet er blevet naturligt samarbejdende, involverer mange forskellige efterforskere med forskellig baggrund.

"Der er en masse crossover i forskellige afdelinger og flere fordele ved at arbejde med folk fra Dornsife College, Keck School of Medicine og Information Sciences Institute, herunder fra psykologi til beregningsbiologi, " forklarer Arpawong. "Det er virkelig et sammenfiltret net over hele USC. Det peger bare på hele den tværfaglige karakter af dette arbejde. Du skal tale med og arbejde med en masse mennesker for at sikre, at du bevæger dig i den rigtige retning."

Arpawong brugte for nylig forskellige datasæt til at finde sammenhængen mellem genetik og verbal hukommelse. Hun fandt ud af, at en genetisk markør for Alzheimers sygdom ikke var alene - der er et andet gen, der spiller en rolle specifikt i virkningerne på aldringsrelateret hukommelsesevne.

Big data har også ændret den måde, folk samarbejder på, siger Eileen Crimmins, USC University Professor og AARP Professor i Gerontologi. Ingen enkelt forsker kan kende alle dele af et projekt, forklarer hun.

"Der er mange flere store tværfaglige grupper, hvor alle har én specialisering, og ingen ved det hele, " siger hun. "Så der er meget mere at stole på folk, at de ved det, og de kan gøre det rigtigt."

Alle disse data kræver nyere løsninger til at huse og overføre dem, især når man arbejder med forskellige forskere over hele kloden.

"Skalaen er meget større i, hvad vi skal forholde os til, og [i] frekvensen og behovet for at overføre disse ting, opretholdelse af datasikkerhed, og derefter have værktøjerne til rådighed til at gøre dette, " siger Arpawong. "Meget af den dataanalyse, vi skal lave, kræver kodning i forskellige programmeringssprog, som noget af det mere almindelige statistiske software ikke har kapacitet til, og huse dataene på måder, der går ud over ens egen harddisk."

Uddannelse skal også matche den nyeste udvikling inden for big data science, kræver, at eleverne er kodningsdygtige, datadrevet og i stand til at stille nye spørgsmål om videnskaben om aldring. Big data har ændret spillet for kandidatstuderende, siger Crimmins, som leder det tværfaglige forskningstræning i gerontologi-programmet på USC Leonard Davis School. Programmet hjælper prædoctorale og postdoc-studerende med at blive fortrolige med studiet af aldring på tværs af flere discipliner.

"Der er meget mere tværfaglig aktivitet, fordi spørgsmålene virkelig har flyttet sig, " forklarer Crimmins.

Nutidens elever får konstant nye færdigheder og viden, fra luftforurenings patologi til genetik, ud over deres grundlæggende studier i gerontologi. Meget af det, folk gør, er at lære på jobbet for at opnå de færdigheder, der ikke bliver undervist i klasseværelset, tilføjer Arpawong.

For studerende, der kommer ind i feltet, Det er afgørende at forstå statistik og have et godt kendskab til regnefærdigheder. I hendes klasse, Jacobson præsenterer nogle "underlige data" - f.eks. hvorfor gennemsnittet af et datasæt kan være langt højere end medianen.

"Hvis du tænker på gennemsnitsindkomsten i USA i modsætning til medianen, der kan fortælle os noget om amerikanerne generelt, " siger hun. "På en vis forstand, de store data, der er tilgængelige, burde tvinge os til at gå tilbage til det grundlæggende og se grundlaget."

Kodningskompetence er også kernen i de værktøjer, nye forskere bruger på området - og nogle gange kræver det kodning på flere sprog.

Tilpasning til fremtiden

Tilgængeligheden og typerne af data vil kun stige i fremtiden, og forskere tænker på, hvordan de kan tilpasse deres undersøgelser for at give plads til ny information. Crimmins er medforsker for Health and Retirement Study, som har stået på i omkring 30 år. Undersøgelsen udføres hvert andet år, halvdelen personligt og halvdelen i telefonen. Siden 2006 har forskerne har indsamlet biomarkører fra personer, de besøger personligt – målinger som vægt og højde, blodtryk og en blodprøve.

Disse målinger vil give forskerne mulighed for at skabe større associationer i de eksisterende data - og de overskygger også de andre data i analysen. "To millioner markører for hver person, og vi har 20, 000 personer i undersøgelsen, " Crimmins siger. "Det kræver virkelig høj kapacitet computing."

Ved hjælp af data fra sundheds- og pensionsundersøgelsen, Crimmins har gjort flere overraskende fund. Den ene er, at folk faktisk har flere år med god hjernesundhed efter 65 års alderen, end det var tilfældet tidligere. En anden undersøgelse af dataene viste, at uddannelse giver folk en fordel i deres senere år, hjælpe dem med at holde demens på afstand og deres minder intakte. Indsamling af biomarkører fra studiedeltagere gjorde det også muligt for USC Leonard Davis alumna Morgan Levine '08, Ph.D. '15 og Crimmins til at udvikle en lovende metode til at måle biologiske, i modsætning til kronologisk, alder. Deres arbejde resulterede i resultater, der viser, at amerikanere kan ældes langsommere, end de var for to årtier siden.

USC er opstået som et dataproducerende universitet. Der går meget arbejde i at fremme brugen af data ved at gøre dem tilgængelige og i et brugbart format, siger Crimmins. Det udgør en stor del af det, hun laver:at udføre service for det større felt.

"Det forventes på en måde inden for vores felt for dem af os, der er dataproducenter, hvilket er en stor ting her på USC, fordi vi producerer mange af de internationale datasæt, " hun siger.

Big data nedbryder traditionelle grænser mellem felter, siger Arpawong. De stærkeste resultater vil sandsynligvis komme fra en blanding af forskellige datatyper - f.eks. medicinsk fakturering og billedbehandling, eller genomik og miljødata.

"Du skal bryde det ned i stykker. Du har brug for folk, der ved, hvordan man manipulerer dataene for at få det, du vil have - og det er meget nuanceret for hver brik, " siger hun. "Du kan få resultater, uanset hvilken måde du kan kode noget på, men er det korrekt? Og et stort problem for bioinformatik er at sikre, at folk er uddannet i disse typer dataressourcer for at sikre, at de gør, hvad de har til hensigt at gøre."

USC Leonard Davis Schools dekan Pinchas Cohen er enig i, at i nutidens moderne forskningsmiljø, at udnytte data fra en række forskellige kilder er lige så vigtigt som at forstå cellulære funktioner. I sit eget laboratorium, han leder big data-drevne undersøgelser for at identificere hidtil ukendte mitokondriegener, arbejder på at forstå deres funktioner og om de kan være mål for behandlinger af Alzheimers, diabetes og andre sygdomme.

"I stedet for en ensartet tankegang, alderen med big data giver os mulighed for at have en tilgang fra det 21. århundrede til at adressere sygdomsrisiko og fremme sund aldring med en dyb forståelse af et individs risikofaktorer, " siger Cohen. "Videnskab handler ikke længere om at kigge ind i et mikroskop i ens eget laboratorium; det handler om at se udad til data fra millioner af mennesker over hele verden."

Sidste artikelVærre end 9/11:Coronavirus truer den globale luftfartsindustri

Næste artikelUndersøgelse viser, at meget brugte maskinlæringsmetoder ikke virker som påstået