Videnskab
 science >> Videnskab >  >> Andet

Det er ikke så nemt at fremskrive resultaterne af folks liv med kunstig intelligens

Fragile Families-undersøgelsen fangede oplysninger om børn ved fødslen og i alderen 1, 3, 5, 9 og 15. Disse oplysninger blev indhentet gennem en række undersøgelser, opført til venstre for disse aldre i ovenstående diagram. Fragile Families Challenge brugte data fra bølge 1 til 5 til at forudsige resultater i bølge seks. Kredit:Matthew Salganik et al. 2020, Princeton University

Maskinlæringsteknikkerne, som videnskabsmænd bruger til at forudsige resultater fra store datasæt, kan komme til kort, når det kommer til at fremskrive resultaterne af menneskers liv, ifølge en masseundersøgelse ledet af forskere ved Princeton University i et samarbejde med forskere på tværs af mange institutioner, herunder Virginia Tech.

Dette massesamarbejde, kaldet Fragile Families Challenge, repræsenterer en kohorte af forskere, der bygger statistiske og maskinlæringsmodeller til at forudsige og måle livsresultater for børn, forældre, og husstande i hele USA.

Udgivet af 112 medforfattere i Procedurer fra National Academy of Sciences , resultaterne tyder på, at sociologer og dataforskere bør udvise forsigtighed, når de bruger prædiktiv modellering, især i det strafferetlige system og sociale programmer.

Selv efter brug af state-of-the-art modellering og et datasæt af høj kvalitet, der indeholder 13, 000 datapunkter for mere end 4, 000 familier, de bedste AI-prædiktive modeller var ikke særlig nøjagtige.

Brian J. Goode, en forsker fra Virginia Techs Fralin Life Sciences Institute, var blandt de data- og samfundsforskere, der deltog i Fragile Families Challenge.

Figur A viser forskellen mellem de bedste afleveringer for hvert resultat sammenlignet med benchmarkmodellen. Figur B-G sammenlignede forudsigelserne og sandheden for hvert udfald. Kredit:Matthew Salganik et al. 2020, Princeton University

"Det er et forsøg på at forsøge at indfange de kompleksiteter og forviklinger, der udgør et menneskelivs struktur i data og modeller. Men, det er obligatorisk at tage det næste skridt og kontekstualisere modeller i forhold til, hvordan de vil blive anvendt for bedre at kunne ræsonnere omkring forventede usikkerheder og begrænsninger af en forudsigelse. Det er et meget svært problem at kæmpe med, og jeg tror, ​​at Fragile Families Challenge viser, at vi har brug for mere forskningsstøtte på dette område, især da maskinlæring har en større indflydelse på vores hverdag, " sagde Goode.Goodes modellering blev udført gennem Discovery Analytics Center på Virginia Tech. Der, han slog sig sammen med Discovery Analytics Centers direktør og Thomas L. Phillips professor i ingeniørvidenskab, Naren Ramakrishnan, og Debanjan Datta, en ph.d. studerende ved Institut for Datalogi på Ingeniørhøjskolen, som var medvirkende til at indsamle og analysere data.

Virginia Tech-teamet har også offentliggjort forskning i et særligt nummer af Socius, et nyt tidsskrift med åben adgang fra American Sociological Association. For at støtte yderligere forskning på dette område, alle indsendelser til udfordringen – kode, forudsigelser og narrative forklaringer - er offentligt tilgængelige.

"Undersøgelsen viser os også, at vi har så meget at lære, og massesamarbejde som dette er enormt vigtigt for forskersamfundet, " sagde PNAS-undersøgelsens medforfatter Matt Salganik, professor i sociologi ved Princeton og midlertidig direktør for Center for Information Technology Policy, baseret på Princetons Woodrow Wilson School of Public and International Affairs.

Projektet er inspireret af Wikipedia, et af verdens første massesamarbejder, som blev oprettet i 2001 som en delt encyklopædi. Salganik overvejede, hvilke andre videnskabelige problemer der kunne løses gennem en ny form for samarbejde, og det var da han slog sig sammen med Sara McLanahan, William S. Tod professor i sociologi og offentlige anliggender ved Princeton, samt Princeton-kandidatstuderende Ian Lundberg og Alex Kindel, begge i Sociologisk Institut.

McLanahan er hovedefterforsker af Fragile Families and Child Wellbeing Study baseret på Princeton og Columbia University, som har studeret en kohorte på omkring 5, 000 børn født i store amerikanske byer mellem 1998 og 2000, med en oversampling af børn født af ugifte forældre. Den longitudinelle undersøgelse var designet til at forstå livet for børn født i ugifte familier.

Gennem undersøgelser indsamlet i seks bølger (hvornår barnet blev født og derefter når barnet nåede 1 år, 3, 5, 9, og 15), undersøgelsen har fanget millioner af datapunkter om børn og deres familier. Endnu en bølge vil blive fanget i en alder af 22.

På det tidspunkt, hvor forskerne designede udfordringen, data fra 15-årsalderen (som forskerne i papiret kalder "hold-out-dataene) var endnu ikke blevet gjort offentligt tilgængelige. Dette skabte en mulighed for at bede andre videnskabsmænd om at forudsige livsudfald for personerne i undersøgelsen gennem et massesamarbejde.

160 forskerhold af data- og samfundsforskere byggede statistiske og maskinlæringsmodeller til at forudsige måle seks livsudfald for børn, forældre, og husstande. Selv efter at have brugt en state-of-the-art modellering og et datasæt af høj kvalitet, der indeholder 13, 000 datapunkter om mere end 4, 000 familier, de bedste AI-prædiktive modeller var ikke særlig nøjagtige. Kredit:Egan Jimenez, Princeton University

Medarrangørerne modtog 457 ansøgninger fra 68 institutioner fra hele verden, blandt andet fra flere hold baseret på Princeton. Ved at bruge data fra Fragile Families, deltagerne blev bedt om at forudsige et eller flere af de seks livsudfald i en alder af 15. Disse inkluderede gennemsnit for børns karakterpoint (GPA); barn grus; husholdningsudsættelse; husholdningsmateriale trængsler; afskedigelse af primær omsorgsperson; og primære omsorgspersoners deltagelse i jobtræning.

Udfordringen var baseret på den fælles opgavemetode, et forskningsdesign, der ofte bruges inden for datalogi, men ikke inden for samfundsvidenskab. Denne metode frigiver nogle, men ikke alle data, giver folk mulighed for at bruge den teknik, de ønsker, for at bestemme resultater. Målet er nøjagtigt at forudsige de tilbageholdte data, uanset hvor fancy en teknik det kræver at nå dertil.

Holdet søger i øjeblikket om tilskud til at fortsætte forskningen på dette område.

Papiret, "Måling af forudsigeligheden af ​​livsresultater med et videnskabeligt massesamarbejde, " blev offentliggjort den 30. marts af PNAS .


Varme artikler