Kredit:Unsplash/CC0 Public Domain
For at hjælpe kæmpende universitetsstuderende, før det er for sent, flere og flere universiteter tager maskinlæringsmodeller i brug for at identificere studerende med risiko for at droppe ud.
Hvilken information, der indgår i disse modeller, kan have stor betydning for, hvor nøjagtige og retfærdige de er, især når det kommer til beskyttede elevkarakteristika som køn, race og familieindkomst. Men i en ny undersøgelse, den største revision af et college AI-system til dato, forskere finder ingen beviser for, at fjernelse af beskyttede elevkarakteristika fra en model forbedrer nøjagtigheden eller retfærdigheden af forudsigelser.
Dette resultat kom som en overraskelse for René Kizilcec, adjunkt i informationsvidenskab og direktør for Future of Learning Lab.
"Vi forventede, at fjernelse af sociodemografiske karakteristika ville gøre modellen mindre nøjagtig, på grund af hvor etablerede disse egenskaber er i at studere akademiske præstationer, " sagde han. "Selvom vi finder ud af, at tilføjelse af disse egenskaber ikke giver nogen empirisk fordel, vi anbefaler at inkludere dem i modellen, fordi den i det mindste anerkender eksistensen af uddannelsesmæssige uligheder, der stadig er forbundet med dem."
Kizilcec er seniorforfatter til "Should College Dropout Prediction Models Include Protected Attributes?" skal præsenteres på den virtuelle Association for Computing Machinery Conference on Learning at Scale, 22-25 juni. Værket er nomineret til konferencens bedste papirpris.
Medforfattere er Future of Learning Lab-medlemmer Hannah Lee, en kandidatstuderende inden for datalogi, og hovedforfatter Renzhe Yu, en ph.d.-studerende ved University of California, Irvine.
Til dette arbejde, Kizilcec og hans team undersøgte data om studerende i både et boligskolemiljø og et fuldt online program. Institutionen i undersøgelsen er et stort offentligt universitet i det sydvestlige USA, som ikke er nævnt i avisen.
Ved systematisk at sammenligne prædiktive modeller med og uden beskyttede attributter, forskerne havde til formål at bestemme både, hvordan inkludering af beskyttede attributter påvirker nøjagtigheden af forudsigelse af frafald på college, og om medtagelsen af beskyttede attributter påvirker retfærdigheden af forudsigelse af frafald på college.
Forskernes datasæt var massivt:i alt 564, 104 boligkursus-optagelser for 93, 457 unikke studerende og 2, 877 unikke kurser; og 81, 858 online kursusoptagelser for 24, 198 unikke studerende og 874 unikke kurser.
Fra datasættet, Kizilcecs team byggede 58 identificerende funktioner på tværs af fire kategorier, inklusive fire beskyttede egenskaber – elevens køn; første generations college-status; medlem af en underrepræsenteret minoritetsgruppe (defineret som hverken asiatisk eller hvid); og et stort økonomisk behov. For at bestemme konsekvenserne af at bruge beskyttede attributter til at forudsige frafald, forskerne genererede to funktionssæt - et med beskyttede attributter og et uden.
Deres hovedresultat:At inkludere fire vigtige beskyttede attributter har ikke nogen signifikant effekt på tre almindelige mål for den overordnede forudsigelsesydelse, når almindeligt anvendte funktioner, herunder akademiske optegnelser, er allerede i modellen.
"Det, der betyder noget for at identificere udsatte elever, er allerede forklaret af andre egenskaber, " sagde Kizilcec. "Beskyttede egenskaber tilføjer ikke meget. Der kan være en kønsforskel eller en racemæssig forskel, men dets sammenhæng med frafald er ubetydelig sammenlignet med karakteristika som tidligere GPA."
Det sagt, Kizilcec og hans team går stadig ind for at inkludere beskyttede attributter i forudsigelsesmodellering. De bemærker, at data fra videregående uddannelser afspejler langvarige uligheder, og de citerer nyligt arbejde i det bredere maskinlæringsfællesskab, der understøtter begrebet "retfærdighed gennem bevidsthed."
"Der har været arbejde, der viser, at måden visse egenskaber, som akademisk rekord, påvirke en studerendes sandsynlighed for at fortsætte på college kan variere på tværs af forskellige beskyttede egenskabsgrupper, " sagde han. "Og så ved at inkludere elevkarakteristika i modellen, vi kan tage højde for denne variation på tværs af forskellige elevgrupper."
Forfatterne konkluderede med at sige:"Vi håber, at denne undersøgelse inspirerer flere forskere i læringsanalyse- og uddannelsesdatamining-samfundene til at engagere sig i spørgsmål om algoritmisk bias og retfærdighed i de modeller og systemer, de udvikler og evaluerer."
Kizilcecs laboratorium har arbejdet meget med algoritmisk retfærdighed i uddannelse, hvilket han sagde er et understuderet emne.
"Det er delvist fordi algoritmerne [i uddannelse] ikke er så synlige, og de arbejder ofte på forskellige måder sammenlignet med strafferet eller medicin, " sagde han. "I uddannelse, det handler ikke om at sende nogen i fængsel, eller bliver fejlagtigt diagnosticeret for kræft. Men for den enkelte elev, det kan være en stor sag at blive markeret som udsat."