Kredit:Unsplash/CC0 Public Domain
En undersøgelse af de typer fejl, som mennesker begår, når de vurderer billeder, kan muliggøre computeralgoritmer, der hjælper os med at træffe bedre beslutninger om visuel information, såsom når vi læser et røntgenbillede eller modererer onlineindhold.
Forskere fra Cornell og partnerinstitutioner analyserede mere end 16 millioner menneskelige forudsigelser om, hvorvidt et kvarter stemte på Joe Biden eller Donald Trump ved præsidentvalget i 2020 baseret på et enkelt Google Street View-billede. De fandt ud af, at mennesker som gruppe klarede opgaven godt, men en computeralgoritme var bedre til at skelne mellem Trump og Biden-landet.
Undersøgelsen klassificerede også almindelige måder, som folk roder på, og identificerede genstande – såsom pickup-trucks og amerikanske flag – der førte folk på afveje.
"Vi forsøger at forstå, hvor en algoritme har en mere effektiv forudsigelse end et menneske, kan vi bruge det til at hjælpe mennesket eller lave et bedre hybrid menneske-maskine system, der giver dig det bedste fra begge verdener?" sagde førsteforfatter J.D. Zamfirescu-Pereira, en kandidatstuderende ved University of California i Berkeley.
Han præsenterede værket med titlen "Trucks Don't Mean Trump:Diagnosing Human Error in Image Analysis," på 2022 Association for Computing Machinery (ACM) Conference on Fairness, Accountability, and Transparency (FAccT).
For nylig har forskere givet meget opmærksomhed til spørgsmålet om algoritmisk bias, som er, når algoritmer laver fejl, der systematisk forfordrer kvinder, raceminoriteter og andre historisk marginaliserede befolkninger.
"Algorithmer kan skrue sammen på en hvilken som helst af et utal af måder, og det er meget vigtigt," sagde seniorforfatter Emma Pierson, assisterende professor i datalogi ved Jacobs Technion-Cornell Institute ved Cornell Tech og Technion med Cornell Ann S. Bowers College of Computing and Information Science. "Men mennesker er selv forudindtaget og fejltilbøjelige, og algoritmer kan give meget nyttig diagnostik for, hvordan folk sviner til."
Forskerne brugte anonymiserede data fra en New York Times interaktiv quiz, der viste læserne øjebliksbilleder fra 10.000 steder over hele landet og bad dem gætte, hvordan nabolaget stemte. De trænede en maskinlæringsalgoritme til at lave den samme forudsigelse ved at give den en delmængde af Google Street View-billeder og forsyne den med afstemningsresultater i den virkelige verden. Derefter sammenlignede de algoritmens ydeevne på de resterende billeder med læsernes.
Overordnet forudsagde maskinlæringsalgoritmen det rigtige svar omkring 74 % af tiden. Når gennemsnittet blev sat sammen for at afsløre "mængdens visdom", havde mennesker ret 71 % af tiden, men individuelle mennesker scorede kun omkring 63 %.
Folk valgte ofte forkert Trump, når gadebilledet viste pickups eller vidåben himmel. I en artikel i New York Times bemærkede deltagerne, at amerikanske flag også gjorde dem mere tilbøjelige til at forudsige Trump, selvom kvarterer med flag var ligeligt fordelt mellem kandidaterne.
Forskerne klassificerede de menneskelige fejl som resultatet af bias, varians eller støj - tre kategorier, der almindeligvis bruges til at evaluere fejl fra maskinlæringsalgoritmer. Bias repræsenterer fejl i mængdens visdom - for eksempel altid at forbinde pickup trucks med Trump. Varians omfatter individuelle forkerte vurderinger - når én person laver et dårligt opkald, selvom mængden i gennemsnit havde ret. Støj er, når billedet ikke giver nyttige oplysninger, såsom et hus med et Trump-skilt i et kvarter, der primært stemmer Biden.
At være i stand til at opdele menneskelige fejl i kategorier kan hjælpe med at forbedre menneskelig beslutningstagning. Tag radiologer, der læser røntgenstråler for at diagnosticere en sygdom, for eksempel. Hvis der er mange fejl på grund af bias, kan lægerne have behov for genoptræning. Hvis diagnosen i gennemsnit er vellykket, men der er forskel mellem radiologer, kan en anden udtalelse være berettiget. Og hvis der er meget misvisende støj i røntgenbillederne, kan det være nødvendigt med en anden diagnostisk test.
I sidste ende kan dette arbejde føre til en bedre forståelse af, hvordan man kombinerer menneskelig og maskinel beslutningstagning for human-in-the-loop-systemer, hvor mennesker giver input til ellers automatiserede processer.
"Du ønsker at studere ydeevnen af hele systemet sammen - mennesker plus algoritmen, fordi de kan interagere på uventede måder," sagde Pierson. + Udforsk yderligere