Kredit:Pixabay/CC0 Public Domain
Forestil dig et team af læger, der bruger et neuralt netværk til at opdage kræft i mammografibilleder. Selvom denne maskinlæringsmodel ser ud til at fungere godt, kan den fokusere på billedfunktioner, der ved et uheld er korreleret med tumorer, såsom et vandmærke eller tidsstempel, snarere end faktiske tegn på tumorer.
For at teste disse modeller bruger forskere "feature-attribution methods", teknikker, der formodes at fortælle dem, hvilke dele af billedet, der er de vigtigste for det neurale netværks forudsigelse. Men hvad nu hvis tilskrivningsmetoden savner funktioner, der er vigtige for modellen? Da forskerne ikke ved, hvilke funktioner der er vigtige til at begynde med, har de ingen mulighed for at vide, at deres evalueringsmetode ikke er effektiv.
For at hjælpe med at løse dette problem har MIT-forskere udtænkt en proces til at ændre de originale data, så de vil være sikre på, hvilke funktioner der faktisk er vigtige for modellen. Derefter bruger de dette modificerede datasæt til at evaluere, om funktionstilskrivningsmetoder korrekt kan identificere disse vigtige funktioner.
De oplever, at selv de mest populære metoder ofte går glip af de vigtige funktioner i et billede, og nogle metoder formår knap nok at præstere så godt som en tilfældig baseline. Dette kan have store konsekvenser, især hvis neurale netværk anvendes i situationer med høj indsats som medicinske diagnoser. Hvis netværket ikke fungerer korrekt, og forsøg på at fange sådanne uregelmæssigheder heller ikke fungerer korrekt, har menneskelige eksperter måske ingen anelse om, at de er vildledt af den fejlbehæftede model, forklarer hovedforfatter Yilun Zhou, en kandidatstuderende i elektroteknik og datalogi. i Computer Science and Artificial Intelligence Laboratory (CSAIL).
"Alle disse metoder er meget udbredte, især i nogle scenarier med meget høje indsatser, som f.eks. at opdage kræft fra røntgenstråler eller CT-scanninger. Men disse egenskabstilskrivningsmetoder kan være forkerte i første omgang. De kan fremhæve noget, der gør" t svarer til den sande funktion, som modellen bruger til at lave en forudsigelse, hvilket vi ofte fandt, at var tilfældet. Hvis du vil bruge disse funktionstilskrivningsmetoder til at retfærdiggøre, at en model fungerer korrekt, skal du bedre sikre funktionstilskrivningen metoden i sig selv fungerer korrekt i første omgang," siger han.
Zhou skrev papiret sammen med EECS-kandidatstuderende Serena Booth, Microsoft Research-forsker Marco Tulio Ribeiro og seniorforfatter Julie Shah, som er MIT-professor i luftfart og astronautik og direktør for Interactive Robotics Group i CSAIL.
Fokusering på funktioner
I billedklassificering er hver pixel i et billede en funktion, som det neurale netværk kan bruge til at lave forudsigelser, så der er bogstaveligt talt millioner af mulige funktioner, det kan fokusere på. Hvis forskere ønsker at designe en algoritme til at hjælpe håbefulde fotografer med at forbedre sig, kunne de for eksempel træne en model til at skelne billeder taget af professionelle fotografer fra billeder taget af afslappede turister. Denne model kan bruges til at vurdere, hvor meget amatørbillederne ligner de professionelle, og endda give specifik feedback om forbedringer. Forskere ønsker, at denne model fokuserer på at identificere kunstneriske elementer i professionelle fotos under træning, såsom farverum, komposition og efterbehandling. Men det er bare sådan, at et professionelt taget billede sandsynligvis indeholder et vandmærke af fotografens navn, mens få turistbilleder har det, så modellen kunne bare tage genvejen til at finde vandmærket.
"Vi ønsker selvfølgelig ikke at fortælle håbefulde fotografer, at et vandmærke er alt, hvad du behøver for en succesfuld karriere, så vi vil sikre os, at vores model fokuserer på de kunstneriske træk i stedet for vandmærkets tilstedeværelse. Det er fristende at bruge funktionerne. tilskrivningsmetoder til at analysere vores model, men i sidste ende er der ingen garanti for, at de fungerer korrekt, da modellen kunne bruge kunstneriske træk, vandmærket eller andre træk," siger Zhou.
"Vi ved ikke, hvad disse falske sammenhænge i datasættet er. Der kan være så mange forskellige ting, der kan være fuldstændig umærkelige for en person, som opløsningen af et billede," tilføjer Booth. "Selv hvis det ikke er mærkbart for os, kan et neuralt netværk sandsynligvis trække disse funktioner ud og bruge dem til at klassificere. Det er det underliggende problem. Vi forstår ikke vores datasæt så godt, men det er også umuligt at forstå vores datasæt. det godt."
Forskerne modificerede datasættet for at svække alle korrelationerne mellem det originale billede og dataetiketterne, hvilket garanterer, at ingen af de originale funktioner længere vil være vigtige.
Derefter tilføjer de en ny funktion til billedet, som er så indlysende, at det neurale netværk skal fokusere på det for at kunne forudsige det, som lyse rektangler i forskellige farver for forskellige billedklasser.
"Vi kan med tillid hævde, at enhver model, der opnår virkelig høj tillid, skal fokusere på det farvede rektangel, som vi sætter ind. Så kan vi se, om alle disse funktionstilskrivningsmetoder skynder sig at fremhæve den placering frem for alt andet," siger Zhou.
"Særligt alarmerende" resultater
De anvendte denne teknik til en række forskellige funktionstilskrivningsmetoder. Til billedklassifikationer producerer disse metoder det, der er kendt som et saliency map, som viser koncentrationen af vigtige funktioner spredt over hele billedet. Hvis det neurale netværk f.eks. klassificerer billeder af fugle, kan saliency-kortet vise, at 80 procent af de vigtige funktioner er koncentreret omkring fuglens næb.
Efter at have fjernet alle korrelationerne i billeddataene, manipulerede de billederne på flere måder, såsom at sløre dele af billedet, justere lysstyrken eller tilføje et vandmærke. Hvis funktionstilskrivningsmetoden fungerer korrekt, bør næsten 100 procent af de vigtige funktioner være placeret omkring det område, som forskerne manipulerede.
Resultaterne var ikke opmuntrende. Ingen af funktionstilskrivningsmetoderne kom tæt på 100 procent-målet, de fleste nåede næppe et tilfældigt basisniveau på 50 procent, og nogle klarede endda dårligere end basislinjen i nogle tilfælde. Så selvom den nye funktion er den eneste, modellen kan bruge til at lave en forudsigelse, kan funktionstilskrivningsmetoderne nogle gange ikke opfange det.
"None of these methods seem to be very reliable, across all different types of spurious correlations. This is especially alarming because, in natural datasets, we don't know which of those spurious correlations might apply," Zhou says. "It could be all sorts of factors. We thought that we could trust these methods to tell us, but in our experiment, it seems really hard to trust them."
All feature-attribution methods they studied were better at detecting an anomaly than the absence of an anomaly. In other words, these methods could find a watermark more easily than they could identify that an image does not contain a watermark. So, in this case, it would be more difficult for humans to trust a model that gives a negative prediction.
The team's work shows that it is critical to test feature-attribution methods before applying them to a real-world model, especially in high-stakes situations.
"Researchers and practitioners may employ explanation techniques like feature-attribution methods to engender a person's trust in a model, but that trust is not founded unless the explanation technique is first rigorously evaluated," Shah says. "An explanation technique may be used to help calibrate a person's trust in a model, but it is equally important to calibrate a person's trust in the explanations of the model."
Moving forward, the researchers want to use their evaluation procedure to study more subtle or realistic features that could lead to spurious correlations. Another area of work they want to explore is helping humans understand saliency maps so they can make better decisions based on a neural network's predictions.