Kredit:Pixabay/CC0 Public Domain
At træne en maskinlæringsmodel til effektivt at udføre en opgave, såsom billedklassificering, involverer at vise modellen tusinder, millioner eller endda milliarder af eksempler på billeder. Indsamling af sådanne enorme datasæt kan være særligt udfordrende, når privatlivets fred er et problem, såsom med medicinske billeder. Forskere fra MIT og den MIT-fødte startup DynamoFL har nu taget én populær løsning på dette problem, kendt som federated learning, og gjort det hurtigere og mere præcist.
Federated learning er en samarbejdsmetode til træning af en maskinlæringsmodel, der holder følsomme brugerdata private. Hundreder eller tusinder af brugere træner hver deres model ved hjælp af deres egne data på deres egen enhed. Derefter overfører brugere deres modeller til en central server, som kombinerer dem for at komme med en bedre model, som den sender tilbage til alle brugere.
En samling hospitaler placeret rundt om i verden kunne for eksempel bruge denne metode til at træne en maskinlæringsmodel, der identificerer hjernetumorer i medicinske billeder, samtidig med at patientdata holdes sikre på deres lokale servere.
Men fødereret læring har nogle ulemper. Overførsel af en stor maskinlæringsmodel til og fra en central server involverer flytning af en masse data, hvilket har høje kommunikationsomkostninger, især da modellen skal sendes frem og tilbage dusinvis eller endda hundredvis af gange. Derudover samler hver bruger deres egne data, så disse data følger ikke nødvendigvis de samme statistiske mønstre, hvilket hæmmer ydeevnen af den kombinerede model. Og den kombinerede model er lavet ved at tage et gennemsnit – den er ikke personliggjort til hver bruger.
Forskerne udviklede en teknik, der samtidig kan løse disse tre problemer med fødereret læring. Deres metode øger nøjagtigheden af den kombinerede maskinlæringsmodel og reducerer dens størrelse betydeligt, hvilket fremskynder kommunikationen mellem brugere og den centrale server. Det sikrer også, at hver bruger modtager en model, der er mere personlig til deres miljø, hvilket forbedrer ydeevnen.
Forskerne var i stand til at reducere modelstørrelsen med næsten en størrelsesorden sammenlignet med andre teknikker, hvilket førte til kommunikationsomkostninger, der var mellem fire og seks gange lavere for individuelle brugere. Deres teknik var også i stand til at øge modellens samlede nøjagtighed med omkring 10 procent.
"Mange papirer har behandlet et af problemerne med fødereret læring, men udfordringen var at sætte alt dette sammen. Algoritmer, der kun fokuserer på personalisering eller kommunikationseffektivitet, giver ikke en god nok løsning. Vi ville være sikre på, at vi var i stand til at optimere til alt, så denne teknik faktisk kunne bruges i den virkelige verden," siger Vaikkunth Mugunthan Ph.D. '22, hovedforfatter på et papir, der introducerer denne teknik.
Mugunthan skrev papiret sammen med sin rådgiver, seniorforfatter Lalana Kagal, en hovedforsker i Computer Science and Artificial Intelligence Laboratory (CSAIL). Arbejdet vil blive præsenteret på den europæiske konference om computersyn.
Skæring af en model til størrelse
Systemet, som forskerne udviklede, kaldet FedLTN, bygger på en idé inden for maskinlæring kendt som lotteriseddelhypotesen. Denne hypotese siger, at der inden for meget store neurale netværksmodeller findes meget mindre undernetværk, der kan opnå den samme ydeevne. At finde et af disse undernetværk svarer til at finde en vindende lotteriseddel. (LTN står for "lottery ticket network")
Neurale netværk, løst baseret på den menneskelige hjerne, er maskinlæringsmodeller, der lærer at løse problemer ved hjælp af indbyrdes forbundne lag af noder eller neuroner.
At finde et netværk af vindende lotterisedler er mere kompliceret end en simpel skrabe. Forskerne skal bruge en proces kaldet iterativ beskæring. Hvis modellens nøjagtighed er over en fastsat tærskel, fjerner de noder og forbindelserne mellem dem (ligesom beskæring af grene fra en busk) og tester derefter det slankere neurale netværk for at se, om nøjagtigheden forbliver over tærsklen.
Andre metoder har brugt denne beskæringsteknik til fødereret læring for at skabe mindre maskinlæringsmodeller, som kunne overføres mere effektivt. Men selvom disse metoder kan fremskynde tingene, lider modellens ydeevne.
Mugunthan og Kagal anvendte et par nye teknikker til at fremskynde beskæringsprocessen, mens de gjorde de nye, mindre modeller mere nøjagtige og personlige for hver bruger.
De fremskyndede beskæringen ved at undgå et trin, hvor de resterende dele af det beskårede neurale netværk "spoles tilbage" til deres oprindelige værdier. De trænede også modellen før beskæring, hvilket gør den mere nøjagtig, så den kan beskæres hurtigere, forklarer Mugunthan.
For at gøre hver model mere personlig til brugerens miljø, var de omhyggelige med ikke at fjerne lag i netværket, der fanger vigtige statistiske oplysninger om den pågældende brugers specifikke data. Når modellerne alle blev kombineret, benyttede de sig desuden af information, der var gemt på den centrale server, så den ikke startede fra bunden for hver kommunikationsrunde.
De udviklede også en teknik til at reducere antallet af kommunikationsrunder for brugere med ressourcebegrænsede enheder, som en smartphone på et langsomt netværk. Disse brugere starter den fødererede læringsproces med en mere slank model, der allerede er optimeret af en undergruppe af andre brugere.
Vind stort med lotteriseddelnetværk
Da de satte FedLTN på prøve i simuleringer, førte det til bedre ydeevne og reducerede kommunikationsomkostninger over hele linjen. I et eksperiment producerede en traditionel fødereret læringstilgang en model, der var 45 megabyte stor, mens deres teknik genererede en model med samme nøjagtighed, som kun var 5 megabyte. I en anden test krævede en avanceret teknik 12.000 megabytes kommunikation mellem brugere og serveren for at træne én model, hvorimod FedLTN kun krævede 4.500 megabyte.
Med FedLTN oplevede de dårligst ydende kunder stadig et præstationsløft på mere end 10 procent. Og den overordnede modelnøjagtighed slog den avancerede personaliseringsalgoritme med næsten 10 procent, tilføjer Mugunthan.
Nu hvor de har udviklet og finjusteret FedLTN, arbejder Mugunthan på at integrere teknikken i en fødereret læringsstartup, som han for nylig grundlagde, DynamoFL.
Fremadrettet håber han at fortsætte med at forbedre denne metode. For eksempel har forskerne vist succes ved at bruge datasæt, der havde etiketter, men en større udfordring ville være at anvende de samme teknikker på umærkede data, siger han.
Mugunthan håber, at dette arbejde inspirerer andre forskere til at genoverveje, hvordan de griber fødereret læring an.
"Dette arbejde viser vigtigheden af at tænke på disse problemer ud fra et holistisk aspekt, og ikke kun individuelle målinger, der skal forbedres. Nogle gange kan en forbedring af en metrik faktisk forårsage en nedjustering af de andre målinger. I stedet bør vi fokusere på, hvordan vi kan forbedre en masse ting sammen, hvilket er rigtig vigtigt, hvis det skal implementeres i den virkelige verden,« siger han. + Udforsk yderligere
Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.