Gendannelse af balance i maskinlæringsdatasæt

Fem repræsentative prøver for hver klasse (række) i CIFAR-10-datasættet. For hver klasse, disse prøver er opnået med generative modeller trænet efter at have droppet 40 % af billederne fra den specifikke klasse fra træningssættet. Kredit:IBM

Hvis du vil lære et barn, hvordan en elefant ser ud, du har et uendeligt antal muligheder. Tag et billede fra National Geographic, et udstoppet dyr af Dumbo, eller en elefant nøglering; vis det til barnet; og næste gang han ser en genstand, der ligner en elefant, vil han sandsynligvis pege og sige ordet.

At lære AI, hvordan en elefant ser ud, er lidt anderledes. For at træne en maskinlæringsalgoritme, du vil sandsynligvis have brug for tusindvis af elefantbilleder med forskellige perspektiver, såsom hoved, hale, og profil. Men derefter, selv efter at have indtaget tusindvis af billeder, hvis du forbinder din algoritme til et kamera og viser den en pink elefant nøglering, den vil sandsynligvis ikke genkende den som en elefant.

Dette er en form for databias, og det påvirker ofte nøjagtigheden af deep learning-klassifikatorer negativt. For at rette op på denne skævhed, ved at bruge det samme eksempel, vi ville have brug for mindst 50-100 billeder af lyserøde elefanter, hvilket kunne være problematisk, da lyserøde elefanter er "sjældne".

Dette er en kendt udfordring i maskinlæringsfællesskaber, og om det er lyserøde elefanter eller vejskilte, små datasæt giver store udfordringer for AI-forskere.

Gendannelse af balance til træning af AI

Siden tidligere i år har mine kolleger og jeg hos IBM Research i Zürich tilbyder en løsning. Det hedder BAGAN, eller afbalancere generative kontradiktoriske netværk, og det kan generere helt nye billeder, dvs. af lyserøde elefanter, at genoprette balancen til træning af AI.

Fem repræsentative prøver genereret for de tre mest repræsenterede majoritetsklasser i GT-SRB-datasættet. Kredit:IBM

At se er at tro

I papiret rapporterer vi at bruge BAGAN på det tyske benchmark for trafikskiltgenkendelse, samt på MNIST og CIFAR-10, og sammenlignet med state-of-the-art GAN, metodikken overgår dem alle med hensyn til variation og kvalitet af de genererede billeder, når træningsdatasættet er ubalanceret. På tur, dette fører til en højere nøjagtighed af de endelige klassifikatorer trænet på det udvidede datasæt.

Fem repræsentative prøver genereret for de tre mindst repræsenterede minoritetsklasser i GT-SRB-datasættet. Kredit:IBM

Denne historie er genudgivet med tilladelse fra IBM Research. Læs den originale historie her.

Sidste artikelKontaktløs 3-D fingeraftryksidentifikation

Næste artikelStrenge adgangskodepolitikker hjælper med at forhindre svindel, undersøgelse finder