Kredit:CC0 Public Domain
I de senere år har crowdsourcing, som involverer rekruttering af medlemmer af offentligheden til at hjælpe med at indsamle data, været enormt nyttig til at give forskere unikke og rige datasæt, samtidig med at offentligheden engageres i processen med videnskabelig opdagelse. I en ny undersøgelse har et internationalt team af forskere undersøgt, hvordan crowdsourcing-projekter kan gøre den mest effektive brug af frivillige bidrag.
Dataindsamlingsaktiviteter gennem crowdsourcing spænder fra feltbaserede aktiviteter såsom fuglekiggeri til onlineaktiviteter såsom billedklassificering for projekter som den meget succesrige Galaxy Zoo, hvor deltagerne klassificerer galakseformer; og Geo-Wiki, hvor satellitbilleder tolkes for arealdækning, arealanvendelse og socioøkonomiske indikatorer. At få input fra så mange deltagere, der analyserer et sæt billeder, rejser imidlertid spørgsmål om, hvor nøjagtige de indsendte svar faktisk er. Selvom der er metoder til at sikre nøjagtigheden af data indsamlet på denne måde, har de ofte konsekvenser for crowdsourcing-aktiviteter såsom samplingdesign og tilhørende omkostninger.
I deres undersøgelse netop offentliggjort i tidsskriftet PLoS ONE , undersøgte forskere fra IIASA og internationale kolleger spørgsmålet om nøjagtighed ved at undersøge, hvor mange vurderinger af en opgave, der skal udføres, før forskere kan være rimelig sikre på det rigtige svar.
"Mange typer forskning med offentlig deltagelse går ud på at få frivillige til at klassificere billeder, som er svære for computere at skelne, på en automatiseret måde. Men når en opgave skal gentages af mange mennesker, gør det tildelingen af opgaver til de personer, der udfører dem. mere effektivt, hvis du er sikker på det rigtige svar. Det betyder, at mindre tid på frivillige eller betalte bedømmere spildes, og forskere eller andre, der anmoder om opgaverne, kan få mere ud af de begrænsede ressourcer, der er til rådighed for dem," forklarer Carl Salk, en alumne fra IIASA Young Scientists Summer Program (YSSP) og mangeårig IIASA-samarbejdspartner i øjeblikket tilknyttet det svenske landbrugsuniversitet.
Forskerne udviklede et system til at estimere sandsynligheden for, at flertallets svar på en opgave er forkert, og holdt så op med at tildele opgaven til nye frivillige, når sandsynligheden blev tilstrækkelig lav, eller sandsynligheden for nogensinde at få et klart svar blev lav. De demonstrerede denne proces ved hjælp af et sæt på over 4,5 millioner unikke klassifikationer af 2.783 frivillige af over 190.000 billeder vurderet for tilstedeværelse eller fravær af afgrødejord. Forfatterne påpeger, at hvis deres system var blevet implementeret i den oprindelige dataindsamlingskampagne, ville det have elimineret behovet for 59,4 % af frivillige vurderinger, og at hvis indsatsen var blevet anvendt på nye opgaver, ville det have tilladt mere end det dobbelte mængden af billeder, der skal klassificeres med den samme mængde arbejde. Dette viser, hvor effektiv denne metode kan være til at gøre mere effektiv brug af begrænsede frivillige bidrag.
Ifølge forskerne kan denne metode anvendes til næsten enhver situation, hvor en ja eller nej (binær) klassificering er påkrævet, og svaret er måske ikke særlig indlysende. Eksempler kunne omfatte klassificering af andre typer arealanvendelse, for eksempel:"Er der skov på dette billede?"; at identificere arter ved at spørge:"Er der en fugl på dette billede?"; eller endda den slags "ReCaptcha"-opgaver, som vi udfører for at overbevise websteder om, at vi er mennesker, såsom:"Er der et stoplys i dette billede?" Arbejdet kan også bidrage til bedre at besvare spørgsmål, der er vigtige for politikere, såsom hvor meget jord i verden, der bruges til at dyrke afgrøder.
"Efterhånden som datavidenskabsfolk i stigende grad vender sig til maskinlæringsteknikker til billedklassificering, bliver brugen af crowdsourcing til at opbygge billedbiblioteker til træning stadig vigtigere. Denne undersøgelse beskriver, hvordan man optimerer brugen af mængden til dette formål, og giver klar vejledning om, hvornår man skal fokusere på ny. indsatsen, når enten det nødvendige tillidsniveau er nået, eller et bestemt billede er for svært at klassificere," konkluderer studiemedforfatter, Ian McCallum, som leder Novel Data Ecosystems for Sustainability Research Group på IIASA.