"Vi ser på krisen, mens den sker, ” sagde Prasenjit Mitra. "Den bedste kilde til at få rettidig information under en katastrofe er sociale medier, især mikroblogs som Twitter. Kredit:Thinkstock
Twitter-data kunne give katastrofehjælpshold realtidsinformation for at yde hjælp og redde liv, takket være en ny algoritme udviklet af et internationalt team af forskere.
Et team af forskere fra Penn State, Indian Institute of Technology Kharagpur, og Qatar Computing Research Institute skabte en algoritme, der analyserer Twitter-data for at identificere mindre katastroferelaterede hændelser, kendt som underbegivenheder, og generere meget nøjagtige, realtidsoversigter, der kan bruges til at vejlede responsaktiviteter.
Gruppen præsenterede deres papir - "Identifikation af underbegivenheder og opsummering af information fra mikroblogs under katastrofer" - i dag (10. juli) på 41st International Association for Computing Machinery's Special Interest Group on Information Retrieval Conference on Research and Development in Information Retrieval i Ann Arbor , Michigan.
"Vi ser på krisen, mens den sker, " sagde Prasenjit Mitra, associeret dekan for forskning i Penn State's College of Information Sciences and Technology og en bidragyder til undersøgelsen.
"Den bedste kilde til at få rettidig information under en katastrofe er sociale medier, især mikroblogs som Twitter, " sagde Mitra. "Aviser skal endnu trykkes, og blogs skal endnu udgives, så Twitter giver mulighed for en næsten realtidsvisning af en begivenhed fra dem, der er påvirket af den."
At analysere disse data og bruge dem til at generere rapporter relateret til et underemne af en katastrofe – såsom infrastrukturskader eller behov for husly – kunne hjælpe humanitære organisationer bedre at reagere på de forskellige behov hos enkeltpersoner i et berørt område.
I betragtning af mængden af producerede data, manuelt at styre denne proces umiddelbart efter en krise er ikke altid praktisk. Der er også ofte behov for unikke opdateringer relateret til bestemte emner inden for og på tværs af organisationer.
"Flere værker om katastrofespecifik opsummering i nyere tid har foreslået algoritmer, der for det meste giver en generel oversigt over hele begivenheden, " skrev forskerne i deres papir. "Men, forskellige interessenter som redningsarbejdere, regerings kontorer, felteksperter, [og] almindelige mennesker har forskellige informationsbehov."
I undersøgelsen, gruppen indsamlede mere end 2,5 millioner tweets udsendt under tre store globale katastrofer – tyfonen Hagupit, der ramte Filippinerne i 2014, oversvømmelsen i 2014 i Pakistan, og jordskælvet i 2015 i Nepal. Derefter, frivillige fra FN's kontor for koordinering af humanitære anliggender trænede et maskinlæringssystem ved manuelt at kategorisere tweets i forskellige underbegivenheder, såsom mad, medicin og infrastruktur.
Når først systemet kan identificere tweets med et højt niveau af nøjagtighed, forskerne giver systemet mulighed for at kategorisere store mængder data hurtigt og præcist uden menneskelig indgriben. Efterhånden som begivenhederne udvikler sig, imidlertid, nye kategorier af indhold dukker op, som kræver, at processen genstartes.
"På et vist tidspunkt, der er en glidning i emnet. Emner skifter fra øjeblikkelig respons, som folk er fanget, til igangværende nedfald, sygdomme eller transportproblemer, " forklarede Mitra. "Når emnet ændrer sig, vi observerer maskinens nøjagtighed. Hvis det falder under en vis tærskel, Taskforcen kategoriserer manuelt flere tweets for at uddanne maskinen yderligere."
Deres "Dependency-Parser-baserede SUB-hændelsesdetektion" algoritme, kendt som DEPSUB, identificerede navneord-udsagnsordspar, der repræsenterer underemner - såsom "brokollaps" eller "person fanget" - og rangerede dem baseret på, hvor ofte de optræder i tweets. Derefter, de skabte en algoritme til at skrive resuméer om den brede begivenhed og de identificerede underbegivenheder. Endelig, menneskelige evaluatorer rangerede anvendeligheden og nøjagtigheden af underbegivenheder identificeret af DEPSUB og autogenererede resuméer i forhold til dem, der er skabt af andre eksisterende metoder.
Evaluatorerne fandt både DEPSUB og deres opsummeringsalgoritme mere relevante, nyttige og forståelige sammenlignet med andre førende algoritmer. I fremtiden, forskerne håber at kunne anvende deres arbejde i specialiserede situationer, såsom at opsummere oplysninger om forsvundne personer, og trække specifik information fra tweets, der kunne skabe en mere grundig beskrivelse og visualisering af en begivenhed.
"Med et veltrænet system, menneskelig indgriben er ikke nødvendig for at kategorisere eller opsummere Twitter-data, " sagde Mitra. "Dette automatiserede system er et første skridt i at give nødhjælpsarbejdere et stillads, som de kan forfine for at skabe en bedre samlet oversigt over en begivenhed, samt at tage et mere snævert skræddersyet syn på en del af den større begivenhed."