Videnskab
 science >> Videnskab >  >> Elektronik

Hvordan Cambridge Analyticas Facebook-målretningsmodel virkelig fungerede - ifølge den person, der byggede den

Hvor præcist kan du blive profileret online? Kredit:Andrew Krasovitckii/Shutterstock.com

Forskeren, hvis arbejde er i centrum for Facebook-Cambridge Analyticas dataanalyse og politiske reklameopstand, har afsløret, at hans metode fungerede meget som den, Netflix bruger til at anbefale film.

I en mail til mig, Cambridge University-forsker Aleksandr Kogan forklarede, hvordan hans statistiske model behandlede Facebook-data for Cambridge Analytica. Den nøjagtighed, han hævder, antyder, at den virker lige så godt som etablerede vælgermålretningsmetoder baseret på demografi som race, alder og køn.

Hvis bekræftet, Kogans beretning ville betyde, at den digitale modellering, Cambridge Analytica brugte, næppe var den virtuelle krystalkugle, som nogle få har hævdet. Alligevel viser tallene Kogan også, hvad der faktisk er – og ikke er – muligt ved at kombinere personlige data med maskinlæring til politiske formål.

Med hensyn til en central offentlig bekymring, selvom, Kogans tal tyder på, at information om brugernes personlighed eller "psykografi" blot var en beskeden del af, hvordan modellen målrettede borgerne. Det var strengt taget ikke en personlighedsmodel, men snarere en, der kogte demografien ned, sociale påvirkninger, personlighed og alt andet til en stor korreleret klump. Denne tilgang til at opsuge-al-korrelationen-og-kald-det-personlighed ser ud til at have skabt et værdifuldt kampagneværktøj, selvom produktet, der blev solgt, ikke var helt, som det blev faktureret.

Løftet om personlighedsmålretning

I kølvandet på afsløringerne om, at Trump-kampagnekonsulenterne Cambridge Analytica brugte data fra 50 millioner Facebook-brugere til at målrette digital politisk reklame under det amerikanske præsidentvalg i 2016, Facebook har mistet milliarder i børsværdi, regeringer på begge sider af Atlanten har åbnet undersøgelser, og en begyndende social bevægelse opfordrer brugerne til at #SletFacebook.

Men et nøglespørgsmål er forblevet ubesvaret:Var Cambridge Analytica virkelig i stand til effektivt at målrette kampagnebudskaber til borgere baseret på deres personlighedskarakteristika - eller endda deres "indre dæmoner, "som en virksomheds whistleblower påstået?

Hvis nogen ville vide, hvad Cambridge Analytica gjorde med sin enorme skare af Facebook-data, det ville være Aleksandr Kogan og Joseph Kansler. Det var deres startup Global Science Research, der indsamlede profiloplysninger fra 270, 000 Facebook-brugere og titusinder af deres venner ved hjælp af en personlighedstest-app kaldet "thisisyourdigitallife."

En del af min egen forskning fokuserer på at forstå maskinlæringsmetoder, og min kommende bog diskuterer, hvordan digitale virksomheder bruger anbefalingsmodeller til at opbygge publikum. Jeg havde en anelse om, hvordan Kogan og kanslerens model fungerede.

Så jeg sendte en mail til Kogan for at spørge. Kogan er stadig forsker ved Cambridge University; hans samarbejdspartner kansler arbejder nu på Facebook. I en bemærkelsesværdig udfoldelse af akademisk høflighed, svarede Kogan.

Hans svar kræver noget udpakning, og lidt baggrund.

Fra Netflix-prisen til "psykometri"

Tilbage i 2006, da det stadig var et dvd-by-mail-firma, Netflix tilbød en belønning på 1 million dollars til alle, der udviklede en bedre måde at komme med forudsigelser om brugernes filmplacering på, end virksomheden allerede havde. En overraskende topkonkurrent var en uafhængig softwareudvikler, der brugte pseudonymet Simon Funk, hvis grundlæggende tilgang i sidste ende blev indarbejdet i alle topholdenes bidrag. Funk tilpassede en teknik kaldet "singular value decomposition, "kondensering af brugernes vurderinger af film til en række faktorer eller komponenter - i det væsentlige et sæt af udledte kategorier, rangeret efter vigtighed. Som Funk forklarede i et blogindlæg, "Så, for eksempel, en kategori kan repræsentere actionfilm, med film med meget action i toppen, og langsomme film i bunden, og tilsvarende brugere, der kan lide actionfilm i toppen, og dem, der foretrækker langsomme film i bunden."

Faktorer er kunstige kategorier, som ikke altid er som den slags kategorier, mennesker ville finde på. Den vigtigste faktor i Funks tidlige Netflix-model blev defineret af brugere, der elskede film som "Pearl Harbor" og "The Wedding Planner", mens de også hadede film som "Lost in Translation" eller "Eternal Sunshine of the Spotless Mind." Hans model viste, hvordan maskinlæring kan finde sammenhænge mellem grupper af mennesker, og grupper af film, som mennesker aldrig selv ville få øje på.

Funks generelle tilgang brugte de 50 eller 100 vigtigste faktorer for både brugere og film til at lave et anstændigt gæt på, hvordan hver bruger ville vurdere hver film. Denne metode, ofte kaldet dimensionsreduktion eller matrixfaktorisering, var ikke ny. Forskere i statskundskab havde vist, at lignende teknikker ved hjælp af stemmedata ved navneopråb kunne forudsige kongresmedlemmers stemmer med 90 procents nøjagtighed. Inden for psykologien var "Big Five"-modellen også blevet brugt til at forudsige adfærd ved at gruppere personlighedsspørgsmål, der havde en tendens til at blive besvaret på samme måde.

Stadig, Funks model var et stort fremskridt:Den gjorde det muligt for teknikken at fungere godt med enorme datasæt, selv dem med mange manglende data – som Netflix-datasættet, hvor en typisk bruger kun bedømte et par dusin film ud af tusindvis på virksomhedens bibliotek. Mere end et årti efter Netflix-priskonkurrencen sluttede, SVD-baserede metoder, eller relaterede modeller for implicitte data, er stadig det foretrukne værktøj for mange websteder til at forudsige, hvad brugerne vil læse, holde øje, eller købe.

Disse modeller kan forudsige andre ting, også.

Facebook ved, om du er republikaner

I 2013 Cambridge University-forskere Michal Kosinski, David Stillwell og Thore Graepel publicerede en artikel om Facebook-datas forudsigelsesevne, ved hjælp af information indsamlet gennem en online personlighedstest. Deres indledende analyse var næsten identisk med den, der blev brugt på Netflix-prisen, ved hjælp af SVD til at kategorisere både brugere og ting, de " kunne lide" i top 100 faktorer.

Avisen viste, at en faktormodel lavet med brugernes Facebook "synes godt om" alene var 95 procent nøjagtig til at skelne mellem sorte og hvide respondenter, 93 procent præcis til at skelne mænd fra kvinder, og 88 procent præcise til at skelne mellem mennesker, der identificerede sig som homoseksuelle mænd, fra mænd, der identificerede sig som hetero. Det kunne endda korrekt skelne republikanere fra demokrater 85 procent af tiden. Det var også nyttigt, selvom det ikke er så præcist, til at forudsige brugernes score på "Big Five" personlighedstesten.

Aleksandr Kogan svarer på spørgsmål på CNN.

Der var offentligt ramaskrig som reaktion; inden for få uger havde Facebook gjort brugernes likes private som standard.

Kogan og kansler, også Cambridge University forskere på det tidspunkt, begyndte at bruge Facebook-data til valgmålretning som en del af et samarbejde med Cambridge Analyticas moderfirma SCL. Kogan inviterede Kosinski og Stillwell til at deltage i hans projekt, men det lykkedes ikke. Kosinski havde angiveligt mistanke om, at Kogan og kansler kunne have reverse-manipuleret Facebook-"likes"-modellen for Cambridge Analytica. Kogan benægtede dette, sagde, at hans projekt "byggede alle vores modeller ved hjælp af vores egne data, indsamlet ved hjælp af vores egen software."

Hvad gjorde Kogan og kansler egentlig?

Mens jeg fulgte udviklingen i historien, det blev klart, at Kogan og Chancellor faktisk havde indsamlet masser af deres egne data gennem thisisyourdigitallife-appen. De kunne helt sikkert have bygget en prædiktiv SVD-model som den, der er omtalt i Kosinski og Stillwells offentliggjorte forskning.

Så jeg sendte en mail til Kogan for at spørge, om det var det, han havde gjort. Lidt til min overraskelse, skrev han tilbage.

"Vi brugte ikke ligefrem SVD, " han skrev, bemærker, at SVD kan kæmpe, når nogle brugere har mange flere "likes" end andre. I stedet, Kogan forklarede, "Teknikken var noget, vi faktisk selv udviklede ... Det er ikke noget, der er i det offentlige domæne." Uden at gå i detaljer, Kogan beskrev deres metode som "en multi-trin co-occurrence tilgang."

Imidlertid, hans besked fortsatte med at bekræfte, at hans tilgang faktisk lignede SVD eller andre matrixfaktoriseringsmetoder, ligesom i Netflix-priskonkurrencen, og Kosinki-Stillwell-Graepel Facebook-modellen. Dimensionalitetsreduktion af Facebook-data var kernen i hans model.

Hvor nøjagtig var den?

Kogan foreslog, at den nøjagtige model, der blev brugt, ikke betyder meget, dog – det, der betyder noget, er nøjagtigheden af ​​dens forudsigelser. Ifølge Kogan, "korrelationen mellem forudsagte og faktiske scores … var omkring [30 procent] for alle personlighedsdimensionerne." Til sammenligning, en persons tidligere Big Five-resultater er omkring 70 til 80 procent nøjagtige til at forudsige deres score, når de tager testen igen.

Kogans påstande om nøjagtighed kan ikke uafhængigt verificeres, selvfølgelig. Og enhver, der er midt i sådan en højprofileret skandale, kan have incitament til at underdrive sit bidrag. I sin optræden på CNN, Kogan forklarede til en stadig mere vantro Anderson Cooper, at faktisk, modellerne havde faktisk ikke fungeret særlig godt.

Faktisk, den nøjagtighed, som Kogan hævder, virker lidt lav, men plausibelt. Kosinski, Stillwell og Graepel rapporterede sammenlignelige eller lidt bedre resultater, ligesom flere andre akademiske undersøgelser, der bruger digitale fodspor til at forudsige personlighed (selvom nogle af disse undersøgelser havde flere data end blot Facebook-"synes godt om"). Det er overraskende, at Kogan og Chancellor ville gøre sig den ulejlighed at designe deres egen proprietære model, hvis hyldeløsninger ser ud til at være lige så præcise.

Vigtigt, selvom, modellens nøjagtighed på personlighedsscore tillader sammenligninger af Kogans resultater med anden forskning. Publicerede modeller med tilsvarende nøjagtighed til at forudsige personlighed er alle meget mere præcise til at gætte demografiske og politiske variabler.

For eksempel, den lignende Kosinski-Stillwell-Graepel SVD-model var 85 procent nøjagtig i at gætte partitilhørsforhold, selv uden at bruge andre profiloplysninger end likes. Kogans model havde lignende eller bedre nøjagtighed. Tilføjelse af selv en lille mængde information om venner eller brugeres demografi vil sandsynligvis øge denne nøjagtighed over 90 procent. Gæt på køn, race, seksuel orientering og andre karakteristika ville sandsynligvis også være mere end 90 procent nøjagtige.

Kritisk, disse gæt ville især være gode for de mest aktive Facebook-brugere – de personer, som modellen primært blev brugt til at målrette mod. Brugere med mindre aktivitet at analysere er sandsynligvis ikke meget på Facebook alligevel.

Når psykografi for det meste er demografi

At vide, hvordan modellen er bygget, hjælper med at forklare Cambridge Analyticas tilsyneladende modstridende udsagn om den rolle – eller mangel på samme – som personlighedsprofilering og psykografi spillede i dens modellering. De er alle teknisk i overensstemmelse med, hvad Kogan beskriver.

En model som Kogans ville give estimater for hver variabel tilgængelig for enhver gruppe af brugere. Det betyder, at den automatisk vil estimere de fem store personlighedsscore for hver vælger. Men disse personlighedsscore er resultatet af modellen, ikke input. Det eneste, modellen ved, er, at visse Facebook likes, og visse brugere, tendens til at blive grupperet sammen.

Med denne model, Cambridge Analytica could say that it was identifying people with low openness to experience and high neuroticism. But the same model, with the exact same predictions for every user, could just as accurately claim to be identifying less educated older Republican men.

Kogan's information also helps clarify the confusion about whether Cambridge Analytica actually deleted its trove of Facebook data, when models built from the data seem to still be circulating, and even being developed further.

The whole point of a dimension reduction model is to mathematically represent the data in simpler form. It's as if Cambridge Analytica took a very high-resolution photograph, resized it to be smaller, and then deleted the original. The photo still exists – and as long as Cambridge Analytica's models exist, the data effectively does too.

Denne artikel blev oprindeligt publiceret på The Conversation. Læs den originale artikel.




Varme artikler