Kredit:CC0 Public Domain
Et internationalt team af forskere testede ideen om, at gratis online vurderinger er mindre troværdige end dem, der har nogle omkostninger for dem, trækker fra den økologiske teori kendt som "kostbar signaleringsteori."
Teorien antyder, at hvis det har en pris at forlade en anmeldelse - hvad enten det er penge eller tid eller energi - vil det resultere i mere nøjagtige vurderinger. I økologi, kostbar signalteori hævder, at udstillinger, der "koster" mere - som kunstfærdige påfuglehaler, eller anstrengende visninger af sult fra babyfugle - er mere tilbøjelige til at afspejle virkeligheden. En farverig hale betegner en sund påfugl, og en kylling med en fuld mave vil ikke spilde energien til at råbe efter mere mad.
Men Princeton-sociologen Dalton Conley og hans kolleger er de første til at anvende denne teori på Yelp eller Uber og deres vurderingssystemer. Ved at teste en række vægtede vurderingsværktøjer i sammenhæng med et videospil, de fandt ud af, at vurderinger med lav indsats var mindre nøjagtige end dem, der kostede et par ekstra sekunder at bruge. De konkluderede, at e-handelswebsteder bør redesigne deres grænseflader for at pålægge tidsomkostninger for vurderingerne af produkter eller tjenester.
"Simpelt sagt:gør vurdering af varer eller tjenester så let som muligt, som mange e-handelssider forsøger at gøre, er kontraproduktivt, " sagde Conley, Princetons Henry Putnam University professor i sociologi og en fakultet tilknyttet Office of Population Research og Center for Health and Wellbeing, som er seniorforfatter på et nyligt papir i Proceedings of the National Academies of Science. "Ditto for at tvinge alle til at give en vurdering. Bedømmelser er i stedet mere præcise, når de koster noget at give."
Han fortsatte:"Ubers og andre e-handelssiders intuition er sandsynligvis forkert. Der er en grund til, at påfuglens fjer er så dyre at producere:deres omkostninger sikrer et ærligt signal om reproduktiv fitness."
Eller, som medforfatter Lucas Parra udtrykte det:"Online vurderinger er værdiløse, er de ikke? Medmindre de pådrager sig nogle omkostninger for bedømmerne!" Parra er Harold Shames-professor i biomedicinsk teknik ved City College i New York.
Conley, Parra og deres team af medforfattere hævdede, at selvom der er ringe motivation til at snyde med online vurderinger - er der ikke noget åbenlyst incitament til at efterlade en én-stjernet anmeldelse af et sted, vi kunne lide, eller en femstjernet anmeldelse af en losseplads – der er, i bedste fald, ringe direkte fordel for bedømmere, der giver nøjagtige vurderinger, tyder på, at folk sandsynligvis vil levere information af lav kvalitet.
De besluttede at teste teorien ved at pålægge en "omkostning" til at give information - og højere omkostninger på ekstreme vurderinger - for at se, om de kunne eliminere eller reducere antallet af uærlige, gennemsnitlig skævvridning af en- og femstjernede vurderinger.
Så de skabte nogle videospil, og rekrutterede spillere fra Amazons Mechanical Turk.
I et typisk spil, spillere manøvrerede en bil for at samle mønter, vel vidende, at de ville modtage én cent af den virkelige betaling for hver digital mønt, der blev indsamlet. Veje var adskilt af søer, der kun kunne krydses med færger. De første to færgeture blev brugt som træningssæt, med forsinkelser på 20 sekunder og derefter 4 sekunder, at sætte en fælles baseline for vurderinger af færgepræstationer. Efter det, spillet varierede tilfældigt forsinkelserne og hastighederne for færgefarten. De hurtigste færger ankom med det samme og krydsede søen inden for 2 sekunder, mens de langsomste færger var både forsinkede i ankomsten og langsomt bevægende, det kræver i alt 40 sekunder at krydse en sø.
I slutningen af hver færgetur, spillere skulle vurdere færgefarten på en skala fra 0 til 100, før de kunne komme videre. Disse vurderinger blev data for forskerholdet. Bedømmelsesværktøjet i spillet brugte en vægtet skydebjælke med digital "friktion" for hvert punkt, som en spiller flyttede væk fra en tidligere fastsat gennemsnitlig bedømmelse. Med andre ord, jo mere ekstrem din score, jo flere sekunder du brugte på at skubbe stangen op eller ned.
Samlet gameplay var begrænset til 15 minutter, så spillerne var motiverede til at indsende deres placeringer så hurtigt som muligt, så de kunne gå tilbage til at indsamle deres pengebelønninger. Spillere kørte i gennemsnit 17 færger pr. kamp, giver forskerne mulighed for at måle sammenhænge mellem deres subjektive vurderinger og færgers objektive service (målt som samlet tid til at tage færgen), både inden for og på tværs af fag.
De fandt ud af, at deres vægtede skyderbar førte til mere pålidelige vurderinger af mængden af kvalitet end en uvægtet klikbjælke, hvor alle karakterer fra 0 til 100 kunne gives ved et øjeblikkeligt klik på skærmen – hvor alle vurderinger var lige "billige".
Deres resultater har betydning for de allestedsnærværende anmodninger om vurderinger inden for e-handel, og deres tilgang kan generaliseres og testes i en række store online kommunikationssystemer, sagde forskerne.
Holdet havde ikke sat sig for at teste vurderinger, sagde Conley. De var oprindeligt interesserede i online læring, "men i løbet af eksperimenterne indså vi, at de vurderingsdata, vi fik ... ikke var særlig gode, så vi satte os for at forbedre det problem."
De var overraskede over at finde ud af, at reduktion af omkostningerne ved vurderinger faktisk gav bagslag. Klassisk økonomisk teori antyder, at minimering af omkostningerne ville give de bedste resultater, men deres data viser det modsatte.
Kort sagt, Uber skal bremse sit vurderingsværktøj, sagde Conley. "Konvertering af vurderingsenheden fra et simpelt klik til en skyder, hvor det bliver svært at give meget høje eller lave scores på grund af skyderen, der bremser, når brugeren kommer længere ud i begge retninger, giver bedre scoringsfordelinger. Kun højt motiverede bedømmere vil give ekstreme resultater."