Videnskab
 science >> Videnskab >  >> Andet

Forstærkende læringsbaserede simuleringer viser menneskets ønske om altid at ønske mere, kan fremskynde læringen

Miljødesign. (a) Det todimensionelle gridworld-miljø brugt i eksperiment 1. (b) For at studere egenskaberne af den optimale belønning lavede vi adskillige modifikationer til gridworld-miljøet. Øverste række:I engangslæringsmiljøet kunne agenten vælge at blive på madstedet konstant efter at have nået det. I livstidslæringsmiljøet blev agenten teleporteret til et tilfældigt sted i gridworld, så snart den nåede fødevaretilstanden. Midterste række:I det stationære miljø forblev maden på samme sted i hele agentens levetid. I det ikke-stationære miljø ændrede maden sin placering i løbet af agentens levetid. Nederste række:Vi brugte en gitterverden i størrelsen 7 × 7 til at simulere en tæt belønningsindstilling. For at simulere en sparsom belønningsindstilling øgede vi størrelsen af ​​gridworld til 13 × 13. Kredit:PLOS Computational Biology (2022). DOI:10.1371/journal.pcbi.1010316

En trio af forskere, to med Princeton University, den anden Max Planck Institute for Biological Cybernetics, har udviklet en forstærkende læringsbaseret simulering, der viser, at det menneskelige ønske om altid at ønske mere kan have udviklet sig som en måde at fremskynde læring på. I deres papir offentliggjort i PLOS Computational Biology med åben adgang , Rachit Dubey, Thomas Griffiths og Peter Dayan beskriver de faktorer, der gik ind i deres simuleringer.

Forskere, der studerer menneskelig adfærd, er ofte blevet forundret over folks tilsyneladende modstridende ønsker. Mange mennesker har et uophørligt ønske om mere af visse ting, selvom de ved, at opfyldelse af disse ønsker måske ikke resulterer i det ønskede resultat. Mange mennesker vil have flere og flere penge, for eksempel med tanken om, at flere penge ville gøre livet lettere, hvilket burde gøre dem gladere. Men et væld af undersøgelser har vist, at at tjene flere penge sjældent gør folk gladere (med undtagelse af dem, der starter fra et meget lavt indkomstniveau). I denne nye indsats forsøgte forskerne bedre at forstå, hvorfor mennesker ville have udviklet sig på denne måde. Til det formål byggede de en simulering for at efterligne den måde, mennesker reagerer følelsesmæssigt på stimuli, såsom at nå mål. Og for bedre at forstå, hvorfor folk måske føler, som de gør, tilføjede de kontrolpunkter, der kunne bruges som et lykkebarometer.

Simuleringen var baseret på forstærkende læring, hvor mennesker (eller en maskine) fortsætter med at gøre ting, der giver en positiv belønning og holder op med at gøre ting, der ikke giver nogen belønning eller en negativ belønning. Forskerne tilføjede også simulerede følelsesmæssige reaktioner på de kendte negative virkninger af tilvænning og sammenligning, hvorved folk bliver mindre glade over tid, efterhånden som de vænner sig til noget nyt og bliver mindre glade, når de ser, at en anden har mere af noget, de ønsker.

Ved at køre simuleringen fandt forskerne ud af, at den opnåede mål hurtigere, når tilvænning og sammenligning kom i spil - et forslag om, at sådanne følelsesmæssige reaktioner også kan spille en rolle i hurtigere læring hos mennesker. De fandt også ud af, at simuleringen endte mindre "glad", når de stod over for flere valg med hensyn til mulige opnåelige muligheder, end når der kun var nogle få at vælge imellem.

Forskerne foreslår, at grunden til, at folk er tilbøjelige til at blive fanget i en endeløs cyklus, hvor de altid vil have mere, er, at det generelt hjælper mennesker til at lære hurtigere. + Udforsk yderligere

Glæde:Hvorfor læring, ikke belønninger, kan være nøglen

© 2022 Science X Network




Varme artikler