Fake news-model i etapevis udgivelse, men to forskere fyrer op for replikering

Kredit:CC0 Public Domain

Ikke den mest trøstende nyhed i teknologiens verden:Laboratoriet for kunstig intelligens (OpenAI), som er medstiftet af Elon Musk, sagde, at dets software for let kunne tilpasses til at udsende falske nyheder. "To kandidater genskabte det alligevel." Det var Kablet 's dækning den 26. august af en historie om to nylige kandidater i datalogi, der har frigivet, hvad de sagde var "en genskabelse af OpenAI's tilbageholdte software", som alle kan downloade og bruge.

tilbageholdt? Hvorfor? Det var blevet tilbageholdt på grund af bekymringer om de samfundsmæssige konsekvenser.

I februar, OpenAI annoncerede deres model, GPT-2, og sagde, at det var trænet til at forudsige det næste ord i 40 GB internettekst.

De præciserede deres udgivelsesstrategi:"På grund af bekymringer om, at store sprogmodeller bliver brugt til at generere vildledende, forudindtaget, eller grovt sprog i skala, vi udgiver kun en meget mindre version af GPT-2 sammen med samplingkode. Vi frigiver ikke datasættet, træningskode, eller GPT-2 modelvægte." I maj sagde MIT teknologi Anmeldelse , "et par måneder efter GPT-2's første debut, OpenAI reviderede sin holdning til at tilbageholde den fulde kode til, hvad den kalder en "iscenesat udgivelse."

Charanjeet Singh ind Fossbytes sagde, at softwaren analyserede sprogmønstre og kunne bruges til opgaver som chatbots og komme med hidtil usete svar, men "den mest alarmerende bekymring blandt eksperter har været skabelsen af syntetisk tekst."

Godt, de to kandidater i nyhederne frigav en genskabelse af OpenAI-softwaren på internettet, men de to forskere, Aaron Gokaslan ad Vanya Cohen, aldrig ønsket at dræne oceaner eller få himlen til at falde.

Tom Simonite, der skrev den meget citerede artikel i Kablet , sagde de to forskere, 23 og 24 år, var ikke ude på at forårsage kaos, men sagde, at deres udgivelse var beregnet til at vise, at du ikke behøver at være et elitelaboratorium rigt på dollars og Ph.D.'er for at skabe denne form for software:De brugte anslået $50, 000 gratis cloud computing fra Google.

Sissi Cao, Observatør :Svarende til OpenAI's proces, Gokaslan og Cohen trænede deres sprogsoftware ved at bruge websider med tekst "skrevet af mennesker (ved at høste links delt på Reddit) og cloud computing fra Google.

Hvad er mere, at forskernes handlinger er potentielt farlige, kunne diskuteres.

Simonite gjorde denne pointe:"Machine learning software opfanger de statistiske mønstre af sprog, ikke en sand forståelse af verden. Tekst fra både original- og wannabe-softwaren tager ofte useriøse spring. Ingen af dem kan rettes til at inkludere særlige kendsgerninger eller synspunkter."

Eksempeloutput blev leveret af Gokaslan og Cohen i Medium og, helt sikkert, det er en hovedskraber, da man forsøger at finde et hvilket som helst logisk flow fra en sætning til en anden.

Denne artikel havde titlen "OpenGPT-2:We Replicated GPT-2 because You Can Too." De sagde, at de mente, at frigivelsen af deres model var et rimeligt første skridt mod at imødegå det potentielle fremtidige misbrug af denne slags modeller. Han sagde, at de modificerede deres kodebase til at matche sprogmodelleringstræningsmålet for GPT-2. "Da deres model blev trænet på et tilsvarende stort korpus, meget af koden og hyperparametrene viste sig let genbrugelige."

Da Open-AI ikke havde frigivet deres største model på dette tidspunkt [datoen for hans opslag var den 22. august], han sagde, at de to forskere forsøgte at replikere deres 1.5B-model for at give andre mulighed for at bygge videre på deres fortrænede model og forbedre den yderligere.

Spol frem til den 29. august. Hvor efterlader alt dette OpenAI's GPT-2? Karen Hao ind MIT Technology Review sagde, at hans politiske team har offentliggjort et papir, indsendt den 24. aug. som nu er oppe på arXiv, og "ved siden af, laboratoriet har udgivet en version af modellen, kendt som GPT-2, det er halvt så stort som det fulde, som stadig ikke er frigivet."

Haos artikel var særligt nyttig til at forstå dette falske tekst-drama, da hun rapporterede om, hvordan metoden med iscenesat udgivelse blev modtaget uden for OpenAI.

En deep learning-ingeniør hos Nvidia sagde, at han ikke mente, at en iscenesat udgivelse var særlig nyttig i dette tilfælde, fordi arbejdet var let at kopiere, "Men det kan være nyttigt på den måde, at det danner præcedens for fremtidige projekter. Folk vil se iscenesat udgivelse som en alternativ mulighed."

Hun citerede også Oren Etzioni, administrerende direktør for Allen Institute for Artificial Intelligence. "Jeg bifalder deres hensigt om at designe en tankevækkende, gradvis udgivelsesproces for AI-teknologi, men spørgsmålet om, hvorvidt al fanfaren var berettiget."

Sidste artikelBetjening inficerer vilkårligt iPhones med spyware

Næste artikelComputerfejl i Frankrig forsinker hundredvis af flyvninger videre