Videnskab
 science >> Videnskab >  >> Elektronik

Revolutionerende billedgenerering gennem AI:Gør tekst til billeder

Billede genereret ud fra teksten "Glade grøntsager venter på aftensmad.". Kredit:Ludwig Maximilian Universitetet i München

Skaber du billeder ud fra tekst på få sekunder – og gør du det med et konventionelt grafikkort og uden supercomputere? Hvor fantasifuldt det end lyder, er dette gjort muligt af den nye Stable Diffusion AI-model. Den underliggende algoritme er udviklet af Machine Vision &Learning Group ledet af prof. Björn Ommer (LMU München).

"Selv for lægfolk, der ikke er velsignet med kunstnerisk talent og uden særlig computer-knowhow og computerhardware, er den nye model et effektivt værktøj, der gør computere i stand til at generere billeder på kommando. Som sådan fjerner modellen en barriere for almindelige menneskers udtryk for deres kreativitet. , siger Ommer. Men der er også fordele for erfarne kunstnere, som kan bruge Stable Diffusion til hurtigt at konvertere nye ideer til en række grafiske udkast. Forskerne er overbevist om, at sådanne AI-baserede værktøjer vil være i stand til at udvide mulighederne for kreativ billedgenerering med pensel og Photoshop lige så fundamentalt som computerbaseret tekstbehandling revolutionerede skrivning med kuglepenne og skrivemaskiner.

I deres projekt havde LMU-forskerne støtte fra opstarten Stability.Ai, på hvis servere AI-modellen blev trænet. "Denne ekstra computerkraft og de ekstra træningseksempler gjorde vores AI-model til en af ​​de mest kraftfulde billedsyntesealgoritmer," siger datalogen.

Essensen af ​​milliarder af træningsbilleder

Et særligt aspekt ved fremgangsmåden er, at den trods al kraften i den trænede model ikke desto mindre er så kompakt, at den kører på et konventionelt grafikkort og ikke kræver en supercomputer, som det tidligere var tilfældet for billedsyntese. Til dette formål destillerer den kunstige intelligens essensen af ​​milliarder af træningsbilleder til en AI-model på blot et par gigabyte.

"Når en sådan AI virkelig har forstået, hvad der er en bil, eller hvilke karakteristika der er typiske for en kunstnerisk stil, vil den have opfattet netop disse markante træk og burde ideelt set kunne skabe yderligere eksempler, ligesom eleverne i et gammelt mesterværksted kan producere arbejde i samme stil,« forklarer Ommer. I forfølgelsen af ​​LMU-forskernes mål om at få computere til at lære at se - det vil sige at forstå indholdet af billeder - er dette endnu et stort skridt fremad, som fremmer grundforskningen i maskinlæring og computersyn yderligere.

Den trænede model blev for nylig frigivet gratis under "CreativeML Open RAIL-M"-licensen for at lette yderligere forskning og anvendelse af denne teknologi mere bredt. "Vi er spændte på at se, hvad der vil blive bygget med de nuværende modeller, samt at se, hvilke yderligere værker der kommer ud af åbne, kollaborative forskningsindsatser," siger doktorgradsforsker Robin Rombach. + Udforsk yderligere

En model til at generere kunstneriske billeder baseret på tekstbeskrivelser




Varme artikler