Intel samarbejder med Novartis om brugen af dybe neurale netværk (DNN) for at fremskynde screening af højt indhold - et vigtigt element i tidlig opdagelse af lægemidler. Samarbejdsteamet reducerede tiden til at træne billedanalysemodeller fra 11 timer til 31 minutter - en forbedring på mere end 20 gange.
Høj indholds screening af cellulære fænotyper er et grundlæggende værktøj, der understøtter tidlig opdagelse af lægemidler. Udtrykket "højt indhold" betegner det rige sæt af tusinder af foruddefinerede funktioner (såsom størrelse, form, tekstur), der ekstraheres fra billeder ved hjælp af klassiske billedbehandlingsteknikker. Screening med højt indhold tillader analyse af mikroskopiske billeder at studere virkningerne af tusinder af genetiske eller kemiske behandlinger på forskellige cellekulturer.
Løftet om dyb læring er, at relevante billedegenskaber, der kan skelne en behandling fra en anden, "automatisk" læres af dataene. Ved at anvende dyb neural netværksacceleration, biologer og dataforskere hos Intel og Novartis håber at fremskynde analysen af billedskærme med højt indhold. I dette fælles arbejde teamet fokuserer på hele mikroskopibilleder i modsætning til at bruge en separat proces til først at identificere hver celle i et billede. Hele mikroskopibilleder kan være meget større end dem, der typisk findes i datasæt med dyb læring. For eksempel, billederne, der bruges i denne evaluering, er mere end 26 gange større end billeder, der typisk bruges fra det velkendte ImageNet-datasæt af dyr, objekter og scener.
Dybe konvolutionsmæssige neurale netværksmodeller, til analyse af mikroskopibilleder, arbejder typisk på millioner af pixels pr. billede, millioner af parametre i modellen og muligvis tusindvis af træningsbilleder ad gangen. Det udgør en høj beregningsmæssig belastning. Selv med avancerede beregningsmuligheder på eksisterende computerinfrastruktur, dybere udforskning af DNN -modeller kan være uoverkommelig med hensyn til tid.
For at løse disse udfordringer, samarbejdet anvender dybe neurale netværksaccelerationsteknikker til at behandle flere billeder på betydeligt kortere tid og samtidig udtrække større indsigt fra billedfunktioner, som modellen i sidste ende lærer.
Samarbejdsteamet med repræsentanter fra Novartis og Intel har vist mere end 20 gange1 forbedringer i tiden til at behandle et datasæt med 10K billeder til træning. Brug af Broad Bioimage Benchmark Collection 021 (BBBC-021) datasæt, teamet har opnået en samlet behandlingstid på 31 minutter med over 99 procent nøjagtighed.
For dette resultat, teamet brugte otte CPU-baserede servere, en højhastighedsforbindelse af stof, og optimeret TensorFlow1. Ved at udnytte det grundlæggende princip om dataparallellisme i dyb læringstræning og evnen til fuldt ud at udnytte fordelene ved stor hukommelsesunderstøttelse på serverplatformen, teamet var i stand til at skalere til mere end 120 3,9 megapixel billeder i sekundet med 32 TensorFlow-medarbejdere.
Mens overvågede metoder til dyb læring er afgørende for at fremskynde billedklassificering og fremskynde tid til indsigt, deep learning-metoder afhænger af store ekspertmærkede datasæt for at træne modellerne. Den tid og manuelle indsats, der er nødvendig for at oprette sådanne datasæt, er ofte uoverkommelig. Uovervåget metoder til dyb læring - der kan anvendes på umærkede mikroskopibilleder - holder løftet om at afsløre ny indsigt i cellulær biologi og i sidste ende lægemiddelfund. Dette vil være fokus for den fortsatte indsats i fremtiden.