Fig. 1. Flere asynkrone GPU-strømme af GMiner. Kredit:Daegu Gyeongbuk Institut for Videnskab og Teknologi (DGIST)
Et forskerhold ved Koreas Daegu Gyeongbuk Institut for Videnskab og Teknologi (DGIST) lykkedes med at analysere big data op til 1, 000 gange hurtigere end eksisterende teknologi ved at bruge GPU-baseret 'GMiner' teknologi. Fundet af big data-mønsteranalyse forventes at blive brugt i forskellige brancher, herunder finans- og it-sektoren.
Et internationalt team af forskere, ledet af professor Min-Soo Kim fra Institut for Informations- og Kommunikationsteknik udviklet 'GMiner'-teknologi, der kan analysere big data-mønstre i høj hastighed. GMiner-teknologi udviser ydeevne op til 1, 000 gange hurtigere end verdens nuværende bedste mønstermineteknologi.
Mønstermineteknologi identificerer alle vigtige mønstre, der optræder gentagne gange i big data på forskellige områder, såsom at købe varer hos mega-marts, banktransaktioner, netværkspakker, og sociale netværk. Denne teknologi er meget udbredt i forskellige industrier til formål såsom at bestemme placeringen af produkter på mega-mart-hylder eller anbefale kreditkort, der matcher brugsmønstrene for forbrugere i forskellige aldre.
Den voksende betydning af mønstermining har ført til udviklingen af tusindvis af mønsterminingsteknologier i løbet af de sidste 20 år; imidlertid, på grund af den stigende længde af big data-mønstre, hvilket øgede antallet af analytiske mønstre eksponentielt, eksisterende mineteknologier blev forhindret i deres analyse af data på mere end ti gigabyte (GB), fordi de ikke kunne gennemføre deres analyse på grund af utilstrækkelig computerhukommelse eller tog for meget tid.
Traditionelle mønstermineteknologier fandt først mellemlange mønstre og lagrede dem i hukommelsen. Når du søger et mønster, der er længere end mellemlangt, de brugte en metode til at finde endelige mønstre i sammenligning med et mellemlangt mønster, der tidligere var blevet gemt.
Fig. 2. Dataflow af GMiner ved hjælp af flere GPU'er. Kredit:Daegu Gyeongbuk Institut for Videnskab og Teknologi (DGIST)
Imidlertid, GMiner-teknologien udviklet af forskergruppen har formået at løse problemet med eksisterende teknologier grundlæggende ved at foreslå anti-intuitive teknikker, der kombinerer de midlertidigt beregnede mellemlange mønstre ved hjælp af tusindvis af kerner på grafikprocessorenheder (GPU) til at beregne den endelige længde på mønstre.
GMiner-teknologi løste fuldstændigt det kroniske problem med utilstrækkelig hukommelse, som konventionelle teknologier lider af, ved ikke at lagre et eksponentielt antal mellemlange mønstre i hukommelsen. Ud over, det løste problemet med langsom hastighed ved at streame data fra hovedhukommelsen til GPU'en og samtidig søge mønstre ved hjælp af GPU'ens høje beregningsydelse.
GMiner-teknologi viste analyseydelse, der er minimum 10 gange til maksimalt 1, 000 gange hurtigere end konventionelle distribuerede og parallelle teknologier, der analyserede data ved at bruge op til snesevis af almindelige hjemmecomputere, der har en enkelt GPU pr. computer; dermed, den kan analysere store data i større skala end eksisterende teknologier. Det viste også fremragende udvidelsesydelse, der forbedrer ydeevnen i forhold til antallet af GPU'er.
Professor Kim sagde, "Vi har sikret grundlæggende teknologier, der kan analysere big data-mønstre i høj hastighed uden problemer i hukommelsen for big data akkumuleret i en række forskellige industrier. Ved at løse problemer, hvor mønstermineteknologier ikke blev korrekt anvendt på big data på grund af mangel på hukommelse og langsom hastighed, denne nye teknologi kan bruges til at hjælpe virksomheder med at træffe effektive beslutninger ved at analysere big data-mønstre i forskellige sektorer, herunder finanssektoren, detailhandel, DET, og biorelaterede sektorer."
Dette forskningsresultat blev offentliggjort i 9. maj-udgaven af Information Sciences, det mest autoritative internationale tidsskrift inden for informationsvidenskab.