Videnskab
 science >> Videnskab >  >> Elektronik

Forespørgsel til big data er lige blevet universel

(L-R) Fuad Jamour, Panos Kalnis og Yanzhao Chen bygger systemer og algoritmer til behandling og analyse af meget store datasæt. Kredit:2019 KAUST

For at løse en af ​​de vigtigste forhindringer i big-data videnskab, KAUST-forskere har skabt en ramme til at søge i meget store datasæt, der kører let på forskellige computerarkitekturer. Deres præstation giver forskere mulighed for at koncentrere sig om at fremme søgemaskinen, eller forespørgselsmotor, sig selv frem for omhyggelig kodning til specifikke computerplatforme.

Big data er et af de mest lovende og alligevel udfordrende aspekter af nutidens informationstunge verden. Mens de enorme og stadigt voksende informationssæt, såsom online indsamlede data eller genetisk information, kunne rumme stærk indsigt for videnskaben og menneskeheden, behandling og afhøring af alle disse data kræver meget sofistikerede teknikker.

Mange forskellige tilgange til at forespørge om big data er blevet undersøgt. Men en af ​​de mest kraftfulde og beregningsmæssigt effektive er baseret på at analysere data med en subjekt-prædikat-objekt triplestore struktur af formularen (f.eks. æble, er en, frugt). Denne struktur egner sig til at blive behandlet som en graf med kanter og spidser, og denne egenskab er blevet brugt til at kode forespørgselsmotorer til specifikke computerarkitekturer for maksimal effektivitet. Imidlertid, sådanne arkitekturspecifikke tilgange kan ikke uden videre overføres til forskellige platforme, begrænse mulighederne for innovation og avancement inden for analyse.

"Moderne computersystemer giver forskellige platforme og acceleratorer, og programmering af dem kan være skræmmende og tidskrævende, " siger Fuad Jamour og Yanzhao Chen, Ph.D. kandidater i Panos Kalnis' gruppe i KAUSTs Extreme Computing Research Center. "Vores forskningsgruppe fokuserer på at bygge systemer og algoritmer til behandling og analyse af meget store datasæt. Denne forskning adresserer ønsket om at skrive et program én gang og derefter bruge det på tværs af forskellige platforme."

Panos Kalnis og hans elever, Yanzhao Chen og Fuad Jamour, bygger systemer og algoritmer til behandling og analyse af meget store datasæt. Kredit:2019 KAUST

I stedet for de tidligere anvendte graf-traversal- eller udtømmende relationel-indekseringstilgange, gruppen forespurgte triplestore-data ved at bruge en anvendt matematisk tilgang kaldet sparse-matrix-algebra.

"Vores papir beskriver den første forskningsgraf-forespørgselsmotor med matrixalgebra i sin kerne for at løse problemet med portabilitet, " siger Jamour. "De fleste eksisterende grafforespørgselsmotorer er designet til enkelte computere eller små distribuerede hukommelsessystemer. Og portering af eksisterende motorer til store distribuerede hukommelsessystemer, som supercomputere, indebærer en betydelig ingeniørindsats. Vores sparse-matrix algebra-skema kan bruges til at bygge skalerbare, bærbare og effektive graf-forespørgselsmotorer."

Holdets eksperimenter på store reelle og syntetiske datasæt opnåede ydeevne sammenlignelig med, eller bedre end, eksisterende specialiserede tilgange til komplekse forespørgsler. Deres ordning har også kapacitet til at skalere op til meget store computerinfrastrukturer, der håndterer datasæt på op til 512 milliarder tripler.

"Disse ideer kan lette opbygningen af ​​analysekomponenter i grafdatabaser med banebrydende ydeevne, som i øjeblikket er meget efterspurgt, " siger Chen.


Varme artikler