Videnskab
 science >> Videnskab >  >> Elektronik

Store data bruges til at forudsige fremtiden

Kredit:CC0 Public Domain

Teknologien bevæger sig i store spring, og med det, den information, som samfundet arbejder med dagligt. Alligevel, datamængden skal organiseres, analyseret og korreleret for at forudsige bestemte mønstre. Dette er en af ​​hovedfunktionerne i det, der er kendt som Big Data.

Forskere i KIDS -forskergruppen fra University of Cordobas afdeling for datalogi og numerisk analyse kunne forbedre de modeller, der forudsiger flere variabler samtidigt baseret på det samme sæt inputvariabler, dermed reduceres størrelsen af ​​data, der er nødvendige for en præcis prognose. Et eksempel på dette er en metode, der forudsiger flere parametre relateret til jordkvalitet baseret på et sæt variabler, såsom plantede afgrøder, jordbearbejdning og brug af pesticider.

"Når du har at gøre med en stor mængde data, der er to løsninger. Du øger enten computerens ydeevne, hvilket er meget dyrt, eller du reducerer mængden af ​​information, der er nødvendig for, at processen kan udføres korrekt, "siger forsker Sebastian Ventura, en af ​​forfatterne til forskningsartiklen.

Når man bygger en forudsigelsesmodel, pålidelige resultater afhænger af to spørgsmål:antallet af variabler, der spiller ind, og antallet af eksempler, der er indtastet i systemet. Med tanken om, at mindre er mere, undersøgelsen har været i stand til at reducere antallet af eksempler ved at fjerne dem, der er overflødige eller "støjende, "og som derfor ikke bidrager med nogen nyttig information til skabelsen af ​​en bedre forudsigelsesmodel.

Som Oscar Reyes, forskningens hovedforfatter, påpeger "vi har udviklet en teknik, der kan fortælle dig, hvilket sæt eksempler du har brug for, så prognosen ikke kun er pålidelig, men endda kan være bedre." I nogle databaser, af de 18, der blev analyseret, de var i stand til at reducere mængden af ​​information med 80 procent uden at påvirke den prædiktive ydeevne, hvilket betyder, at mindre end halvdelen af ​​de originale data blev brugt. Alt det her, siger Reyes, "betyder at spare energi og penge i opbygningen af ​​en model, da der kræves mindre computerkraft. "Derudover skal det betyder også at spare tid, hvilket er interessant for applikationer, der fungerer i realtid, siden "det giver ikke mening for en model at tage en halv time at køre, hvis du har brug for en forudsigelse hvert femte minut."

Systemer, der forudsiger flere relaterede variabler samtidigt, kendt som multi-output regressionsmodeller, får større betydning på grund af den brede vifte af applikationer, der kunne analyseres under dette paradigme for automatisk læring, såsom dem, der er relateret til sundhedsydelser, vandkvalitet, kølesystemer til bygninger og miljøundersøgelser.


Varme artikler