Det er ikke nok at have data lige ved hånden - dataforskere skal vide, hvordan man anvender dem. Kredit:Gorodenkoff/Shutterstock
Verden er oversvømmet med data. Der er en virtuel tsunami af data, der bevæger sig rundt på kloden, fornyer sig dagligt. Tag kun de globale finansielle markeder. De genererer enorme mængder data – aktiekurser, råvarepriser, indekser, optioner og futurespriser, for blot at nævne nogle få.
Men data er til ingen nytte, hvis der ikke er folk i stand til at indsamle, samle, analysere og anvende det til gavn for samfundet. Alle de data, der genereres af globale finansielle markeder, bliver brugt til aktiv- og formueforvaltning – og de skal analyseres og forstås korrekt for at informere om god beslutningstagning. Det er her datavidenskab kommer ind.
Datavidenskabens primære mål er at udvinde indsigt fra data i forskellige former, både struktureret og ustruktureret. Det er et tværfagligt område, involverer alt fra anvendt matematik til statistik og kunstig intelligens til maskinlæring. Og det vokser. Dette er på grund af fremskridt inden for computerteknologi og behandlingshastighed, de relativt lave omkostninger ved at opbevare data, og den massive tilgængelighed af data fra internettet og andre kilder såsom globale finansmarkeder.
For at datavidenskab skal ske, selvfølgelig, du har brug for data scientists. Fordi datavidenskab er så bredt i omfang, at være data scientist dækker en række professioner. Disse omfatter statistikere, operationsforskere, ingeniører, dataloger, aktuarer, fysikere og maskinlærere.
Denne sort er ikke nødvendigvis en dårlig ting. Ud fra min egen praktiske erfaring, Jeg lærte hurtigt, at når jeg løser datavidenskabelige problemer, du har brug for en række mennesker. Nogle kan arbejde i dybden med teori, og andre kan udforske anvendelsesområdet.
Men hvordan skal disse dataforskere uddannes, så de er forberedte på de store dataudfordringer, der ligger forude?
Dataforskere bruger typisk innovative matematiske teknikker fra deres egne underområder til at prøve at løse problemer inden for et bestemt anvendelsesområde. Anvendelsesområderne – økonomi, sundhed, landbrug og astronomi er blot nogle eksempler – er meget forskellige. Det betyder, at hver især giver forskellige problemer, og dataforskere har derfor brug for viden om det særlige anvendelsesområde.
For eksempel, overveje astrofysik og Square Kilometer Array, der bygges på den sydlige spids af Afrika. Det vil være verdens største radioteleskop, når det står færdigt i midten af 2020'erne. Rækken af teleskoper siges at modtage data med en terabyte i sekundet, og forskere er typisk interesserede i at analysere datamasserne for at detektere små signaler opslugt af hvid støj.
Inden for finans, forskere udnytter store databaser meget forskelligt:for eksempel for at lære mere om deres kunders kreditadfærd.
De mest etablerede underområder inden for datavidenskab er statistik og operationsforskning, og det kan være umagen værd at lære af de etablerede træningsprogrammer på disse områder. Uddanner universiteterne nok kandidater inden for disse områder? Og er den træning god nok?
Selvom studerende inden for disse områder er veluddannede akademisk, mange kandidater i statistik og operationsforskning mangler viden om de områder, hvor de forventes at anvende de matematiske teknikker. De har også en tendens til at kæmpe med problemløsningsevner i den virkelige verden, samt manglende færdigheder i numerisk programmering og datahåndtering. Dette skyldes, at disse færdigheder ikke behandles tilstrækkeligt i mange læseplaner.
Så, at trække fra disse mangler og erfaringerne fra etablerede datavidenskabelige underområder, hvad skal universiteterne undervise håbefulde dataforskere? Her er min liste.
Denne liste kan udvides på postgraduate niveau. Og, hvad enten det er på bachelor- eller postgraduate niveau, alle disse kurser skal have et praktisk element. Dette giver eleverne mulighed for at udvikle både professionalisme og problemløsningsevner.
For eksempel, ved Center for Business Mathematics and Informatics ved Sydafrikas North-West University, mine kolleger og jeg har tilrettelagt et professionelt uddannelsesprogram, hvor studerende arbejder i seks måneder hos en kundevirksomhed for at løse et specifikt brancheproblem. Disse problemer er hovedsageligt på det finansielle område; for eksempel, modeller til at forudsige en kundes evne og vilje til at betale, modeller til forbedring af samlinger og modeller til identifikation af bedrageri.
Dette hjælper eleverne med at udvikle de nødvendige færdigheder til at fungere i arbejdsverdenen, håndtere reelle data og anvende dem på reelle problemer i stedet for blot at arbejde på et teoretisk niveau. Det også, som en kollega og jeg har argumenteret i tidligere forskning, hjælper med at lukke kløften mellem akademi og industri og gør datavidenskab mere relevant. BMI-programmerne er blevet anerkendt og rost af internationale eksperter.
Datavidenskab, som et felt, vil kun vokse i løbet af de kommende årtier. Det er bydende nødvendigt, at universiteterne uddanner kandidater, der kan håndtere enorme trancher af data, arbejde tæt sammen med de industrier, der producerer og anvender disse data – og gør data til noget, der kan ændre verden til det bedre.
Denne artikel er genudgivet fra The Conversation under en Creative Commons-licens. Læs den originale artikel.