I modsætning til specialbyggede datalagringssystemer, en datasø kan bruges til at dumpe data i sin oprindelige form. Disse data forbliver normalt uden opsyn. Kredit:Shutterstock.com
Maskiner og internettet er vævet ind i vores samfunds struktur. Et stigende antal brugere, enheder og applikationer arbejder sammen for at producere det, vi nu kalder "big data". Og disse data hjælper med at drive mange af de daglige tjenester, vi får adgang til, såsom bank.
En sammenligning af internet snapshots fra 2018 og 2019 belyser den stigende hastighed, hvormed digital information udveksles dagligt. Udfordringen med sikker indsamling og lagring af data bliver med tiden mere kompliceret.
Det er her datalagre og datasøer er relevante. Begge er onlinepladser, der bruges af virksomheder til intern databehandling og opbevaring.
Desværre, siden begrebet datasøer opstod i 2010, der er ikke gjort nok til at løse spørgsmål om cybersikkerhed.
Disse værdifulde lagre forbliver udsat for et stigende antal cyberangreb og databrud.
Et foreslået universalmiddel for big data -problemer
Den traditionelle tilgang, der bruges af tjenesteudbydere, er at gemme data i et "datalager" - et enkelt lager, der kan bruges til at analysere data, oprette rapporter, og konsolidere oplysninger.
Imidlertid, data, der går ind på et lager, skal forudbehandles. Med zettabyte data i cyberspace, dette er ikke en let opgave. Forbehandling kræver en stor mængde beregning udført af avancerede supercomputere, og koster tid og penge.
Datasøer blev foreslået for at løse dette. I modsætning til lagre, de kan gemme rådata af enhver type. Datasøer betragtes ofte som et universalmiddel for big data -problemer, og er blevet omfavnet af mange organisationer, der forsøger at drive innovation og nye tjenester til brugerne.
James Dixon, den amerikanske datatekniker, der angiveligt opfandt udtrykket, beskriver datasøer således:"Hvis du tænker på en datamart som et lager af flaskevand - renset og pakket og struktureret til let forbrug - er datasøen en stor vandmasse i en mere naturlig tilstand. Indholdet af datasøstrømmen ind fra en kilde for at fylde søen, og forskellige brugere af søen kan komme for at undersøge, dykke i, eller tag prøver. "
Vær forsigtig med at svømme i en datasø
Selvom datasøer skaber muligheder for dataknusere, deres digitale døre forbliver ubevogtet, og løsning af cybersikkerhedsproblemer er fortsat en eftertanke.
Vores evne til at analysere og udtrække intelligens fra datasøer er truet inden for cyberrummet. Dette fremgår tydeligt af det store antal seneste datalovbrud og cyberangreb på verdensplan.
Med teknologiske fremskridt, vi bliver endnu mere tilbøjelige til cyberangreb. Konfrontering af ondsindet cyberaktivitet bør være en prioritet i det nuværende digitale klima.
Mens forskningen om dette har blomstret i de seneste år, der mangler endnu en stærk forbindelse mellem effektiv cybersikkerhed og datasøer.
Ikke ualmindeligt at blive kompromitteret
På grund af fremskridt inden for skadelig software, specifikt i malware -tilsløring, det er let for hackere at skjule en farlig virus i en fil, der ser ufarlig ud.
Falske datainjektionsangreb er steget i løbet af det sidste årti.
Angrebet sker, når en cyberkriminel udnytter frit tilgængelige værktøjer til at kompromittere et system, der er forbundet til internettet, at injicere det med falske data.
De udenlandske data, der indsættes, får uautoriseret adgang til datasøen og manipulerer de lagrede data for at vildlede brugerne. Der er mange potentielle motivatorer bag et sådant angreb.
Komponenter i datasøer
Data lake -arkitektur kan opdeles i tre komponenter:dataindtagelse, datalagring og dataanalyse.
Dataindtagelse refererer til data, der kommer ind i søen fra en række forskellige kilder. Dette sker normalt uden legitime sikkerhedspolitikker. Når indgående data ikke kontrolleres for sikkerhedstrusler, en gylden mulighed for cyberkriminelle til at injicere falske data.
Den anden komponent er datalagring, hvor alle rådata bliver dumpet. Igen, dette sker uden betydelige cybersikkerhedshensyn.
Den vigtigste komponent i datasøer er dataanalyse, som kombinerer analytikernes ekspertise, forskere og dataofficerer. Formålet med dataanalyse er at designe og udvikle modelleringsalgoritmer, der kan bruge rådata til at producere meningsfuld indsigt.
For eksempel, dataanalyse er, hvordan Netflix lærer om sine abonnenters visningsvaner.
Udfordringer forude for dataeksperter
Den mindste ændring eller manipulation i datasøer kan enormt vildlede dataknusere og have stor indflydelse.
For eksempel, kompromitterede datasøer har enorme konsekvenser for sundhedsvæsenet, fordi enhver afvigelse i data kan føre til en forkert diagnose, eller endda tilskadekomne.
Også, offentlige instanser, der anvender kompromitterede datasøer, kan komme til at stå i kaos i internationale anliggender og handelssituationer. Forsvaret, finansiere, ledelse og uddannelsessektorer er også sårbare over for data lake -angreb.
I betragtning af mængden af data, der er gemt i datasøer, konsekvenserne af cyberangreb er langt fra trivielle.
Og da det er uundgåeligt at generere enorme mængder data i nutidens verden, Det er afgørende, at data lake arkitekter forsøger hårdere at sikre, at disse risikodata-depoter bliver passet korrekt.
Denne artikel er genudgivet fra The Conversation under en Creative Commons -licens. Læs den originale artikel.