Hvad er forskellen mellem statistik og datavidenskab - og, måske endnu vigtigere, hvorfor har vi to felter med, hvad der synes at være det samme fokus? Den bedste måde at forstå fremkomsten af datavidenskab som en separat disciplin, forklarer Herman "Gene" Ray, direktør for Center for Statistik og Analytisk Forskning ved Kennesaw State University, er at se datalogi som en sammensmeltning af datalogi og statistik. "De fleste traditionelle statistikprogrammer lærer dig en masse teori og hvordan du løser problemer i hånden, " siger han. "Computerapplikationer er noget af en eftertanke. Men virksomheder vil ikke analysere 100 millioner poster i hånden; de har at gøre med enorme bekvemmelighedsprøver. Og det er her, datavidenskab træder ind."
Og det er her, den akademiske konflikt starter:Statistikere siger, at datavidenskabsmænd mangler det statistiske eller matematiske grundlag til at forstå dataindsamling og analyse, og dataforskere ruller med øjnene til statistikere for deres manglende programmeringskyndige. Det her, siger Ray, var den største hindring, de stod over for i at skabe en af de første amerikanske Ph.D. programmer i analyse og datavidenskab:Hvordan gør kombinerer du statistik og datalogi? "Hver en tror, de kan klare det uden den anden, " siger han. "Men virkeligheden er, at de fleste statistikere ikke er særlig gode programmører, og de fleste dataloger forstår ikke rigtig nogle af nuancerne i statistik. Vores mål er at bygge bro over den kløft."
Deres løsning, delvis, udnyttet den stigende bevidsthed blandt virksomheder i Atlanta-området om vigtigheden af data. Analytics and Data Science Institute oprettede ni sponsorerede forskningslaboratorier, hver fokuseret på dataproblemer, som en virksomhed eller offentlig tjeneste eller nonprofit står over for, og hver med en til fire ph.d. studerende ledet af et fakultetsmedlem. "De er som miniature-tænketanke, der udforsker problemer i den virkelige verden, " siger Ray. "Og ved at gøre det, studerende kommer til at forstå problemet fra datalogien og det statistiske perspektiv." En mere traditionelt indstillet statistikstuderende kan blive opmuntret af en kollega til at udforske neurale netværk, mens en mere traditionelt indstillet datalogistuderende kan blive opfordret til at se, hvorfor de er nødt til at bruge repræsentativ sampling frem for bekvemmelighedssampling.
Et nyligt projekt involverede samarbejde med Cobb County Brandvæsen, en forstad til Atlanta, som ikke opfyldte de nationale målinger for brandstandarder. "Vi tog alle deres data for brand- og ambulancebegivenheder - tidspunktet for det første telefonopkald til det tidspunkt, hvor ambulancen forlod brandhuset, til det tidspunkt, det tog det at komme til en begivenhed. Vi så på ruterne og trafikmønstrene, og derefter optimeret svartider ved hjælp af graft-teori og Google Maps." Ruter blev ændret, brandzoner omfordelt, og svartiderne blev skåret ned. "Cobb Countys brandchef er meget datakyndig, " siger Ray, "så han implementerer trinvise ændringer og ser derefter, hvordan dataene opdateres."
Forskningslaboratorierne tilføjer også en anden dimension - og en stadig vigtigere - til studerendes oplevelse:hvordan man taler med folk, der ikke er statistikere eller dataforskere.
"Da jeg blev uddannet, forventningen var, at jeg ville arbejde sammen med andre statistikere og deltage ved akademiske konferencer, " siger Ray. "Så, vi talte alle det samme sprog. I dag, en dataforsker kunne tale med en leder, eller klient, eller politiker, som overhovedet har meget lidt statistikbaggrund. De skal kunne læse dette meget hurtigt, og sørg for, at det rigtige budskab stadig kommunikeres på det rette niveau. Det er en af de smukke ting ved disse laboratorier - de tvinger alle til at lære at tale på en måde, så laboratoriet bliver succesfuldt."