Kredit:CC0 Public Domain
Spam -e -mails, banksvindel, diabetes, arbejdere, der sagde deres job op. Hvad har disse emner tilfælles? Svaret kan findes i maskinlæringsforskning ved Binghamton University.
Dana Bani-Hani, en doktorand, der studerer industri- og systemteknik, har brugt de sidste par år på at lære maskiner at læse datasæt i enhver branche. Systemet hun kodede, kaldet et Recursive General Regression Neural Network Oracle (R-GRNN Oracle), tager datainput og opretter forudsigelsesoutput.
Regressionsmodeller er ikke nye inden for datavidenskab og analyse, men hvad Bani-Hani skabte går ud over det grundlæggende. Et typisk system bruger algoritmer, kaldet klassifikatorer, der løber gennem et datasæt med mange forskellige variabler for at skabe en forudsigelse. Orakler er oprettet for at køre flere sæt af disse klassifikatorer for at se, hvilken algoritme der skaber den mest nøjagtige forudsigelse.
For eksempel, en klassifikator kan se på utallige e -mails og medvirke til bestemt ordbrug, ordtælling og flere andre variabler for at afgøre, om e -mailen er spam. Et orakel ser på de forskellige klassificeringsoutput og bestemmer, hvilke der mest præcist forudsagde spam -e -mails.
Det, der adskiller R-GRNN Oracle fra andre orakler, er dets evne til at tage klassificeringsoutput og rangere dem baseret på deres nøjagtighed. Baseret på rangeringen, klassifikatorer tildeles vægte og kombineres til at frembringe en forudsigelse, der er bedre end enhver klassifikator i sig selv.
Tænk på denne proces som et orkester. Hvert instrument har sine egne styrker, ligesom forskellige klassifikatorer, så det er nyttigt at inkludere dem alle. Dirigenten, ligesom R-GRNN Oracle, dirigerer de forskellige instrumenter til at spille højt eller mere blødt baseret på, hvordan instrumentet får den sidste symfoni til at lyde.
På dette tidspunkt, systemet ville blive kaldt et General Regression Neural Network (GRNN), som er blevet oprettet før ved Binghamton University. Den virkelige kerne i Bani-Hanis arbejde ligger i det første bogstav, R, står for rekursion.
R-GRNN Oracle tager det originale GRNN-output, og bruger hele systemet som input til en anden GRNN -forudsigelse. Dette kombineres med den mest succesrige af de originale klassifikatorer.
Så, tilbage til orkestret:Den originale symfoni er indspillet, og derefter afspillet igen senere. Denne gang, sammen med optagelsen, et par instrumenter spiller igen for yderligere at finjustere orkestrets vigtige lyde.
"På grund af den måde [GRNN] fungerer på, Jeg var i stand til at oprette den rekursive model, "Siger Bani-Hani." Begrebet rekursion bruges ikke meget i maskinlæring, så jeg besluttede at lægge et orakel inde i et orakel. "
Mohammad Khasawneh, professor og institutleder i systemvidenskab og industriteknik, overvågede Bani-Hanis forskning. Han siger, at systemer som GRNN og R-GRNN er underudnyttet og er vitale i alvorlige livshændelser.
"Det traditionelle GRNN Oracle har modtaget begrænset opmærksomhed i litteraturen, da kun meget få forskere har publiceret arbejde med algoritmen, "Khasawneh siger." Men mange virkelige problemer, der anvender maskinindlæringsmodeller til at automatisere klassificering af ukendte observationer, kræver præcise forudsigelser. Opgaver som diagnosticering af sygdomme indebærer præcision for at undgå alvorlige problemer, der potentielt kan føre til problemer som retssager eller endda dødsfald. "
Bani-Hani siger, at R-GRNN Oracle producerer mere præcise forudsigelser end nogen enkelt klassifikator alene, samt et GRNN alene. R-GRNN Oracle tog tusindvis af e-mail-prøver, programmeret til faktor 57 -variabler, og producerede derefter en spam -forudsigelse, der er bedre end alle andre testede klassifikatorer.
Bani-Hani brugte også R-GRNN til at forudsige svindel med kreditkortapplikationer, diabetesdiagnose, og om en medarbejder vil stoppe på baggrund af tidligere arbejdspladserfaringer. I hvert tilfælde, R-GRNN udkom som den mest præcise forudsigelse.
Hun planlægger at fokusere sin model på bestemte områder, såsom forretning eller finansiering, samt pakke både GRNN Oracle og R-GRNN Oracle, så virksomheder ikke behøver at oprette hele koden fra bunden.
Bani-Hanis rejse til maskinlæringsforskning startede næsten 6, 000 miles væk fra Binghamton i Jordan. Efter at have afsluttet sin bachelor i arkitektonik, hun hørte om Binghamton University gennem Watson School -fakultetet og akademiske ledere, og fra hendes fars støttende forslag. Hun forfulgte oprindeligt en kandidatgrad i industriel teknik, men hun fandt hurtigt en ny passion:data mining og maskinlæring.
"At få en ph.d. har været en drøm for mig i de sidste 15 år, "Siger Bani-Hani." Jeg tilskriver det hovedsageligt at have en familie med avancerede uddannelser. Jeg er taknemmelig over for mine professorer her på Binghamton University for at have introduceret mig til de emner, der udgør min forskning. "
Sidste artikelUnited Airlines beordrer 50 Airbus -fly til at erstatte Boeing 757'er
Næste artikelGreen-sky-tænkning for fremdrift og kraft