Med hver nyhed, begreberne data mining sundhedsinformation rykker stadig højere op på forsknings- og politikdagsordenen på dette område. Klinisk information og genetiske data indeholdt i elektroniske sundhedsjournaler (EPJ'er) repræsenterer en vigtig kilde til nyttig information til biomedicinsk forskning, men det kan være svært at få adgang til dem på en nyttig måde.
Skriver i International Journal of Intelligent Engineering Informatics, Hassan Mahmoud og Enas Abbas fra Benha University og Ibrahim Fathy Ain Shams University, i Egypten, diskutere behovet for innovative og effektive metoder til at repræsentere denne enorme mængde data. De påpeger, at der er data mining-teknikker såvel som ontologi-baserede teknikker, der kan spille en stor rolle i at opdage syndromer hos patienter effektivt og præcist. Et syndrom er defineret som et sæt af samtidige medicinske symptomer og indikatorer forbundet med en given sygdom eller lidelse.
Holdet har gennemgået det nyeste og fokuseret på at gennemgå de velkendte data mining-teknikker såsom beslutningstræer (J48), Naive Bayes, flerlagsperceptron (MLP), og random forest (RF) teknikker og sammenlignet, hvor godt de hver især klarer sig i klassificeringen af et bestemt syndrom, hjerte sygdom.
Holdet konkluderer, at i eksperimenter med et offentligt datasæt, RF-klassifikatoren giver den bedste ydeevne med hensyn til nøjagtighed. I fremtiden, de antyder, at datamining vil gavne sundhedsvæsenet og medicinen væsentligt for opbygningen af et system, der er i stand til at opdage et specifikt syndrom.