Kredit:CC0 Public Domain
Det verdensomspændende web er vokset enormt siden dets akademiske og forskningsmæssige start i 1991, og dens efterfølgende ekspansion til det offentlige og kommercielle domæne. I første omgang, det var et netværk af hyperlinkede sider og andre digitale ressourcer. Meget tidligt, det blev indlysende, at nogle ressourcer var så store, at det ville give mere mening at generere de materialer, som individuelle brugere krævede, dynamisk i stedet for at gemme hver enkelt digital enhed som en unik genstand.
I dag, utallige hjemmesider er dynamiske, hvert unikt besøg trækker information og data dynamisk fra en backend-database og præsenterer det for brugeren on-demand. Hvorimod statiske sider nemt kan spideres af søgemaskiner, databaseindhold, der driver dynamiske websteder, er utilgængeligt. Selv så længe siden som i 2001, hvor der allerede var adskillige terabyte offentligt, statiske webdata, det blev anslået, at det "usynlige web, " eller "skjult web, " ikke at forveksle med "det mørke web, " var omkring 550 gange større end de synlige ressourcer.
Skriver i International Journal of Business Intelligence and Data Mining, et team fra Indien beskriver, hvordan de har udviklet en genetisk algoritme-baseret intelligent multiagent-arkitektur, der kan udtrække oplysninger fra det usynlige web. Værktøjerne kunne tillade selv materialer, der angiveligt er forbudt for konventionelle søgemaskiner, at blive spideret, skrabet, og katalogiseret til en bred vifte af applikationer.
D. Weslin fra Bharathiar University og Joshva Devadas fra Vellore Institute of Technology beskriver detaljerne og fordelene ved deres tilgang i det seneste nummer af tidsskriftet. "De eksperimentelle resultater viser, at den foreslåede arkitektur giver bedre præcision og genkaldelse end de eksisterende webcrawlere, " skriver holdet.
Sidste artikelFiat Chrysler:langvarige virusproblemer kan skade Europa-fabrikken
Næste artikelInkjet printteknologi til batterielementer