Quando facciamo una ricerca su internet con il nostro motore di ricerca preferito e navighiamo tra i vari link dei risultati, quello che abbiamo trovato è meno del 10 per cento di tutto il Web esistente. E’ quanto secondo autorevoli ricerche riescono a indicizzare in realtà i migliori motori di ricerca , la domanda sorge spontanea, e il restante 90 per cento?
Lo chiamano “Jeep Web”, ovvero il Web invisibile, non raggiungibile grazie agli attuali motori di ricerca, ma che alcune nuove tecnologie promettono di poter rendere disponibili a breve.
Secondo l’azienda Brighi Placet, che nel settembre 2001 ha sondato le profondità del “Jeep Web” sarebbe un’immensa foresta vergine a confronto di quello che i normali motori di ricerca ci hanno abituato a vedere.
Per molti sarebbe la nuova frontiera del Web, tanto che gli stessi numeri uno della ricerca, da Google a Yahoo, negli ultimi anni stanno moltiplicando gli sforzi per capire come indicizzare questo immenso patrimonio altrimenti irraggiungibile, e quindi renderlo disponibile ai propri utenti.
D’altra parte stiamo parlando delle informazioni archiviate e organizzate in database, dei contenuti consultabili soltanto su siti protetti da password, o delle tante pubblicazioni scientifiche e non in PDF.
Già, perché gli attuali motori di ricerca ogni giorno perlustrano il Web alla ricerca di nuove pagine da offrire tra i risultati delle ricerche, e lo fanno essenzialmente seguendo uno dopo l’altro i link presenti nel Web per mezzo di software chiamati spider o crawler.
Così facendo rintracciano le pagine web esistenti, ricostruendo di volta in volta un rapporto di senso fra loro, riuscendo a suggerire successivamente quale potrebbe essere il risultato più utile, sulla base del numero di link e del tipo di link che rimanda a quella determinata pagina, al contrario, se verso una pagina o un documento non esiste nessun link, quella stessa pagina non verrà raggiunto, e di conseguenza sarà ignorato.
Peccato che in questo modo si perdono milioni di informazioni utili, la Bright Planet stima che il 54 per cento del Web profondo è costituito dai risultati che ottiene un utente in seguito a una richiesta effettuata.
Recuperare questo capitale di informazioni irraggiungibile è sicuramente lo scopo di Anand Rajaraman, cofondatore di Kosmix, una start-up creata per l’appunto per la ricerca nel web profondo, fra i cui investitori c’è addirittura Jeffrey P. Bezos, amministratore delegato di Amazon.com.
La professoressa Juliana Freire, dell’Università dello Utah, ha lanciato il progetto DeepPeep, che sfrutta un algoritmo apparentemente capace di simulare le modalità con cui la mente umana ragiona, così da ovviare a quel maldestro cammino che porta i vari spider o crawler a scansionare il Web link dopo link.
E infine c’è il progetto Openarchives.org, promotore del protocollo OAI-PMH, con cui si cerca di indicizzare i documenti sui motori di ricerca inviando loro metadati in formato Xml, in modo da rendere più appetibili e comprensibili i contenuti anche in assenza di link.