|
| Search engines - Motori di ricerca |
Come funzionano
Quando si parla di motori di ricerca, in genere si intendono sia i motori propriamente detti sia gli indici del Web per categorie. Mentre i primi sono sistemi completamente automatici che prelevano da Internet le pagine, le archiviano e consentono ricerche sull’intero testo, i secondi sono elenchi gerarchici suddivisi per categorie e richiedono un intervento umano: è necessario che l’autore del sito lo segnali ai curatori dell’indice che, dopo un tempo che può arrivare fino a un paio di mesi, lo inseriscono insieme a una breve descrizione nella categoria più appropriata. L’informazione presente su un indice, per esempio Yahoo! o Virgilio, è quindi di qualità superiore a quella raggiungibile con un motore di ricerca e generalmente priva di "rumore" o pagine inutili. Per contro, gli indici hanno informazioni meno dettagliate, si riferiscono a siti interi e non a singole pagine e comportano un ritardo considerevole tra data di pubblicazione sul Web di un sito e il suo inserimento nell’elenco. Sebbene entrambi servano a trovare informazioni su Internet quindi, la differenza tra l’uno e l’altro strumento di ricerca è molto grande; una ricerca facile da effettuare su un indice può comportare decine di minuti di lavoro su un motore; per contro, un’informazione recente oppure relativa a un argomento troppo specifico difficilmente condurrà a qualche risultato con un indice come Yahoo!; strumenti di questo tipo sono invece l’ideale quando si cercano informazioni su argomenti generali, come uno sport, un’arte o una disciplina scientifica.
L’ago nel pagliaio
Le pagine disponibili su Internet sono così tante che oggi il problema è identificare quelle con l’informazione che si sta cercando in mezzo a tante altre. Per esempio, cercando la parola Cancro su AltaVista si ottengono 6768 risultati; con una visualizzazione standard di 10 indirizzi per pagina, significa scorrere 67 pagine solo per visualizzare tutti gli indirizzi. Facendo scorrere le pagine della ricerca in questione, ci si accorge che è possibile fare una prima scrematura in modo abbastanza facile: molte pagine infatti contengono informazioni di carattere medico scientifico, altre invece hanno a che fare con oroscopo e zodiaco. A seconda del campo in cui vogliamo focalizzare la ricerca, possiamo quindi aggiungere parole come Malattia, Ricerca, Tumori oppure Zodiaco, Oroscopo, Decade. Anche questa operazione però rischia di non essere sufficiente o addirittura di peggiorare notevolmente le cose. A seconda del motore di ricerca usato infatti il numero di risposte potrebbe diminuire oppure aumentare; per fare un esempio, quando si esegue una ricerca con più parole chiave, AltaVista mostra ogni pagina che contenga almeno una delle parole indicate, e non solo quelle che le contengono tutte; sempre AltaVista attribuisce lo stesso peso a ogni parola, quindi si rischia di avere in cima alla lista dei siti che hanno a che fare con una parola di importanza secondaria rispetto al cuore della ricerca. Insomma, quello che risulta sempre più evidente è che una semplice ricerca non basta più. Prima di addentrarci nei trucchi per fare una efficace ricerca avanzata, conviene saperne qualcosa di più su come funziona un motore di ricerca.
Questioni di meccanica
Un motore è basato su tre componenti principali, ognuna delle quali opera su più computer. La ricerca di informazioni è affidata agli Spider, programmi che navigano incessantemente, di link in link, alla ricerca di tutte le pagine che riescono a trovare, tornando periodicamente a verificare se le pagine sono state cambiate. Gli Spider registrano tutti i testi delle pagine in un database, che viene ripulito e archiviato in un secondo sistema, l’indice. Il terzo componente è il motore di ricerca vero e proprio che, in base alla richiesta fatta dall’utente, trova tutte le pagine che la soddisfano e le ordina in modo da mostrare per prime quelle più rilevanti. Dalla velocità degli Spider dipendono la vastità e l’aggiornamento dell’archivio, mentre l’efficienza della singola ricerca dipende da come il motore indicizza i documenti e dai criteri usati per la classificazione. Quando si ha a disposizione un database molto grande, il problema principale non è trovare i documenti che soddisfano una determinata richiesta, ma piuttosto ordinarli secondo un criterio che metta in evidenza quelli davvero rilevanti. Per questo i motori di ricerca assegnano un a ogni documento punteggio, chiamato in genere Ranking, in base al quale ordinare i documenti trovati, mettendo i più rilevanti in cima alla lista. I criteri con i quali i motori assegnano il punteggio sono: la presenza della parola chiave tra quelle indicate dal programmatore nel campo Meta Keywords della pagina Html; la presenza della parola chiave nel titolo della pagina; quante volte viene ripetuta la parola nella pagina; la vicinanza tra le parole chiave; l’ordine di sequenza tra le parole chiave; quanto lontano è dall’inizio del documento. Ogni motore da a ciascuno di questi criteri un peso differente; tra le funzioni di ricerca avanzata, Lycos permette addirittura di specificare quanto deve pesare ogni elemento per l’assegnazione del punteggio. Altri motori posizionano più in alto i siti più popolari, cioè quelli più cliccati dai propri utenti e quelli che vengono linkati da molti altri siti.
La ricerca semplice non basta più
Nonostante i criteri usati per classificare le pagine più rilevanti per una determinata ricerca, una ricerca semplice - anche se composta da più parole chiave - al momento attuale raramente produce risultati utili. E’ quindi necessario imparare a usare le funzioni per la ricerca avanzata dei vari motori. Ognuno ha una propria sintassi e i propri metodi, ma per stabilire le relazioni tra i termini usati nella ricerca tutti si basano sugli operatori elementari dell’algebra booleana: And, Or e Not. And fa sì che i risultati debbano contenere entrambi i termini usati ed è quindi indicato per restringere una ricerca; per esempio con Cancro AND Zodiaco elimineremo le pagine di carattere medico. Or invece restituisce risultati in cui compaia almeno uno dei due termini e fa quindi aumentare il numero di risposte; se con la ricerca precedente non abbiamo trovato ciò che cercavamo, possiamo quindi provare con Cancro AND (Zodiaco OR Oroscopo). Nell’esempio precedente possiamo notare anche l’espressione tra parentesi, che permette di raggruppare più termini in un’unica condizione. Tradotta in italiano, una richiesta di questo tipo permette di trovare pagine in cui compaiano contemporaneamente le coppie di parole Cancro e Zodiaco oppure Cancro e Oroscopo. Anche in questo caso purtroppo non tutti i motori trattano le parentesi allo stesso modo: questo metodo funziona molto bene con Excite ma non con altri. L’operatore Not invece esclude dai risultati quelle pagine che contengano il termine che lo segue: con Cancro AND NOT Ricerca elimineremo quindi le pagine riguardanti la ricerca sul cancro. Avrete notato che Not è preceduto da And: questo non è sempre necessario ma è generalmente meglio accoppiare i due termini. Un’iniziale maiuscola viene considerata fattore importante per AltaVista, che restituisce pagine in cui la parola chiave appare anch’essa in maiuscolo; altri motori invece ignorano questo aspetto. Gli operatori And e Not spesso possono essere abbreviati dai segni + e - ma anche in questo caso bisogna fare attenzione. Certi motori, ad esempio AltaVista, considerano il + un rafforzativo e in una ricerca tipo Cancro +Oroscopo tenderanno ad assegnare un maggior punteggio alle pagine che contengono Oroscopo indipendentemente dal fatto che esse includano o meno la parola Cancro. Per ottenere il risultato desiderato, bisogna anteporre il segno + a entrambi i termini, cioè scrivere +Cancro +Oroscopo.
Altri elementi
Un altro elemento importante per restringere i risultati è possibilità di fare la ricerca per una frase esatta. In questo caso bisogna racchiudere la frase tra virgolette, per esempio "ricerca sul cancro" non condurrà a pagine riguardanti generiche ricerche di vario tipo oppure attinenti alla "ricerca del tema natale per i nati sotto il segno del cancro". Molti siti permettono di indicare un intervallo di tempo entro il quale deve essere compresa la data di creazione del documento; questa funzione torna utile quando si vogliono restringere i risultati ai soli documenti recenti oppure a quelli di un particolare periodo. Altri criteri permettono di trovare informazioni locali: in genere è infatti possibile restringere i risultati a un dominio di primo livello (.it, .com, .fr) oppure specificare la lingua in cui il documento è scritto. In certi casi è possibile restringere il campo a un determinato dominio, di qualsiasi livello, per esempio si possono cercare con AltaVista documenti all’interno del sito informatica.jackson.it e con HotBot è addirittura possibile specificare quanto il documento cercato deve essere lontano dalla home page. Un operatore che a volte si rivela una manna dal cielo è Near, che restituisce risultati positivi solo se le due parole cercate sono vicine nel testo. Cancro NEAR Ricerca quindi non rivelerà pagine sul segno zodiacale in cui in qualche punto c’è un link per una funzione di Ricerca, a meno che questo non sia vicino alla parola Cancro.
Ricerche facilitate
Insomma, impostare una ricerca con un’espressione booleana può non essere una cosa semplice; se a ciò aggiungiamo il fatto che ogni motore supporta queste operazioni in maniera differente e offre molte altre possibilità di modificare la ricerca, una delle caratteristiche principali da cercare nel motore ideale è la facilità di impostare una ricerca complessa attraverso bottoni, menu a comparsa e caselle facili da compilare. Altrettanto importante è la possibilità di arrivare facilmente alla pagina con il form di ricerca avanzata. Vi sono infatti alcuni motori che hanno abilmente e inspiegabilmente ‘nascosto’ tale funzione; con Arianna per esempio occorre, dalla home page, fare clic su Ricerca e poi su Avanzata per raggiungere una pagina con opzioni configurabili. AltaVista invece mette bene in evidenza sulla home page il link per la pagina di ricerca avanzata; peccato però che questa non sia altro che una casella un po’ più grande in cui è più comodo inserire un testo molto lungo. Un peccato, perché AltaVista ha l’archivio più vasto in assoluto e funzioni di ricerca specifica molto avanzate; per sfruttarle occorre però imparare una sintassi unica nel suo genere, col rischio ogni volta di commettere un errore di digitazione o inserire uno spazio di troppo. In questo campo lo strumento più facile ed efficace è senza dubbio la maschera di ricerca di HotBot, il motore di Wired acquisito lo scorso anno da Lycos.
Trucchi semplici e creatività
Quando si è alla ricerca di informazioni su un argomento generale, quello che si vuole avere è un punto di partenza. Quando un argomento è di vasto interesse, probabilmente qualcuno avrà costruito un sito che si propone di essere una miniera di informazioni in materia; la cosa migliore quindi è cercare quei siti che hanno collegamenti con molti altri. A seconda che si cerchi un sito in italiano o in inglese, si può quindi fare una ricerca per "Tutto quello che desiderate sapere su Linux" o "The ultimate Linux resource guide", piuttosto che, genericamente su Linux, che condurrebbe a un numero sterminato di risposte. Cercando il sito di un’azienda, prima ancora di cercare su un motore di ricerca provate a vedere se l’indirizzo composto da www.nomeazienda.com o .it esiste e funziona. In certi casi si rimane sorpresi dallo scoprire che il sito esiste, ma non ha nulla a che vedere con la società in questione; ma nella maggior parte dei casi il metodo funziona. Un’altra possibilità è fare al motore di ricerca delle vere e proprie domande; AltaVista per esempio è in grado di capire un certo numero di domande, le interpreta come tali e afferma, un po’ pomposamente, "AltaVista conosce la risposta a questa domanda: fai clic qui per conoscerla". Il tutto funziona abbastanza bene in inglese; facendo domande in italiano però possiamo contare su un altro effetto: molti documenti su Internet sono scritti nella forma delle Faq, cioè le liste delle domande comuni fatte su un determinato argomento; oltre a fornire le risposte e le eventuali spiegazioni, queste liste riportano sempre la domanda, che quindi sarà individuata dal motore di ricerca. Anche conoscendo i principali strumenti di ricerca e avendo imparato tecniche e trucchi, non è possibile avere in pugno un metodo unico e definitivo per la ricerca su Internet. La parte più importante del processo di ricerca risiede infatti nella scelta della domanda da formulare. Per questo a volte occorre procedere con un atteggiamento creativo piuttosto che razionale. In genere risulta molto utile lavorare di immaginazione per cercare di capire come dovrebbe essere fatta la pagina che desiderate trovare e di conseguenza formulare una richiesta che vi faccia trovare proprio il tipo di informazione desiderata. Per esempio, se cercate un sito con informazioni ufficiali e attendibili, provate ad aggiungere alle parole chiave anche Copyright o "tutti i diritti riservati"; in genere i siti delle aziende serie riportano un’avvertenza o una dichiarazione di questo tipo. Per le informazioni commerciali su un prodotto, si può provare ad aggiungere i termini Prezzo, Lire, Iva oppure frasi di solito contenute sui cataloghi o listini prezzi come "soggetti a variazione senza preavviso". Un motore che fornisce uno spunto di riflessione in questo senso è Excite, che dopo una prima ricerca suggerisce di aggiungere alla query alcune parole tra quelle trovate frequentemente in gruppi di risposte. A volte le parole suggerite da Excite sono sinonimi o termini che hanno strettamente a che vedere con l’argomento principale della ricerca; altre volte sono parole che non hanno attinenza specifica ma, per il fatto di appartenere al gergo di una determinata categoria professionale oppure a espressioni tipiche in un certo ambiente, aiutano effettivamente a focalizzare la ricerca in un’area specifica. Insomma, i motori di ricerca possono essere uno stimolo per imparare a pensare in modo più creativo, come descritto da Edward De Bono nel libro "Il pensiero laterale" (BUR Manuali, 1981), che pur non trattando direttamente della ricerca su Internet è forse uno dei testi più utili a riguardo. A proposito di pensiero creativo e interpretazioni secondo logiche non lineari, vi suggerisco un utile e divertente uso di AltaVista. Nei giorni in cui AltaVista ha lanciato la ricerca con domande circostanziate tipo "Come si fa la torta di mele", ho avuto la tentazione di fare una domanda personale rispetto a una decisione da prendere, trattando il motore di ricerca come se fosse un oracolo. Sapevo benissimo che le risposte che avrei ottenuto sarebbero state completamente casuali, in quanto la domanda era posta in italiano e su argomenti non comuni, ma il mio spirito goliardico ha prevalso sulla componente razionale. Ebbene, dai titoli che ho ottenuto, ho potuto trarre degli spunti di riflessione che mi hanno effettivamente aiutato a fare la scelta giusta. AltaVista non è il mio motore di ricerca preferito ma da allora, di tanto in tanto, lo consulto per avere ispirazione. Del resto anche l’I King, un antichissimo oracolo cinese, funziona proprio perché dà soluzioni generiche, che spingono a trovare la risposta dentro di sé.
| |
cerca |
|
|
chat |
|
webmail |
| consigli |
|
|