Google esce allo scoperto, ecco tutti i segreti del motore di ricerca

NOW

Daniele Semeraro

Il gigante di internet ha pubblicato una serie di video e pagine web per aiutarci a comprendere il meccanismo sofisticato che sta dietro ogni ricerca che compiamo. Dall’indicizzazione delle pagine web agli algoritmi di ricerca a quelli che aiutano il motore a capire cosa veramente stiamo cercando

Vi siete mai chiesti come funziona la ricerca di Google? Cosa succede in quei brevissimo lasso di tempo dal momento in compiamo una ricerca al momento in cui ci vengono proposte milioni di risposte, ordinate per pertinenza? E, ancora, vi siete mai chiesti come fa Google a eliminare la maggior parte delle pagine web di spam e a restare sempre aggiornatissimo e al passo con i tempi? Il gigante della ricerca non potrà mai svelarci tutti i suoi segreti ma ha lanciato un’iniziativa chiamata “Come funziona la ricerca Google?” in cui attraverso pagine web e una serie di video ci svela i dietro le quinte di quella che è probabilmente la più grande “enciclopedia dello scibile umano” mai costruita. Per farla in breve, prendendo in prestito una frase di Lerry Page, uno dei fondatori di Google: come fa il motore di ricerca a “capire esattamente cosa intendi e a fornirti ciò che vuoi”? 

La ricerca dalla A alla Z

Per ogni ricerca che eseguiamo sono milioni le pagine web che offrono risultati: come fare allora a ordinarle in maniera logica, fornendo prima le più pertinenti? Il lavoro non è svolto tutto sul momento, ma c’è dietro una grande organizzazione, quella che consente a Google di sistemare i contenuti in una sorta di mega-biblioteca ogni volta che ne nascono di nuovi. In particolare ogni giorno migliaia di software (chiamati “crawler”) analizzano la rete in maniera sistematica studiando i siti web, seguendo le pagine a caccia di nuovi contenuti, di aggiornamenti e anche di link obsoleti o non aggiornati da tempo. E così vanno a popolare un enorme archivio, l’indice di ricerca di Google, che contiene centinaia di miliardi di pagine web, con una dimensione che supera i 100 milioni di gigabyte. “Come l’indice di un libro - spiegano - con una voce per ogni parola visualizzata su ciascuna pagina web che indicizziamo”.

Gli algoritmi

Una volta costruito (e tenuto aggiornato) il mega-archivio manca però qualcosa che ordini tutte queste informazioni e le selezioni in base alle richieste degli utenti: questo è il compito dell’algoritmo di Google, che crea in tempo reale un “sistema di ranking”, una specie di classifica dei risultati più pertinenti. “Gli algoritmi di ricerca - spiegano nei video - prendono in esame diversi fattori tra cui le parole che sono state usate nella ricerca, la pertinenza e l’usabilità delle pagine, l’affidabilità delle fonti, la posizione geografica e le impostazioni”. Tra l’altro una cosa che in pochi sanno è che Google si avvale di migliaia di valutatori esterni della qualità della ricerca, presenti in ogni parte del mondo. E per far sì che le pagine migliori appaiano più in alto? Anche qui c’è un algoritmo in grado di creare una classifica partendo dalla “freschezza” dei contenuti, analizzando il numero di volte in cui un termine compare nella pagina fino anche alla leggibilità della pagina. Infine si guarda al contesto: utilizzando la nostra posizione Google sarà in grado, inserendo al esempio la parola “football” di restituirci informazioni sul football americano se ci troviamo negli Stati Uniti, sul calcio se ci troviamo a Londra. E a proposito di posizione geografica: la velocità di Google è dettata anche dal fatto che il gigante dei motori di ricerca ha data center sparsi in giro per il mondo: ognuno contiene una copia aggiornata dell’indice di ricerca, e quando compiamo una ricerca ci colleghiamo con quello più vicino.

“Cambiare” una lampadina o la luminosità?

Anche la comprensione di ciò che l’utente scrive è cruciale, e non tutti scriviamo allo stesso modo: pensiamo solo al nostro paese, in cui certe espressioni vengono usate solo in certe regioni. E così un altro sforzo importante compiuto dal motore di ricerca (per tutte le lingue del mondo) è quello di comprendere ciò che l’utente vuole, correggendo gli errori di ortografia ma soprattutto utilizzando un’enorme banca dati di sinonimi e collegamenti linguistici creata in cinque anni di lavoro che aiuta Google a comprendere meglio il significato delle parole. Pensiamo al verbo “cambiare” in italiano, che può essere usato nell’accezione “sostituire” (cambiare una lampadina), “scambiare” (cambiare denaro), “regolare” (cambiare la luminosità). Il sistema poi in base alla nostra ricerca capisce anche se stiamo cercando qualcosa di tendenza in quel momento, riportandoci le pagine più aggiornate (se cerchiamo, ad esempio i risultati di serie A ci mostrerà tutti i siti aggiornati che stanno seguendo in tempo reale le partite; se cerchiamo la Prima guerra mondiale avremo invece pagine meno aggiornate ma magari ben costruite).

Gli errori da non commettere

Tra le indicazioni pubblicate da Google anche un’utile pagina sugli errori da non commettere quando si compie una ricerca. Spiega Daniel Russell, senior research scientist di Google: “È consigliabile effettuare almeno due o tre ricerche, se si tratta di un argomento complesso; assicuratevi che i siti a cui vi rivolgete siano la migliore fonte di informazione per quello che state cercando; definite bene le parole chiave; se un risultato di ricerca include termini con cui non avete familiarità è consigliabile non saltarlo: potreste perdere informazioni preziose”. E poi offre anche cinque consigli utili che molti di noi probabilmente non conoscono: usare il termine @ per cercare sui social media (@twitter), usare le virgolette “per cercare una frase esatta”, usare i trattini per escludere una parola (velocità automobili -formula1 per cercare le auto normali e non quelle di formula uno), usare la barra “|” per abbinare due ricerche (maratona|gara), usare due puntini per cercare con un intervallo di numeri (fotocamera €50..€100).

NOW

Tutti gli approfondimenti della rubrica di innovazione e tecnologia

Tecnologia: I più letti