Come funzionano i motori di ricerca?
Articolo aggiornato da Joel Lee il 10/10/2017
Per molti, Google è la rete. È il punto di partenza per trovare nuovi siti ed è probabilmente l'invenzione più importante dal momento che Internet stessa. Senza i motori di ricerca, i nuovi contenuti web sarebbero inaccessibili alle masse.
Ma sai come funzionano i motori di ricerca? Ogni motore di ricerca ha tre funzioni principali: scansione (per scoprire il contenuto), indicizzazione (per tracciare e archiviare il contenuto) e recupero (per recuperare il contenuto pertinente quando gli utenti interrogano il motore di ricerca).
crawling
La scansione è dove tutto ha inizio: l'acquisizione di dati su un sito web.
Ciò comporta la scansione di siti e la raccolta di dettagli su ciascuna pagina: titoli, immagini, parole chiave, altre pagine collegate, ecc. I vari crawler possono anche cercare dettagli diversi, come i layout di pagina, dove vengono posizionati gli annunci, se i link sono stipati, ecc..
Ma come è strisciato un sito web? Un bot automatizzato (chiamato a “ragno”) visita le pagine dopo pagina il più rapidamente possibile, usando i collegamenti alle pagine per trovare dove andare dopo. Anche nei primi giorni, gli spider di Google potevano leggere diverse centinaia di pagine al secondo. Al giorno d'oggi, è tra migliaia.
Quando un crawler Web visita una pagina, raccoglie tutti i link della pagina e li aggiunge all'elenco delle pagine successive da visitare. Va alla pagina successiva nella sua lista, raccoglie i collegamenti quello pagina e si ripete. I web crawler riesaminano anche le pagine passate una volta ogni tanto per vedere se sono avvenute delle modifiche.
Ciò significa che qualsiasi sito collegato da un sito indicizzato verrà infine sottoposto a scansione. Alcuni siti vengono sottoposti a scansione più frequente e alcuni vengono sottoposti a scansione a profondità maggiori, ma a volte un crawler può rinunciare se la gerarchia di una pagina di un sito è troppo complessa.
Un modo per capire come funziona un crawler web è crearne uno tu stesso. Abbiamo scritto un tutorial sulla creazione di un web crawler di base in PHP, quindi verificalo se hai esperienza di programmazione.
Si noti che le pagine possono essere contrassegnate come “noindex,” che è come chiedere ai motori di ricerca di saltare la sua indicizzazione. Le parti non indicizzate di Internet sono conosciute come “Deep Web” Cos'è il Deep Web? È più importante di quanto pensi che sia il Deep Web? È più importante di quanto pensi Il web profondo e la rete oscura sono entrambi spaventosi e nefasti, ma i pericoli sono stati esagerati. Ecco cosa fanno in realtà e come puoi persino accedervi da soli! Leggi di più, e alcuni siti, come quelli ospitati sulla rete TOR, non possono essere indicizzati dai motori di ricerca. (Cos'è il routing TOR e cipolla? Cos'è il routing delle cipolle, esattamente? [MakeUseOf Explains] Cos'è il routing delle cipolle, esattamente? [MakeUseOf Explains] Internet privacy. L'anonimato era una delle maggiori caratteristiche di Internet in gioventù (o le sue peggiori caratteristiche, a seconda di chi si chiede). Lasciando da parte i tipi di problemi che sorgono ... Per saperne di più)
indicizzazione
L'indicizzazione avviene quando i dati di una ricerca per indicizzazione vengono elaborati e inseriti in un database.
Immagina di fare una lista di tutti i libri che possiedi, i loro editori, i loro autori, i loro generi, i loro conteggi delle pagine, ecc. Scansione è quando si pettina attraverso ogni libro mentre l'indicizzazione è quando li si accede al proprio elenco.
Ora immagina che non sia solo una stanza piena di libri, ma ogni biblioteca del mondo. Questa è una versione su piccola scala di ciò che fa Google, che memorizza tutti questi dati in vasti data center con migliaia di petabyte di drive Dimensioni della memoria spiegate: Gigabyte, terabyte e petabyte in dimensioni di memoria del contesto spiegate: gigabyte, terabyte e petabyte in Context È facile vedere che 500 GB è superiore a 100 GB. Ma come si confrontano le diverse dimensioni? Che cos'è un gigabyte in un terabyte? Dove si inserisce un petabyte? Chiariamolo! Leggi di più .
Ecco una sbirciatina in uno dei data center di ricerca di Google:
Recupero e classifica
Il recupero si verifica quando il motore di ricerca elabora la query di ricerca e restituisce le pagine più pertinenti corrispondenti alla query.
La maggior parte dei motori di ricerca si differenziano attraverso i metodi di recupero: utilizzano criteri diversi per scegliere e scegliere le pagine più adatte a ciò che si desidera trovare. Ecco perché i risultati di ricerca variano tra Google e Bing, e perché Wolfram Alpha è così straordinariamente utile 10 Usi fantastici di Wolfram Alpha Se leggi e scrivi nella lingua inglese 10 Usi fantastici di Wolfram Alpha Se leggi e scrivi nella lingua inglese Ci sono voluti mi dedica un po 'di tempo a pensare a Wolfram Alpha e alle domande che usa per far uscire quei risultati. Devi immergerti profondamente in Wolfram Alpha per sfruttarlo davvero per ... Per saperne di più .
Gli algoritmi di classificazione controllano la tua query di ricerca miliardi di pagine per determinare la pertinenza di ciascuno. Le aziende proteggono i loro algoritmi di classifica come segreti industriali brevettati a causa della loro complessità. Un algoritmo migliore si traduce in una migliore esperienza di ricerca.
Inoltre, non vogliono che i creatori del Web giochino al sistema e scalino ingiustamente le vette dei risultati di ricerca. Se la metodologia interna di un motore di ricerca fosse mai uscita, tutti i tipi di persone avrebbero sicuramente sfruttato quella conoscenza a scapito degli utenti come te e me.
Lo sfruttamento dei motori di ricerca è possibile, ovviamente, ma non è più così facile.
Originariamente, i motori di ricerca classificavano i siti in base alla frequenza con cui le parole chiave apparivano su una pagina, il che portava a “imbottitura di parole chiave” - riempire le pagine con parole senza senso.
Poi venne il concetto di importanza del collegamento: i motori di ricerca valorizzavano i siti con molti link in entrata perché interpretavano la popolarità del sito come rilevanza. Ma questo ha portato a collegare lo spam su tutto il web. Al giorno d'oggi, i collegamenti dei motori di ricerca dipendono dal “autorità” del sito di collegamento. I motori di ricerca attribuiscono più valore ai collegamenti di un'agenzia governativa rispetto ai collegamenti da una directory di collegamenti.
Oggi, gli algoritmi di classificazione sono avvolti in un mistero più che mai, e “Ottimizzazione del motore di ricerca” Demystify SEO: 5 guide per l'ottimizzazione dei motori di ricerca che ti aiutano a demistificare SEO: 5 guide per l'ottimizzazione dei motori di ricerca che ti aiutano a iniziare La padronanza dei motori di ricerca richiede conoscenza, esperienza e molti tentativi ed errori. È possibile iniziare a imparare i fondamenti ed evitare facilmente errori SEO comuni con l'aiuto di molte guide SEO disponibili sul Web. Leggi di più non è così importante. Le buone classifiche dei motori di ricerca ora provengono da contenuti di alta qualità e da esperienze utente fantastiche.
Cosa c'è di nuovo per i motori di ricerca?
Ah, ora c'è una domanda interessante. La risposta è “semantica”: il senso del contenuto della pagina. Puoi leggere di più sulla nostra panoramica sul markup semantico e sul suo impatto futuro Che cos'è il markup semantico e come cambierà Internet per sempre [Tecnologia spiegata] Cosa è il markup semantico e come cambierà Internet Forever [Tecnologia spiegata] Ulteriori informazioni .
Ma ecco il succo di ciò.
In questo momento, puoi cercare “biscotti senza glutine” ma i risultati possono restituire ricette per i biscotti senza glutine. Invece, potresti trovare ricette di biscotti regolari che dicono “Questa ricetta non è senza glutine.” Ha le parole chiave giuste, ma il significato sbagliato.
Con la semantica puoi cercare le ricette dei cookie e rimuovere alcuni ingredienti: farina, noci, ecc. Puoi anche limitare i risultati alle sole ricette con tempi di preparazione inferiori ai 30 minuti e rivedere i punteggi di 4/5 o più. Quello sarebbe bello, giusto? Ecco dove stiamo andando!
Ancora confuso su come funzionano i motori di ricerca? Guarda come Google spiega il processo:
Se hai trovato questo interessante, ti potrebbe interessare sapere come Immagine i motori di ricerca funzionano.
Immagine di credito: prykhodov / Depositphotos
Scopri di più su: Google Analytics, Ricerca Google, Ricerca Web.