Come impostare correttamente Robots.txt per il tuo sito

Come impostare correttamente Robots.txt per il tuo sito / Programmazione

Se si esegue un sito Web 10 modi per creare un sito web piccolo e semplice senza l'overkill 10 modi per creare un sito web piccolo e semplice senza l'overkill WordPress può essere un eccesso. Come dimostrano questi altri servizi eccellenti, WordPress non è il tutto e non finisce la creazione di siti web. Se vuoi soluzioni più semplici, c'è una varietà tra cui scegliere. Per saperne di più, probabilmente hai sentito parlare di un file robots.txt (o il file “standard di esclusione dei robot”). Che tu lo abbia o no, è ora di informarlo, perché questo semplice file di testo è una parte cruciale del tuo sito. Potrebbe sembrare insignificante, ma potresti essere sorpreso di quanto sia importante.

Diamo un'occhiata a cosa è un file robots.txt, cosa fa e come impostarlo correttamente per il tuo sito.

Cos'è un file robots.txt?

Per capire come funziona un file robots.txt, è necessario conoscere un po 'sui motori di ricerca. Come funzionano i motori di ricerca? Come funzionano i motori di ricerca? Per molte persone, Google IS Internet. È senza dubbio l'invenzione più importante dal momento che Internet stessa. E mentre i motori di ricerca sono cambiati molto da allora, i principi sottostanti sono sempre gli stessi. Leggi di più . La versione breve è quella che inviano “crawler,” quali sono i programmi che setacciano Internet per informazioni. Quindi memorizzano alcune di queste informazioni in modo che possano indirizzarle in seguito.

Questi crawler, conosciuti anche come “bots” o “ragni,” trova pagine da miliardi di siti web. I motori di ricerca danno loro indicazioni su dove andare, ma i singoli siti web possono anche comunicare con i robot e dire loro quali pagine dovrebbero guardare.

Il più delle volte, in realtà stanno facendo il contrario e dicono loro quali pagine hanno non dovrebbe stai guardando. Cose come pagine amministrative, portali di back-end, pagine di tag e di categoria e altre cose che i proprietari dei siti non vogliono visualizzare sui motori di ricerca. Queste pagine sono ancora visibili agli utenti e sono accessibili a chiunque abbia l'autorizzazione (che è spesso tutti).

Ma dicendo a quegli spider di non indicizzare alcune pagine, il file robots.txt fa un favore a tutti. Se hai cercato “Utilizzare” su un motore di ricerca, vorresti che le nostre pagine amministrative risultino in alto nelle classifiche? No. Questo non farebbe bene a nessuno, quindi diciamo ai motori di ricerca di non mostrarli. Può anche essere usato per impedire ai motori di ricerca di estrarre pagine che potrebbero non aiutarli a classificare il tuo sito nei risultati di ricerca.

In breve, robots.txt dice ai web crawler cosa fare.

I crawler possono ignorare robots.txt?

I crawler ignorano mai i file robots.txt? Sì. In effetti, molti crawler fare ignoralo. Generalmente, tuttavia, questi crawler non provengono da affidabili motori di ricerca. Provengono da spammer, raccoglitori di e-mail e altri tipi di robot automatizzati che girano su Internet. È importante tenerlo a mente - usare lo standard di esclusione dei robot per dire ai robot di tenersi fuori non è una misura di sicurezza efficace. In effetti, alcuni robot potrebbero inizio con le pagine gli dici di non andare.

I motori di ricerca, tuttavia, faranno come il tuo file robots.txt dice fintanto che è formattato correttamente.

Come scrivere un file robots.txt

Ci sono alcune parti differenti che vanno in un file standard di esclusione robot. Li romperò ciascuno singolarmente qui.

Dichiarazione di User Agent

Prima di dire a un bot quali pagine non dovrebbe guardare, devi specificare a quale bot stai parlando. La maggior parte delle volte, userete una semplice dichiarazione che significa “tutti i robot.” Questo sembra:

User-agent: *

L'asterisco è pronto “tutti i robot.” Potresti, tuttavia, specificare le pagine per determinati bot. Per fare ciò, dovrai conoscere il nome del robot per il quale stai definendo le linee guida. Potrebbe assomigliare a questo:

User-agent: Googlebot [elenco di pagine da non scansionare] User-agent: Googlebot-Image / 1.0 [elenco di pagine da non analizzare] User-agent: Bingbot [elenco di pagine da non scansionare]

E così via. Se scopri un bot per cui non vuoi affatto eseguire la scansione del tuo sito, puoi specificarlo anche tu.

Per trovare i nomi dei programmi utente, controlla useragentstring.com.

Disabilitare le pagine

Questa è la parte principale del tuo file di esclusione robot. Con una semplice dichiarazione, dici a un bot oa un gruppo di bot di non eseguire la scansione di determinate pagine. La sintassi è facile. Ecco come non consentire l'accesso a tutto il “Admin” directory del tuo sito:

Non consentire: / admin /

Tale linea impedirebbe ai robot di eseguire la scansione di yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html e qualsiasi altra cosa che rientra nella directory di amministrazione.

Per disabilitare una singola pagina, basta specificarla nella riga non disponibile:

Non consentire: /public/exception.html

Ora il “eccezione” la pagina non verrà tratteggiata, ma tutto il resto “pubblico” cartella sarà.

Per includere più directory o pagine, basta elencarle nelle righe successive:

Disallow: / private / Disallow: / admin / Disallow: / cgi-bin / Disallow: / temp /

Queste quattro righe si applicano a qualsiasi agente utente specificato nella parte superiore della sezione.

Se vuoi impedire ai bot di guardare qualsiasi pagina del tuo sito, usa questo:

Non consentire: /

Impostazione di standard diversi per i robot

Come abbiamo visto sopra, puoi specificare determinate pagine per diversi bot. Combinando i due elementi precedenti, ecco come appare:

User-agent: googlebot Disallow: / admin / Disallow: / private / User-agent: bingbot Disallow: / admin / Disallow: / private / Disallow: / secret / Disallow

Il “Admin” e “privato” le sezioni saranno invisibili su Google e Bing, ma Google vedrà il “segreto” directory, mentre Bing non lo farà.

È possibile specificare le regole generali per tutti i robot utilizzando l'asterisco utente asterisco e quindi dare istruzioni specifiche ai bot nelle sezioni successive, anche.

Mettere tutto insieme

Con le conoscenze di cui sopra, puoi scrivere un file robots.txt completo. Basta attivare il tuo editor di testo preferito (siamo fan di Sublime 11 Suggerimenti sublimi per la produttività e un flusso di lavoro più veloce 11 Suggerimenti sublimi per la produttività e un flusso di lavoro più veloce Sublime Text è un editor di testo versatile e uno standard d'oro per molti programmatori. i suggerimenti si concentrano su una codifica efficiente, ma gli utenti generali apprezzeranno le scorciatoie da tastiera. Leggi di più da queste parti) e inizia a far sapere ai bot che non sono i benvenuti in alcune parti del tuo sito.

Se desideri vedere un esempio di file robots.txt, vai su qualsiasi sito e aggiungi “/robots.txt” all'estremità. Ecco parte del file robots.txt di Giant Bicycles:

Come puoi vedere, ci sono alcune pagine che non vogliono mostrare sui motori di ricerca. Hanno anche incluso alcune cose di cui non abbiamo ancora parlato. Diamo un'occhiata a cos'altro puoi fare nel tuo file di esclusione robot.

Individuazione della tua Sitemap

Se il tuo file robots.txt dice ai robot dove non per andare, la tua sitemap fa l'opposto Come creare una Sitemap XML in 4 semplici passaggi Come creare una Sitemap XML in 4 semplici passaggi Esistono due tipi di sitemap: una pagina HTML o un file XML. Una sitemap HTML è una singola pagina che mostra ai visitatori tutte le pagine di un sito web e di solito ha collegamenti a quelli ... Leggi altro, e li aiuta a trovare ciò che stanno cercando. E mentre i motori di ricerca probabilmente sanno già dove si trova la tua Sitemap, non fa male farglielo sapere di nuovo.

La dichiarazione per l'ubicazione di una Sitemap è semplice:

Sitemap: [URL della sitemap]

Questo è tutto.

Nel nostro file robots.txt, assomiglia a questo:

Sitemap: //www.makeuseof.com/sitemap_index.xml

Questo è tutto ciò che c'è da fare.

Impostazione di un ritardo di scansione

La direttiva del ritardo di scansione indica a determinati motori di ricerca quanto spesso possono indicizzare una pagina sul tuo sito. Viene misurato in secondi, anche se alcuni motori di ricerca lo interpretano in modo leggermente diverso. Alcuni vedono un ritardo di scansione di 5 come dicendo loro di attendere cinque secondi dopo ogni scansione per avviare il successivo. Altri lo interpretano come un'istruzione per eseguire solo la scansione di una pagina ogni cinque secondi.

Perché dovresti dire a un crawler di non strisciare il più possibile? Per preservare la larghezza di banda 4 modi Windows 10 sta sprecando la larghezza di banda di Internet 4 modi Windows 10 sta sprecando la larghezza di banda di Internet Windows 10 sta sprecando la larghezza di banda? Ecco come controllare e cosa puoi fare per fermarlo. Leggi di più . Se il tuo server non riesce a tenere il passo con il traffico, potresti decidere di ritardare la scansione. In generale, la maggior parte delle persone non deve preoccuparsi di questo. I grandi siti ad alto traffico, tuttavia, potrebbero voler sperimentare un po '.

Ecco come imposti un ritardo di scansione di otto secondi:

Ritardo di scansione: 8

Questo è tutto. Non tutti i motori di ricerca obbediranno alla tua direttiva. Ma non fa male a chiedere. Come con le pagine non consentite, puoi impostare ritardi di scansione diversi per motori di ricerca specifici.

Caricamento del file robots.txt

Una volta che hai impostato tutte le istruzioni nel tuo file, puoi caricarlo sul tuo sito. Assicurati che sia un semplice file di testo e abbia il nome robots.txt. Quindi caricalo sul tuo sito in modo che possa essere trovato su yoursite.com/robots.txt.

Se utilizzi un sistema di gestione dei contenuti 10 Sistemi di gestione dei contenuti più popolari online 10 Sistemi di gestione dei contenuti più popolari online I giorni delle pagine HTML codificate a mano e il controllo dei CSS sono ormai lontani. Installa un sistema di gestione dei contenuti (CMS) e in pochi minuti puoi avere un sito web da condividere con il mondo. Per saperne di più come WordPress, probabilmente c'è un modo specifico per farlo. Poiché differisce in ogni sistema di gestione dei contenuti, è necessario consultare la documentazione del proprio sistema.

Alcuni sistemi potrebbero avere interfacce online per il caricamento del tuo file. Per questi, basta copiare e incollare il file creato nei passaggi precedenti.

Ricordati di aggiornare il tuo file

L'ultimo consiglio che darò è di guardare di tanto in tanto il file di esclusione del robot. Il sito cambia e potrebbe essere necessario apportare alcune modifiche. Se noti uno strano cambiamento nel traffico del tuo motore di ricerca, è una buona idea controllare anche il file. È anche possibile che la notazione standard possa cambiare in futuro. Come ogni altra cosa sul tuo sito, vale la pena controllarla ogni tanto.

Quali pagine escludi i crawler dal tuo sito? Hai notato qualche differenza nel traffico dei motori di ricerca? Condividi i tuoi consigli e commenti qui sotto!

.