3 modi per rimuovere le pagine Blog indesiderate da Google

Sei un credente nell'idea che una volta che qualcosa è pubblicato su Internet, è pubblicato per sempre? Bene, oggi stiamo per dissipare quel mito.

La verità è che in molti casi è del tutto possibile sradicare le informazioni da Internet. Certo, c'è una registrazione di pagine web che sono state cancellate se cerchi la Wayback Machine, giusto? Sì, assolutamente. Sulla Wayback Machine ci sono record di pagine web che risalgono a molti anni - pagine che non troverete con una ricerca su Google perché la pagina web non esiste più. Qualcuno l'ha cancellato, o il sito web è stato chiuso.

Quindi, non c'è modo di aggirarlo, giusto? Le informazioni saranno incise per sempre nella pietra di Internet, lì per generazioni per vedere? Bene, non esattamente.

La verità è che mentre potrebbe essere difficile o impossibile cancellare le notizie più importanti che si sono diffuse da un sito Web o blog a un altro come un virus, in realtà è abbastanza facile sradicare completamente una pagina Web o più pagine Web da tutti i record di esistenza - per rimuovere quella pagina sia per i motori di ricerca che per la Wayback Machine La nuova Wayback Machine ti fa tornare visivamente nel tempo di Internet La nuova Wayback Machine ti fa tornare visivamente nel tempo di Internet Sembra che dal momento del lancio della Wayback Machine in 2001, i proprietari del sito hanno deciso di buttar via il back-end basato su Alexa e riprogettarlo con il proprio codice open source. Dopo aver condotto i test con il ... Per saperne di più. Ovviamente c'è un problema, ma ci arriveremo.

3 modi per rimuovere le pagine del blog dalla rete

Il primo metodo è quello utilizzato dalla maggior parte dei proprietari di siti Web, perché non lo sanno meglio, semplicemente eliminando le pagine Web. Ciò potrebbe accadere perché ti sei reso conto di avere contenuti duplicati sul tuo sito o perché hai una pagina che non vuoi mostrare nei risultati di ricerca.

Semplicemente Elimina la Pagina

Il problema con l'eliminazione completa delle pagine dal tuo sito web è che, poiché hai già stabilito la pagina sulla rete, è probabile che ci siano collegamenti dal tuo sito e link esterni da altri siti a quella particolare pagina. Quando lo elimini, Google riconosce immediatamente quella pagina come pagina mancante.

Quindi, nell'eliminare la tua pagina non hai solo creato un problema con “Non trovato” errori di scansione per te stesso, ma hai anche creato un problema per chiunque si sia mai collegato alla pagina. Di solito, gli utenti che raggiungono il tuo sito da uno di questi link esterni vedranno la tua pagina 404, che non è un grosso problema, se utilizzi qualcosa come il codice 404 personalizzato di Google per offrire agli utenti suggerimenti o alternative utili. Ma, penseresti che ci potrebbero essere modi più eleganti di cancellare le pagine dai risultati di ricerca senza dare il via a tutti questi 404 per i link in entrata esistenti, a destra?

Bene, ci sono.

Rimuovi una pagina dai risultati di ricerca di Google

Prima di tutto, dovresti capire che se la pagina web che desideri rimuovere dai risultati di ricerca di Google non è una pagina del tuo sito, allora non sei fortunato se non ci sono motivi legali o se il sito ha pubblicato i tuoi informazioni online senza il tuo permesso. In questo caso, utilizza lo strumento per la risoluzione dei problemi di rimozione di Google per inviare una richiesta di rimozione della pagina dai risultati di ricerca. Se hai un caso valido, potresti riscontrare un certo successo rimuovendo la pagina - naturalmente potresti avere un successo ancora maggiore semplicemente contattando il proprietario del sito web Come rimuovere le false informazioni personali su Internet Come rimuovere le false informazioni personali su Internet Ulteriori informazioni come ho descritto come fare nel 2009.

Ora, se la pagina che desideri rimuovere dai risultati di ricerca è sul tuo sito, sei fortunato. Tutto quello che devi fare è creare un robots.txt file e assicurati di aver disabilitato la pagina specifica che non vuoi nei risultati della ricerca, o l'intera directory con i contenuti che non vuoi indicizzati. Ecco come appare una pagina singola.

User-agent: * Disallow: /my-deleted-article-that-i-want-removed.html

Puoi bloccare i bot dalla scansione di intere directory del tuo sito come segue.

User-agent: * Disallow: / content-about-personal-stuff /

Google ha una pagina di supporto eccellente che può aiutarti a creare un file robots.txt se non ne hai mai creato uno prima. Questo funziona molto bene, come ho spiegato di recente in un articolo sulla strutturazione delle offerte di syndication. Come negoziare gli accordi di sindacazione e proteggere i tuoi risultati di ricerca. Come negoziare gli accordi di sindacazione e proteggere i tuoi risultati di ricerca Il syndication è di gran moda in questi giorni. Ma improvvisamente potresti scoprire che il partner di syndication è elencato più in alto di te nei risultati di ricerca per una storia che hai scritto in origine! Proteggi le tue classifiche di ricerca. Leggi di più in modo che non ti facciano del male (chiedendo ai partner di syndication di non consentire l'indicizzazione delle loro pagine in cui sei in syndication). Una volta che il mio partner di syndication ha accettato di farlo, le pagine che sono state duplicate dal mio blog sono completamente scomparse dalle liste di ricerca.

Solo il sito principale si trova al terzo posto per la pagina in cui sono elencati i nostri titoli, ma il mio blog è ora elencato sia nel primo che nel secondo; qualcosa che sarebbe stato quasi impossibile se un sito Web con più autorità avesse lasciato la pagina duplicata indicizzata.

Ciò che molte persone non si rendono conto è che è anche possibile farlo con l'Internet Archive (la Wayback Machine). Ecco le linee che devi aggiungere al tuo file robots.txt per farlo accadere.

User-agent: ia_archiver Disallow: / sample-category /

In questo esempio, sto dicendo a Internet Archive di rimuovere qualsiasi cosa nella sottodirectory della categoria campione sul mio sito dalla Wayback Machine. L'archivio Internet spiega come eseguire questa operazione nella relativa pagina della guida di esclusione. Questo è anche il punto in cui lo spiegano “L'Internet Archive non è interessato ad offrire l'accesso a siti Web o altri documenti Internet i cui autori non vogliano i loro materiali nella raccolta.”

Ciò contrasta con la convinzione comune che qualsiasi cosa pubblicata su Internet venga trascinata nell'archivio per l'eternità. No: i webmaster che possiedono il contenuto possono specificamente rimuovere il contenuto dall'archivio utilizzando l'approccio robots.txt.

Rimuovere una singola pagina con meta tag

Se hai solo alcune pagine singole che desideri rimuovere dai risultati della Ricerca Google, in realtà non devi utilizzare l'approccio robots.txt, puoi semplicemente aggiungere la corretta “robot” meta tag alle singole pagine, e dire ai robot di non indicizzare o seguire i collegamenti sull'intera pagina.

Potresti usare il “robot” meta sopra per impedire ai robot di indicizzare la pagina, oppure potresti dire al robot di Google di non indicizzarlo in modo che la pagina venga rimossa solo dai risultati di ricerca di Google e altri robot di ricerca possano comunque accedere al contenuto della pagina.

Sta a te decidere esattamente come gestire i robot con la pagina e se la pagina debba essere inclusa o meno. Per poche pagine singole, questo potrebbe essere l'approccio migliore. Per rimuovere un'intera directory di contenuti, vai con il metodo robots.txt.

L'idea di “Rimozione” Soddisfare

Questo tipo di trasforma l'intera nozione di “eliminazione di contenuti da Internet” sulla sua testa Tecnicamente, se rimuovi tutti i tuoi link a una pagina del tuo sito e la rimuovi da Ricerca Google e da Internet Archive utilizzando la tecnica robots.txt, la pagina è a tutti gli effetti “cancellato” da Internet. La cosa bella però è che se ci sono collegamenti esistenti alla pagina, quei collegamenti funzioneranno ancora e non innescherete 404 errori per quei visitatori.

È un altro “dolce” approccio alla rimozione di contenuti da Internet senza compromettere completamente la popolarità del collegamento esistente del tuo sito su Internet. Alla fine, come gestisci i contenuti che vengono raccolti dai motori di ricerca e l'Archivio Internet spetta a te, ma ricorda sempre che, nonostante ciò che la gente dice sulla durata di cose che vengono pubblicate online, è completamente sotto il tuo controllo.

Scopri di più su Google, Ricerca Google, SEO, Web Design, Strumenti per i Webmaster.

« 3 modi per preservare la tua presenza online mentre sei in prigione 3 modi per eseguire giochi e app MS-DOS in Linux »