John Mueller di Google ha recentemente fornito alcuni consigli su come bloccare i file robots.txt e sitemap dall’indicizzazione nei risultati di ricerca.

Questo consiglio è stato richiesto in un tweet di Gary Illyes di Google, che ha sottolineato come il file robots.txt può essere tecnicamente indicizzato come qualsiasi altro URL. Sebbene fornisca indicazioni speciali per la scansione, non c’è nulla che gli impedisca di essere indicizzato.

Ma andiamo con ordine, soprattutto per i neofiti della SEO: il file robots.txt fondamentalmente ha lo scopo, come dice Google nella Guida di Search Console, “di far capire ai crawler dei motori di ricerca quali pagine o file contenuti all’interno di un sito web possono o non possono richiedere da un sito web. Viene usato principalmente per evitare di sovraccaricare di richieste il sito”.

Il file robots.txt non è un meccanismo che permette di escludere una pagina web da Google. Per escludere una pagina web da Google è necessario usare le istruzioni noindex oppure proteggere tramite password la pagina web che si vuole escludere.

Ma torniamo a Gary Illyes di Google e a cosa ha scritto nel suo tweet da noi qui tradotto:

“Innescato da una domanda interna: robots.txt dal punto di vista dell’indicizzazione è solo un URL il cui contenuto può essere indicizzato. Può diventare canonico o può essere deduplicato, proprio come qualsiasi altro URL.
Ha solo un significato speciale per la scansione, ma lì il suo stato dell’indice non ha alcuna importanza. “

In risposta al suo compagno Googler, John Mueller sempre su Twitter ha affermato che l’intestazione HTTP x-robots-tag può essere utilizzata per bloccare l’indicizzazione dei file robots.txt o sitemap. Non era tutto ciò che aveva da dire sulla questione, tuttavia, questo era probabilmente il principale fattore chiamato in causa:

“Inoltre, se il tuo file robots.txt o sitemap è in classifica per le query normali (non per il sito :), questo di solito è un segno che il tuo sito è davvero messo male e dovrebbe invece essere migliorato.”

Quindi, se stai riscontrando il problema in cui il tuo file robots.txt si classifica nei risultati di ricerca, bloccarlo usando l’intestazione HTTP x-robots-tag è una buona soluzione a breve termine. 

Ma se ciò accade, probabilmente ci sono problemi molto più grandi di cui occuparsi nel lungo termine, come lo stesso Mueller suggerisce.