Sabato
19
Marzo 2022
Il file Robots.txt è un file che deve sempre essere presente nel tuo sito web WordPress perché si tratta di un elemento fondamentale per la SEO.
Questo file infatti si occupa di comunicare ai Crawler dei motori di ricerca i contenuti da indicizzare e quelli da evitare, come i file per il backend del sito.
Le pagine da indicizzare vengono comunicate con delle istruzioni contenute all’interno del file, secondo una semplice struttura:
User-agent: *
Disallow: /pagina-da-evitare/
Allow: /pagina-da-scansionare/
Sitemap: https://www.il-mio-sito.it/sitemap_index.xml
Questo file è molto importante perchè è possibile inserire al suo interno il percorso della Sitemap del tuo sito. Come inserire la sitemap nel file robots.txt? In questo modo:
Sitemap: https://www.il-mio-sito.it/sitemap_index.xml
Inserire la sitemap del sito in questo file è un’ottima procedura che aumenta la SEO del tuo sito web perchè, siccome questo file comunica con i Crowler di Google, essi ne leggeranno il contenuto e scansioneranno la tua Sitemap.
User-agent indica i bot dei motori di ricerca a cui sono destinate le istruzioni nelle righe successive
Disallow indica l’url relativo delle pagine e delle cartelle in cui evitare la scansione.
Allow indica le pagine e le cartelle da indicizzare.
Sitemap indica il percorso assoluto della sitemap.
Un esempio classico per il tuo sito web WordPress è quello riportato di seguito.
In questa istruzione indichiamo ai bot la scansione solo agli elementi necessari agli utenti.
Non escludere mai file Css e Javascript dall’indicizzazione perché questo porta errori di visualizzazione dei contenuti, il più classico è il “testo troppo piccolo da leggere” della Search Console.
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /cgi-bin/
Disallow: /wp-includes/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Allow: /wp-includes/js/jquery/jquery.js
Sitemap: https://www.agenziawebeureka.it/sitemap_index.xml
Nell’esempio file Robots.txt ho inserito istruzioni Disallow al backend di WordPress (wp-admin) per concentrarmi su immagini, css e javascript del frontend (wp-content).
Questo codice è valido per tutti i bot di Google e altri motori di ricerca grazie all’istruzione User-agent: *
La sitemap che sto inviando ai bot è quella generata dal plugin Yoast SEO..
In WordPress, come in tutti i siti web, il file Robots.txt si trova nella directory principale, la stessa in cui trovi le cartelle wp-content, wp-admin e wp-includes.
Non cambiare mai la posizione di questo file altrimenti non verrà letto dai bot. Loro infatti controllano se è presente lì e se non lo trovano danno per scontato che non ci sia, penalizzando il sito.
Se utilizzi sottodomini allora devi creare un file Robots.txt personalizzato per ogni sottodominio e inserirlo sempre nella cartella principale.
Se utilizzi il plugin Yoast Seo allora puoi tranquillamente generarlo automaticamente dalla sezione strumenti e poi modifica file.
Nel file Robots.txt possiamo anche inserire istruzioni per bloccare singoli url oppure url molto simili, proprio usando l’asterisco (*).
Alcuni plugin generano url duplicati per ogni singola pagina e articolo del sito, triplicando le pagine da scansionare e, di conseguenza aumentando il lavoro dei bot.
Devi sapere che quando i bot inviano richieste di scansione al tuo sito potrebbero sovraccaricare il sistema, rendendolo lento per gli utenti.
È un caso molto raro ma va comunque evitato ed un modo molto efficace per farlo è limitare le pagine da scansionare. Meno lavoro vuol dire maggior efficienza!
Il motivo reale per cui bisogna limitare le pagine sottoposte a scansione è un altro. Per farla semplice, se i bot si concentrano su pagine inutili lasceranno perdere quelle importanti per te, diradando le scansioni e penalizzandoti.
Per rimuovere url dal file Robots.txt basta inserire queste istruzioni:
Disallow: */?mode=*
Disallow: */?cf_pg*
Disallow: */?ae_global*
Queste pagine vengono generate da tre plugin WordPress e analizzate inutilmente dai bot. Gli asterischi ad inizio e fine indicano qualsiasi url che contenga i caratteri nel mezzo.
1 – verifica che la dimensione del file Robots.txt non superi i 500 kb perché l’eccedenza può essere ignorata dai bot.
2 – Usa strumenti di test per verificare che gli url di pagine e articoli non siano bloccati
Per farlo puoi utilizzare lo strumento di test del file Robots.txt messo a disposizione da Google
3 – Per aiutarti nella compilazione puoi utilizzare il generatore del file Robots.txt
Scrivi un commento