come creare robots txt

Come creare file robots.txt ottimizzati per motori ricerca

Dopo aver visto come installare wordpress per creare il nostro Blog, il passo successivo è quello di creare il nostro file robots.txt.

Il file robots.txt è un file di testo molto importante per nostro sito o blog, in quanto indica agli spider dei motori di ricerca quale contenuto indicizzare all’interno dei loro indici (serp).

Questo file si trova all’interno della root principale del nostro sito (ovvero la directory madre dove si trovano i file del nostro sito) e deve chiamarsi obbligatoriamente per essere riconosciuto ed utilizzato robots.txt. Se nel vostro sito non è presente robots.txt, saranno indicizzati tutti i contenuti del vostro sito senza eccezioni.

Il motivo per applicare delle limitazioni agli spider è, ovviamente, in ottica SEO ovvero quello di evitare l’indicizzazione di contenuti duplicati (se ad esempio abbiamo una versione test del nostro sito in una sotto-directory esempio /demo, conviene inibire l’accesso a tale directory per evitare che venga riconosciuta come contenuto duplicato).

Il file robots.txt è costituito da una o più linee di codice, che sono le seguenti, che adesso vi andrò a spiegare :

  • User-agent
  • Disallow
  • Allow
  • Sitemap
  • #

Iniziamo col vedere cosa possiamo trovare per esempio all’interno di un file robots.txt creato per un blog in WordPress:

User-agent: * # il cancelletto serve per inserire un commento
Disallow: /wp-
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /cgi-bin/
Allow: /wp-content/uploads/
Sitemap: http://www.nomeblog.com/sitemap.xml

User-agent – Disallow – Allow

  • Il valore inserito in User-agent indica a quale robot si devono riferire le regole indicate, esempio se vogliamo impedire a Googlebot di indicizzare il contenuto della cartella “cartelladiprova”, dovremo inserire il seguente codice:

User-Agent: Googlebot
Disallow: /cartelladiprova/

Se invece vogliamo impedire che venga indicizza un immagine in particolare esempio “logosito.jpg” dal robot/spider Googlebot-Image il codice sarà il seguente:

User-agent: Googlebot-Image
Disallow: /immagini/logosito.jpg

  •  Se invece assegniamo il valore come * a User-agent tutti i robot si comporteranno secondo le regole sotto elencate e la sintassi sarà:

User-agent: *

Ecco una lista nomi dei spiders ovvero (User-agent) che potete trovare qui: Lista User-agent

Disallow

  • Il valore inserito in Disallow indica la cartella del sito o url che non devono essere indicizzati.

Ad esempio:

Disallow: /cartelladiprova

Se per esempio invece vogliamo evitare che vengono indicizzate tutte le immagini con estensione png il codice sarà il seguente:

User-agent: Googlebot
Disallow: /*.png$

Allow

  • Il valore inserito in Allow indica la cartella del sito o url che deve essere indicizzato. Questo comando può tornare utile quando vogliamo indicizzare un solo file o sottocartella all’interno di una cartella bloccata da un Disallow, esempio:

User-agent: Googlebot
Disallow: /sitobackup/ Disallow: /admin/
Allow: /sitobackup/esempio.html

Ci sono anche altre varianti utili da utilizzare con Allow e Disallow esempio:

User-agent: *
Allow: /*?$
Disallow: /*?

L’istruzione Disallow:/ *? bloccherà qualsiasi URL che contiene un ? (più precisamente, bloccherà qualsiasi URL che inizia con il tuo nome di dominio, seguito da qualsiasi stringa, seguita da un punto interrogativo, seguito da qualsiasi stringa).

L’istruzione Allow: /*?$ consentirà qualsiasi URL che termina con un ? (più precisamente, consentirà qualsiasi URL che inizia con il tuo nome di dominio, seguito da una stringa, seguita da un ?, senza caratteri dopo il ?).

Sitemap

  • Nel file robots.txt oltre a indicare cosa far indicizzare e cosa no possiamo indicizzare agli spider dei motori di ricerca, possiamo indicare l’url della sitemap del nostro sito. Non è obbligatorio indicarla, ma in caso ne siano presenti più di una sitemap si possono inserire più linee di codice. La Sitemap non è altro che un file xml, in cui troviamo informazioni fornite ai motori di ricerca riguardanti il proprio sito. queste informazioni possono essere: url del sito, data dell’ultima modifica e frequenza di aggiornamento. Può essere creata con editor di testo o tramite plug-in da installare come in wordpress.

La sintassi nel file robots.txt è la seguente:

Sitemap: http://www.sito.com/sitemap.xml

#

  • Questo carattere in fine permette di commentare ogni riga del nostro file robots.txt semplicemente inserendo il carattere cancelletto,  come in questo esempio:

User-agent: * # Ultima Modifica ottobre 2012

Tutto quello che si trova dopo il “#” non saranno interpretato dallo spider.Ora andiamo a vedere come definire le regole ed ottimizzare al meglio il vostro file robots.txt in caso voi usiate WordPress, iniziamo con l’impostare:

User-agent: * #in modo da renderlo valido per tutti i motori di ricerca
Disallow: /wp-
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /cgi-bin/ # Le righe di disallow servono a bloccare l'indicizzazione di file e pagine che costituiscono la struttura del vostro blog creato con WordPress niente a che fare invece con i contenuti che generate.
Sitemap: http://www.nomeblog.com/sitemap.xml

Se volete fare in modo che i contenuti del vostro blog vengano indicizzati e cercare di scalare la serp dei motori di ricerca, WordPress usa la cartella “/wp-content/uploads/” per archiviare le immagini, video e audio di ogni articolo.
Dato che prima abbiamo vietato di indicizzare il percorso /wp-content/ e quindi anche tutte le sottocartelle, dobbiamo ora fare in modo di rendere accessibile la sottocartella /uploads/, quindi per permettere l’indicizzazione della Directory dovete inserire questo comando dopo i Disallow precedenti:

Allow: /wp-content/uploads/

Terminato con le impostazioni delle regole, sarà sufficiente salvarlo come robots.txt e caricarlo nella “root” del Blog.
Ecco un esempio del file robots.txt ottimizzato per WordPress, pronto per essere utilizzato. Vi basterà copiarlo, salvarlo come robots.txt e inserirlo nella directory madre del blog.

User-agent: *
Disallow: /wp-
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /cgi-bin/
Allow: /wp-content/uploads/
Sitemap: http://www.nomeblog.com/sitemap.xml

Come creare file robots.txt ottimizzati per motori ricerca
5 (100%) 1 vote

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *