File robots txt

Il modo più conosciuto per ridurre l'attività di scansione degli spider è sicuramente l'utilizzo dei tag robots. Ma trattandosi di uno strumento dedicato ad ogni singola pagina può risultare scomodo.

Per questo è per altri motivi esiste il Robots Exclusion Standard, un sistema che permette di avere un controllo maggiore sugli spider.

Lo standard per l'esclusione degli spider è più semplice di quanto possa sembrare. Basta servirsi di un semplice file di testo e di text editor. Il file in questione va chiamato "robots.txt" e contiene, in un particolare formato, delle istruzioni che possono impedire a tutti o alcuni spider il prelievo di alcune o tutte le pagine del sito.

Vi riporto un pezzo di uno dei maggiori SEO Italiani, Enrico Altavilla:

Una volta creato il file robots.txt, esso va pubblicato on-line nella directory principale del sito web. Ad esempio, se il sito ha indirizzo http://www.nome_del_sito.com , il file dovrà essere accessibile all'indirizzo http://www.nome_del_sito.com/robots.txt .

Tutti gli spider di quei motori di ricerca che hanno deciso di aderire a questo standard e di seguire le indicazioni del file robots.txt (ovvero la maggior parte dei motori, sebbene non tutti), ogni volta che accederanno al sito web, per prima cosa andranno a cercare nella directory principale il suddetto file e, se lo troveranno, seguiranno le direttive contenute al suo interno.

Contenuti di robots.txt

Innanzitutto è indispensabile aver chiaro quanto segue: il file robots.txt contiene una lista di pagine e directory che gli spider NON possono prelevare.

Ciò significa che non esiste una istruzione per dire allo spider: "puoi prelevare questa pagina" ma esistono solo istruzioni per dirgli: "NON puoi prelevare questa pagina". Non a caso lo standard si chiama Standard per l'esclusione dei robot.

Quanto appena specificato è estremamente importante, in quanto molti degli errori che i webmaster spesso inseriscono nei file robots.txt hanno origine dall'errata comprensione di ciò che è possibile fare con essi.

Se non avete la necessità di impedire ai motodi ricerca di prelevare alcune (o tutte) pagine del vostro sito, allora il file robots.txt non vi serve.

Formato di robots.txt

Il file robots.txt contiene dei record, ognuno dei quali comprende due campi: il campo "User-agent" ed uno o più campi "Disallow".

Il campo User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte. La sua sintassi è:

User-agent

Il campo Disallow serve a indicare a quali file e/o directory non può accedere lo spider indicato nel campo User-agent. La sintassi di questo campo è:

Disallow

Esempio di un record:

User-agent: googlebot

Disallow: /testi.html

Disallow: /mp3/

Il suddetto record dice a Google ("googlebot" è il nome dello spider di Google) che non gli è permesso prelevare il file testi.html nè accedere alla directory mp3 e ai suoi contenuti, sottodirectory comprese. Notate come il nome del file è preceduto da un carattere "/" (che indica la directory principale del sito) e come il nome della directory fa uso di un carattere "/" anche in coda.

Il campo User-agent può contenere un asterisco "*", sinonimo di "qualunque spider". Per cui l'esempio seguente dice a tutti gli spider di non prelevare il file temporaneo.html:

User-agent: *

Disallow: /temporaneo.html

Il campo Disallow può contenere un carattere "/" ad indicare "qualunque file e directory". L'esempio che segue impedisce a scooter (lo spider di Altavista) di prelevare qualunque cosa:

User-agent: scooter

Disallow: /

Infine, il campo Disallow può essere lasciato vuoto, ad indicare che non ci sono file o directory di cui si vuole impedire il prelievo. L'esempio seguente mostra come dire a tutti i motori di ricerca di prelevare tutti i file del sito:

User-agent: *

Disallow:

Esempio di un file robots.txt

Come scritto pocanzi, il file robots.txt si compone di uno o più record, ognuno dei quali prende in esame spider differenti. Ecco dunque un esempio completo di file robots.txt, che blocca del tutto Altavista, impedisce a Google l'accesso ad alcuni file e directory e lascia libero accesso a tutti gli altri motori di ricerca.

User-agent: scooter

Disallow: /

User-agent: googlebot

Disallow: /intestazione.html

Disallow: /links.html

Disallow: /temporanei/

Disallow: /cgi-bin/

User-agent: *

Disallow:

Maggiori info:

Motori di ricerca

Condividi su Facebook