Il Robots.txt
Il robots.txt è divenuto da ormai diversi anni, uno standard utilizzato da tutti i motori di ricerca.
Attraverso l'utilizzo del file robots.txt, da inserire nella root del sito, è possibile dare alcune indicazioni o suggerimenti agli spider, al fine per esempio di bloccarne l'avanzata su alcune tipologie di file o cartelle o per bloccare l'accesso ad una categoria specifica di spider.
Le regole di compilazioni sono molto semplici.
Per prima cosa, creiamo un semplice file di testo da chiamare robots.txt. Questo file di testo può essere creato con un qualunque editor, a partire dal più semplice blocknotes di Windows.
Le regole di basi sono le seguenti:
User-agent: per speficare il nome dello spider chiamato in causa
Allow/Disallow + eventuali specifiche richieste, per consentire o meno l'accesso da parte degli spider.
Ecco alcuni esempi pratici di codici
Consentire l'accesso al sito senza alcuna restrizione a tutti gli spider:
User-agent:*
Disallow:
Escludere l'intero dominio da parte di tutti gli spider
User-agent: *
Disallow: /
Consentire l'accesso solo a Google
User-agent: Google
Disallow:
User-agent: *
Disallow: /
Bloccare solo alcune cartelle
User-agent: *
Disallow: /admin/
Disallow: /images/
Disallow: /test/
Bloccare solo alcune pagine
User-agent: *
Disallow: /test/1.html
Disallow: /test2/2.html
Bloccare solo alcuni formati
User-agent: *
Disallow: *.jpg
Consigli di utilizzo
1) Dove possibile, impostare la forma principale ovvero
User-agent:*
Disallow:
2) Evitate di elencare tutti gli spider da bloccare; gli spider spam ignorano le regole robots.txt, quindi avrete fatto lavoro per niente
3) Verifica che la mancanza del file, coincida con un Error 404. In caso di riposta positiva, ovvero 200, mi è capitato personalmente che Google traducesse come "Blocca tutto", creando la deindicizzazione del sito
4) L'istruzione disallow non vale per il dominio: anche un sito interamente escluso da Google, avrà comunque il dominio principale indicizzato, con dati per la creazione di titolo e abstract recuperati altrove (dmoz, link ecc)
5) Disabilita le cartelle se contengono file duplicati. Caso tipico le sezioni "Comunicati Stampa". In quel caso, disabilita la cartella completa cosi
User-agent:*
Disallow: /comunicati_stampa/
Disallow: /pagine_duplicate/
Disallow: /stampa/funzione_che_stampa_la_pagina.php
6) Fate molta attenzione quando bloccate la cartella immagini o singole estensioni; potreste creare problemi di indicizzazioni da parte di Google se il sito presenza per esempio un menù formato da immagini
Sitemaps
Sempre nel file robots, possiamo specificare le nostre sitemaps con la seguente dicitura (dettagli nella prossima lezione)
Sitemap: https://www.miosito.com/sitemap.xml
Mi occupo di SEO e Lead Generation. Sono appassionato di tecnologia e innovazione e fondatore di alcune importanti testate hi-tech. Attualmente CoFounder e Seo Manager presso Omniaweb, Cofoudner Tag Padova, Hostplace.