Il Robots.txt

Il robots.txt è divenuto da ormai diversi anni, uno standard utilizzato da tutti i motori di ricerca.

Attraverso l'utilizzo del file robots.txt, da inserire nella root del sito, è possibile dare alcune indicazioni o suggerimenti agli spider, al fine per esempio di bloccarne l'avanzata su alcune tipologie di file o cartelle o per bloccare l'accesso ad una categoria specifica di spider.

Le regole di compilazioni sono molto semplici.

Per prima cosa, creiamo un semplice file di testo da chiamare robots.txt. Questo file di testo può essere creato con un qualunque editor, a partire dal più semplice blocknotes di Windows.

Le regole di basi sono le seguenti:

User-agent: per speficare il nome dello spider chiamato in causa
Allow/Disallow + eventuali specifiche richieste, per consentire o meno l'accesso da parte degli spider.

Ecco alcuni esempi pratici di codici

Consentire l'accesso al sito senza alcuna restrizione a tutti gli spider:

User-agent:*
Disallow:

Escludere l'intero dominio da parte di tutti gli spider

User-agent: *
Disallow: /

Consentire l'accesso solo a Google

User-agent: Google
Disallow:

User-agent: *
Disallow: /

Bloccare solo alcune cartelle

User-agent: *
Disallow: /admin/
Disallow: /images/
Disallow: /test/

Bloccare solo alcune pagine

User-agent: *
Disallow: /test/1.html
Disallow: /test2/2.html

Bloccare solo alcuni formati

User-agent: *
Disallow: *.jpg

Consigli di utilizzo

1) Dove possibile, impostare la forma principale ovvero 

User-agent:*
Disallow:

2) Evitate di elencare tutti gli spider da bloccare; gli spider spam ignorano le regole robots.txt, quindi avrete fatto lavoro per niente

3) Verifica che la mancanza del file, coincida con un Error 404. In caso di riposta positiva, ovvero 200, mi è capitato personalmente che Google traducesse come "Blocca tutto", creando la deindicizzazione del sito

4) L'istruzione disallow non vale per il dominio: anche un sito interamente escluso da Google, avrà comunque il dominio principale indicizzato, con dati per la creazione di titolo e abstract recuperati altrove (dmoz, link ecc)

5) Disabilita le cartelle se contengono file duplicati. Caso tipico le sezioni "Comunicati Stampa". In quel caso, disabilita la cartella completa cosi

User-agent:*
Disallow: /comunicati_stampa/
Disallow: /pagine_duplicate/
Disallow: /stampa/funzione_che_stampa_la_pagina.php

6) Fate molta attenzione quando bloccate la cartella immagini o singole estensioni; potreste creare problemi di indicizzazioni da parte di Google se il sito presenza per esempio un menù formato da immagini

Sitemaps

Sempre nel file robots, possiamo specificare le nostre sitemaps con la seguente dicitura (dettagli nella prossima lezione)

Sitemap: https://www.miosito.com/sitemap.xml

  1. Fabrizio Ventre

    Mi occupo di SEO e Lead Generation. Sono appassionato di tecnologia e innovazione e fondatore di alcune importanti testate hi-tech. Attualmente CoFounder e Seo Manager presso Omniaweb, Cofoudner Tag Padova, Hostplace.

In primo piano

Articoli collegati

Newsletter Seotopic.com

Ti è piaciuto questo articolo? Non perderne nessuno, iscriviti alla newsletter per riceverli una email ogni volta che verrà pubblicato un nuovo incredibile post.

Commenti

Nessuno ha ancora osato commentare questo straordinario post. Vuoi essere il primo ?

Seotopic

Probabilmente il miglior blog Seo degli ultimi 150 anni. I seo si stanno estinguendo. Aiutaci a salvarli !!!!

Dove opero

Mi trovi a: Vicenza, Padova, Verona, Treviso, Venezia.

Contatti

Contatti e recapiti

  • Vicenza, Padova, Verona, Treviso, Venezia
  • Mobile: +39 345 9371774
  • Email: info@seotopic.com