Corso Seo, Lezione 11: Robots e regole da utilizzare

30/05/13 seo Corso Seo 2013 0 commenti 3490 letture

Il Robots.txt

Il robots.txt è divenuto da ormai diversi anni, uno standard utilizzato da tutti i motori di ricerca.

Attraverso l'utilizzo del file robots.txt, da inserire nella root del sito, è possibile dare alcune indicazioni o suggerimenti agli spider, al fine per esempio di bloccarne l'avanzata su alcune tipologie di file o cartelle o per bloccare l'accesso ad una categoria specifica di spider.

Le regole di compilazioni sono molto semplici.

Per prima cosa, creiamo un semplice file di testo da chiamare robots.txt. Questo file di testo può essere creato con un qualunque editor, a partire dal più semplice blocknotes di Windows.

Le regole di basi sono le seguenti:

User-agent: per speficare il nome dello spider chiamato in causa
Allow/Disallow + eventuali specifiche richieste, per consentire o meno l'accesso da parte degli spider.

Ecco alcuni esempi pratici di codici

Consentire l'accesso al sito senza alcuna restrizione a tutti gli spider:

User-agent:*
Disallow:

Escludere l'intero dominio da parte di tutti gli spider

User-agent: *
Disallow: /

Consentire l'accesso solo a Google

User-agent: Google
Disallow:

User-agent: *
Disallow: /

Bloccare solo alcune cartelle

User-agent: *
Disallow: /admin/
Disallow: /images/
Disallow: /test/

Bloccare solo alcune pagine

User-agent: *
Disallow: /test/1.html
Disallow: /test2/2.html

Bloccare solo alcuni formati

User-agent: *
Disallow: *.jpg

Consigli di utilizzo

1) Dove possibile, impostare la forma principale ovvero

User-agent:*
Disallow:

2) Evitate di elencare tutti gli spider da bloccare; gli spider spam ignorano le regole robots.txt, quindi avrete fatto lavoro per niente

3) Verifica che la mancanza del file, coincida con un Error 404. In caso di riposta positiva, ovvero 200, mi è capitato personalmente che Google traducesse come "Blocca tutto", creando la deindicizzazione del sito

4) L'istruzione disallow non vale per il dominio: anche un sito interamente escluso da Google, avrà comunque il dominio principale indicizzato, con dati per la creazione di titolo e abstract recuperati altrove (dmoz, link ecc)

5) Disabilita le cartelle se contengono file duplicati. Caso tipico le sezioni "Comunicati Stampa". In quel caso, disabilita la cartella completa cosi

User-agent:*
Disallow: /comunicati_stampa/
Disallow: /pagine_duplicate/
Disallow: /stampa/funzione_che_stampa_la_pagina.php

6) Fate molta attenzione quando bloccate la cartella immagini o singole estensioni; potreste creare problemi di indicizzazioni da parte di Google se il sito presenza per esempio un menù formato da immagini

Sitemaps

Sempre nel file robots, possiamo specificare le nostre sitemaps con la seguente dicitura (dettagli nella prossima lezione)

Sitemap: https://www.miosito.com/sitemap.xml

Fabrizio Ventre

Mi occupo di SEO e Lead Generation. Sono appassionato di tecnologia e innovazione e fondatore di alcune importanti testate hi-tech. Attualmente CoFounder e Seo Manager presso Omniaweb, Cofoudner Tag Padova, Hostplace.

Post Precedente Corso Seo, Lezione 10: H1 e intestazioni Header

Post Successivo Google Ranking Cap e Profilo di Link Building: Il segreto di Google svelato

In primo piano

Link Building: 10 Test di vecchie e nuove tecniche di Link Building

Articoli collegati

Corso Seo, Lezione 16: Link e Backlink in Ottica Seo

3490 letture

Corso Seo, Lezione 15: Tecniche di Ottimizzazione geografica

3490 letture

Corso Seo, Lezione 14: Strutture e Macrostrutture

3490 letture

Corso Seo, Lezione 13: Redirect 301

3490 letture

Corso Seo, Lezione 12: Sitemaps, le regole di base

3490 letture