Come impostare il file robots.txt su wordpress

Anni fa ho rimosso un bel pò di link interni da questo blog ho dovuto dare un occhiata al mio robots.txt che consentiva l’accesso totale a tutto il sito ai crawler di google. Controllando con google webmaster tool avevo una marea di 404 impedendo ai crawler di raggiungere i link rimossi si risistema tutto. Non è un metodo molto bello perchè google si ricorda comunque di quei links bisognerebbe rimuoverli manualmente sempre da google web master tool. Qua di seguito vi riporto alcuni esempi su come impostare il file robots.txt su wordpress, ovviamente il file robots esiste per tutti i siti web.

Definizione di file robots da wikipedia:

Il file robots.txt contiene delle regole utilizzate dai crawler (detti anche spider) per applicare restrizioni di analisi sulle pagine di un sito internet. I web crawler sono dei software automatici programmati per effettuare ricerche ed indicizzazioni periodiche. Nella prima fase di analisi di un sito web controllano l’esistenza del file robots.txt per applicare eventuali restrizioni richieste dal webmaster del sito. Il file robots.txt è stato creato nel giugno 1994 con il consenso dei membri della robots mailing list (robots-request@nexor.co.uk). In questo momento non esiste un vero e proprio standard per il protocollo robots.

Ecco come era impostato il mio file robots.txt:

User-agent: *
Disallow:


Attenzione a non confondere il divieto totale a tutti i contenuti che invece è così con / che indica tutta la root :

User-agent: *
Disallow: /

Ho fatto un salto sul codeplex e ho creato un modello di questo file simile a quello che consigliavano loro.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# digg mirror
User-agent: duggmirror
Disallow: /

Sitemap: http://www.example.com/sitemap.xml

Se per caso cambiate il robots.txt state sempre molto attenti perchè potrebbe avere effetti indesiderati, se per caso avete problemi di Meta descrizioni duplicate cercate di non risolvere con questo file ma con appositi plugin o soluzioni alternative.

Facendo delle ricerche in rete su altri articoli su questo argomento mi sembrano piuttosto obsoleti, secondo me google preferisce i siti che lasciano l’accesso totale, senza contare che la struttura di wordpress la conoscono già. Se andate nella console Web Master Tools Google → configurazione sito → Crawler → Genera file robots.txt effettivamente google consiglia di impostare il robots in questo modo

Consenti tutti (consigliato; puoi perfezionare questa regola nel passaggio successivo)

che traducono in queste due righe:

User-agent: *
Allow: /

Sicuramente una regola certa non esiste, se non sapete come impostarlo o non avete bene idea di cosa escludere e cosa consentire vi consiglio di impostare il sitemap.xml e consentire l’accesso a tutto, altrimenti provate a fare dei test e alla fine provando e riprovando dovreste riuscire a trovare la vostra combinazione ideale.Solamente che i crawler non si aggiornano istantaneamente quindi bisogna perderci qualche giorno monitorando le statistiche passate. Nessuno vi vieta di controllare come hanno il file robots gli altri siti vi basterà inserire dopo l’url robots.txt per esempio https://www.evilripper.net/robots.txt

Trovate maggiori info sul sito:
http://www.robotstxt.org
Guida robot.txt di google in inglese

L'articolo ti è stato utile?

Condividilo sulla tua rete di contatti Twitter, sulla tua bacheca su Facebook. Diffondere contenuti che trovi rilevanti aiuta questo blog a crescere. Grazie!

3 thoughts on “Come impostare il file robots.txt su wordpress

  1. Pingback: Visto nel Web – 63 « Ok, panico

  2. Memosystem

    Ciao, dovrei usare il file robots.txt per escludere dai motori solo le pagine che terminano con ?codice=XX che tu sappia è possibile? Grazie mille

Comments are closed.