sitemap, robots.txt et réseaux sociaux

Le fichier robots.txt a comme fonction principale d’autoriser et de faciliter, voir d’interdire l’indexation de votre contenu. Cette indexation est faite par les robot d’indexation (en anglais web crawler ou web spider) des moteur de recherche.
Vous ne pouvez avoir qu’un seul fichier robots.txt sur un site car il est la pierre angulaire d’entrée sur votre site.

Quelques article de ce blog pour une gestion SEO affiné :

Créer un fichier sitemap sur PC
http://social.hecube.net/blog/2009/04/14/creer-un-fichier-sitemap-sur-pc/

Créer sur Mac un sitemap google pour votre site
http://social.hecube.net/blog/2009/04/02/creer-un-sitemap-avance-pour-google/

Créer un sitemap avancé pour Google
http://social.hecube.net/blog/2009/04/02/creer-un-sitemap-avance-pour-google/

Envoyer son sitemap dans les outils du webmaster de Google
http://social.hecube.net/blog/2009/04/03/envoyer-son-sitemap-sur-dans-les-outils-du-webmaster-de-google/

Le chemin vers le sitemap

On a vu de nombreux articles sur comment créer des sitemaps ou un index de sitemaps. Il est une information importante qui peut être contenu dans le fichier robots.txt, c’est le chemin vers le sitemap. Placer cette information dans le robots.txt uniformise la gestion et l’accès pour tous les robots d’indexation accédant à votre site. Il est bien évidemment possible d’ajouter plusieurs fichiers de sitemap si vous ne faites pas appel à un index de sitemap.

Gérer via robots.txt des sitemaps et le “Cross submit” dans le cas d’un réseau social

L’exemple ci-dessous montre comment vous pouvez faciliter le référencement de différents blogs hébergés par une même solution comme l’est notre plate-forme de réseau social sous buddypress. Le but ultime étant d’accroître votre notoriété digitale avec de multiples entrées.

Imaginons que vous avez 3 sous-domaines spécifiques correspondant à 3 “hosts” différents.

bruno.hecube.net avec le fichier de sitemap suivant sitemap_blog_bruno.xml
etienne.hecube.net avec le fichier de sitemap suivant sitemap_blog_etienne.xml
annie.hecube.net avec le fichier de sitemap suivant sitemap_blog_annie.xml

Chaque sous-domaine possède un sitemap unique. Vous pouvez gérer l’ensemble de ces sitemaps sur un même nom de domaine, par exemple social.hecube.net. Vous devrez alors pour le premier sous-domaine par exemple bruno.hecube.net, vous pouvez modifier le fichier robots.txt de ce site bruno.hecube.net en lui indiquant la présence d’un sitemap sur un autre nom de domaine disons social.hecube.net par exemple Sitemap: http://social.hecube.net/sitemap_blog_bruno.xml

Un modèle de robots.txt pour un site sous WordPress

	#déclaration faite pour l'ensemble des agents de moteur: msn, google, yahoo...etc
	User-agent: *
	Disallow: /cgi-bin
	Disallow: /wp-admin
	Disallow: /wp-includes
	Disallow: /wp-content
	Disallow: /search/*/feed
	Disallow: /search/*/feed/
 
 
# A noter, l'étoile après le slash n'est pas obligatoire mais il figure dans de nombreux exemples.
# Cela signifie que tous les fichiers du répertoire seront pris en compte.
 
 
	# autoriser le robot à visiter le site en entier pour le compte de AdSense
	User-agent: Mediapartners-Google
	Disallow:
	Allow: /*
 
	# autoriser le robot à visiter le site en entier pour le compte de AdWords 
	User-agent: Adsbot-Google
	Allow: /*
 
	# autoriser le robot google image à indexer les images
	User-agent: Googlebot-Image
	Allow: /*
 
	# Internet Archiver Wayback Machine - pas de retour dans le passé - c'est un choix
	User-agent: ia_archiver
	Disallow: /
 
# digg mirror - éviter un miroir de votre site
User-agent: duggmirror
Disallow: /
 
 
	# IMPORTANT le chemin vers le fichier de sitemap
	Sitemap: http://social.hecube.net/sitemap.xml