sitemap, robots.txt et réseaux sociaux
Le fichier robots.txt a comme fonction principale d’autoriser et de faciliter, voir d’interdire l’indexation de votre contenu. Cette indexation est faite par les robot d’indexation (en anglais web crawler ou web spider) des moteur de recherche.
Vous ne pouvez avoir qu’un seul fichier robots.txt sur un site car il est la pierre angulaire d’entrée sur votre site.
Quelques article de ce blog pour une gestion SEO affiné :
Créer un fichier sitemap sur PC
http://social.hecube.net/blog/2009/04/14/creer-un-fichier-sitemap-sur-pc/
Créer sur Mac un sitemap google pour votre site
http://social.hecube.net/blog/2009/04/02/creer-un-sitemap-avance-pour-google/
Créer un sitemap avancé pour Google
http://social.hecube.net/blog/2009/04/02/creer-un-sitemap-avance-pour-google/
Envoyer son sitemap dans les outils du webmaster de Google
http://social.hecube.net/blog/2009/04/03/envoyer-son-sitemap-sur-dans-les-outils-du-webmaster-de-google/
Le chemin vers le sitemap
On a vu de nombreux articles sur comment créer des sitemaps ou un index de sitemaps. Il est une information importante qui peut être contenu dans le fichier robots.txt, c’est le chemin vers le sitemap. Placer cette information dans le robots.txt uniformise la gestion et l’accès pour tous les robots d’indexation accédant à votre site. Il est bien évidemment possible d’ajouter plusieurs fichiers de sitemap si vous ne faites pas appel à un index de sitemap.
Gérer via robots.txt des sitemaps et le “Cross submit” dans le cas d’un réseau social
L’exemple ci-dessous montre comment vous pouvez faciliter le référencement de différents blogs hébergés par une même solution comme l’est notre plate-forme de réseau social sous buddypress. Le but ultime étant d’accroître votre notoriété digitale avec de multiples entrées.
Imaginons que vous avez 3 sous-domaines spécifiques correspondant à 3 “hosts” différents.
- bruno.hecube.net avec le fichier de sitemap suivant
sitemap_blog_bruno.xml
- etienne.hecube.net avec le fichier de sitemap suivant
sitemap_blog_etienne.xml
- annie.hecube.net avec le fichier de sitemap suivant
sitemap_blog_annie.xml
Chaque sous-domaine possède un sitemap unique. Vous pouvez gérer l’ensemble de ces sitemaps sur un même nom de domaine, par exemple social.hecube.net. Vous devrez alors pour le premier sous-domaine par exemple bruno.hecube.net
, vous pouvez modifier le fichier robots.txt de ce site bruno.hecube.net
en lui indiquant la présence d’un sitemap sur un autre nom de domaine disons social.hecube.net par exemple Sitemap: http://social.hecube.net/sitemap_blog_bruno.xml
Un modèle de robots.txt pour un site sous WordPress
#déclaration faite pour l'ensemble des agents de moteur: msn, google, yahoo...etc User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /search/*/feed Disallow: /search/*/feed/ # A noter, l'étoile après le slash n'est pas obligatoire mais il figure dans de nombreux exemples. # Cela signifie que tous les fichiers du répertoire seront pris en compte. # autoriser le robot à visiter le site en entier pour le compte de AdSense User-agent: Mediapartners-Google Disallow: Allow: /* # autoriser le robot à visiter le site en entier pour le compte de AdWords User-agent: Adsbot-Google Allow: /* # autoriser le robot google image à indexer les images User-agent: Googlebot-Image Allow: /* # Internet Archiver Wayback Machine - pas de retour dans le passé - c'est un choix User-agent: ia_archiver Disallow: / # digg mirror - éviter un miroir de votre site User-agent: duggmirror Disallow: / # IMPORTANT le chemin vers le fichier de sitemap Sitemap: http://social.hecube.net/sitemap.xml |
Pour aller plus loin
Un très bon site sur le meilleur moyen de référencer un site fait sous WordPress
Un petit site référent en matière de robots.txt (en anglais)
Un site exhaustif sur la philosophie des sitemap, index ou autre.
Une ressource excellente sur le référencement.