Robots, n'oubliez pas les 3 lois !
On a vu que Google intégrait les pages à son index sur simple détection d’un lien pointant vers elles. Cependant, dans certains cas, un webmaster peut souhaiter que ses pages n’apparaissent pas dans Google. Pour ce faire, il doit utiliser un fichier, appelé robots.txt, qu’il place à la racine de son site. Ce fichier contient des directives sur la ligne de conduite que doit adopter le Googlebot. Par exemple, robots.txt peut contenir les lignes suivantes :
User-agent : Googlebot Disallow : /
Cela signifie que Googlebot n’est pas autorisé à indexer le site. De même, il est possible d’interdire l’indexation de seulement quelques répertoires, ou quelques fichiers. Ou au contraire d’explicitement autoriser l’indexation. Le fichier robots.txt peut être ajouté a posteriori d’une première indexation par le Googlebot : il sera pris en compte lors du passage suivant de celui-ci. Le fichier robots.txt n’est pas une protection pour que les fichiers ne soient pas accessibles aux internautes, c’est davantage un moyen de prévenir certains problèmes d’indexation connus par les webmasters.
- Guillaume
- 19:35
- > Lien permanent
- > Commentaires
- > Abus ?




