- ROBOTS.TXT : En général presque tous les moteurs de recherche comprennent et tiennent compte du robots.txt.
- ROBOTS.TXT : Par exemple pour interdire tout accès à tous les robots, utilisez ce fichier robots.txt :
- ROBOTS.TXT : Les robots font ce qu’ils veulent des informations contenus dans robots.txt :
- ROBOTS.TXT : Mais certains spider mal intentionnés (comme les robots des spammeurs et des hackers) :peuvent utiliser le contenu de votre robots.txt pour savoir où trouver les informations que vous voulez cacher en se servant de votre robots.txt
Ainsi lors de l'indexation le moteur va automatiquement vérifier la présence d’un fichier robots.txt d’interdiction.
User-Agents robots.txt :
User-Agents pour les moteurs de recherche les plus populaires :Alta Vista Scooter
Excite ArchitextSpider
Google Googlebot
HotBot Slurp
InfoSeek InfoSeek Sidewinder
Lycos T-Rex
Voilà Echo
User-agent: *
Disallow: /
regles robots.txt :
Il ne peut exister qu'un seul fichier robots.txt sur un siteLe robots.txt doit se trouver au niveau de la racine
Les moteurs comme Google, Yahoo ou Microsoft : ils vont respecter les directives de robots.txt de votre site.
spiders robots.txt :
Le fichier "robots.txt" est destiné aux "spiders".Les spiders sont les programmes qui explorent le web et qui permettent aux moteurs de recherche de découvrir votre site et d'en analyser le contenu.