robots.txt : syntaxe disallow - generator - google robot txt
Un fichier robots.txt restreint l'accès des robots d'exploration du Web à un site :Mais ce n'est qu'une indication sur ce que doivent faire les robots ( comme google (google robots txt) yahoo bing ... ) : certains robots ignorent ce fichier.
Lors de la soumission d’une page sur un moteur celui-ci va automatiquement vérifier la présence d’un fichier "robots.txt" d’interdiction.
Vous pouvez specifier l'adresse de votre sitemap dans le fichier robots.txt :
Vous devez ainsi ajouter l'url de votre sitemap ainsi n'importe parmi les autres directives :
Sitemap: http://www.monsite.com/sitemap.xml
Le « protocole d’exclusion des robots » (Robots Exclusion Protocol), standardisé et approuvé le 30 juin 1994 définit :
- le format du fichier robots.txt
- et de la balise META « robots ».
Pour interdire l’accès au site à un ou plusieurs robots comme badbot et autoriser l’accès à tous les autres robots, créez votre robots.txt avec la directive . (robots.txt) disallow :
User-agent: badbot
Disallow: /