web-dev-qa-db-fra.com

Comment tester le fichier robots.txt dans googlebot pour savoir ce qui est indexé

Cette question est la continuation de cette réponse https://stackoverflow.com/questions/2788528/how-to-check-if-googlebot-will-index-a-given-url/2788735#2788735
Comme il a été dit, j’ai accédé à Webmaster Tools pour tester le contenu de mon fichier robots.txt. Cependant, cela ne fait que me donner des informations si le contenu est suffisamment bon ou non. Cependant, pour mon scénario, je dois vérifier si le refus de certains modèles est indexé ou non. Par exemple, j'ai quelque chose comme ceci ci-dessous dans mon fichier robots.txt

disallow:/pattern*     

D'après ce que je comprends, les URL avec un modèle Word ne doivent pas être explorées, mais comment puis-je tester l'application de ce modèle lors de l'indexation du site Web?

1
Amar Jarubula

Il y a plusieurs choses qui pourraient aider.

L’une consiste à regarder dans les outils pour les webmasters de Google sous Diagnostics ... Erreurs d'exploration et cliquez sur le lien Restreint par robots.txt . Cela aide à déterminer que ce que vous entrez dans le fichier robots.txt bloque réellement ce que vous attendez.

L'autre chose à vérifier est l'index de Google. Je vais faire une requête de recherche de la forme:

site:yourdomain.com inurl:url text to check

Lorsque j'ai apporté des modifications à robots.txt avec des caractères génériques, j'ai tendance à m'inquiéter davantage que ce que je souhaite, et j'utilise donc les vérifications ci-dessus pour m'assurer que seul ce que je veux exclure est réellement exclu de l'index.

Je ne sais pas si cela répond à votre question, mais j'espère que c'est assez proche :-)

2
Nathan Fox