web-dev-qa-db-fra.com

Google Webmaster Tools me dit que des robots bloquent l'accès au sitemap

Voici mon fichier robots.txt :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

Mais Google Webmaster Tools me dit que des robots bloquent l'accès au sitemap:

Une erreur s'est produite lors de la tentative d'accès à votre plan Sitemap. Assurez-vous que votre sitemap respecte nos instructions et peut être consulté à l'emplacement que vous avez fourni, puis soumettez à nouveau: RL restreinte par robots.txt =.

J'ai lu que Google Webmaster Tools mettait en cache le fichier robots.txt , mais le fichier a été mis à jour il y a plus de 36 heures.

Mise à jour:

Si vous cliquez sur le plan du site TEST, Google ne récupère pas un nouveau plan du site. Seul SUBMIT sitemap a pu le faire. (En passant, je ne vois pas l’intérêt de "sitemap test", à moins que vous ne colliez votre sitemap actuel ici - il ne récupère pas une nouvelle copie du sitemap à partir de l’adresse qu’il vous demande de saisir avant le test - mais c’est vrai. une question pour un autre jour.)

Après avoir soumis (au lieu de tester) un nouveau sitemap, la situation a changé. Je reçois maintenant "URL bloquée par robots.txt . Le sitemap contient des URL bloquées par robots.txt . " pour 44 URL. Il y a exactement 44 URL dans le sitemap. This signifie que Google utilise le nouveau plan du site, mais qu'il respecte toujours l'ancienne règle des robots (qui maintenait tout ce qui était interdit) Aucune des 44 adresses URL n'est dans /wp-admin/ ou /wp-includes/ (ce qui est un peu impossible de toute façon, puisque le fichier robots.txt est construit à la volée par le même plugin qui crée le plan du site).

Mise à jour 2:

La situation de la page d’accueil est la suivante: "La description de ce résultat n’est pas disponible en raison du fichier robots de ce site (== --- ==) - apprendre encore plus". Toutes les autres pages ont une description détaillée. Il n'y a pas robots.txt OR robots bloquant l'indexation de la page d'accueil.

Je suis coincé.

11
Gaia

Il semblerait que Google n'ait probablement pas encore mis à jour le cache de votre fichier robots.txt. Votre fichier robots.txt actuel (ci-dessus) ne semble pas devoir bloquer votre URL de sitemap.

Je suppose que Google n'a tout simplement pas mis à jour son cache.

Il n'y a pas besoin de deviner. Dans Google Webmaster Tools (GWT), sous "Santé"> "URL bloquées", vous pouvez voir quand votre fichier robots.txt a été téléchargé et son succès. Il vous informera également du nombre d'URL bloquées par le fichier robots.txt.

robots.txt reference in Google Webmaster Tools

Comme indiqué dans mes commentaires, GWT dispose d'un outil de vérification du fichier robots.txt ("État de santé"> "URL bloquées"). Vous pouvez donc immédiatement tester les modifications apportées à votre fichier robots.txt (sans modifier votre fichier). Spécifiez le fichier robots.txt dans la zone de texte supérieure et les URL que vous souhaitez tester dans la zone de texte inférieure. Le fichier robots.txt vous indiquera si elles seront bloquées ou non.


Mise en cache de robots.txt

Une demande robots.txt est généralement mise en cache pendant un jour au maximum, mais peut être mise en cache plus longtemps dans les cas où l'actualisation de la version en cache n'est pas possible (par exemple, en raison de délais dépassés ou d'erreurs 5xx). La réponse en cache peut être partagée par différents robots. Google peut augmenter ou diminuer la durée de vie du cache en fonction des en-têtes HTTP max-age Cache-Control.

Source: Développeurs Google - Spécifications Robots.txt

8
MrWhite

J'ai eu le même problème avec mon site parce que lors de l'installation WP je sélectionne ne pas suivre avec le moteur de recherche ou la même option.

Pour résoudre ce problème:

  1. allez dans les outils pour les webmasters, supprimez l’URL et envoyez votre www.example.com/robots.txt avec cette option -> retirer du cache pour modifier le contenu ou ...
  2. attends une minute
  3. renvoyer l'URL de votre sitemap
  4. terminer
2
Mohammad