web-dev-qa-db-fra.com

Erreur d'accès Googlebot robots.txt sur HTTPS lors de la redirection à partir de HTTP

C'est peut-être une question stupide, mais je n'avais jamais rencontré ce problème auparavant et je n'ai pas pu trouver de réponse précise à cela sur le Web:

Notre client a migré vers HTTPS il y a quelques mois, en utilisant ses sites HTTP le long de ses sites HTTPS. Nous leur avons dit de rediriger 301 leurs sites HTTP vers leurs sites HTTPS correspondants. Jusqu'ici tout allait bien ...

JUSQU'À ce que nous obtenions une erreur d'erreur dans Google Webmaster Tools pour https://www.example.com/robots.txt:

5429 erreurs ont été rencontrées dans Googlebot lors de la tentative d'accès à votre fichier robots.txt. Pour nous assurer que nous n’avons analysé aucune des pages répertoriées dans ce fichier, nous avons reporté notre analyse. Le taux d'erreur global du fichier robots.txt de votre site est de 12,9%.

Nous avons demandé à leur fournisseur de services informatiques d’examiner la question, en supposant qu’ils aient commis une erreur en configurant la redirection 301 dans le fichier .htaccess. Cependant, ils nous ont rappelé que la redirection pour le fichier robots.txt pourrait être découragée par Google en général, voir ici , et que cela pourrait bien être le problème. Ils recommandent de conserver le fichier HTTP Robots.txt avec un 200.

En fait, je n'ai jamais rencontré ce problème jusqu'à présent. Avez-vous une idée de ce qui pourrait causer le problème?

Je suppose que si nous ne redirigeons plus le fichier HTTP robots.txt, Googlebot pourrait essayer d’analyser les versions HTTP du site Web. Ce qui ne devrait pas être un problème si toutes les versions HTTP sont correctement redirigées vers les versions HTTPS. ne me sens pas juste;) Je suis intéressé par la résolution du problème (en recherchant la cause) plus que par trouver une solution rapide.

4
tentakellady

Le meilleur moyen de déterminer pourquoi Google ne peut pas accéder à une page (y compris robots.txt ) consiste à utiliser le fetch as Google = fonctionnalité dans Google Webmaster Tools.

  1. Connectez-vous à Google Webmaster Tools
  2. Sélectionnez votre site (assurez-vous de l'avoir enregistré avec le https://)
  3. Accédez à "Crawl" -> "Fetch as Google"
  4. Entrez /robots.txt dans la zone de texte
  5. Cliquez sur le bouton "Fetch"

Google indiquera ensuite des informations plus détaillées sur les raisons pour lesquelles il ne peut pas obtenir votre fichier robots.txt.

3

Commencez par définir vos sites préférés en mode HTTPS dans GWT. Cela peut vous obliger à créer une nouvelle propriété et à la revérifier.

Une fois que vous recherchez le mode SSL, cliquez sur l'encadré et naviguez jusqu'à "Crawl> robots.txt Tester". Vous devriez voir un champ en bas qui commence par https://yoursite.com suivi d'un champ de texte et du bouton "TEST" rouge.

Vous devriez voir vos directives de robots chargées. Exécutez le test sur une page autorisée et non autorisée et voyez ce qu'il dit. S'il ne peut toujours pas y accéder, vous pouvez le faire, alors vous devriez le tester en-tête. Ouvrez l’inspecteur Chrome, puis sur l’onglet Réseau. Actualisez la page, puis cliquez sur la première ou la deuxième entrée pour afficher les en-têtes. Vous recherchez des réponses à la recherche de poissons ou des codes autres que 200… il peut y avoir une indication quant à la raison pour laquelle G n'est pas en mesure d'entrer.

Si vous rencontrez un problème de redirection, tout se trouve sur les épaules du "fournisseur de services informatiques". Ils devraient être en mesure de se connecter correctement au mode HTTPS .... s’ils ne le peuvent pas, je suggère au client de trouver un nouveau "fournisseur de services informatiques" capable de comprendre le fonctionnement du transfert.

En prime, ils devraient également définir un en-tête HSTS. HSTS utilise une redirection côté client 307 et est plus strict/dynamique que les redirections de style 301. Il a également une meilleure capacité à atténuer les éléments non sécurisés [en bloc].

3
dhaupin

Mon hypothèse sur les erreurs 5429 est que Google tente d'analyser un document HTML (c'est-à-dire que la redirection fonctionne, mais se termine au mauvais endroit). Peut-être une page 404, une page d'erreur ou même la page d'accueil.

J’ai eu ce problème même hier où le http://example.com/robots.txt était redirigé vers /index.php, puis de nouveau sur ma page d’accueil en raison d’un problème . Htaccess.

Si tel est le cas, cela signifie probablement que Google ne suit les redirections sur le robots.txt

1
misteraidan