web-dev-qa-db-fra.com

Googlebot inondant le serveur avec des demandes d'URL indésirables avec des données aléatoires

J'ai des problèmes avec GoogleBot. Il continue à demander une URL aléatoire qui n'existe pas. Il essaie d'accéder à: www.example.com/index.php/{TOKEN}

Ce {TOKEN} est vraiment aléatoire, aucune idée d'où il vient. J'essaie de répondre que les pages n'existent pas en redirigeant 301 vers la page d'accueil (je ne sais pas si c'est une bonne idée).

Cela provoque une surcharge de mon serveur, car ce sont des tonnes de demandes! Que dois-je faire pour arrêter ça?

Journal d'accès:

example.com 66.249.64.28 - - [21/Feb/2018:12:13:48 -0300] "GET /index.php/66t-2nkznwh_91f4690bjij1wbgziq- HTTP/1.1" 301 178 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-"

  • "Que devrais-je faire". Comme action immédiate, je définirais une règle dans la configuration du serveur Web (par exemple, .htaccess) pour répondre avec 404 à cela. 404 est au cas où vous n’auriez pas /index.php comme chemin valide sur votre serveur. Dong va donc au moins réduire la charge de votre interprète (je suppose que c'est PHP).
  • Ensuite, je mettrais une règle dans robots.txt pour interdire un tel chemin d’indexation. Cela devrait complètement empêcher Google d'explorer ces adresses URI, ainsi que de dépenser leur budget d'analyse.
  • Après cela, je chercherais des liens vers votre site en utilisant l’un de ces URI. Qui sait, peut-être que cela vous aidera à trouver la raison pour laquelle ces liens proviennent de Google. Et si c'est votre propre site?

C'est ça je pense.

PS 301 n'est pas une bonne idée je pense. D'après mon expérience, Bot reviendra de temps en temps pour confirmer que la redirection est toujours là. Je suppose que ce n'est pas ce que tu veux. De plus, 404 correspond vraiment mieux à la définition.

une URL aléatoire qui n'existe pas

1
George

J'ai constaté que Googlebot explorait sur mon site des URL inexistantes, sans contenu et non liées à aucune page. Des études ont montré qu'il semblerait que Google tape des mots dans les barres de recherche des sites Web et explore les résultats de la recherche.

Vous pouvez limiter les demandes d'analyse que Googlebot envoie à votre site dans la console du webmaster.

Si vous estimez que la redirection 301 de cette page vers la page d'accueil n'aide pas Google à explorer votre site, vous pouvez définir le statut d'en-tête sur 403 interdit sur cette page. Cela empêchera potentiellement Googlebot d'y aller. S'il se trouve dans un répertoire spécifique, vous pouvez également interdire les robots dans le fichier robots.txt.

0
Michael d