web-dev-qa-db-fra.com

Pourquoi Google explore-t-il des URL inexistantes?

Je peux voir dans le trafic en direct de mon site Web wordpress que les robots masquent l'exploration de pages non existantes.

www.example.gr/search/search-results/password-reset%252Fpassword-reset/password-reset%252Fpassword-reset%252F&listview=2/?pg=6&dtype=prosfata&listview=2

www.example.gr/search/search-results/password-reset%252F&listview=1/password-reset/search/advanced-search/tag/katigoria/gaming/?pg=15&order=lcomdate&dtype=prosfata&listview=1

Je ne peux pas savoir où Google bot a découvert ces liens, mais il y en a mille et presque les seuls liens qui fonctionnent avec Google Crawl.

J'ai ajouté noindex, noffolw pour ces URL, mais bot steel Crawl les. Comment je peux arrêter ça? Pourquoi google crawler uniquement ces URL? Je pense que cela peut causer une quantité élevée de ressources processeur.

Une dernière question. Récemment, j'ai ajouté la mise en cache sur mon site Web. Google ne devrait-il pas explorer les pages mises en cache pour améliorer la vitesse? Lorsque j'utilise le "chercher comme google", je peux voir que Explorer aucune page en cache.

2
Aris Gaster

Googlebot explore toutes les URL trouvées:

  • Liens sur vos propres sites Web et ceux de tiers
  • Texte sur la page qui ressemble à une URL
  • Des chaînes JavaScript qui semblent être des URL

Consultez votre propre site pour voir s’il existe des liens vers ces pages. Sinon, c'est probablement un autre site. Google peut vous indiquer quel site de la console de recherche Google dans le rapport d'erreur d'analyse .

Une solution consiste à utiliser le fichier robots.txt pour interdire l’exploration de répertoires entiers. D'après vos exemples, /search serait un excellent candidat pour interdire:

Disallow: /search

Il est également possible que Googlebot ne se charge pas de l'exploration. Il peut s’agir d’un robot usurpant l’utilisation de Googlebot pour tenter de détecter les vulnérabilités de votre site Web. Vous pouvez vérifier s'il s'agit bien de Googlebot en vérifiant l'adresse IP à l'aide de la procédure suivante: Comment identifier si l'adresse IP correspond vraiment à l'adresse IP de Google

Si ce n'est pas vraiment Googlebot, vous pouvez bloquer les adresses IP utilisées dans .htaccess: Comment bloquer des IP entières d'un serveur VPN par IP

2