web-dev-qa-db-fra.com

Comment puis-je empêcher googlebot de deviner les paramètres d'URL

Lorsque googlebot visite nos sites, il tente apparemment de visiter des URL qui n'existent pas, ce qui provoque la génération d'une exception. L'URL est comme http://ourdomain/thepage.aspx/x/8/x/ etc.x ne représente aucune valeur dans notre application. Il semble que googlebot semble utiliser les paramètres qu'il peut utiliser, car les URL ne sont aucun lien de la page. Y a-t-il un moyen de contrôler ce comportement?

2
norbertB

Il y a un long article sur la façon de corriger les erreurs d'analyse et sur les problèmes typiques. Certaines astuces peuvent vous être utiles (quand répondre avec 301 codes de statut HTTP, avec 404 codes de statut, etc.).

Vous devez vérifier si la tentative provient vraiment de googlebot et non d'une source externe pour obtenir des informations en jouant avec l'URL. Ou, en vérifiant s'il existe un référent, s'il provient d'un lien externe.

Ce n'est pas la même situation ici qu'avec des boucles infinies ou des liens "sans fin" suivis que l'on voit parfois sur les pages de résultats avec une pagination. Mais vous devriez corriger votre code pour gérer le cas du paramétrage de "merde".

1
initall