web-dev-qa-db-fra.com

Googlebot récupère de nombreuses URL avec un paramètre "solution de contournement"

Une certaine page de notre site Web continue de générer des entrées telles que les suivantes sur nos journaux IIS6:

2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707368055555 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707277777777 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707347222222 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707291666666 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707263888888 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707326388888 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707437500000 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707451388888 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707340277777 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707270833333 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:35 W3SVC943830190 10.20.101.146 GET /abc workaround=407707381944444 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:35 W3SVC943830190 10.20.101.146 GET /abc workaround=407707284722222 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:35 W3SVC943830190 10.20.101.146 GET /abc workaround=407707201388888 80 - 66.249.85.65 - 200 0 0

En effectuant une recherche DNS inversée, ces adresses IP effectuant ces appels semblent être un Googlebot. Que signifie "solution de contournement =" sur cette ligne?

Nous semblons toujours recevoir des appels "workaround =" sur une seule page, parfois plusieurs fois en quelques secondes, comme dans cet exemple. Quelle est la cause de ceci et comment puis-je l'éviter?

Cette page spécifique appelle AJAX via jQuery vers un service tiers. Ils signalent une hausse du nombre d'appels en cours et je soupçonne que ces appels de bot sont en cause.

1
LordHits

Je ne sais pas exactement ce que "solution de contournement" signifie. Il semble probable que le tiers AJAX inclue cette chaîne dans les données renvoyées. Il se peut que Google le trouve dans le contenu HTML ou JavaScript, puis décide qu'il ressemble suffisamment à une URL pour l'explorer.

Pour empêcher Googlebot d'explorer ces URL sur votre site, vous pouvez l'ajouter à votre fichier robots.txt:

User-Agent: Googlebot
Disallow: /*workaround=

Il semble que le AJAX ne devrait pas non plus être exploré. Dans ce cas, le site tiers devra peut-être ajouter quelque chose à leur robots.txt. Vous pouvez également mettre le code JavaScript qui appelle le AJAX dans le fichier robots.txt afin que Googlebot ne puisse pas le voir:

User-Agent: Googlebot
Disallow: /js/call-third-party-ajax.js
2