web-dev-qa-db-fra.com

Grapeshot Crawler en ignorant le fichier robots.txt

Quelqu'un at-il rencontré un robot appelé Grapeshot ? Ils martèlent la même page à plusieurs reprises sur notre site Web. Je crois qu'ils recherchent des mots clés liés aux annonces, basés sur les campagnes de contenu précédentes. Ce qui est étrange, c’est que nous n’avons jamais lancé de telles campagnes sur la page qui les intéresse autant. Nous n’avons que quelques pages utilisant AdSense. Est-ce ce qui a attiré Grapeshot?

J'ai ajouté la déclaration suivante à mon fichier robots.txt, mais ils ne semblent pas l'honorer?

User-agent: grapeshot
Disallow: /

Des idées sur la façon de bloquer ce robot nuisible? Je commence à penser que la meilleure solution consiste à définir des règles de propriété intellectuelle dans IIS.

4
QFDev

Plusieurs robots ne suivent pas les déclarations de robots.txt . Vous devez bloquer l'agent utilisateur avec votre serveur et renvoyer 403 Forbidden HTTP response.

Sur IIS, vous pouvez bloquer un agent utilisateur avec votre serveur. Vous pouvez suivre cette procédure sur moz.com:
http://moz.com/ugc/blocking-bots-based-on-useragent

Je n'ai pas expliqué la procédure ici parce que ce serait trop long.

3
Zistoloen

Le robot d'exploration Grapeshot doit respecter votre fichier robots.txt, car il est documenté sur son site:

Avec un fichier robots.txt, vous pouvez bloquer le robot Grapeshot à partir de tout ou partie de votre site […]

Peut-être que ce n’est pas le vrai robot Grapeshot visitant votre site? Vous pourriez vérifier l'adresse IP :

Le robot d'exploration Grapeshot peut être identifié par des requêtes provenant de plages d'adresses IP appartenant à Grapeshot. Si vous avez des doutes sur les requêtes usurpées, vous devez d'abord vérifier l'adresse IP de la requête par rapport à la base de données RIPE appropriée, à l'aide d'un outil whois ou d'un service de recherche approprié. En général, les seules adresses valides que vous devriez voir sont dans la plage d'adresses 89.145.95.0 à 89.145.95.255 (89.145.95.0/24). Au moment de la rédaction du présent document, les seules adresses utilisées pour les robots d'exploration Grapeshot sont 89.145.95.2, 89.145.95.41 et 89.145.95.42.

Si c’est le vrai robot et que vous l’avez donné quelques jours (le robot remarquera votre fichier robots.txt modifié), vous devriez contacter le support du robot .

3
unor