web-dev-qa-db-fra.com

Pourquoi refuser l'accès au site Web pour msnbot / bingbot?

J'ai vu pas mal de tutoriels qui vous recommandent d'interdire les agents utilisateurs contenant les chaînes libwww-Perl et msnbot. Je comprends pourquoi on interdirait libwww-Perl, principalement si ce n’est pas seulement pour le piratage et le spam.

Mais pourquoi tant de sites recommandent-ils d’interdire msnbot/bingbot?
Comme il s’agit d’un moteur de recherche, même s’il ne s’agit que d’une part de marché marginale, j’aimerais sauf si l’on voudrait que ce bot explore ses sites.

Qu'est-ce que msnbot fait pour que les gens l'interdisent?

4
Quandary

Je ne pense pas que les gens devraient interdire bing bot.

Bing a des outils équivalents pour les webmasters Bing à l'adresse http://www.bing.com/toolbox/webmaster/ où ils ont également des "paramètres d'analyse" dans lesquels vous pouvez ajuster le taux d'analyse comme indiqué dans cette vidéo: http://www.bing.com/videos/watch/video/bing-webmaster-tools-crawl-rate-settings/1ii1ej9jz

Googlebot est tout aussi notoire dans l'exploration excessive de sites que msnbot. En outre, plus votre site sera performant (trafic/liens), plus il y aura d'analyses effectuées par Googlebot. Il suffit de regarder à quelle vitesse les questions stackexchange sont indexées après avoir été postées. Vous pouvez voir à quel point ces robots touchent votre serveur si vous consultez vos journaux d'accès.

J'ai également découvert que msnbot prend en charge le paramètre robots.txt Crawl-delay. http://www.bing.com/community/site_blogs/b/webmaster/archive/2009/08/10/crawl-delay-and-the-bing-crawler-msnbot.aspx

6
Anthony Hatzopoulos

msnbot est assez prolifique en ce qui concerne les serveurs spider et si vous avez beaucoup de pages à indexer, cela peut très facilement paralyser votre serveur. Comme le trafic de MSN est considérablement inférieur à ce que Google peut donner, il est assez courant de refuser le msnbot via .htaccess, iptables ou robots.txt. Avec Googlebot, vous pouvez limiter la vitesse assez facilement dans http://google.com/webmasters

4
neak

Les récents changements dans la relation entre Bing -> Edge rendent la question intéressante. Devrions-nous accepter le comportement de bingbot?

Au cours des dernières semaines, nous avons vu -en Europe du Nord de toute façon -Bing commencer à indexer le contenu en fonction des URL ouvertes avec Edge, rendant ainsi disponible une quantité énorme de données "secrètes" qui n’ont jamais été destinées au public, car Edge alimente maintenant tout le monde. ces URL "secrètes" que vous visitez seulement. Ainsi, vos e-mails avec le lien masqué vous montrant un reçu privé après le séjour à l'hôtel sont indexés et publiés par Bing simplement parce que vous avez ouvert le lien et visualisé le reçu via le navigateur Edge. Une recherche avec les paramètres "site:" commence maintenant à révéler des informations privées concernant les hôtels, les achats d'œuvres d'art et même les factures de cartes bancaires et de cartes de crédit, car de nombreux services Web les utilisent via des URL longues et secrètes qui seraient normalement impossibles. deviner et avoir accès à. Mais Edge cède tout à bing, gratuitement. Et vous avez probablement signé de toute façon dans les accords d'utilisation.

Bien sûr, ce type de données ne devrait jamais être accessible sans une authentification appropriée, mais dans la vie réelle, des liens secrets comme celui-ci sont utilisés à grande échelle.

J'utilise des liens obscurcis dans l'un de mes sites Web dans un but précis, mais cela ne révèle aucune donnée privée ou sensible, ce qui le rend inoffensif. Néanmoins, je ne pense pas que tous ces liens devraient être indexés par Bing simplement parce que les utilisateurs les visitent via Edge, ils devraient être attribués à ceux pour qui ils sont destinés et à personne d'autre. J'ai donc temporairement bloqué Bing jusqu'à ce qu'une solution soit en place.

Je trouve peu d’informations sur ce nouveau comportement douteux de Bing-Edge sur Internet jusqu’à présent, mis à part des articles écrivant sur les petits scandales qu’il commence à créer dans notre pays il ya quelques semaines.

1
Tom

Bien que BingBot comporte une section Outils pour les webmasters qui vous permet de limiter la vitesse à laquelle le bot explore votre site, son approche présente trois problèmes majeurs.

  1. Ils ne vous permettent pas de sélectionner un taux d'analyse en nombre de secondes, comme le fait Google. Au lieu de cela, ils ont une gamme de merde basse à haute merdique, mais ne tentent pas d’expliquer ce que veulent dire bas et haut en termes de secondes entre les hits.

  2. BingBot peut adhérer à vos souhaits pour explorer plus lentement, mais ils ont souvent plusieurs araignées explorant votre site en même temps. De nombreuses araignées rampant à un taux faible peuvent être bien pires qu’une araignée rampant à un taux élevé.

  3. Microsoft s'en fiche. Je les ai contactés à propos de cas où ils avaient environ 20 connexions de bot individuelles à notre serveur, chargeant des pages toutes les quelques secondes et arrêtant le serveur. Ils ont répondu qu'ils ne pouvaient rien y faire.

Une simple technique de programmation de Microsoft pourrait facilement permettre à un seul robot d’analyser un site à tout moment.

Ma solution est de limiter les plages MSN IP dans iptables. Je suis toujours en train d'expérimenter cela, mais je pense que cela peut toujours leur permettre d'accéder aux sites, mais les forcer à ralentir. Lorsque les connexions deviennent trop agressives, elles sont rejetées.

1
Barry

Un de mes clients faisait 10 000 dollars par mois rien que pour ses achats. Les produits biologiques de Bing étaient encore plus. Les bannir causerait une grosse perte de revenus. Toute personne qui le suggère doit avoir ses raisons personnelles. Bing génère des visites, donc si vous voulez diminuer votre trafic, allez-y et bannissez Bing. Sinon, comme Anthony a dit que vous pouvez travailler avec leurs outils pour les webmasters pour améliorer votre site pour Bing.com

1
Anagio

MSNBot est extrêmement agressif et a consommé plus de 2,5 Go de bande passante de bon nombre de mes sites en moins d’un mois (soit 2,5 Go + pour each site). Microsoft a vraiment besoin de redresser la situation, mais ne le fera probablement jamais. Jusque-là, je traite MSNBot comme un programme malveillant et l’interdit à partir de mes systèmes.

0
custommojo