web-dev-qa-db-fra.com

Prévention des erreurs de visite sur le site Web

Chaque fois qu'un utilisateur partage l'adresse de mon site dans ses tweets, les robots suivants arrivent sur mon site:

UnwindFetchor/1.0 (+ http: //www.gnip.com/)
ShowyouBot (http://showyou.com/crawler)
Solutionneur d'URL JS-Kit, http://js-kit.com/
bitlybot
EventMachine
HttpClient etaURI API/2.0 + metauri.com

Dix fois en une minute, l'un de ces robots vient sur mon site et récupère mon contenu. Ma question est la suivante: interdire les adresses IP de ces bots avec htaccess ou empêcher leurs visites avec robots.txt peut-il nuire à mon référencement? Ou peut-il entraver certaines fonctionnalités de base de Twitter? Par exemple, lorsque l'utilisateur partage mon URL, celle-ci ne peut pas être raccourcie et ne peut donc pas être partagée. Ou Twitter trouvera mon site suspect, etc.?

3
trante

Le marketing entrant moderne ne consiste pas uniquement à être indexé par les araignées de Google, ni même simplement par Google et Bing/Yahoo. Alors que SEO et SMM deviennent de plus en plus liés, de plus en plus de médias sociaux et de services de partage social entrent en jeu. En tant que tel, vous verrez des robots qui ne sont pas seulement des araignées de recherche.

Lorsque vous publiez un lien sur Twitter et que celui-ci est raccourci de bit.ly, la page est explorée par:

  • Twitterbot
  • Papillon (http://labs.topsy.com/butterfly/)
  • Showyoubot (http://showyou.com/crawler)
  • UnwindFetchor (http://www.gnip.com/)
  • EventMachine HttpClient (pas de lien)
  • TweetmemeBot (http://tweetmeme.com/)
  • Outil de résolution d'URL JS-Kit (http://js-kit.com/)
  • PercolateCrawler ([email protected])
  • FlipboardProxy (http://flipboard.com/browserproxy)
  • Yahoo! Slurp (http://help.yahoo.com/help/us/ysearch/Slurp)
  • PaperLiBot (http://support.paper.li/entries/20023257-what-is-paper-li)
  • Kimengi (nineconnections.com)

Ce qui se passe généralement est que:

  1. Le principal site de média social (Twitter, Facebook, Reddit, Digg, etc.) explorera la page pour extraire le titre/en-tête de la page, la méta-description et, dans certains cas, les méta-mots-clés afin de renseigner automatiquement certaines informations du utilisateur: tel que le texte du lien, la description du lien, les balises pertinentes, la vignette, l'auteur, etc.
  2. Deuxièmement, lorsque le lien est partagé, les moteurs de recherche et autres services utilisant l’API de Twitter ou l’équivalent le découvrent, et veulent également l’ajouter à leur index/base de données. S'il s'agit d'un moteur de recherche, cela améliorera directement votre classement/exposition à la recherche. S'il s'agit d'un autre site de média social, cela augmentera le trafic organique non lié aux moteurs de recherche.

    Quoi qu'il en soit, ils doivent explorer la page pour obtenir à peu près les mêmes informations afin de catégoriser/traiter le contenu. Parfois, le contenu est analysé pour suivre les sujets d'actualité ou fournir une analyse des médias sociaux. Pour Flipboard et certaines plates-formes de gestion de médias sociaux d'entreprise, il est nécessaire de reformater le contenu afin qu'il puisse être présenté à l'aide d'une interface alternative (par exemple, une tablette/application mobile de Flipboard ou un tableau de bord de média social tiers). De même, certains de ces robots utilisent les API de partage social pour permettre la syndication de votre contenu.

    Dans tous les cas, c'est surtout bon pour votre site, car cela augmentera votre visibilité et facilitera la conversation.

Dans des circonstances normales, un serveur Web ne devrait avoir aucun problème à traiter ces requêtes de bot et vous recevrez beaucoup plus de trafic organique pour elles. Cependant, si vous utilisez vraiment un serveur soumis à une contrainte excessive, et que vous ne pouvez plus effectuer d’optimisation plus efficace (mise en cache de requête, mise en cache de page entière, mise en cache de code-octet, mise en cache de navigateur, équilibrage de charge, utilisation d’un CDN ou de httpd léger pour servir contenu statique, optimisez les requêtes et la structure de votre base de données, etc.), puis il y a quelques robots que vous pouvez probablement bloquer sans aucun dommage.

La plupart des robots légitimes ont une URL associée à leur chaîne d'utilisateur. Ce lien devrait vous dire qui gère le bot et dans quel but. Si le bot ne contribue absolument ni directement ni indirectement au trafic/à l'exposition de votre site, vous pouvez alors le bloquer. Par exemple, si vous avez très peu de suiveurs d'entreprise, vous pouvez probablement bloquer certains tableaux de bord et applications d'analyse sociale sur les réseaux sociaux. Cela ne vous fera pas de mal si Sony ou GM ne connaissent pas votre opinion sur leur marque ou leur nouveau produit. De même, quelques-uns de ces robots sont en fait des services en cours d’arrêt ou déjà arrêtés (comme TweetMeme).

Mais si vous utilisez quelque chose comme Percolate pour gérer vos identités sur les réseaux sociaux et surveiller vos analyses, alors vous ne souhaitez évidemment pas bloquer leur bot, sinon leur service ne fonctionnera pas correctement pour vous.

2
Lèse majesté