web-dev-qa-db-fra.com

Bing bot suit l'utilisateur sur des pages protégées par mot de passe?

Nous voyons du trafic sur notre site Web classique ASP à partir d'un bot Bing vérifié qui semble suivre un de mes utilisateurs actuels.

Par exemple, si cet utilisateur ajoute un article à son panier, 2 à 24 heures plus tard, un bot Bing passe chez lui et tente d'ajouter les mêmes articles à son panier. J'ai maintenant confirmé que tout ce que cet utilisateur fait sur mon site est reflété par plusieurs robots Bing dans les 24 heures.

Je me demande si quelqu'un a déjà vu quelque chose comme ça, et s'il y a une cause connue à cela? Notre site est protégé par mot de passe et je n'ai jamais vu (en 15 ans) un robot araignée essayez d’indexer ou de cliquer sur l’une de ces URL protégées auparavant. Je suis donc très curieux de savoir ce qui se passe ici.

Merci!

EDIT: Pour être clair: ces Bing bots n’atteignent pas les pages visitées par mes utilisateurs, car ils sont tous protégés par un mot de passe. Ils essaient d'accéder à l'URL, puis sont redirigés vers ma page de connexion car ils n'ont pas été authentifiés.

6
Doctor McDoctor

Peut-être que cet utilisateur a une barre d'outils de Bing installée. Cette barre d’outils peut soumettre les URL visitées à Bing, puis Bingbot peut (essayer de) analyser ces URL.

De la article searchengineland.com Comment la barre d'outils Bing peut-elle envoyer accidentellement des pages privées et des annonces :

Microsoft a confirmé qu'ils découvraient et indexaient les URL qu'ils trouvaient chez les utilisateurs qui naviguaient sur Internet avec la barre d'outils Bing installée.

[…]

Duane Forrester, chef de produit principal chez Microsoft, nous a dit:

Oui, comme avec certaines autres barres d'outils, la barre d'outils Bing (lorsque cela est autorisé par l'utilisateur) peut enregistrer les sites Web ouverts (et non https) qu'un utilisateur a visités à ajouter à notre connaissance d'Internet afin d'améliorer les résultats de recherche fournis. utilisateurs. Ceci à son tour (si le site le permet) peut effectivement conduire à notre exploration des liens que nous avons découverts. […]

(Cet article date de 2012. Je ne sais pas si les choses ont changé depuis.)

3
unor

J'ai effectivement vécu cela à un moment donné sur mon site.

Pour résoudre le problème, vous pouvez créer les liens auxquels les robots des moteurs de recherche ne sont pas censés accéder en tant que liens basés sur POST.

Voici comment vous le faites parfaitement avec une bonne compatibilité pour à peu près tous les navigateurs inventés:

Créez un formulaire avec un post de méthode. Par exemple:

  <form action="http://example.com/robots-cant-access-this.asp" method="POST">
  <input type="hidden" name="parametertoscript" value="valueforscriptparameter">
  <input type="hidden" name="secondparametertoscript" value="valueforsecondscriptparameter">
  <input type="hidden" name="nthparametertoscript" value="valuefornthscriptparameter">
  <input type="submit" value="button label to show to public">
  </form>

Ensuite, dans votre code asp, vous devez vérifier que la méthode de requête est POST, et si ce n'est pas le cas, ne poursuivez pas le processus de panier. En fait, renvoyez un 410 pour que les robots ne continuent pas à essayer d'accéder aux URL auxquelles vous ne voulez pas qu'ils accèdent.

Je ne parle pas assez bien l'ASP, mais voici un pseudo-code pour vous aider à démarrer:

Get value of request method
If Request method equals post then
     process requested page to client
else
     issue HTTP error 410 GONE
     print error
end if
exit
1
Mike

Vous arrive-t-il d'envoyer certaines de ces URL par courrier? Dans ce cas, un en-tête nosniff pourrait aider à empêcher les clients de messagerie de renifler la page.

Hotmail utiliserait Bing-bot, Gmail utiliserait le robot d'exploration de Google, etc.

Voici un extrait de nosniff pour htccess:

# Add headers to all responses.
<IfModule mod_headers.c>
  # Disable content sniffing, since it's an attack vector.
  Header always set X-Content-Type-Options nosniff
</IfModule>
1
Neograph734