web-dev-qa-db-fra.com

Requêtes Bingbot de l'adresse IP de Google

Nous avons des requêtes suspectes sur notre serveur,

74.125.186.46 - - [24/Aug/2014:23:24:11 -0500] "GET <url> HTTP/1.1" 200 16912 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
74.125.187.193 - - [24/Aug/2014:23:24:12 -0500] "GET <url> HTTP/1.1" 200 20119 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

Comme il est montré, user-agent montre qu'il s'agit de bingbot. Mais les données whois d’adresse IP (74.125.186.46 et 74.125.187.193) indiquent qu’elles proviennent de serveurs Google.

Alors, s'agit-il de Google, de Bing ou de tout autre élément de récupération de contenu?

4
JITHIN JOSE

Comme d'autres l'ont mentionné, vous pouvez vérifier vrais Googlebots , et ce n'est pas une adresse IP Googlebot.

J'ai vérifié deux fois avec l'équipe à propos de ces demandes, et elles semblent être pour le service PageSpeed , qui peut servir de cache/proxy pour les sites Web. Si les moteurs de recherche - tels que Bing ou Google - analysent les URL de cette manière, le service transmettra ces demandes à votre site Web en cas de besoin. Cela peut donner l’impression que ces demandes proviennent d’adresses IP Google, bien qu’elles aient initialement été émises ailleurs.

1
John Mueller

Ce sont des adresses IP Google comme vous l'avez indiqué. Cependant, cela ne signifie pas que cela fait partie du moteur de recherche. Ces derniers temps, Google a étendu ses activités et tout ce qui se passe avec une adresse IP Google n'a pas été à la hauteur des normes auxquelles nous nous sommes tous habitués. Malheureusement.

Il n'y a pas d'enregistrement PTR inversé pour ces adresses IP. Le nom de domaine associé m'en dirait plus.

J'ai cherché les deux adresses IP dans ma base de données. Je n'ai trouvé que 74.125.186.46. Il n'y a rien de suspect de cette adresse IP et le dernier accès que je possède date de 2012.

Cependant, j'ai trouvé ceux-ci:

https://www.projecthoneypot.org/ip_74.125.187.19

-et-

https://www.projecthoneypot.org/ip_74.125.186.46

Vous verrez que ces adresses IP ont différents noms d'agent et sont étiquetées en tant qu'adresses IP de spammeurs de contenu. Cependant, je ne vois pas de nom d'agent bing bot, ce qui signifie probablement que c'est nouveau.

Pourquoi est-ce?

Sans le nom de domaine, je ne peux pas vous dire exactement ce qui s'est passé. Cependant, je peux vous dire ceci.

Google Code a été utilisé pour spider et l'exploration de données. Nerdydata.com utilise Google Code, par exemple.

De plus, Google propose maintenant l'hébergement Web. J'ai des accès à partir de ces sites hébergés compatibles avec l'activité d'extraction de données et de spider. De plus, j'ai vu des activités de piratage sur les adresses IP de l'hôte Google.

À un moment donné, Google a décidé de créer un grand pool d'adresses IP et d'inverser toutes les adresses IP en sous-domaines 1e100.net. L'idée était que n'importe quelle adresse IP ou ordinateur puisse être attribué rapidement et dynamiquement à des fins différentes, en fonction des besoins. Cela a ajouté à la confusion, car les adresses IP des moteurs de recherche pourraient être utilisées à d'autres fins et impossibles à bloquer ou à mettre en liste blanche. Google a déclaré que les adresses IP ne devraient pas être bloquées et que la vérification du nom de domaine par demande devrait confirmer que l'accès provenait bien de Google. Cependant, vous savez que ce n'est pas une vérification facile à configurer pour un serveur Web et qu'il ne s'agit certainement pas d'une fonctionnalité native et qu'elle n'était pas requise avant Google. Pitié.

Il reste de nombreuses énormes allocations d’adresses IP répertoriées dans ARIN en tant que Google. Cela confond les gens et rechercher quelle division (l'absence d'un meilleur terme) est responsable de mauvais comportements est presque impossible sans un nom de domaine.

Maintenant, Google est dans le domaine de l’enregistrement de nom de domaine avec hébergement. Il me semble que c'est au mieux un conflit d'intérêts. Certes, ce ne sont pas des entreprises que j'aurais approuvées. La diversité est une chose, mais s'en tenir au modèle d'entreprise de base en est une autre. Il semble que Google se range du côté de l'ennemi (en tant que tel) en ce qu'il s'oppose constamment aux sites hébergés qui modifient les enregistrements, les adresses IP, les hôtes, etc. le vol est en ordre.

J'ai trouvé ces plages d'adresses IP attribuées aux sous-domaines googlebot.com, google.com et 1e100.net dans ma base de données. Cela ne signifie pas qu'ils sont actuellement utilisés par le moteur de recherche, mais plutôt qu'ils l'ont été par le passé. Il est peu probable que l’attribution d’IP au moteur de recherche vous ait frappé; toutefois, elle pourrait être attribuée de la sorte demain.

J'aimerais pouvoir vous en dire plus.

Bloquez ces adresses IP si vous le jugez important. Dans le cas contraire, envisagez de poster cette question sur les forums de Google dans l'espoir de réveiller Google à la pagaille qu'ils ont créée. Ils doivent peut-être repenser un peu leurs politiques. En fait, non peut-être à ce sujet!

3
closetnoc

Vous pouvez vérifier tous les robots Google en utilisant des enregistrements PTR.

Voir: Vérification de Googlebot

Je trouve cela très précis. Désormais, Google propose également des services d'hébergement ainsi que de nombreux autres services. Il est donc facile de recevoir des demandes provenant de plages d'adresses IP attribuées par Google qui ne sont pas des agents de recherche de Google.

Il existe également une bonne liste de Google User Agents .

1
jeffatrackaid