web-dev-qa-db-fra.com

Est-ce que le robot d'exploration de Google devine vraiment les modèles d'URL et les pages d'index qui n'ont jamais été liés?

Je rencontre des problèmes avec des pages indexées qui n'ont (probablement) jamais été liées. Voici la configuration:

  1. Data-Server : Application avec une interface RESTful qui fournit les données
  2. Site Web A : fournit les données de (1) sur http://website-a.example.com/?id = RESOURCE_ID
  3. Site Web B : fournit les données de (1) à l'adresse http://website-b.example.com/?id = OTHER_RESOURCE_ID

Ainsi, l'ensemble des données non privées est stocké sur (1) et les sites Web (2) et (3) peuvent récupérer et afficher ces données, qui sont une représentation des données avec une réticulation supplémentaire entre celles-ci.

En fait, l'URL /? Id = 1 de website-a pointe sur la même ressource que /? Id = 1 de website-b. Cependant, l'id de la ressource: 1 est inutile sur website-b. Malheureusement, l'index Google pour website-b contient maintenant plusieurs liens de ressources appartenant à website-a et vice versa.

J'ai "entendu" que le robot d'exploration de Google essayait de déterminer le modèle d'URL (ce qui est logique pour décider quelle page devrait aller dans l'index et non) et, en outre, devine d'autres URL en essayant des valeurs différentes (comme "Je sais que l'identifiant 1 existe , essayons 2, 3, 4, ... ").

Existe-t-il des preuves que le robot Google se comporte vraiment de cette façon (ce dont je doute). Mon hypothèse est que le robot d'exploration de Google a soumis un formulaire HTML et obtenu des liens vers ces ressources indésirables.

J'ai trouvé des questions similaires à ce sujet, notamment "Google Webmaster Central: indexation et publication de fausses pages" [lien supprimé], mais aucune de ces pages ne fournit de preuve.

5
Dominik

D'après notre expérience, Google semble "deviner" les paramètres d'URL.

Nous avions l'habitude d'avoir une structure d'url héritée main.php? Id = 1 etc. et nous avons changé cela il y a un an en une structure plus conviviale pour le référencement.

Nous avons remarqué que les éléments récemment entrés étaient toujours indexés par google à l'adresse main.php? Id = 1234 plutôt que notre nouvelle URL optimisée pour le référencement, bien que cette page n'ait jamais existé alors que nous disposions de notre ancienne structure héritée. Nous n'avons nulle part, sinon, un lien vers ces pages utilisant cette ancienne URL.

Nous avons examiné les journaux de nos serveurs et remarqué que quelqu'un consultait nos pages de manière séquentielle en utilisant notre ancienne URL héritée, c'est-à-dire main.php? Id = 1, 2, 3, etc. Ils remontaient par lots d'environ 150, Quelques heures plus tard, revenons quelques heures plus tard. Nous avons suivi l’adresse IP de la demande et découvert qu’il s’agissait d’une adresse IP Google Bot standard.

L'ancienne URL existante fonctionnait toujours, car nous ne l'avions pas désactivée - nous n'y avons jamais fait référence et nous n'avions jamais pensé que quelqu'un essayerait cela.

Nous avons résolu le problème en plaçant une redirection 301 dans notre index.php chaque fois qu'une URL contenant une nouvelle page était appelée. Quelques heures de codage, mais cela semble avoir résolu notre problème - les nouvelles pages ajoutées à Google semblent contenir notre URL de référencement et nous n’avons eu aucune tentative d’utilisation de notre ancien URL depuis plusieurs semaines.

Nous ne pouvons que conclure que le bot Google est au courant des paramètres et les essaie même si aucun lien réel ne se produit.

3
C4PO

Si vous avez configuré les outils pour les webmasters, je voudrais aller dans la section des paramètres d'URL sous Configuration du site et voir quels paramètres ils ont configurés par défaut pour votre site. Mon site étant WordPress google reconnaît certains paramètres, mais il est intéressant de noter que, pour le script de chat en direct et quelques autres scripts aléatoires que j'utilise, certains paramètres ont également été devinés.

J'utiliserais noindex nofollow ainsi que le fichier robots.txt dans la mesure du possible.

1
Anagio