Comment puis-je réparer les URL d'indexation Google qui ne font pas partie de mon sitemap?

Question

L'utilisation de site:example.com dans Google renvoie de nombreux résultats au format suivant: https://www.w.example.com/services/edison/16mm-to-2k

Évidemment ce n'est pas ce que j'ai soumis et ne fait pas partie de mon sitemap. Quelles sont les solutions pour faire face à ce genre de problème?

Cela pose un problème particulier car ils ont indexé le protocole HTTPS et que tous les liens affichent un avertissement avant de visiter le site.

Obtenir des certificats SSL génériques pour *.w.example.com et *.ww.example.com semble être une mauvaise idée.

Le DNS du site utilise AWS Route 53 et s'exécute sur Ubuntu 12.04 EC2 avec Apache.

Tero Kilkanen · Answer

Une partie de votre site Web a probablement généré de tels liens, et c’est ainsi que Google a commencé à analyser les URL.

Vous devez vérifier les liens dans vos pages Web pour voir où se trouvent ces URL incorrectes et les corriger.

Vous pouvez également modifier votre configuration Apache de sorte que les demandes d’hôte virtuel autres que example.com ou www.example.com puissent 301 être redirigées vers l’URL correcte à www.example.com. De cette façon, Google indexera éventuellement les versions correctes.

Calimo · Answer

Les sitemaps servent à inclure et non à limiter le contenu des index Google. Si vous souhaitez exclure certains fichiers, utilisez un fichier robots.txt comme indiqué ou des redirections d'installation.

La raison pour laquelle cette URL est incluse est probablement due au fait que Google a trouvé un lien pointant ailleurs. Cela pourrait être sur votre site (que vous pouvez corriger) ou sur un site tiers en tant que lien entrant. Pour comprendre cela, vous pouvez utiliser la syntaxe link link:https://www.w.example.com/services/edison/16mm-to-2k qui vous indiquera quelle (s) page (s) est (sont) liée (s) ici.

Kolkata Calcutta · Answer

avez-vous un compte Google Webmaster Tools? Si vous créez un compte gratuit avec eux et vérifiez que vous êtes le propriétaire actuel du site, Google vous autorisera à demander la suppression d'un dossier ou d'URL spécifiques.

mon expérience personnelle est que les moteurs de recherche prennent la liberté de ne pas suivre les instructions mais cette étape enlèverait au moins vos pages de leur index.

avant de créer un compte, changez votre fichier robots.txt pour interdire l'accès à des zones spécifiques. dès que vous aurez vérifié, Google vérifiera le fichier robots.txt et se mettra à jour.

https://www.google.com/webmasters/tools

Zdenek · Answer

Google suit non seulement les liens créés par d'autres rédacteurs de contenu, mais interprète également votre code javascript de manière heuristique et tente même de "simplifier" vos URL pour les supprimer des enveloppes, telles que /index.php?page=news.php => /news.php! Une solution consisterait à interdire les URL mutilées dans votre fichier robots.txt, mais cela (1) ferait grossir votre fichier robots.txt et le rendrait compliqué, et (2) vous priverait de votre rang pour ces liens. Vous devez soit implémenter un 301 Moved Permanently, soit ajouter une balise URL canonique.

 <link rel="canonical" href="http://moz.com/blog" />

pointant vers l'adresse la plus basique du même contenu. Attention, la plupart des bots "chinois" n'obéiront pas à cela, vous pouvez donc envisager un conditionnel côté serveur qui redirigerait tout le reste sauf Googlebot et les navigateurs des utilisateurs et laisserait Gogolebot et les utilisateurs avec les métadonnées.

H&#229;kan Lindqvist · Answer

La question porte beaucoup sur ce que fait Google, mais il me semble que votre problème fondamental n’est pas vraiment spécifique à Google.

Pourquoi ces noms, que vous semblez clairement ne pas vouloir que les gens utilisent, existent même dans le DNS?

S'il est intentionnel que ces noms existent et soient résolus, pourquoi servez-vous votre site actuel lorsque des personnes (et Googlebot) se connectent à l'aide de ces noms? Si vous souhaitez diriger des personnes vers le site, il serait bien préférable de les rediriger (redirection permanente/301) vers le site réel, en utilisant son nom canonique, au lieu de les laisser naviguer sur votre site sous ce nom incorrect.