web-dev-qa-db-fra.com

Supprimer les sous-domaines de l'index Google et arrêter de les indexer

J'utilise un contenu statique sur un CDN, cdn1-cdn5 J'utilise de tels sous-domaines pour cela.

Je charge uniquement les images, les fichiers CSS et JS de cette manière, mais apparemment, Google a indexé certaines pages sur des sous-domaines. Elles apparaissent maintenant dans l'index de Google et sont des copies de mes pages "normales".

Le problème est que le CDN est le moyen de faire en sorte que les fichiers apparaissent sur les sous-domaines sans téléchargement supplémentaire, ce qui signifie que les sous-domaines sont des copies miroir du contenu du site principal. Je ne peux pas télécharger de fichiers. Pour les sous-domaines, je peux télécharger sur le site principal et modifier www sur cdn1 dans la barre d’adresse pour afficher le même contenu via le CDN que sur mon site.

J'ai 2 questions:

  1. comment puis-je supprimer les sous-domaines de Google Index dans GWT si cela ne permet d'écrire que tout ce qui se passe après ` http://domain.com/ ?
  2. Comment puis-je empêcher les bots d'indexer les pages sur des sous-domaines lorsque je ne peux pas télécharger de fichiers robots.txt spéciaux ni télécharger les fichiers de vérification de Google sur eux pour prouver ma propriété de GWT?

Peut-être qu'il y a quelque chose d'autre que je dois savoir concernant cette affaire?

UPDATE: le texte en gras est mis à jour

6
CamSpy

Vous pouvez supprimer les sous-domaines dans les outils pour les webmasters, mais vous devez d'abord ajouter les sous-domaines en tant que sites distincts, puis soumettre une suppression de site. Ils devraient être partis d'ici un jour ou deux.

Consultez ces instructions pour supprimer un site de Google: https://support.google.com/webmasters/answer/1663427?hl=fr

6
user29671

Réponse courte.

Mettez <meta name="robots" content="noindex"> dans l'en-tête de votre code HTML pour toutes les pages. Une fois que les moteurs de recherche ont parcouru ces pages et que vous en êtes sûr, mettez

User-agent: *
Disallow: /

... dans un fichier robots.txt dans le répertoire racine de chaque sous-domaine.

Cela prendra du temps bien sûr. Par exemple, Google peut prendre entre 30 et 60 jours pour constater les modifications et les refléter dans les SERP. Cela peut prendre moins de temps ou plus, en fonction de la manière dont Googles évalue la fraîcheur de vos sous-domaines.

1
closetnoc

Il y a différentes manières, ici vous en avez, vous pouvez en utiliser une seule ou les combiner

À propos du fichier robots.txt, vous pouvez l'utiliser, mais il est bien préférable d'utiliser une solution plus robuste que tous les robots d'exploration devront suivre, comme la redirection.

Ici vous pouvez voir une courte vidéo de Matt Cutts parlant de 301 redirections vs rel = "canonique" . Un court extrait de cette page et de cette vidéo serait:

D'accord, on me demande parfois si Google utilisera toujours l'URL de rel = canonical comme URL préférée. La réponse est que nous prenons les URL rel = canoniques comme un indice fort, mais dans certains cas, nous ne les utilisons pas:

  • Par exemple, si nous pensons que vous vous tirez une balle dans le pied par accident (en dirigeant un rel = canonique vers une page inexistante/404), nous nous réservons le droit de ne pas utiliser l'URL de destination que vous spécifiez avec rel = canonical. .
  • Un autre exemple où nous pourrions ne pas aller avec votre préférence rel = canonical: si nous pensons que votre site Web a été piraté et que le pirate informatique a ajouté un malicieux rel = canonical. J'ai récemment tweeté à propos de cette affaire. Du côté "brillant", si un pirate informatique peut contrôler votre site Web suffisamment pour insérer une balise rel = canonique, il fait généralement beaucoup plus de choses malveillantes, telles que l'insertion de programmes malveillants, de liens/textes cachés ou malveillants, etc.

Dans la vidéo, il mentionne d'autres situations et raisons, comme le fait que tout le monde doit suivre le 301.

0
PatomaS