web-dev-qa-db-fra.com

robots meta ne bloquant pas l'indexation

Nous avons une version intermédiaire de notre site Web pour tester les changements sur le site trailheadpaddleshack.ca/staging1. Ce n'est jamais apparu dans la recherche avant. Récemment, le site de mise en scène est apparu sur Google et affecte nos résultats de recherche.

J'essaie de comprendre comment les pages sont arrivées là-bas et comment les supprimer. Les pages ont toujours eu <meta name="robots" content="noindex, nofollow"> dans la tête.

Je suis un peu nouveau dans ce domaine mais j'avais l'impression que cela devrait empêcher Google d'afficher mon site dans les résultats. Je suis à peu près sûr que les résultats sont apparus dans Google après avoir accidentellement copié certains codes collés du site de transit vers le site actif contenant des liens vers des pages du site de transit. Si quelqu'un pouvait m'indiquer la bonne direction pour comprendre ce qui s'était passé et l'empêcher de se reproduire, cela serait très apprécié.

le fichier robots.txt ressemble à ceci:

User-agent: *
Disallow: /calendar-2/action~posterboard/
Disallow: /calendar-2/action~agenda/
Disallow: /calendar-2/action~oneday/
Disallow: /calendar-2/action~month/
Disallow: /calendar-2/action~week/
Disallow: /calendar-2/action~stream/
#Begin Attracta SEO Tools Sitemap. Do not remove
sitemap: http://cdn.attracta.com/sitemap/4035112.xml.gz
#End Attracta SEO Tools Sitemap. Do not remove

J'ai également essayé d'ajouter un en-tête X-Robots-Tag et de soumettre le site à une nouvelle analyse. Je l'ai fait il y a quelques jours et je ne vois toujours aucun changement. Voici les en-têtes HTTP selon "Fetch as Google":

HTTP/1.1 200 OK
X-Robots-Tag: noindex,nofollow
Vary: Accept-Encoding
Transfer-Encoding: chunked
Date: Sun, 24 May 2015 16:26:49 GMT
Server: LiteSpeed
Connection: close
X-Pingback: http://trailheadpaddleshack.ca/staging1/xmlrpc.php
Content-Type: text/html; charset=UTF-8
Link: <http://trailheadpaddleshack.ca/staging1/?p=170>; rel=shortlink

Je suis maintenant confronté à une série de résultats que je dois supprimer de Google dès que possible car ils contiennent des informations obsolètes et affectent nos résultats de recherche. Webmaster Tools permet de supprimer une seule URL, mais je cherche à supprimer le sous-dossier entier/staging1 /. Des conseils?

2
Cleo Poulin

Comme je l'ai mentionné dans mon commentaire ci-dessus, si la balise Meta des robots a été affichée en permanence sur ces pages ET si les pages ne sont pas bloquées par le fichier robots.txt (qui empêche l'exploration , mais pas indexation ), ces pages ne doivent pas être indexées.

En fouillant un peu plus loin, ces pages semblent totalement "indexées", avec une description complète dans les SERP. Ils n'ont donc pas été bloqués par le fichier robots.txt, ce qui est cohérent avec le fichier robots.txt de la question, qui ne bloque pas /staging1. Et les pages en direct ont en effet une méta-balise noindex robots.

Cependant, la vérification du cache Google de ces pages dans les SERP révèle le problème: Il n'y a pas de balise méta de robot! Ainsi, il semblerait que vous ayez rencontré un "problème" temporaire il y a environ un mois (la mémoire cache de Google indique les dates des 15 et 21 avril), ce qui a empêché la méta des robots de sortir dans la page comme elle aurait dû l'être. En conséquence, Google a indexé les pages!

J'ai également essayé d'ajouter un en-tête X-Robots-Tag et de soumettre le site à une nouvelle analyse. Je l'ai fait il y a quelques jours et je ne vois toujours aucun changement.

C'est la bonne idée, mais il semble que vous deviez attendre plus de quelques jours. Comme je l'ai mentionné ci-dessus, les pages mises en cache dans les SERP datent de plus d'un mois. Cela suggère donc que ces pages n'ont pas encore été redéfinies ou que Google n'a tout simplement pas mis à jour son index.

2
MrWhite

Je l'ai déjà vu et je pense que c'est causé par un cercle vicieux!

Si vous bloquez l'exploration des pages par Google dans le fichier robots.txt, Google ne peut pas accéder à la page pour afficher la balise NOINDEX. Par conséquent, les pages ne sont pas supprimées de l'index si elles ont déjà été indexées.

Bloquer les pages dans le fichier robots.txt arrêtera leur exploration par Google, mais ne les empêchera pas de se faire indexer. Si Google les trouve liés ailleurs, ils peuvent toujours être indexés.

Mais où Google a-t-il trouvé les liens? Eh bien, c’est un tout autre sujet!

Mais si vous utilisez la balise NOINDEX et que vous les bloquez dans le fichier robots.txt, les pages peuvent toujours apparaître dans le SERPS, comme closetnoc mentionné généralement avec un message disant

"La description de ce résultat n'est pas disponible en raison du fichier robots.txt de ce site. En savoir plus."

Le moyen le plus sûr de garantir que Google n'inclut pas vos URL dans les SERPs est de protéger par mot de passe le répertoire dans lequel elles se trouvent.

1
Max