web-dev-qa-db-fra.com

Les URL avec "NoIndex" dans le fichier robots.txt sont en cours d'indexation par Google

Dans mon fichier robots.txt (http://www.tutorvista.com/robots.txt), j'utilise Noindex: /content/... pour interdire l'indexation:

enter image description here

Cela devrait signifier que http://www.tutorvista.com/content/ et tout élément situé en dessous de cette URL ne doivent pas être indexés. Mais dans l'image de mes résultats de recherche ci-dessous, vous pouvez voir que les pages sous cette URL sont en cours d'indexation:

enter image description here

De plus, j'utilise Disallow: /biology/, ce qui signifie que http://www.tutorvista.com/biology/ et tout ce qui se trouve en dessous ne doivent pas être explorés. Mais dans l'image de mes résultats de recherche, vous pouvez voir que les pages sous cette URL sont en cours d'exploration et d'indexation.

enter image description here

Quelqu'un peut donc me dire ce qui ne va pas avec mes directives robots.txt ?

3
Goutham Jabez GJ

Les directives "noindex" ne doivent pas être utilisées dans votre fichier robots.txt, mais une balise méta noindex doit être ajoutée à toutes les pages que vous ne souhaitez pas indexer dans Google.

Une balise NOINDEX ressemble à celle ci-dessous et doit être placée dans la section de toute page que vous ne souhaitez pas indexer:

<meta name="robots" content="noindex">

Plus d'informations peut être trouvé ici .

Dans le deuxième exemple, alors que vous avez "Disallow:/biology /" dans votre fichier robots.txt, quelques lignes plus haut, vous avez également "Autoriser:/biology/animations /", d'où la raison pour laquelle cette page est indexée dans votre exemple.

J'espère que cela t'aides!

7
Matthew Elshaw

Notez que Noindex est ne fait pas partie de la spécification originale de robots.txt. Google l'a prise en charge en tant que fonctionnalité expérimentale (voir: Comment fonctionne "Noindex:" dans robots.txt? ), mais on ne sait pas si c'est toujours le cas (car ils ne l'ont pas documenté pour commencer avec). Mais supposons que ce soit le cas.

Votre fichier robots.txt a deux problèmes.

Lignes vides

Un enregistrement ne doit pas contenir de lignes vides. Les lignes vides sont utilisées pour séparer les enregistrements.

Un bot conforme (qui ne s’identifie pas comme Googlebot-Image/Adsbot-Google/Mediapartners-Google) utilise cet enregistrement:

User-agent: *
Allow: /

Donc, aucune des lignes Disallow/Allow/Noindex suivantes ne s'applique.

Bien sûr, un bot peut essayer de "réparer" ceci et interprète les lignes suivantes comme faisant partie de cet enregistrement (en ignorant les lignes vides), mais la spécification robots.txt ne définit pas ceci , donc je ne compterais pas dessus.

... dans Noindex valeurs

Si Noindex fonctionne comme Disallow (ce que nous ne savons pas avec certitude, car Noindex n'est pas spécifié/documenté, mais je suppose que cela n'aurait pas de sens de le spécifier différemment), le ... que vous avez ajouté aux valeurs signifie que ... doit apparaître dans les URL que vous souhaitez noindex.

La ligne

Noindex: /content/biology/...

s’appliquerait à une URL telle que /content/biology/.../foobar, mais pas à une URL telle que /content/biology/foobar ni /content/biology/.

Donc, si vous voulez que tous les URL dont le chemin commence par /content/biology/ ne soient pas indexés, vous devez spécifier:

Noindex: /content/biology/
6
unor