web-dev-qa-db-fra.com

Comment empêcher les pages Web d'apparaître dans l'index de recherche Google?

J'ai quelques pages Web que Google a indexées. J'ai maintenant ajouté un fichier robots.txt pour les exclure, mais devrais-je également ajouter une balise noindex? Si oui, comment puis-je le faire?

5
MIMI

Mise à jour importante

Google peut ne pas respecter vos directives robots.txt , comme indiqué ici: https: //developers.google.com/webmasters/control-crawl-index/docs/faq#h17

Cependant, robots.txt Disallow ne garantit pas qu'une page n'apparaîtra pas dans les résultats: Google peut toujours décider, en fonction d'informations externes comme les liens entrants, qu'elle est pertinente. Si vous souhaitez empêcher explicitement l'indexation d'une page, vous devez plutôt utiliser la méta-balise noindex robots ou l'en-tête HTTP X-Robots-Tag. Dans ce cas, vous ne devez pas interdire la page dans le fichier robots.txt, car celle-ci doit être explorée pour que la balise soit visible et respectée.

Je ne sais pas quand Google a changé cela, mais c'est comme ça que ça fonctionne maintenant.

Le robots.txt devrait suffire, mais Google n'effectuera cette modification qu'au prochain index de votre site Web. Si votre site est peu achalandé, cela peut prendre un certain temps.

3
mrlanrat

Si vous souhaitez empêcher les moteurs de recherche d’analyser et/ou d’indexer vos pages, vous pouvez utiliser plusieurs méthodes:

1) Utilisez robots.txt . Google l'honorera et supprimera ces pages automatiquement, bien qu'aucun calendrier ne leur soit imparti.

2) Utiliser les balises META

<meta name="robots" content="noindex, nofollow">

3) Utiliser les en-têtes http

Header set x-robots-tag: noindex

4) Utilisez rel="nofollow" sur tous les liens pointant vers ces pages.

<a href="http://www.example.com/sample.html" rel="nofollow">Link to page I don't want indexed</a>

Vous pouvez également demander à Google de supprimer ces pages de leur index dans Google Webmaster Tools .

3
John Conde

Vous utiliseriez un code similaire à ceci:

<html>
<head>
 <meta name="robots" content="noindex" />
 <title>Your Page Title</title>
</head>
1
a

Ne pas être indexé n’a rien de difficile si vous comprenez le fonctionnement des robots, et je ne veux pas dire par là comprendre leur algorithme, mais simplement des mécanismes de base. En outre, il n'est pas nécessaire de considérer le fonctionnement d'un robot spécifique à un moment donné, car ils peuvent modifier leur comportement à tout moment.

Ils vérifient les ips et les liens, peu importe la façon dont ils obtiennent leur première ressource, mais une fois qu'ils en ont une, ils suivent les liens à partir de là et essayent quelques combinaisons de base, ce qui signifie que si elles sont accessibles, elles seront indexées.

Donc, si vous voulez éviter d'être indexé, vous voulez "ne pas être là". Comment pouvez-vous y parvenir?

  1. Non être là. Ne pas publier
  2. Cachez-vous derrière une porte fermée. Comme un système protégé avec un utilisateur et un mot de passe.
  3. Utilisez des codes HTTP tels que 307 ou 302.

L’option 1 est évidente, elle n’exige donc pas beaucoup de détails.

L'option 2 est très bonne lorsque vous testez sur un environnement réel, que vous montrez à un client, que vous effectuez des travaux de maintenance, etc. Elle nécessite la mise en place d'un système utilisateur/mot de passe. La plupart des utilisateurs ne le feront pas à moins d'utiliser un système préemballé qui comprend un tel mécanisme. Encore est conseillé. Vous pouvez combiner cela avec la méthode 3 si vous utilisez des restrictions IP, par exemple pour permettre à votre propre entreprise ou à un client de consulter le site Web, mais à personne d'autre.

L'option 3 est plus facile à mettre en œuvre que l'option 2, mais peut ne pas être la bonne dans toutes les situations. Si vous avez besoin d'un accès limité, n'oubliez pas de définir les règles autorisant certaines adresses IP. Cette option est souvent recommandée avec des codes 5xx. Ne fais pas ça. Il n'y a rien de mal avec votre serveur, alors ne donnez pas de mauvaises informations. Si la demande est faite avec la version 1.1 ou une version plus récente du protocole HTTP, la réponse doit être 307. Si la demande est faite avec la version 1.0, la réponse doit être 302. Les deux options impliquent que vous deviez fournir une autre URL, elle peut être une page expliquant les raisons (idéalement), ou au moins une page de votre site.

Ces options ne supposent pas que vous aviez du contenu que vous avez déplacé, ce qui est le cas pour une redirection 301. Supposons que vous publiez un nouveau contenu et que vous ne voulez pas qu'il soit indexé.

0
PatomaS

Google respectera vos directives robots.txt. La noindex n'est pas nécessaire pour les robots Google.

0
GoodEnough