web-dev-qa-db-fra.com

Comment empêcher certaines URL d'être indexées

Lorsque je tape site:example.com (avec mon domaine évidemment), plusieurs erreurs de lien apparaissent dans la liste. Ils ont généralement la forme suivante: /some/fixed/path/admin/unblockUser/11

Je pense ajouter la ligne suivante à mon fichier robots.txt:

Disallow: /some/fixed/path/admin/*
8
morpheous

Il existe deux moyens principaux d'empêcher les moteurs de recherche d'indexer des pages spécifiques :

  1. Un fichier Robots.txt pour votre domaine.
  2. La balise Meta Robots sur chaque page.

Robots.txt devrait être votre premier arrêt pour les modèles d'URL correspondant à plusieurs fichiers. Vous pouvez voir le syntaxe ici et plus détaillé ici . Le fichier robots.txt doit être placé dans le dossier racine de votre domaine, c’est-à-dire à http://www.yourdomain.com/robots.txt, et il devrait contenir quelque chose comme:

User-agent: *
Disallow: /path/with-trailing-slash/

(La coloration du texte ci-dessus est effectuée par le logiciel Stackexchange et doit être ignorée.)

La balise Meta Robots est plus souple et plus performante , mais doit être insérée dans toutes les pages que vous souhaitez affecter.

Encore une fois, Google a n aperçu de l'utilisation des Meta Robots , et comment obtenir pages supprimées de leur index via les outils pour les webmasters. Wikipedia a plus documentation complète sur Meta Robots , y compris les dérivations spécifiques aux moteurs de recherche.

Si vous souhaitez empêcher Google, The Web Archive et d'autres moteurs de recherche de conserver une copie de votre page Web, vous souhaitez que la balise suivante (affichée au format HTML4):

<meta name="robots" content="noarchive">

Pour empêcher l'indexation et de conserver une copie :

<meta name="robots" content="noindex, noarchive">

Et pour empêcher les deux réponses ci-dessus , ainsi que , utilisez des liens sur la page pour trouver plus de pages à indexer:

<meta name="robots" content="noindex, nofollow, noarchive">

NB 1: Les 3 balises méta ci-dessus sont uniquement destinées aux moteurs de recherche - elles n’ont pas d’impact sur les proxies HTTP ou les navigateurs.

NB 2: Si des pages sont déjà indexées et archivées et que vous bloquez des pages via le fichier robots.txt tout en ajoutant la balise méta aux mêmes pages, le fichier robots.txt empêchera les moteurs de recherche de voir la balise méta mise à jour.

16
Jesper Mortensen

Il existe en fait un troisième moyen d'empêcher Google et les autres moteurs de recherche d'indexer des URL. C'est le X-Robots-Tag _ En-tête de réponse HTTP . C’est mieux que les balises méta car cela fonctionne pour tous les documents et vous pouvez avoir plus d’une balise.

Les balises REP META vous permettent de contrôler utilement l’indexation de chaque page Web de votre site. Mais cela ne fonctionne que pour les pages HTML. Comment contrôler l’accès à d’autres types de documents, tels que des fichiers Adobe PDF, des fichiers vidéo et audio, et d’autres types? Maintenant, la même flexibilité pour la spécification de balises par URL est disponible pour tous les autres types de fichiers.

Nous avons étendu notre prise en charge des balises META afin qu’elles puissent désormais être associées à n’importe quel fichier. Ajoutez simplement toute balise META prise en charge à une nouvelle directive X-Robots-Tag dans l'en-tête HTTP utilisé pour servir le fichier. Voici quelques exemples: N'affichez pas de lien de cache ni d'extrait de code pour cet élément dans les résultats de recherche Google: X-Robots-Tag: noarchive, nosnippet N'incluez pas ce document dans les résultats de recherche Google: X-Robots-Tag : noindex Dites-nous qu'un document sera indisponible après le 7 juillet 2007 à 16h30 GMT: X-Robots-Tag: non disponible_après: 7 juillet 2007 16h30:00 GMT

Vous pouvez combiner plusieurs directives dans le même document. Par exemple: N'affichez pas un lien mis en cache pour ce document et supprimez-le de l'index après le 23 juillet 2007 à 15 heures, heure avancée du Pacifique: X-Robots-Tag: noarchive X-Robots-Tag: non disponible_after: 23 juillet 2007 15:00:00 TVP

4
John Conde

Si votre objectif est que ces pages ne soient pas vues par le public, il est préférable de mettre un mot de passe sur cet ensemble de pages. Et/ou en avoir configuration qui n'autorise que des adresses spécifiques figurant sur la liste blanche et pouvant accéder au site (vous pouvez le faire au niveau du serveur, probablement via votre administrateur hôte ou serveur).

Si votre objectif est de faire en sorte que ces pages existent, mais non indexées par Google ou d'autres moteurs de recherche, comme d'autres l'ont déjà mentionné, vous avez quelques options, mais je pense qu'il est important de faire la distinction entre les deux fonctions principales de la recherche Google en ce sens: Exploration et indexation.

Ramper ou indexer

Google explore votre site, Google indexe votre site. Les robots explorent les pages de votre site, l’indexation organise les pages de votre site. Plus d'informations à ce sujet un peu ici .

Cette distinction est importante lorsque vous essayez de bloquer ou de supprimer des pages de "l'Index" de Google. De nombreuses personnes bloquent simplement par l'intermédiaire de robots.txt, qui est une directive indiquant à Google ce qu'il faut (ou pas) explorer. On suppose souvent que si Google n'explore pas votre site, il est peu probable qu'il soit indexé. Cependant, il est extrêmement courant de voir des pages bloquées par robots.txt, indexées dans Google.


Directives à Google et aux moteurs de recherche

Ces types de "directives" ne sont que des recommandations à Google sur la partie de votre site à explorer et à indexer. Ils ne sont pas obligés de les suivre. C'est important à savoir. Au fil des années, de nombreux développeurs ont pensé pouvoir bloquer le site via un fichier robots.txt. Ce site a été indexé dans Google quelques semaines plus tard. Si quelqu'un d'autre crée un lien vers le site ou si l'un des robots d'exploration de Google le récupère, il peut toujours être indexé .

Récemment, avec le tableau de bord mis à jour de GSC (Google Search Console), ce rapport s'appelle "Rapport de couverture d'index."] De nouvelles données sont disponibles pour les webmasters ici qui n'étaient pas directement disponibles auparavant. comment Google gère un certain ensemble de pages. J'ai vu et entendu parler de nombreux sites Web recevoir "Avertissements", intitulés "Indexé, mais bloqué par Robots.txt".

La dernière documentation de Google indique que si vous voulez que les pages sortent de l'index, ajoutez-y des balises noindex nofollow.


Supprimer les URL

Juste pour reprendre ce que d'autres ont mentionné à propos de "Supprimer l'URL de l'outil" ....

Si les pages sont déjà indexées et qu'il est urgent de les extraire, l'outil "Supprimer les URL" de Google vous permettra de "temporairement" bloquer les pages des résultats de recherche. La demande dure 90 jours, mais je l'utilisais pour supprimer des pages plus rapidement de Google que pour noindex, nofollow, un peu comme une couche supplémentaire.

À l'aide de l'outil "Supprimer les URL", Google continue d'analyser la page et éventuellement de la mettre en cache. Toutefois, lorsque vous utilisez cette fonctionnalité, vous pouvez ajouter les balises noindex nofollow afin de les voir. Au bout de 90 jours, En fin de compte, il va falloir savoir ne plus indexer votre page.


IMPORTANT: L'utilisation de les deux balises nofollow robots.txt et noindex sont des signaux quelque peu contradictoires pour Google.

La raison en est que si vous indiquez à Google de ne pas explorer une page et que vous avez alors noindex nofollow sur cette page, l'exploration de la balise noindex nofollow risque de ne pas s'effectuer. Il peut ensuite être indexé par une autre méthode (que ce soit un lien ou autre). Les raisons pour lesquelles cela se produit sont plutôt vagues, mais je l'ai déjà vu se produire.


En bref, à mon avis, le meilleur moyen d'empêcher l'indexation d'URL spécifiques consiste à ajouter une balise noindex nofollow à ces pages. Assurez-vous également que vous ne bloquez pas ces URL avec robots.txt, car cela pourrait empêcher Google de voir correctement ces balises. Vous pouvez utiliser l'outil Supprimer les URL de Google pour les masquer temporairement des résultats de recherche pendant que Google traite votre noindex nofollow.

1
woke zombie

Oui, ça va régler le problème. Pour empêcher le contenu d’être affiché dans les index de Google, vous pouvez utiliser le fichier robots.txt ou la balise méta HTML.

<meta name="robots" content="noindex, nofollow" />

La prochaine fois que votre site sera indexé, votre contenu sera supprimé de l'index Google.

Vous pouvez également utiliser la valeur noarchive pour bloquer la mise en cache de votre page. Ceci est spécifique à Google:

<meta name="robots" content="noarchive" />

Vous pouvez utiliser "l’outil de suppression" dans "Googles Webmaster Tools" pour demander une suppression très urgente de votre contenu. Notez que vous devez commencer par bloquer l'indexation de votre contenu (en utilisant soit le fichier robots.txt, soit la balise meta robots).

Plus d'informations:

1
mawtex