web-dev-qa-db-fra.com

Meilleur moyen d'empêcher Google d'indexer un répertoire

J'ai étudié de nombreuses méthodes pour empêcher Google/d'autres moteurs de recherche d'explorer un répertoire spécifique. Les deux plus populaires que j'ai vus sont:

  1. En l'ajoutant dans le fichier robots.txt: Disallow: /directory/
  2. Ajout d'une balise META: <meta name="robots" content="noindex, nofollow">

Quelle méthode fonctionnerait le mieux? Je souhaite que ce répertoire reste "invisible" dans les moteurs de recherche, de sorte qu'il n'affecte en rien le classement de mon site.

En d'autres termes, je veux que ce répertoire soit neutre/invisible et "juste là". Je ne veux pas que cela affecte les classements. Quelle méthode serait la meilleure pour y parvenir?

1
Gkhan14

Censément, seul robots.txt suffira, mais cela dépend de la manière dont le robot d'exploration est programmé. Presque tous les robots "légaux" (si pas tous) utilisent robots.txt, et pour désactiver un répertoire robots.txt est la meilleure option, car vous n'avez pas besoin d'ajouter une balise META à chaque fichier. n'autorise pas les fichiers txt, les images et tout ce que vous avez oublié/impossible d'ajouter une balise méta et peut être lié à un autre endroit. En outre, si vous chargez ultérieurement plus de fichiers dans le répertoire, vous n'avez pas à vous soucier de vous rappeler d'ajouter des balises méta.

Il est certainement plus sûr d'utiliser robots.txt pour refuser l'accès à un répertoire entier.

EDIT: Bien que Disallow indique aux robots de refuser l’exploration d’un répertoire, Google l’indexe peut-être, comme indiqué ici: https://developers.google.com/webmasters/control-crawl-index/docs/faq # h17 donc utiliser la balise à la place du robots.txt sera préférable.

Cependant, robots.txt Disallow ne garantit pas qu'une page n'apparaîtra pas dans les résultats: Google peut toujours décider, en fonction d'informations externes comme les liens entrants, qu'elle est pertinente.