web-dev-qa-db-fra.com

Comment configurer le fichier robots.txt pour tout autoriser?

Ma robots.txt dans les outils pour les webmasters de Google affiche les valeurs suivantes:

User-agent: *
Allow: /

Qu'est-ce que ça veut dire? Je n'ai pas assez de connaissances à ce sujet, alors je cherche votre aide. Je souhaite autoriser tous les robots à explorer mon site Web. Est-ce la bonne configuration?

110
Raajpoot

Ce fichier autorisera l’accès de tous les robots d'exploration

User-agent: *
Allow: /

Cela permet essentiellement à tous les agents utilisateurs (*) d'accéder à toutes les parties du site (les /).

144
Jim

Si vous voulez autoriser chaque bot à tout analyser, c'est le meilleur moyen de le spécifier dans votre fichier robots.txt:

User-agent: *
Disallow:

Notez que le champ Disallow a une valeur vide, ce qui signifie selon la spécification :

Toute valeur vide indique que toutes les URL peuvent être récupérées.


Votre chemin (avec Allow: / au lieu de Disallow:) fonctionne aussi, mais Allow ne fait pas partie de la spécification originale de robots.txt , de sorte qu’il n’est pas supporté par tous les bots (beaucoup le supportent, cependant, - comme le Googlebot ). Cela dit, les champs non reconnus doivent être ignorés, et pour les bots qui ne reconnaissent pas Allow, le résultat serait le même dans ce cas de toute façon: si rien n'est interdit d'explorer (avec Disallow), tout est autorisé à être exploré.
Cependant, officiellement (selon la spécification originale), il s’agit d’un enregistrement invalide, car au moins un champ Disallow est requis:

Au moins un champ interdire doit être présent dans un enregistrement.

50
unor

Je crois comprendre que cette question est assez ancienne et que ses réponses sont plutôt bonnes. Mais, voici mes deux cents par souci de complétude.

Selon le document officiel documentation , il existe quatre façons d’autoriser un accès complet des robots à votre site.

Nettoyer :

Spécifiez un assortiment global avec un segment interdit, comme mentionné par @unor. Donc, votre /robot.txt ressemble à ça.

User-agent: *
Disallow:

Le hack:

Créer un /robot.txt fichier sans contenu. Ce qui permettra par défaut d'autoriser tout pour tous les types de Bots.

Je m'en fiche

Ne créez pas de /robot.txt tout à fait. Ce qui devrait donner exactement les mêmes résultats que les deux précédents.

Le moche :

À partir de la documentation des robots pour les balises méta , vous pouvez utiliser la balise méta suivante sur toutes vos pages de votre site pour indiquer à la Bots que ces pages ne sont pas censées être indexées.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Pour que cela soit appliqué à l'ensemble de votre site, vous devrez ajouter cette balise méta pour toutes vos pages. Et cette balise devrait strictement être placée sous votre balise HEAD de la page. En savoir plus sur cette balise meta ici .

15
Raja Anbazhagan

Cela signifie que vous autorisez chaque (*) user-agent/crawler pour accéder à la racine (/) de votre site. Tu vas bien.

7
Jordi