web-dev-qa-db-fra.com

Comment configurez-vous le fichier robots.txt pour permettre l'exploration du site, à l'exception de quelques répertoires?

Quelle est la meilleure configuration initiale ou générale du fichier robots.txt pour permettre aux moteurs de recherche de parcourir le site, mais peut-être restreindre quelques dossiers?

Existe-t-il une configuration générale qui devrait toujours être utilisée?

7
Mike

Google Webmaster tools comporte une section intitulée "Accès au robot".

Cette section vous permet très facilement de créer votre fichier robots.txt

Par exemple, pour tout autoriser sauf un blog, un dossier appelé tester votre robot.txt ressemblerait à quelque chose comme:

User-agent: *
Disallow: /Test
Allow: /
3
corymathews

La meilleure configuration, si vous n'avez pas d'exigences particulières, n'est rien du tout. (Bien que vous souhaitiez au moins ajouter un fichier vide pour éviter que 404 ne remplissent vos journaux d’erreurs.)

Pour bloquer un répertoire sur le site, utilisez la clause 'Disallow':

User-agent: *
Disallow: /example/

Il existe également une clause 'Allow' qui remplace les précédentes clauses 'Disallow'. Donc, si vous avez refusé le dossier "exemple", vous pouvez autoriser un dossier comme "exemple/foobar".

N'oubliez pas que robots.txt n'empêche personne de visiter ces pages s'il le souhaite. Si certaines pages doivent rester secrètes, vous devez les masquer derrière une sorte d'authentification (c'est-à-dire un nom d'utilisateur/mot de passe).

L'autre directive susceptible de figurer dans de nombreux fichiers robots.txt est 'Sitemap', qui spécifie l'emplacement de votre sitemap XML, si vous en avez un. Mettez-le sur une ligne à part:

Sitemap: /sitemap.xml

Le site officiel de robots.txt contient beaucoup plus d'informations sur les différentes options. Mais en général, la grande majorité des sites nécessitera très peu de configuration.

1
DisgruntledGoat

Voici tout ce que vous devez savoir sur le fichier fichier robots.txt

0
Jason