Quelle est la meilleure configuration initiale ou générale du fichier robots.txt pour permettre aux moteurs de recherche de parcourir le site, mais peut-être restreindre quelques dossiers?
Existe-t-il une configuration générale qui devrait toujours être utilisée?
Google Webmaster tools comporte une section intitulée "Accès au robot".
Cette section vous permet très facilement de créer votre fichier robots.txt
Par exemple, pour tout autoriser sauf un blog, un dossier appelé tester votre robot.txt ressemblerait à quelque chose comme:
User-agent: *
Disallow: /Test
Allow: /
La meilleure configuration, si vous n'avez pas d'exigences particulières, n'est rien du tout. (Bien que vous souhaitiez au moins ajouter un fichier vide pour éviter que 404 ne remplissent vos journaux d’erreurs.)
Pour bloquer un répertoire sur le site, utilisez la clause 'Disallow':
User-agent: *
Disallow: /example/
Il existe également une clause 'Allow' qui remplace les précédentes clauses 'Disallow'. Donc, si vous avez refusé le dossier "exemple", vous pouvez autoriser un dossier comme "exemple/foobar".
N'oubliez pas que robots.txt n'empêche personne de visiter ces pages s'il le souhaite. Si certaines pages doivent rester secrètes, vous devez les masquer derrière une sorte d'authentification (c'est-à-dire un nom d'utilisateur/mot de passe).
L'autre directive susceptible de figurer dans de nombreux fichiers robots.txt est 'Sitemap', qui spécifie l'emplacement de votre sitemap XML, si vous en avez un. Mettez-le sur une ligne à part:
Sitemap: /sitemap.xml
Le site officiel de robots.txt contient beaucoup plus d'informations sur les différentes options. Mais en général, la grande majorité des sites nécessitera très peu de configuration.
Voici tout ce que vous devez savoir sur le fichier fichier robots.txt