web-dev-qa-db-fra.com

Une directive Allow ou Disallow doit-elle être utilisée dans le fichier robots.txt pour permettre à Googlebot d’analyser l’ensemble du site?

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

J'utilise cette commande dans mon fichier robots.txt. Mais je ne pense pas que ce soit juste. Quelle devrait être la bonne commande? Un article que j'ai trouvé où on m'a dit de ne pas le faire dans robots.txt

#Code to not allow any search engines!
User-agent: *
Disallow: /

Et également constaté que nous devrions interdire Googlebot sauf le fichier js et css.

User-agent: Googlebot
Allow: /*.js*
Allow: /*.css*
Allow: /google/

Alors, quelle devrait être la bonne façon de faire?

1
Mourin

J'étais assez confus avec la question. Si j'étais vous, je pense qu'il est préférable d'utiliser un seul agent utilisateur, disons attribuer * pour désigner tous les bots. Ensuite, vous pouvez utiliser la fonction interdire les répertoires qui ne sont pas censés être visités par ces robots.

User-agent: *
Disallow: /folder1/
Disallow: /folder2/

Veuillez également noter que le blocage du CSS et de certains scripts affectera également la façon dont votre site sera vu par Google. S'il existe un CSS pour le thème responsive, votre site risque de perdre le facteur de compatibilité avec les appareils mobiles que Google recherche. Essayez également de lancer une recherche sur votre domaine dans la barre de recherche Google et de voir si son bot peut le voir.

1
BryrDe

Googlebot devrait comprendre votre directive Allow:, mais ce n'est pas le moyen standard d'autoriser l'analyse. La méthode standard pour autoriser l'exploration consiste à ne rien interdire. J'utiliserais:

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

Ceci est documenté dans l'exemple "Pour autoriser tous les robots à avoir un accès complet" sur le site officiel de robots.txt: http://www.robotstxt.org/robotstxt.html

0