web-dev-qa-db-fra.com

Flux RSS et robots.txt

J'ai des flux RSS sur mon site. J'ai décidé de suivre Stack Exchange et de ne pas autoriser mes flux RSS dans le fichier robots.txt.

Je ne veux pas que le moteur de recherche affiche la page de flux RSS aux gens, ce n'est pas vraiment une bonne page à voir pour les nouveaux visiteurs.

Y at-il un avantage à permettre au moteur de recherche d’explorer le RSS? Ou est-ce une bonne idée générale de l'interdire?

3
the_lotus

Il y a de nombreuses raisons de ne pas bloquer votre flux, mais vous seul pouvez savoir s'ils sont pertinents pour vous. Par exemple:

  • Il se peut que des robots recherchent en particulier des flux, par exemple des moteurs de recherche.
  • Il se peut que des robots utilisent des flux pour découvrir de nouveaux contenus.
  • Il peut y avoir d'autres cas où des bots souhaiteraient accéder à vos flux, maintenant et à l'avenir.
  • Certains moteurs de recherche Web pourraient indexer les flux resp. alimentez les URL de manière à ce qu'elles puissent être consultées si les utilisateurs recherchent example.com feed, site:example.com inurl:feed, etc.
  • Certains agents utilisateurs, par exemple des lecteurs de flux, peuvent suivre les règles du fichier robots.txt.

Je pense que la plupart des moteurs de recherche ne seront pas déroutés lorsqu'ils trouveront un flux contenant un contenu similaire à celui de la page d'accueil du site Web, car les flux sont très courants (presque tous les blogs en contiennent, sites d'actualités, forums,…). Assurez-vous de les lier avec rel-alternate et indiquez le type MIME correspondant dans l'attribut type:

de la spécification HTML5 :

Si le mot clé alternate est utilisé avec l'attribut type défini sur la valeur application/rss+xml ou sur la valeur application/atom+xml
Le mot clé crée un lien hypertexte faisant référence à un flux de syndication (bien que ne syndiquant pas nécessairement le même contenu que la page actuelle).


Si vos flux contiennent le même contenu (c'est-à-dire le même nombre d'articles et le même contenu ou moins du contenu) d'une page de votre site, vous pouvez utiliser le type de lien canonical comme en-tête HTTP:

Link: <http://example.com/>; rel="canonical"

Mais cela ne devrait pas être nécessaire.

2
unor