web-dev-qa-db-fra.com

Stratégie de génération de sitemap pour un site Web dynamique massif

Je dois mettre en place un système qui générera des fichiers de plan du site ( https://www.sitemaps.org ) pour un site Web gigantesque dont le contenu change de manière dynamique. Ce sont des exemples de chiffres, mais je pense à quelque chose au-delà de ces ordres de grandeur:

  • 10 000 000 de pages.
  • Des milliers de pages ajoutées quotidiennement.
  • Des milliers de pages modifiées quotidiennement.

Mes objectifs de plan de site en cours après que les moteurs de recherche aient tout indexé sont initialement

  • Nouvelles pages à découvrir/indexées dès que possible.
  • Pages modifiées à découvrir/indexées dès que possible.
  • Les pages non modifiées à ré-explorer rarement.
  • Essayez d'aider les moteurs de recherche à économiser de la bande passante, par exemple. en plaçant toutes les pages nouvelles/modifiées dans un fichier de plan de site.

J'ajouterai que je soupçonne des sites tels que Wikipedia ou StackOverflow se trouvent dans une position similaire.

Existe-t-il de bons algorithmes pour un tel cas d'utilisation?

1
Jan Żankowski

Les plans Sitemap ne vont pas aider beaucoup. Google indexe rarement les pages simplement parce qu'elles figurent dans un sitemap. Stack Overflow a eu des problèmes pour obtenir l'indexation de toutes les questions lorsqu'il utilisait uniquement des sitemaps XML. Voir Le sitemap Paradox . Indiquer quelles pages sont modifiées avec des sitemaps ne fonctionne pas non plus: Google dit qu'ils ignorent la plupart du temps la balise lastmod dans les sitemaps XML

Je ne connais pas grand-chose à propos de votre site de 10 millions de pages, mais il est probable que vous n'obtenez qu'une petite fraction de vos pages indexées. Google n’indexe que le nombre de pages qu’un site réputé mérite, selon lui. Je pense que vous avez besoin d'un lien provenant d'un autre domaine unique pour chaque tranche de 1 000 pages que vous souhaitez indexer. Pour que toutes vos pages soient indexées, vous avez besoin de 10 000 sites différents qui renvoient vers les vôtres. Cela a été fait par de nombreux sites aussi importants, mais cela prend généralement des années.

Si vous souhaitez classer autant de pages que possible, la meilleure stratégie consiste généralement à lier des pages profondes à d'autres pages profondes. C'est l'une des principales raisons pour lesquelles ce site a une liste de "questions connexes" sur chaque page de question.

Les sitemaps peuvent vous aider à explorer de nouvelles pages assez rapidement. Ajouter de nouvelles pages à un sitemap est généralement un bon moyen de faire en sorte que Googlebot vienne les consulter. Google n'indexe pas la plupart des éléments d'exploration Googlebot. Si vous souhaitez que vos nouvelles pages soient indexées, elles doivent être liées à l’une de vos pages les plus populaires. C'est en grande partie la raison pour laquelle ce site propose une liste de nouvelles questions sur la page d'accueil.

Les pages modifiées ne nécessitent généralement pas une analyse et une réindexation urgentes. À moins que le contenu de la page ne change radicalement, le classement des mots-clés utilisés auparavant sera généralement correct. Google trouve généralement des modifications même sur des pages moins populaires en quelques semaines. Si je sais que vous pouvez demander qu'une page particulière soit réanalysée rapidement, la seule façon dont je saurais savoir est d'utiliser la fonctionnalité "chercher en tant que Google" dans la console de recherche Google. Vous êtes limité à un petit nombre de ces demandes par jour, de sorte que cette stratégie ne fonctionne pas pour des milliers (voire des dizaines) de pages modifiées chaque jour.

Il n’existe aucun moyen d’empêcher Googlebot de procéder à une nouvelle analyse des pages non modifiées. Googlebot a tendance à réexaminer les pages en fonction de leur popularité. Votre page d'accueil peut être explorée plusieurs fois par jour, alors que les pages profondes peuvent l'être toutes les quelques semaines. À ma connaissance, vous ne pouvez rien faire pour modifier ce comportement de Googlebot. Googlebot utilise une quantité importante de bande passante. Si vous souhaitez obtenir du trafic sur les moteurs de recherche, vous devez planifier cela et en prévoir le budget. Heureusement, la bande passante et l'hébergement sont relativement bon marché.

3

J'ai une situation similaire et je viens de créer deux fichiers.

  1. Un fichier sitemap qui charge 50 000 URL à la fois en fonction d'un décalage dans la chaîne de requête.
  2. Un fichier d'index de sitemap qui compte le nombre total d'enregistrements et crée les URL qui pointent vers le fichier ci-dessus avec des décalages de 0, 50 000, 100 000, 150 000 ... jusqu'à atteindre le nombre total d'URL potentielles.

Je soumets ensuite le deuxième fichier à Google sous forme d'index de sitemap.

Pour ma propre santé et ma propre organisation, je le fais plusieurs fois sur le site. Nous avons trois sections principales. Je crée donc un index de sitemap pour chaque section. Je crée également un sitemap dédié, non dynamique, pour les URL contenant la page principale, la passerelle et les pages du site.

Les sitemaps et les index sont limités à 50 000 URL. Vous devrez donc adapter cette méthode pour pouvoir accueillir des sites plus grands que le mien. Mais la logique, je pense, évolue.

1
StephenCollins