web-dev-qa-db-fra.com

sitemap et crawler

Je suis encore novice dans le monde entier du référencement. Jetons un coup d'oeil à mon exemple. J'ai un site Web très semblable au site de style blog. Il existe peu de modèles d'URL, ils sont tous très simples et peuvent être explorés.

Chaque jour, je soumets un nouveau plan du site avec un contenu accessible avec une fréquence = quotidien. Les choses sur le site changent très souvent. De plus, j'ai de nombreux catalogues de blogs avec pagination, un blog peut être dans quelques catalogues. Dans le plan du site, je ne soumets que les pages principales des catalogues. Les catalogues sont autorisés à être explorés.

J'ai l'impression que le robot fait un travail très dur, car il doit analyser chaque catalogue avec du contenu déjà indexé, car chaque blog peut être analysé à partir du catalogue précédent ou du plan du site. Pour cette raison, il semble que le robot d'exploration ne finisse jamais son travail. Dans les outils pour les webmasters, je vois beaucoup de pages qui ont été soumises il y a des mois, actuellement supprimées et toujours dans l'index, même si je récupère 404 avec l'option noindex. Le non-sens est que je peux trouver un ancien sitemap dans l’index, mais j’ai pensé qu’au moins les fichiers de sitemaps devraient être indexés quotidiennement.

Quelle est la stratégie préférée dans mon cas. Dois-je simplement marquer la pagination dans les catalogues comme contenu "nofollow" et ne laisser que la page principale pour chaque catalogue. En fait, je n'ai besoin que du contenu du sitemap pour être indexé. Car tout sauf le blog ne contient que des milliers de pages de pagination aux mêmes blogs. Auparavant, je trouvais l'idée très intéressante de remplacer des tonnes de catalogues utilisant des archives avec navigation par date, et de ne permettre que le crawler.

Quelle est votre opinion? Merci!

1
com

Pourquoi vos URLs churn autant? Vous écrivez:

"[I] n outils pour les webmasters, je vois beaucoup de pages qui ont été soumises il y a des mois, qui sont actuellement supprimées et toujours dans l'index, même si j'ai pensé à récupérer 404 avec l'option noindex."

Si vous ne gardez vos pages que pendant un mois ou deux avant de les supprimer, il n’est pas étonnant que Google ne puisse pas vous suivre.

En particulier, gardez à l'esprit que Google ne supprimera pas immédiatement les pages de son index lorsqu'elles obtiendront une réponse 404 - ils attendront un moment, au cas où l'erreur serait temporaire et que le contenu revienne plus tard.

Outre la mise à jour régulière de votre plan Sitemap afin de refléter le nouveau contenu, vous pouvez, entre autres choses, aider Google (et les autres moteurs de recherche) à suivre la structure du site qui change fréquemment:

  • Avoir vos pages supprimées servir 410 Gone réponses au lieu de 404 Not Found . Depuis quelques années, Google a traité ces réponses comme "un peu plus permanentes" que 404, et peut supprimer ces pages de leur index plus rapidement. (Vous pouvez également utiliser 301 redirections permanentes vers une page cible stable.)

  • Si vous savez à l'avance quand une page est susceptible d'être supprimée ou modifiée, envoyez un en-tête HTTP Expires en-tête approprié. Ceci est principalement destiné aux navigateurs et aux mandataires, mais les moteurs de recherche peuvent également y prêter attention.

Vous voudrez peut-être aussi envisager de marquer les pages éphémères ou changeant fréquemment avec une balise méta noindex , en particulier si le contenu de ces pages est également disponible sur des URL plus stables ailleurs.

Utiliser un robots.txt _ fichier pour empêcher les robots de changer fréquemment de parties de votre site pourrait également aider le focus des robots sur les parties de votre site que vous voulez leur indexer - mais gardez à l'esprit que cela empêche également les pages non autorisées de passer sur le PageRank. Vous pouvez également essayer d'utiliser les <priority> tags dans vos sitemaps pour guider les robots publicitaires vers les pages que vous souhaitez indexer le plus.

Cependant, je pense que le vrai problème est simplement que Google fonctionne mieux avec des URL qui n'ont pas la durée de vie d'un mayfly. Sur un blog typique, auquel votre site ressemble, une fois qu'un article est publié, il reste en place, et chaque article est généralement associé à une URL stable. Sans en savoir plus sur la nature de votre site , il est difficile de dire si ce serait pratique ou non, mais en général, si le contenu ne Pour ne pas disparaître complètement de votre site, vous devriez essayer de concevoir votre structure d’URL de manière à ce que les liens utilisés auparavant fonctionnent toujours de la même manière. contenu autant que possible.


Edit: Une autre chose que vous pourriez essayer de temporairement pages supprimées serait de renvoyer un code de réponse 200 OK avec une balise méta noindex (et une brève explication pour utilisateurs, bien sûr). Google décourage normalement ​​de telles pages "soft 404", mais si vous vous attendez à ce que le contenu revienne sous peu, elles pourraient convenir . En particulier, cette page semble impliquer que Google supprime les pages noindex- de leurs résultats immédiatement après avoir vu la balise, tandis que les commentaires que j'ai liés ci-dessus suggèrent qu'ils peuvent également redéfinir de telles pages plus fréquemment. que ceux qui ont été supprimés en 404.

3
Ilmari Karonen

Tout d'abord, arrêtez de soumettre votre plan du site tous les jours. Bien sûr, vous pouvez continuer à le mettre à jour et Google le vérifiera périodiquement pour en connaître les mises à jour. Mais tant que votre site est explorable, c'est plus important. Vous pouvez également envoyer votre flux RSS, ce qui aidera Google à trouver votre nouveau contenu.

En ce qui concerne le "catalogue", je pense que la façon dont vous le faites actuellement est satisfaisante, dans la mesure où le nombre de pages de catalogue est limité et qu'elles ne sont pas dupliquées.

4
DisgruntledGoat