web-dev-qa-db-fra.com

Le plan du site Paradox

Nous utilisons un plan du site sur Stack Overflow, mais mes sentiments sont partagés.

Les robots d'exploration de sites Web découvrent généralement les pages à partir de liens au sein du site et d'autres sites. Les plans Sitemap complètent ces données pour permettre aux robots d'exploration qui prennent en charge les plans Sitemap de récupérer toutes les URL du plan Sitemap et d'en savoir plus sur ces URL à l'aide des métadonnées associées. L'utilisation du plan Sitemap protocole ne garantit pas que les pages Web sont incluses dans les moteurs de recherche, mais fournit des astuces pour que les robots d'exploration de sites Web fassent un meilleur travail d'analyse de votre site.

D'après nos deux années d'expérience avec les sitemaps, il y a quelque chose fondamentalement paradoxal dans le sitemap :

  1. Les plans Sitemap sont destinés aux sites difficiles à analyser correctement.
  2. Si Google ne parvient pas à explorer votre site pour trouver un lien, mais qu'il est capable de le trouver dans le sitemap , le lien du sitemap n'a aucun poids et ne sera pas indexé!

C'est le paradoxe du sitemap - si votre site n'est pas correctement exploré (pour une raison quelconque), l'utilisation d'un sitemap ne vous aidera pas!

Google fait tout son possible pour faire aucune garantie de sitemap :

"Nous ne pouvons faire aucune prédiction ou garantie quant au moment ou si vos URL seront explorées ou ajoutées à notre index" citation

"Nous ne garantissons pas que nous analyserons ou indexerons toutes vos URL. Par exemple, nous n'analyserons ni n'indexerons les URL d'image contenues dans votre sitemap." citation

"La soumission d'un sitemap ne garantit pas que toutes les pages de votre site seront explorées ou incluses dans nos résultats de recherche" citation

Étant donné que les liens trouvés dans les sitemaps sont simplement des recommandations , alors que les liens trouvés sur votre propre site web sont considérés comme canoniques ... il semble que la seule chose logique à faire est évitez d’avoir un plan du site et assurez-vous que Google et tout autre moteur de recherche peuvent bien spider votre site en utilisant les vieilles pages Web standard que tout le monde voit.

Au moment où vous avez fait que , et que vous vous faites bien spider afin que Google puisse voir que votre propre site est lié à ces liens pages, et serait prêt à explorer les liens - euh, pourquoi avons-nous besoin d'un plan du site, à nouveau? Le sitemap peut être très dangereux, car il vous empêche de vous assurer que les robots des moteurs de recherche sont en mesure d'explorer votre site dans son ensemble. "Oh, peu importe si le robot d'exploration peut le voir, nous allons simplement gifler ces liens dans le plan du site!" La réalité est tout le contraire dans notre expérience.

Cela semble plus qu'un peu ironique, étant donné que les sitemaps étaient destinés à des sites qui possèdent une collection très profonde de liens ou une interface utilisateur complexe qui peut être difficile à exploiter. Selon notre expérience, le plan du site n’aide en rien, car si Google ne trouve pas le lien sur votre site, il ne l’indexera de toute façon pas dans le plan du site. Nous avons vu cela maintes et maintes fois avec les questions de débordement de pile.

Ai-je tort? Les sitemaps ont-ils du sens, et nous les utilisons de manière incorrecte?

249
Jeff Atwood

Clause de non-responsabilité: je travaille avec l'équipe Sitemaps de Google. Je suis donc un peu partial :-).

Outre l'utilisation intensive de Sitemaps pour le contenu "non indexé sur le Web" (images, vidéos, Actualités, etc.), nous utilisons les informations provenant des URL incluses dans les fichiers Sitemaps à ces fins principales:

  • Découvrir du contenu nouveau et mis à jour (je suppose que c'est l'évidence, et oui, nous sélectionnons et indexons également les URL autrement non liées)
  • Reconnaître les URL préférées pour la canonisation (il y a autres façons de gérer la canonisation aussi)
  • Fournir un nombre utile d'URL indexées dans Google Webmaster Tools (les approximations provenant du site: -les requêtes ne peuvent pas être utilisées comme métrique)
  • Fournir une base pour les erreurs d'analyse utiles (si une URL incluse dans un fichier Sitemap comporte une erreur d'analyse, il s'agit généralement d'un problème plus important qui est affiché séparément dans les outils pour les webmasters)

Du côté des webmasters, j'ai également trouvé les fichiers Sitemaps extrêmement utiles:

  • Si vous utilisez un robot d'exploration pour créer le fichier Sitemaps, vous pouvez facilement vérifier que votre site est analysable et voir directement le type d'URL trouvées. Le robot recherche-t-il vos URL préférées ou quelque chose est-il mal configuré? Le robot d'exploration est-il coincé dans des espaces infinis (par exemple, des scripts de calendrier sans fin) quelque part? Votre serveur est-il capable de gérer la charge?
  • Combien de pages votre site a-t-il réellement? Si votre fichier Sitemap est "propre" (pas de doublons, etc.), alors c'est facile à vérifier.
  • Votre site est-il vraiment proprement explorable sans rencontrer de contenu en double? Comparez les journaux de serveur laissés par Googlebot avec votre fichier Sitemaps. Si Googlebot explore des URL qui ne figurent pas dans votre fichier Sitemap, vous pouvez vérifier votre lien interne.
  • Votre serveur rencontre-t-il des problèmes avec vos URL préférées? La vérification par recoupement du journal des erreurs de votre serveur avec les URL de Sitemaps peut être très utile.
  • Combien de vos pages sont vraiment indexées? Comme mentionné ci-dessus, ce nombre est visible dans les Outils pour les webmasters.

Certes, pour les sites statiques, faciles à explorer, de petite taille, statiques, l'utilisation de Sitemaps peut s'avérer inutile du point de vue de Google une fois que le site a été exploré et indexé. Pour toute autre chose, je recommanderais vraiment de les utiliser.

FWIW Il y a quelques idées fausses que j'aimerais également aborder:

  • Le fichier Sitemap n'est pas destiné à "résoudre" les problèmes d'analyse. Si votre site ne peut pas être exploré, corrigez-le d'abord .
  • Nous n'utilisons pas les fichiers Sitemap pour le classement.
  • L'utilisation d'un fichier Sitemap ne réduira pas notre exploration normale de votre site. C'est des informations supplémentaires, pas un remplacement pour l'exploration. De même, ne pas avoir d'URL dans un fichier Sitemap ne signifie pas qu'il ne sera pas indexé.
  • Ne vous embêtez pas sur les méta-données. Si vous ne pouvez pas fournir de valeurs utiles (par exemple pour la priorité), laissez-les de côté et ne vous inquiétez pas pour cela.
190
John Mueller

Si vous savez que vous avez une bonne architecture de site et que Google trouve vos pages naturellement, le seul avantage que je connaisse est un indexage plus rapide. Si votre site est indexé assez rapidement pour vous, alors nul besoin.

Voici un article de 2009 où un monsieur a testé la rapidité avec laquelle Google a fouillé son site avec un sitemap et sans. http://www.seomoz.org/blog/do-sitemaps-effect-crawlers

Ma règle générale est que si vous lancez quelque chose de nouveau et de non testé, vous voulez voir comment Google explore votre site pour vous assurer qu'il n'y a rien à réparer, alors ne le soumettez pas. Cependant, si vous apportez des modifications et souhaitez Google les voit plus rapidement, puis soumettez-les ou si vous avez d'autres informations confidentielles, telles que des actualités, soumettez-les parce que vous voulez faire tout votre possible pour vous assurer que vous êtes le premier à voir Google, sinon c'est une question de préférence.

40
Joshak

Je soupçonne: pour Google, les sitemaps sont nécessaires pour suivre les mises à jour le plus rapidement possible. Par exemple, supposons que vous ayez ajouté un nouveau contenu à un emplacement profond de votre site Web, ce qui prend plus de 10 à 20 clics pour atteindre votre page d'accueil. Si Google accédait à cette nouvelle page serait moins probable dans un court laps de temps - jusqu'à ce qu'un chemin d'accès à cette page soit totalement déterminé, son existence soit annoncé. Après tout, le classement PageRank n’est pas calculé immédiatement, il faut du temps pour évaluer le comportement des utilisateurs, et c’est-à-dire, jusqu’à ce moment-là, pourquoi le moteur ne devrait-il pas analyser et indexer une page avec du contenu récent?

15
Shahriyar Imanov

Selon les mots de Google: "Dans la plupart des cas, les webmasters bénéficieront de la soumission de Sitemap et ne seront en aucun cas pénalisés pour cela."

Mais je conviens que la meilleure chose à faire si vous voulez que les pages de vos sites Web apparaissent dans les moteurs de recherche est de vous assurer qu’elles sont explorables à partir du site proprement dit.

8
Daniel Alexiuc

Les sitemaps sont extrêmement utiles si vous les utilisez correctement.

Tout d’abord, le fait que Google parle d’indices n’est là que pour a) s’assurer que les webmasters ne sont pas sous la fausse impression que sitemap = indexation et b) donner à Google la possibilité d’ignorer certains sitemaps s’ils les jugent peu fiables ( lastmod, c'est-à-dire la date du jour pour toutes les URL auxquelles ils accèdent chaque jour.)

Cependant, Google aime et consomme généralement les sitemaps (en fait, ils trouvent parfois les leurs et les ajoutent à Google Webmaster Tools). Pourquoi? Cela augmente l'efficacité avec laquelle ils peuvent ramper.

Au lieu de démarrer sur un site source et d'explorer le Web, ils peuvent allouer une quantité appropriée de leur budget d'analyse à un site en fonction des sitemaps soumis. Ils peuvent également constituer un historique important de votre site avec les données d'erreur associées (500, 404, etc.).

De Google:

"Googlebot explore le Web en suivant les liens d'une page à l'autre. Si votre site n'est pas bien lié, il peut être difficile pour nous de le découvrir."

Ce qu'ils ne disent pas, c'est que l'exploration du Web prend beaucoup de temps et qu'ils préfèrent une feuille de triche (ou sitemap).

Bien sûr, votre site Web peut très bien fonctionner du point de vue de l'exploration, mais si vous souhaitez introduire un nouveau contenu, le déposer dans un plan du site avec une priorité élevée constitue un moyen plus rapide d'obtenir une exploration et une indexation.

Et cela fonctionne aussi pour Google, car il souhaite trouver, analyser et indexer son nouveau contenu rapidement. À présent, même si vous ne pensez pas que Google préfère les sentiers battus à la machette à l'approche de la jungle, il existe une autre raison pour laquelle les sitemaps sont utiles: le suivi.

En particulier, à l'aide d'un index de sitemap (http://sitemaps.org/protocol.php#index), vous pouvez diviser votre site en sections - plan du site par sitemap. Ce faisant, vous pouvez alors examiner le taux d’indexation de votre site section par section.

Une section ou un type de contenu peut avoir un taux d'indexation de 87%, tandis qu'un autre peut avoir un taux d'indexation de 46%. C’est ensuite à vous de déterminer pourquoi.

Pour tirer pleinement parti des sitemaps, vous devez suivre l'analyse de Googlebot (et Bingbot) sur votre site (via des blogs), les associer à vos sitemaps, puis les suivre jusqu'au trafic.

N'allez pas dormir sur les sitemaps, investissez-les.

8
AJ Kohn

Je crois que les moteurs de recherche utilisent le plan du site non pas pour rechercher des pages, mais pour optimiser la manière dont ils les consultent souvent à la recherche de mises à jour. Ils regardent <changefreq> et <lastmod>. Il est probable que Google parcourt très souvent le site Web en entier (vérifiez vos journaux!), Mais tous les moteurs de recherche ne disposent pas des ressources nécessaires pour le faire (Quelqu'un a-t-il essayé Blekko ?). En tout cas puisqu'il n'y a pas de pénalité pour leur utilisation et qu'ils peuvent être créés automatiquement et facilement, je continuerais à le faire.

7
Adam

si vous êtes intéressé par ce sujet, lisez cet excellent article de Google http://googlewebmastercentral.blogspot.com/2009/04/research-study-of-sitemaps.html (avril 2009) - lisez le papier complet, pas seulement le blogpost.

du papier

  • ok, fondamentalement, Google a lutté avec la même question.
  • ils ne divulguent pas comment ils déterminent la valeur dans le plan du site, mais ils mentionnent le concept d'un lien virtuel de la page de démarrage au plan du site.
  • beaucoup d'autres choses intéressantes

mais oui, le sitemap est principalement utilisé pour la découverte (le processus de découverte de vos éléments par Google), pas pour la détermination de la valeur. Si vous avez des difficultés avec la découverte, utilisez un sitemap. la découverte est une condition préalable à l'analyse, mais ne touche pas la détermination de la valeur.

selon mon expérience

  • il y a un grand nombre de sites * qui utilisent simplement des sitemaps HTML et XML pour interconnecter leurs pages
  • et de ceux-ci, le sitemap XML est beaucoup mieux analysé que le sitemap HTML. (J'ai jeté un coup d'oeil à quelques très gros)
  • il existe même des sites très performants qui utilisent simplement un sitemap XML.

quand j'implémente une stratégie de référencement pour un site avec plus d'un demi million de pages, je vais pour

  • les paliers
  • sitemap.xml
  • page de démarrage

tout le reste n'est que du "balast" - oui, d'autres éléments peuvent avoir une valeur de référencement positive, mais ont une valeur négative: cela rend le site plus difficile à gérer. (p.s .: pour la détermination de la valeur, j'interconnecte les pages d'atterrissage de manière sensée (grand impact), mais c'est déjà la deuxième étape).

sur votre question: s'il vous plaît ne confondez pas découverte, exploration, indexation et classement. vous pouvez tous les suivre séparément et les optimiser séparément. et vous pouvez améliorer la découverte et l'exploration de manière majeure avec un excellent plan du site (c'est-à-dire en temps réel).

6
Franz

Les plans Sitemap peuvent vous sauver le cul.

Sur un de mes sites, j'ai un grand nombre de liens qui empêchent les moteurs de recherche de spider. En résumé, Google interprétait mal JS dans mon forum et provoquait de nombreux codes de réponse 500 et 403, qui, je le croyais, affectaient la position du site. J'ai résolu ce problème en excluant les URL problématiques via le fichier robots.txt.

Un jour, j'ai fait une erreur et empêché Google d'explorer certaines pages de ce site que je voulais vraiment indexer. À cause des exclusions du forum, la section d'erreur de "Webmaster Tools" pour "Restreint par robots.txt" contenait plus de 4000 pages. Je n'aurais donc pas relevé cette erreur jusqu'à ce qu'il soit trop tard.

Heureusement, toutes les pages "importantes" de mon site se trouvant dans des sitemaps, j'ai pu rapidement détecter ce problème dans la catégorie d'erreur spéciale que Webmaster Tools contient pour les problèmes de pages dans les sitemaps.

En passant, je tire également un grand avantage de l’utilisation d’un index Sitemap pour déterminer la qualité de l’indexation de diverses sections de mes sites, comme mentionné de @AJ Kohn.

5
JasonBirch

Je n'ai pas encore rencontré ce problème moi-même, mais la majorité de mes projets sont des applications ou des sites qui nécessitent par ailleurs un compte d'utilisateur, de sorte que l'indexation par les moteurs de recherche n'est pas une priorité.

Cela dit, j'ai déjà entendu dire que le référencement avait rendu les sitemaps inutiles. Si vous regardez le protocole, c'est en quelque sorte un "système d'honneur" qui indique à quelle fréquence une page change et quelle est la priorité relative de chaque page. Il va de soi que dime-a-douzaine de sociétés de référencement utilisent les champs à mauvais escient - chaque page est une priorité! chaque page change toutes les heures! - et rendu sitemaps efficacement inutile.

Cet article de 2008 dit en gros cela et semble arriver à la même conclusion que vous: le sitemap est quasiment inutile et vous feriez mieux d'optimiser le contenu à indexer et d'abandonner le sitemap.

4
Travis Illig

C'était (d'abord?) Écrit à propos de Randfish à SEOmoz dans la bonne vieille année 2007. La première fois, il arrivait aux mêmes types de conclusions, mais ensuite le temps a fait c'est chose .. et passé.

Depuis (janvier 2009), il a ajouté à l'article un post-scriptum indiquant que tout inconvénient éventuel est simplement compensé par les résultats globalement positifs de la création, de la vérification et de la soumission de sitemaps.

Mise à jour du 5 janvier 2009 - En réalité, j'ai changé d'avis sur ce conseil. Oui, les sitemaps peuvent encore rendre obsolètes des problèmes d'architecture, mais compte tenu de l'expérience que j'ai acquise au cours des 1,5 dernières années, je recommande maintenant à tous nos clients (et à quasiment tous les autres qui le demandent) de les soumettre. Les avantages en termes d’analyse, d’indexation et de trafic dépassent tout simplement les inconvénients.

3
Mike Hawkins

Laissez-le ramper.

Je fais ce qui suit:

  1. rendre le site explorable à l'ancienne.
  2. assurez-vous que j'ai un fichier robots.txt avec une indication de sitemap.
  3. faire un sitemap XML, mais ne pas soumettre. Laissez crawler le découvrir et utilisez-le selon vos besoins, dans le cadre de son processus de découverte et d'indexation.

Je génère un fichier XML étendu, qui sert de base à beaucoup de choses:

  • Générer le sitemap HTML
  • Aide la page 404 (non trouvée)
  • Aide pour d'autres tâches minuscules, telles que la fabrication de chapelure ou l'obtention de métadonnées sur mon modèle de façade pour une page.

C’est pourquoi j’ai tout cela, pourquoi ne pas servir aussi un sitemap XML et laisser le robot faire ce qu’il aimerait faire, s’il le souhaite?

3
Dave

Jeff, je n'ai aucune idée de Stackoverflow car je n'ai jamais eu l'occasion de ma vie d'être le webmaster d'un site Web aussi vaste et mis à jour si fréquemment.

Pour les petits sites Web qui ne changent pas souvent, je pense que les sitemap sont très utiles (sans dire que sitemap est la chose la plus importante, mais très utile oui) pour deux les raisons:

  1. Le site est exploré rapidement (même raison expliquée par réponse de Joshak ci-dessus ) et dans ma petite expérience, je l’ai souvent remarqué avec de petits sites (jusqu'à 30/50 pages)

  2. Après quelques semaines, j’ai soumis un sitemap, j’ai cherché dans "Google Webmaster Tools - Sitemaps" et j’ai pu voir le nombre d’URL soumises dans le sitemap VS le nombre d’URL figurant dans l’index Web . Si je vois qu'ils sont identiques, alors tant mieux. Sinon, je peux vérifier immédiatement sur mes sites Web quelles pages ne sont pas indexées et pourquoi.

3
Marco Demaio

Je crois que SiteMaps ne sert que pour deux raisons ces jours-ci:

  • Ils vous permettent de réduire la fréquence des opérations de spider pour alléger la charge du serveur. Cela ne devrait pas vraiment être un problème pour la plupart des sites.
  • Ils peuvent aider à renforcer ce que le moteur de recherche sait déjà sur vous. En répertoriant les noms de page et en ajoutant évidemment une pondération appropriée à chaque page, le moteur de recherche permet de valider ses propres métriques pour le classement de l'architecture de votre site.
2
LabSlice

N'UTILISEZ PAS DE PLAN DU SITE

Les plans Sitemap sont principalement conçus pour les sites ne disposant pas d'horodatage ni index, ni nœuds ... SE le fait à la fois pour son contenu principal. Un sitemap ralentit donc le balayage ... Oui, c'est vrai, cela le ralentira, car le sitemap manque les métadonnées que les index de base ont. Sur le revers, je n'ai aucune idée de la façon dont Google construit ses robots, sachez simplement que si j'allais sur Bot SE, je n'utiliserais PAS le plan du site. De plus, certains sites ne remarquent même pas que leurs sitemaps sont tous%! @ $ - et si vous avez créé un profil sur un sitemap qui ne fonctionne tout à coup, vous devez créer un nouveau profil à partir du site. site réel.

Donc, vous avez raison - NE PAS UTILISER DE SITEMAPS!

TIP: Une chose à faire est de garder la sémantique des balises la même chose autant que possible, c'est-à-dire si "Asked One Hour Ago" contient une métadonnée comme:

title="2010-11-02 00:07:15Z" class="relativetime"

ne changez jamais le nom de chaîne relativetime, à moins que la signification des données dans title n'ait changé. JAMAIS ...: -)

1
blunders

J'ai récemment restructuré un site sur lequel je travaille encore. Comme je ne voyais aucun moyen de lier 500 000 pages pour aider les utilisateurs, j'ai décidé d'utiliser un sitemap XML, de le soumettre à Google et d'utiliser la recherche sur site. Cependant, depuis l’ajout du plan du site, Google n’avait aucun problème à indexer mon site, mais il est très agressif en ce qui concerne la navigation sur mon site et l’indexation extrêmement rapide des pages. Google a utilisé le plan du site pour trouver de nouvelles pages (environ 3 300 par semaine) et revoir les pages mises à jour. Cela a été une vraie victoire dans mon livre. Je veux toujours trouver un nouveau moyen de lier mes pages et d'utiliser AJAX pour la recherche, mais c'est un projet pour un autre jour. Jusqu'ici tout va bien! Cela a été une bonne solution pour moi. Tous et toutes, j'ai gagné et pas perdu. Ce qui est intéressant, car j'ai toujours pensé que les sitemaps pourraient être plus utiles mais limités par leur conception.

1
closetnoc

Je ne suis pas d'accord avec le fait que Google n'indexera pas les liens "sitemapped-only". J'ai de nombreux sites dont les pages ne sont accessibles que par sitemaps, et Google les indexe sans problème. Je peux donner de nombreux exemples de cela.

0
setiri

Un site bien construit n'a pas besoin de plan du site, bien qu'il puisse nous aider dans notre couverture et notre classement et ajoute un petit plus comme la priorité, la fréquence de mise à jour, etc. quelque part au milieu de mon site sans nécessiter une analyse complète. Je n'ai jamais regardé les schémas d'analyse, mais on peut espérer que cela aide.

Cela dit, le principal avantage pour moi, ce sont les outils pour les webmasters et les informations qu’ils vous donnent sur la visibilité de votre site Web et de vos utilisateurs.

0
dan

J'ai entendu dire que les sitemaps mettaient vos pages dans l'index supplémentaire plus rapidement. Mais je n'ai même pas entendu parler de l'index supplémentaire mentionné depuis longtemps, alors ils ne l'utilisent peut-être plus.

P.S. au cas où ma déclaration ne serait pas assez claire, figurer dans l'index supplémentaire est (ou était) une MAUVAISE chose ... Par conséquent, un sitemap est (ou était) BAD.

0
joedevon

Nous utilisons des sitemaps (non soumis aux moteurs de recherche, mais liés dans robots.txt) principalement pour nous assurer que la page d'accueil présente le plus haut <priority>. Je ne suis pas sûr s'ils ont beaucoup d'autre utilisation.

0
TRiG