web-dev-qa-db-fra.com

Pagination, contenu dupliqué et référencement

Veuillez considérer une liste d'éléments (commentaires de forum, articles, chaussures, peu importe) qui sont répartis sur plusieurs pages. Différents ordres de tri sont pris en charge (par date, par popularité, par prix, etc.).

Donc, une URL peut ressembler à ceci (j'utilise le style de requête ici pour simplifier les choses):

/ items? id = 1234 & page = 42 & sort = popularité

/ items? id = 1234 & page = 5 & sort = date

Maintenant, en termes de référencement, je pense que je devrais m'inquiéter du contenu dupliqué. Après tout, chaque élément apparaît au moins autant de fois qu’il existe des ordres de tri.

J'ai vu Matt Cutts parler de la balise de lien rel = canonical, mais il a également déclaré que la page canonique devrait avoir un contenu très similaire. Mais ce n'est pas le cas ici parce que la page n ° 1 dans un ordre de tri non canonique peut avoir des éléments complètement différents de la page n ° 1 dans l'ordre de tri canonique. Pour une page non canonique donnée, il n'y a pas de page canonique claire listant tous les mêmes éléments, donc je pense que rel = canonique ne va pas aider ici.

Ensuite, j'ai envisagé d'utiliser la balise méta noindex sur toutes les pages avec un ordre de tri non canonique et de ne pas l'utiliser sur toutes les pages avec un ordre de tri canonique.

Cependant, si j'utilise cette méthode, que se passera-t-il avec les backlinks qui iront vers des pages non canoniques - continueront-ils à étendre leur nombre de pages, même si la première page que googlebot (ou tout autre robot) va rencontrer est marquée comme "noindex"?

Pouvez-vous s'il vous plaît commenter mon problème et ce que vous pensez est la meilleure solution?

Si vous pensez avoir une meilleure solution, considérez s'il vous plaît 1) Je ne veux pas utiliser Javascript pour cela, 2) Je ne veux pas que tous les éléments soient sur une seule page.

Je vous remercie.

6
Iamtotallylost

Utilisez une balise de lien rel = "canonique". Il existe à cet effet. Il a été suggéré en premier lieu par Google, mais whatwg et w3c sont en train de l’approuver en tant que spéc.

Selon vos commentaires sur la réponse @danlefree, votre préoccupation peut être liée à la réécriture d'URL en URL conviviales, c'est-à-dire que vous êtes habitué à http: //www.domain.tld/apples/weight/ , à la place d'utiliser http: //www.domain.tld/items.php? id = 23 & sort = weight .

Eh bien, d’une manière ou d’une autre, vous atteindrez le même script, définissez les mêmes variables d’application et produisez le même contenu.

Assurez-vous simplement que vous avez la même URL (celle que vous préférez) sur toutes les pages associées (par exemple, tous les mêmes éléments, quel que soit l'ordre de tri, dans mon exemple, pourrait être http: //www.domain.tld/apples/ ).

EDIT

Aller plus loin dans la discussion ...

Tout d’abord, Matt Cutts est un mec génial, je n’ai rien contre sa personne, mais ne prenez jamais, JAMAIS rien comme le Saint Graal. C'est peut-être une bonne proposition, mais votre jugement doit être le dernier mot - pas n'importe qui, malgré sa position et ses qualifications.

Revenons à votre exemple. Hypothèses:

  • Vous avez une page de liste de produits
  • Par défaut, il trie par ID
  • Les utilisateurs peuvent choisir de trier par la quantité en stock , le prix ou taille
  • Chaque page affiche 3 éléments
  • vous avez actuellement 12 éléments différents à répertorier.
  • les prix et les quantités en stock peuvent varier dans le temps

OK, maintenant si l'utilisateur entre votre page, il verra les listes:

  • Défaut: 1 2 3 - 4 5 6 - 7 8 9 - 10 11 12
  • Par Prix: 6 11 1 - 3 4 7 - 2 9 12 - 10 8 3
  • Par Stock: 3 2 1 - 6 4 5 - 8 9 7 - 11 12 10
  • Par taille: ...

Voulez-vous vraiment que différentes pages de tri soient explorées? Je veux dire, sauf si vous modifiez d'autres contenus de page, comme une balise de titre comme:

<!-- canonical -->
<title>Joe's Store - Products list</title>
<!-- sorted by price -->
<title>Joe's Store - Products list - cheaper first!</title>

Je conviens que le tri peut générer un contenu différent, mais il ne doit pas être analysé ni indexé si les modifications apportées ne concernent que les préférences de tri de l'utilisateur . Si vous voulez fournir un autre titre, des balises méta, etc., je pense que cela vaut la peine de tout conserver comme différent, sinon, une utilisation canonique est recommandée.

Bien sûr, aucun suivi sur les liens de tri ne fonctionne également et très bien, mais vous ne devez pas compter uniquement sur eux.

Allons à mon point:

  • Tout d'abord, pensez aux utilisateurs
  • Deuxièmement, assurez-vous que votre marquage est aussi bon que possible (ceci inclut, rel = "nofollow" sur les ancres de bodycopy de droite, link rel = "canonical", meta noindex sur head)
  • Troisièmement, utilisez les outils que vous avez comme robots.txt, sitemaps.xml et les outils Google pour les webmasters

Pourquoi tout ça? Parce que vous devriez d'abord vous inquiéter avec vos utilisateurs. Ensuite, si votre page est bien écrite et dernière sur les robots d'exploration. Si votre page est vraiment bien écrite, non seulement les utilisateurs et Google l'apprécieront, mais également les autres moteurs de recherche et outils.

1
Dave

Utilisez Google Webmaster Tools pour ignorer le paramètre GET (c'est-à-dire "trier") pour différents ordres de tri.

J'ai récemment rencontré ce problème avec un magasin de commerce électronique dans lequel la fonctionnalité "articles similaires" était présentée sous forme de lien codé en dur à partir de chaque page de produit (ce qui a créé de très nombreuses pages "articles similaires" pour chaque produit). ignorer le paramètre "éléments similaires" GET a corrigé la situation et a réduit le nombre de "pages" de 90 millions à quelques milliers en quelques jours avec des améliorations appréciables dans le classement (et, évidemment, le taux de crawl).

0
danlefree