SEO: Dupliquer le contenu causé par les pages de pagination / tag / index

Question

Duplicate possible:
Qu'est-ce qu'un contenu en double et comment puis-je éviter d'être pénalisé pour cela sur mon site?

J'ai lu que je devrais utiliser une balise NoIndex pour les pages de transition telles que les pages d'index, de pagination ou de balises. Est-ce vrai? J'ai un blog Tumblr sur lequel je pense mettre NoIndex sur les pages d'index, de recherche, de balise, de pagination et de date.

Est-ce que NoIndex est suffisant ou existe-t-il d'autres méthodes? La page d'index d'un site doit-elle être marquée comme NoFollow? Cela ne semble pas vraiment bien.

Quelles sont les pages sur lesquelles vous mettriez NoIndex?

John Conde · Accepted Answer

Si plusieurs URL de page produisent le même contenu, c'est exactement ce à quoi <link rel="canonical"> est destiné. C'est pour dire aux moteurs de recherche que le contenu de plusieurs URL est le même et pour utiliser celui-ci comme primaire. Cela évite les problèmes de duplication et est très simple à faire.

DisgruntledGoat · Answer

Non, vous ne devez pas empêcher les moteurs de recherche d'indexer des pages de pagination ou de balises. (Et absolument pas votre page d'index!) Pour les blogs ou les sites sans structure de menu claire, c'est le moyen principal pour trouver votre contenu.

Le plus souvent, les moteurs de recherche peuvent très bien travailler ces pages et découvrir votre contenu le plus important, à savoir les entrées de blog elles-mêmes.

Toutefois, si vous remarquez que ces pages de liste sont plus indexées que les articles de blog, je vous recommande de bloquer l'indexation de "configurations infinies", par exemple le tri par popularité. Ou tout ce qui contient les mêmes éléments dans différents ordres - permet d'indexer un ordre sensible et d'ignorer le reste.

Talvi Watia · Answer

Il n'y a rien qui puisse empêcher chaque robot d'araigner AUCUNE page de votre site, à moins que ce ne soit interdit de force.

Cela étant dit, vous pouvez toujours encourager le robot à suivre et à indexer ce que vous voulez/ne veut pas. Certaines de ces méthodes incluent:

Créer un fichier robots.txt et le placer dans votre répertoire racine.
Définition de toutes les options de cache response header correctement pour chaque ressource.
Créer un document sitemap.xml avec uniquement les pages que vous voulez spider.
Capitalisation cohérente. Avoir tout ce qui est en minuscule plusieurs fois empêchera les dupes impliquant des majuscules/minuscules.
Évitez de transmettre les variables $_GET dans l'URL, sauf si cela crée véritablement des données uniques. (comme www.abc.com/index.php?session=21389271893219, utilisez $_POST pour cela à la place.
Non ayant un contenu en double. (essayez mod_rewrite et/ou la redirection pour éviter cela)
Utilisation de la détection de bot pour envoyer un 404 NOT FOUND à ces pages et 200 ou rediriger vers des utilisateurs en direct. (301s sont discutables)
Utilisation des outils Google pour les webmasters pour empêcher l’affichage des pages dans les résultats de recherche. (Bien que ce soit généralement une solution de dernier recours.)
Évitez les URL encodées/encodables UTF-8, elles canoniseront.
Utilisez une gestion de session appropriée pour empêcher l’accès direct à des informations sécurisées.

Il y en a plus, mais cela fonctionne pour 99% de presque tout. L'astuce est la bonne conception initiale du répertoire d'URL.