web-dev-qa-db-fra.com

Question de référencement concernant un très grand nombre d'URL

Je me demande quel est le meilleur moyen de gérer cette situation. Je suis sur le point de publier une nouvelle section sur un site Web contenant littéralement des centaines de millions de combinaisons d'URL pouvant être analysées et indexées par les moteurs de recherche. C'est parce que je donne aux utilisateurs la possibilité de choisir leurs raffinements en utilisant des cases à cocher, similaires à Zappos , et il y a des tonnes de combinaisons possibles.

Le site Web contient actuellement environ 100 000 URL indexées par Google, mais la publication de cette nouvelle section du site Web augmenterait ce nombre d'une (*) grande quantité très grande . Cela pourrait être incorrect, mais j'ai entendu dire que les sites Web pourraient être pénalisés pour avoir connu une augmentation soudaine et considérable du nombre de pages explorées. Est-ce vrai? Si tel est le cas, quel est le meilleur moyen de gérer cela? Mon objectif n'est pas de "pagerank sculpt" ou quoi que ce soit du genre, mais je ne veux pas être pénalisé pour les changements que je m'apprête à faire.

J'ai pensé à ajouter une directive "interdire" à mon fichier robots.txt, mais cela bloquerait l'indexation de toutes les nouvelles pages, ce que je ne souhaite pas. Je pense qu’il est préférable d’indexer les plus importantes (une ou deux combinaisons de filtres), mais je ne pense pas qu’il soit vraiment nécessaire d’indexer les combinaisons extrêmement longues. Donc, je suppose que ma question est la suivante: existe-t-il un bon moyen de le faire ou est-il préférable de laisser les araignées s'en occuper?

1
Jeff

Je vois que vous voulez que les URL soient partageables en réponse à la réponse de John, ce qui est compréhensible pour l'utilisateur. Mais ici, vous parlez des moteurs de recherche, donc: Y at-il peut-être lieu d’appliquer noindex à ces pages de comparaison granulaire, ou d’avoir dépassé un certain seuil comme trois fonctionnalités sélectionnées?

Bien que les pages contenant un seul produit, et peut-être certaines catégories de niveau supérieur ou autre, soient évidemment importantes à indexer, il semblerait que chaque permutation de caractéristiques indexées puisse simplement diluer l'efficacité des sites, voire même y faire tomber les utilisateurs. plutôt que juste le produit qu'ils recherchent.

1
Su'

Si le même contenu peut être atteint par plus d'une URL, vous aurez certainement des problèmes avec le contenu en double. Vous devrez spécifier un RL canonique pour chaque page afin que Google sache laquelle est "principale" et montrera cette URL dans ses résultats de recherche. Toutes les autres URL qui affichent le même contenu seront considérées comme la même page (ce qui signifie que tous les liens qui les dirigent comptent pour un lien vers la page principale).

Il n'y a pas de réel problème à ajouter autant de contenu à la fois. Juste ne vous attendez pas à voir tout cela indexé rapidement. Aussi, ne vous attendez pas à ce qu'il soit bien classé tout de suite.

Remarque: S'il s'agit d'un contenu personnalisé qui nécessite la connexion d'un utilisateur, les moteurs de recherche ne le verront pas car ils ne créent pas de compte ni ne se connectent. Ils n'ont donc pas accès à ces URL.

De même, s'il s'agit d'un contenu personnalisé basé sur les préférences de l'utilisateur, pourquoi ne pas stocker les préférences dans une session et éviter d'avoir des URL mutilées?

4
John Conde

Tout dépend du type de contenu que chaque paiement affichera. Google Panda (l'algorithme de classement de Google) évaluera chaque page d'un site, affectant ainsi le classement général du site.

Il y a beaucoup de controverse sur la façon de rendre votre site plus performant pour Panda. Mais il est généralement admis que Panda classera un site sur un classement inférieur s’il rencontre des pages qui, à son avis, sont générées automatiquement ou qui sont généralement du courrier indésirable. Par exemple, supposons que vous avez www.siteinfo.xyz et que vous pouvez placer n’importe quel domaine (comme www.siteinfo.xyz/stackoverflow.com). Le site affichera simplement le titre de la page de ce domaine, le moteur JS qu’ils utilisent, s’ils le souhaitent. utilisez Google Analytics, etc. Ainsi, chaque page de www.siteinfo.xyz est générée automatiquement et, par conséquent, chaque paiement n'est pas unique. Panda classera ensuite le site plus bas pour chacune de ces pages trouvées.

Une mise à jour récente de Panda aurait corrigé certains des problèmes de classement incorrect des sites valides.

Dans l’ensemble, Panda essaie de classer les sites en fonction de la valeur et de la validité de leur contenu. Donc, tant que les pages de votre site offrent un bon contenu, cela devrait aller. Pour être sûr, il serait préférable de créer un sitemap afin que Google comprenne mieux le déroulement.

Consultez également les guides de qualité de Google .

Pour plus d'informations sur le panda , voir ceci .

0
Marshall