web-dev-qa-db-fra.com

Comment obtenir des dizaines de millions de pages indexées par Google bot?

Nous développons actuellement un site qui compte actuellement 8 millions de pages uniques, dont le nombre passera immédiatement à 20 millions, voire à 50 millions ou plus.

Avant de critiquer ... Oui, il fournit un contenu unique et utile. Nous traitons en permanence les données brutes des enregistrements publics et en effectuant un nettoyage des données, des cumuls d'entités. et la cartographie des relations, nous avons été en mesure de générer un contenu de qualité, en développant un site très utile et unique, en partie en raison de l’ampleur des données.

PR vaut 0 (nouveau domaine, pas de liens), et nous obtenons environ 500 pages par jour, soit environ 30 000 pages indexées jusqu'à présent. À ce rythme, il faudrait plus de 400 ans pour indexer toutes nos données.

J'ai deux questions:

  1. Le taux d’indexation est-il directement corrélé aux relations publiques et j’entends par là qu’il est suffisamment corrélé pour que l’achat d’un ancien domaine doté de bonnes relations publiques nous permette d’obtenir un taux d’indexation réalisable (environ 100 000 pages par jour).
  2. Existe-t-il des consultants en référencement spécialisés dans le processus d’indexation proprement dit? Dans le cas contraire, nous nous en sortons très bien avec le référencement sur - page en particulier, en outre, la concurrence pour nos expressions-clés "longue queue" est assez faible, Notre succès repose donc principalement sur le nombre de pages indexées.

Notre principal concurrent a réalisé environ 20 millions de pages indexées en un peu plus d’un an, ainsi qu’un classement Alexa de 2000.

Qualités remarquables que nous avons en place:

  • la vitesse de téléchargement des pages est plutôt bonne (250-500 ms)
  • pas d'erreurs (pas d'erreurs 404 ou 500 lors de l'obtention d'un spider)
  • nous utilisons les outils Google pour les webmasters et nous connectons tous les jours
  • uRL conviviales en place
  • J'ai peur de soumettre des sitemaps. Certaines publications de la communauté SEO suggèrent un nouveau site avec des millions de pages et aucun PR n’est suspect. Il y a un vidéo de Matt Cutts sur Google qui parle d'une intégration organisée de grands sites , également, afin d'éviter une surveillance accrue (à environ 2h30 dans la vidéo).
  • Les liens de sites cliquables renferment toutes les pages, d’une profondeur maximale de quatre pages et généralement d’un maximum de 250 liens internes (-ish) sur une page.
  • Le texte d'ancrage des liens internes est logique et ajoute une pertinence hiérarchique aux données des pages de détail.
  • Nous avions précédemment défini le taux d'analyse le plus élevé sur les outils pour les webmasters (environ une page toutes les deux secondes, au maximum). Je l'ai récemment retourné pour "laisser Google décider", ce qui est conseillé.
12
Chris Adragna

Quelques stratégies potentielles:

  • Google Webmaster Tools vous permet de demander une augmentation du taux d’analyse. Essayez de faire cela si vous ne l'avez pas déjà fait.
  • Examinez à nouveau votre architecture de navigation pour voir si vous ne pouvez pas améliorer l'accès à davantage de contenu. Examinez-le du point de vue de l'utilisateur: s'il est difficile pour un utilisateur de trouver une information spécifique, cela peut également s'avérer difficile pour les moteurs de recherche.
  • Assurez-vous de ne pas dupliquer le contenu en raison de paramètres d'URL incohérents ou d'une utilisation incorrecte des barres obliques. En éliminant le contenu en double, vous réduisez le temps passé par Googlebot à analyser quelque chose qu'il a déjà indexé.
  • Utilisez des liens de contenu associés et des liens in-site dans votre contenu dans la mesure du possible.
  • Randomize certains de vos liens. Une barre latérale avec un contenu interne aléatoire est un excellent modèle à utiliser.
  • Utilisez les dates et autres microformats .
  • Utilisez les flux RSS autant que possible. Les flux RSS fonctionneront quasiment comme un sitemap (en fait, les Outils pour les webmasters vous permettent de soumettre un flux en tant que sitemap).
  • En ce qui concerne les sitemaps, voir cette question .
  • Trouvez des moyens d'obtenir des liens externes vers votre contenu. Cela peut accélérer le processus d’indexation. Si cela convient au type de contenu, faciliter le partage social ou par courrier électronique facilitera la tâche.
  • Fournissez une API pour encourager l'utilisation de vos données et des liens externes vers vos données. Vous pouvez avoir un lien d'attribution comme condition préalable à l'utilisation des données.
  • Embrasser la communauté. Si vous atteignez les bonnes personnes de la bonne manière, vous obtiendrez des liens externes via des blogs et Twitter.
  • Cherchez des moyens de créer une communauté autour de vos données. Trouvez un moyen de le rendre social. Les API, mashups, widgets sociaux sont tous utiles, mais le sont également les blogues, vitrines communautaires, forums et mécanismes de je (voir aussi cette vidéo ).
  • Priorisez le contenu que vous avez indexé. Avec autant de données, toutes ne seront pas absolument vitales. Prenez une décision stratégique quant au contenu le plus important, par exemple, il sera le plus populaire, il a les meilleures chances de retour sur investissement, il sera le plus utile, etc. et assurez-vous que ce contenu est indexé en premier.
  • Faites une analyse détaillée de ce que fait votre concurrent pour que son contenu soit indexé. Regardez l'architecture de leur site, leur navigation, leurs liens externes, etc.

Enfin, je devrais dire ceci. Le référencement et l'indexation ne sont que de petites étapes dans la gestion d'un site d'entreprise. Ne perdez pas de vue le retour sur investissement pour le référencement. Même si vous avez beaucoup de trafic de Google, peu importe si vous ne pouvez pas le convertir. Le référencement est important, mais il faut le garder en perspective.

Éditer :

En complément de votre cas d'utilisation, vous pouvez envisager de proposer des critiques ou des témoignages pour chaque personne ou entreprise. En outre, la distribution de badges d'utilisateur, comme StackOverflow, pourrait inciter au moins certaines personnes à créer un lien vers leur propre profil sur votre site. Cela encouragerait certains liens externes vers vos pages profondes, ce qui pourrait signifier une indexation plus rapide.

19
Virtuosi Media

Comment obtenir des dizaines de millions de pages indexées par Google bot?

Cela ne se fera pas du jour au lendemain, cependant, je vous garantis que plusieurs de vos pages seraient plus rapidement spiderées si des liens entrants vers du contenu approfondi (notamment des pages de plan du site ou des index de répertoires pointant vers un contenu encore plus profond) étaient ajoutés à partir de sites de même taille, ont été autour pendant un moment.

Un ancien domaine sera-t-il suffisant pour obtenir 100 000 pages indexées par jour?

Douteux, à moins que vous ne parliez d'un domaine plus ancien qui a eu une quantité d'activité significative dessus (c'est-à-dire du contenu accumulé et des liens entrants) au fil des ans.

Existe-t-il des consultants en référencement spécialisés dans le processus d’indexation proprement dit?.

Quand vous posez la question de cette façon, je suis sûr que vous trouverez beaucoup de SEO qui proclament haut et fort "oui!" mais, au bout du compte, les suggestions de Virtuosi Media sont aussi utiles que celles que vous obtiendrez (sans parler du conseil potentiellement mauvais).

À partir de ce moment, vous devriez envisager d’utiliser les canaux de développement commercial et de relations publiques pour établir le classement de votre site à ce stade - obtenez davantage de liens vers votre contenu (de préférence en vous associant à un site existant proposant du contenu ciblé par région, afin de créer un lien vers votre site). Par exemple, pour attirer plus de visiteurs sur votre site (certains auront la barre d’outils Google installée afin que leur trafic puisse fonctionne vers la découverte de page), et si possible, faites parler de votre entreprise sur les nouvelles ou dans les communautés de personnes qui en ont besoin (si vous envisagez de facturer certains services, envisagez de faire de la publicité pour une période d’essai gratuite pour attirer l’attention).

5
danlefree

Je sais que deux options sont possibles.

Un: un petit truc que j'ai essayé avec un site Web de trois millions de pages qui fonctionnait étonnamment bien était ce que mon collègue a inventé une boucle d'exploration. Vous devrez peut-être manipuler l'idée un peu pour l'adapter à votre site.

Fondamentalement, nous avons défini un jour où nous ne pensions pas que nous aurions beaucoup de trafic (Noël) et nous avons littéralement copié une liste de chaque lien sur notre site et les avons collés dans un fichier php appelé sur chaque page Web. (Le fichier php sidebar)

Nous avons ensuite été autorisés à nous rendre sur la console de recherche Google (anciennement Google Webmaster Tools) et à demander à Google de rechercher une URL et d’explorer tous les liens de cette page.

Étant donné que vous avez tellement de liens et que les pages de ces liens contiennent également une quantité abondante de liens, Google se met en boucle et explore le site de manière beaucoup plus rapide. J'étais sceptique au début mais cela a fonctionné à merveille.

Avant de faire cela, vous devez vous assurer que la configuration de la base de données est extrêmement efficace et que le serveur est très puissant. Dans le cas contraire, il pourrait surcharger le serveur ou nuire à votre référencement en raison du temps de chargement des pages.

Si ce n'est pas une option pour vous, vous pouvez toujours regarder dans les apis de la console cloud de Google. Ils ont une interface de console de recherche afin que vous puissiez écrire un script pour ajouter chaque page Web en tant que propre instance de site Web dans la console de recherche ou pour que Google récupère chacune de vos URL.

Les apis peuvent se compliquer extrêmement rapidement, mais ils constituent un outil extraordinaire lorsqu'ils sont utilisés correctement.

Bonne chance!

3
Zak

Une chose que je remarque avec les outils Google pour les webmasters est qu’ils permettent d’abord un taux d’analyse maximal d’environ deux requêtes par seconde. Puis, environ une semaine plus tard, s’ils trouvent que le site Web est fréquemment utilisé, ils vous permettront d’augmenter votre limite.

Je co-dirige un site Web qui héberge plus de 500 000 images originales et parfois, ma limite maximale est de 10 demandes par seconde car je reçois au moins 700 à 1 000 visites par jour, sinon plus.

Vous voudrez peut-être vérifier avec les outils pour les webmasters toutes les semaines pour voir si vous pouvez augmenter la limite d'analyse. Lorsque vous modifiez la limite d'analyse, Google la restaure à ses paramètres préférés après un certain jour (ce que l'interface vous indiquera). Puis ce jour-là, augmentez à nouveau la limite.

2
Mike

J'ai eu l'expérience de ce type de site. J'ai dirigé un répertoire d'articles il y a de nombreuses années et le pourcentage de pages indexées et surtout performantes était en corrélation directe avec le nombre de domaines de référence - c.-à-d. Le nombre de sites Web uniques reliant po. Un grand site avec des millions de pages nécessite plusieurs milliers les domaines raisonnables liant pour fonctionner de manière autonome.

Cela ne se fera pas du jour au lendemain, mais si vous construisez 5 à 10 bons liens par jour, vous serez alors en mesure de générer des revenus et de l'utiliser pour payer un équipement de référencement professionnel afin de créer des liens. pour vous.

Je suis en train de construire un site similaire riche en informations en ce moment, mais j'ai le même problème avec environ 4 millions de pages de contenu avec un taux de crawl de 700 à 1000 pages par jour.

2
Adrian Lawrence

Jouer au système n'est jamais une bonne idée si vous exploitez une entreprise légitime qui valorise sa réputation en ligne. En outre, si votre site fournit véritablement de la valeur, plus il dure longtemps (je suppose que vous faites une forme de marketing?), Plus il génère de backlinks, de sorte que votre PR augmentera et que votre taux d'analyse augmentera.

De plus, si vous avez une bonne structure de liens sur votre site (toutes vos pages peuvent être découvertes en un nombre raisonnable de clics/liens), il vous suffit de soumettre les index principaux via le plan du site. Une fois ces pages indexées par Google, celles-ci seront explorées par Google et Google indexera le reste des pages lui-même.

2
Lèse majesté

Je sais que deux options sont possibles.

Un: un petit truc que j'ai essayé avec un site Web de trois millions de pages qui fonctionnait étonnamment bien était ce que mon collègue a inventé une boucle d'exploration. Vous devrez peut-être manipuler l'idée un peu pour l'adapter à votre site.

Fondamentalement, nous avons défini un jour où nous ne pensions pas que nous aurions beaucoup de trafic (Noël) et nous avons littéralement copié une liste de chaque lien sur notre site et les avons collés dans un fichier php appelé sur chaque page Web. (Le fichier php sidebar)

Nous avons ensuite été autorisés à nous rendre sur la console de recherche Google (anciennement Google Webmaster Tools) et à demander à Google de rechercher une URL et d’explorer tous les liens de cette page.

Étant donné que vous avez tellement de liens et que les pages de ces liens contiennent également une quantité abondante de liens, Google se met en boucle et explore le site de manière beaucoup plus rapide. J'étais sceptique au début mais cela a fonctionné à merveille.

Avant de faire cela, vous devez vous assurer que la configuration de la base de données est extrêmement efficace et que le serveur est très puissant. Dans le cas contraire, il pourrait surcharger le serveur ou nuire à votre référencement en raison du temps de chargement des pages.

Si ce n'est pas une option pour vous, vous pouvez toujours regarder dans les apis de la console cloud de Google. Ils ont une interface de console de recherche afin que vous puissiez écrire un script pour ajouter chaque page Web en tant que propre instance de site Web dans la console de recherche ou pour que Google récupère chacune de vos URL.

Les apis peuvent se compliquer extrêmement rapidement, mais ils constituent un outil extraordinaire lorsqu'ils sont utilisés correctement.

Bonne chance!

1
ram singh