John Mueller de Google maintenant dit que Googlebot affiche les pages explorées pour déterminer le contenu qui s'y trouve. Ils le font parce que beaucoup de sites sont maintenant fortement centrés sur JavaScript, ce qui leur permet de mieux comprendre le contenu de AJAX.
Je pensais également qu'ils pourraient utiliser ce combat comme une faiblesse historique de leur algorithme PageRank. L'algorithme PageRank d'origine a transmis une quantité égale de jus à chacun des liens de la page. Plus tard, j’ai vu des preuves que les liens situés plus haut sur la page (dans l’ordre du code source) pourraient passer davantage de PageRank que les liens inférieurs (par exemple, dans le pied de page). Maintenant qu'ils rendent les pages, ils pourraient utiliser ce rendu pour passer plus de PageRank aux liens:
Cela leur permettrait d'ignorer facilement des liens qui seraient autrement du spam:
Cet outil permettrait à Google d’implémenter le modèle internaute raisonnable de pages Web liées entre elles. Cela ferait un meilleur travail d'identification de contenu de haute qualité que le modèle internaute aléatoire sur lequel l'algorithme PageRank d'origine était basé.
Existe-t-il des preuves que Google utilise maintenant la proéminence de liens rendus comme signal pour déterminer le pourcentage maximum de PageRank à traverser chaque lien d'une page?
Je suppose que vous ne comprenez tout simplement pas l'expression "rend les pages". Googlebot affiche toujours les pages sous forme de texte brut, mais ne les voit pas comme du "texte rendu en pixels". Googlebot exécute le javascript/css/tout ce qu'il trouve à découvrir ("rendre") un texte qui n'était pas visible auparavant dans la source de texte html brut (c.-à-d. Parce qu'il a été tiré via AJAX appels). .
Vous pouvez expérimenter vous-même en utilisant l'outil Fetch as Googlebot https://support.google.com/webmasters/answer/6066468?hl=fr&ref_topic=6066464
Si vous naviguez avec js désactivé pendant un certain temps, vous remarquerez que de nombreux sites n’affiche tout simplement rien. Google veut pouvoir indexer correctement ces sites et n'a donc d'autre choix que de lancer au moins quelques js.
Considérez qu’il est dans l’intérêt financier de Google de faire en sorte que le contenu leur soit présenté sous forme de texte. L'OCR et la vision artificielle sont des opérations coûteuses.
pour répondre à vos commentaires
J'ai vu des preuves que Google indexe du texte produit uniquement par JavaScript.
Oui, ils le font vraiment. Mais, gardez à l'esprit qu'ils admettent qu'ils ne peuvent pas exécuter tous les js. S'ils rendaient réellement leurs données d'analyse en pixels exactement comme un navigateur, il n'y aurait aucune limitation sur ce que js ils pourraient exécuter. Par conséquent, ils doivent utiliser des algorithmes qui comprennent l'impact visuel de "la plupart" des js, mais pas la totalité.
En outre, l'algorithme mobile de Google et l'outil associé montrent clairement qu'ils se penchent sur les pixels rendus pour prendre des décisions qui affectent le classement. L'un des avertissements de l'outil convivial mobile est que deux liens sont rendus trop proches l'un de l'autre.
Il doit être possible de calculer la position et la taille de tous ces éléments sans passer par le processus de conversion des données d'éléments de position en pixels.
Les métriques "adaptées aux mobiles" que le smartphone que Google semble utiliser sont ...
fenêtre d'affichage configurée
distance entre les éléments tactiles
taille de police
utilisation du flash
taille du contenu par rapport à la fenêtre
Celles-ci semblent toutes être facilement calculées en utilisant uniquement des chiffres, par opposition à l'analyse d'une image bitmap rendue.
En outre, l'option "Récupérer en tant que Google" dans les outils pour les webmasters dispose désormais d'une option "Extraire et restituer", en plus de l'option "Extraire" habituelle. Il affichera ensuite une capture d'écran de votre page, pixel par pixel, rendue par Googlebot, ainsi qu'une autre capture d'écran rendue en tant qu'agent utilisateur de navigateur.
L'outil doit être visuel pour que les webmasters humains puissent l'utiliser. Ils indiquent que l'objectif principal de l'outil est de déterminer si des ressources supplémentaires telles que js et css sont bloquées pour le moteur de recherche Google. Si la petite miniature ne correspond pas à l'apparence attendue de votre site, il vous invite à vérifier votre fichier robots.txt pour savoir s'il bloque les ressources du "googlebot du smartphone". Parce que l'outil est visuel ne signifie pas que l'activité normale de Googlebot fonctionne exactement de la même manière. Ils appellent spécifiquement cela une "simulation".
pour résumer et paraphraser ma compréhension de votre question
"y a-t-il des preuves que googlebot utilise ces exemples de signaux de classement en supposant qu'ils ne sont disponibles que si googlebot rend le rendu en pixels, ce que je suppose qu'il fait maintenant"
Je ne peux pas répondre de manière crédible à un "non" définitif, car seul l'inverse pourrait être prouvé si des preuves étaient trouvées et publiées. Mais je voudrais aborder les hypothèses et l'intention de votre question avec ces points
Je pense que l'hypothèse que googlebot rend en pixels est non fondée et inutile.
Même si Googlebot affiche les pixels, rien n'indique qu'ils sont utilisés pour les signaux de classement que vous suggérez.
Même si les signaux de classement que vous suggérez sont utilisés, il se peut que googlebot n’ait pas besoin de se convertir en pixels pour les détecter.
Même si quelqu'un prouvait que les signaux de classement suggérés étaient utilisés, cela ne prouverait pas que Googlebot rendait les pixels.
Quelques références utiles à considérer
http://www.googlewebmastercentral.blogspot.ie/2014/05/understanding-web-pages-better.html
"..... aider nos algorithmes à comprendre que les pages sont optimisées pour les appareils mobiles."
https://support.google.com/webmasters/answer/6066467?rd=1
"C’est une simulation à petite échelle de la réalité"
et
"Le mode d'extraction et de rendu indique à Googlebot d'explorer et d'afficher votre page comme les navigateurs l'afficheraient à votre auditoire"