Liens de page impairs / défectueux fournis à Googlebot

Question

Yahoo a récemment acheté Tumblr, où j'écris des articles scientifiques assez longs. J'ai remarqué récemment qu'un nouveau script avait été ajouté à la fin des pages et qu'il semblait mal interagir avec les robots de recherche Google.

Le succès d'aujourd'hui est sur /post/:id/:summary où il ne s'agit clairement que d'une sorte de schéma de site. Il venait d'une page sur Qu'est-ce qu'un gène, post-ENCODE? et lorsque j'ai recherché ce titre spécifiquement pour mon site, j'ai également deuxième coup apparemment identique à

/page/:page

La recherche de site:<siteURL>/:page est vide, probablement à cause de la ponctuation, mais site:<siteURL>/post/:id/:summary confirme que ce n'est que pour cette page d'article.

Je suis allé utiliser la page "Supprimer l'URL" dans Google Webmaster Tools, mais cela indique que la page est toujours active. Par exemple, mon article est affiché ou ma page d'accueil complète (lorsque vous allez /post/:id/:summary vous obtenez uniquement l'URL racine, et je ne veux pas le supprimer de Google!), me conseillant de supprimer le contenu avant de demander que son contenu soit effacé de son cache.

Je ne vois pas comment ce schéma de site est généré (au moins / sitemap1.xml ne le donne pas comme ça de toute façon), mais la recherche de "/post/:id/:summary" a généré un code similaire à ce que Yahoo ajoute aux sites:

(function() { var s = document.createElement('script'); var el = document.getElementsByTagName('script')[0]; s.src = ('https:' == document.location.protocol ? 'https://s' : 'http://l') + '.yimg.com/ss/rapid-3.14.js'; s.onload = function(){ var YAHOO = window.YAHOO; if (YAHOO) { YAHOO.i13n.beacon_server = 'nol.yahoo.com'; var keys = { pd:'/post/:id/:summary', _li:0, i_rad:0, i_strm:0, b_id:66209497 }; var conf = { spaceid:1197719230, client_only:1, yql_enabled:false, keys:keys } YAHOO.rapid = new YAHOO.i13n.Rapid(conf); } } el.parentNode.insertBefore(s, el); })();

C'est assez difficile de voir ce que cela fait, et tout ce que je me demande, c'est si

J'ai fait quelque chose de mal dans ma page Javascript qui interfère d'une manière ou d'une autre avec ces variables
Comment pourrais-je résoudre ce problème?
Devrais-je contacter une partie de Google ou Yahoo? Si oui, où pourrais-je même commencer?

J'allais mettre ceci sur SO pensant qu'il s'agissait d'un problème lié à Javascript, mais en supposant que 1. n'est pas le cas. laissez-le ici à moins que quelqu'un ici suggère le contraire. De même, si cela ne convient pas à un forum de "webmasters professionnels" (c'est un blog de développement personnel/professionnel bien que utilisant un domaine personnalisé).

Stephen Ostermiller · Accepted Answer

Googlebot utilise des méthodes heuristiques pour analyser JavaScript dans des éléments qui ressemblent à des URL. Il suit ensuite ces URL. Même lorsqu'ils sont 404, il les signale dans les Outils pour les webmasters.

Google sait que cela entraînera parfois le téléchargement d'éléments qui ne sont en aucun cas des URL. Google ne considère pas cela comme un gros problème. Ils trouvent suffisamment de contenu de cette manière qu'ils ne pourraient pas accéder autrement, que cela en vaut la peine pour qu'ils indexent le Web plus en profondeur.

Voici ce que John Mueller de Google a à dire à propos de ces erreurs 404 (en particulier le troisième point):

Les erreurs 404 sur des URL non valides ne nuisent en aucune façon à l’indexation ou au classement de votre site. Peu importe qu’il y en ait 100 ou 10 millions, ils ne nuisent pas au classement de votre site. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html

Dans certains cas, les erreurs d'analyse peuvent provenir d'un problème structurel légitime sur votre site Web ou votre CMS. Comment vous dites Vérifiez l’origine de l’erreur d’analyse. S'il existe un lien brisé sur votre site, dans le code HTML statique de votre page, cela vaut toujours la peine de le corriger. (merci + Martino Mosna)

Qu'en est-il des URL funky qui sont "clairement cassées?" Lorsque nos algorithmes aiment votre site, ils peuvent essayer de trouver du contenu de qualité supérieure, par exemple en essayant de découvrir de nouvelles URL en JavaScript. Si nous essayons ces "URL" et trouvons un 404, c’est génial et attendu. Nous ne voulons simplement rien rater d’important (insérez ici le mot Googlebot trop lié). http://support.google.com/webmasters/bin/answer.py?answer=1154698

Vous n'avez pas besoin de corriger les erreurs d'analyse dans les Outils pour les webmasters. La fonctionnalité "marquer comme fixe" est uniquement destinée à vous aider si vous souhaitez suivre vos progrès là-bas; cela ne change rien à notre pipeline de recherche Web, alors n'hésitez pas à l'ignorer si vous n'en avez pas besoin. http://support.google.com/webmasters/bin/answer.py?answer=24674

Nous répertorions les erreurs d'analyse dans les outils pour les webmasters par priorité, en fonction de plusieurs facteurs. Si la première page d’erreurs d’analyse n’est manifestement pas pertinente, vous ne trouverez probablement pas d’erreurs d’analyse importantes dans les pages suivantes. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html

Il n’est pas nécessaire de "réparer" les erreurs d’analyse sur votre site Web. Trouver 404 est normal et attendu d’un site Web sain et bien configuré. Si vous avez une nouvelle URL équivalente, il est recommandé d’y rediriger. Sinon, vous ne devriez pas créer de faux contenu, vous ne devriez pas rediriger vers votre page d'accueil, vous ne devriez pas non plus robots.txt interdire ces URL - toutes ces choses rendent plus difficile pour nous de reconnaître la structure de votre site et de la traiter correctement. Nous appelons ces erreurs "soft 404". http://support.google.com/webmasters/bin/answer.py?answer=181708

Évidemment, si ces erreurs d’exploration apparaissent pour les URL qui vous intéressent, par exemple les URL de votre fichier Sitemap, vous devez agir immédiatement. Si Googlebot ne parvient pas à analyser vos URL importantes, elles risquent alors d’être supprimées de nos résultats de recherche et les utilisateurs risquent de ne pas pouvoir y accéder.