web-dev-qa-db-fra.com

Des milliers d'erreurs 404 dans les outils pour les webmasters de Google

En raison d'une ancienne erreur dans notre application ASP.Net, créée par mon prédécesseur et non découverte pendant une longue période, des milliers d'URL erronées ont été créées de manière dynamique. L'utilisateur normal ne s'en est pas aperçu, mais Google a suivi ces liens et a parcouru ces URL incorrectes, créant ainsi de plus en plus de mauvais liens.

Pour le rendre plus clair, considérez l'URL

example.com/folder

devrait créer le lien

example.com/folder/subfolder

mais créait

example.com/sousfolder

au lieu. En raison d'une mauvaise réécriture d'URL, cela a été accepté et, par défaut, affiche la page d'index de toute URL inconnue, créant ainsi de plus en plus de liens comme celui-ci.

example.com/subfolder/subfolder/....

Le problème est résolu à présent, mais des milliers d'erreurs 404 sont répertoriées dans les outils pour les webmasters de Google, qui ont été découvertes il y a 1 ou 2 ans.

Malheureusement, les liens ne suivent pas un modèle commun que je pourrais nier pour l'exploration dans le fichier robots.txt.

Puis-je faire quelque chose pour empêcher Google de tester ces liens très anciens et supprimer les 404 déjà répertoriés de Webmaster Tools?

6
magnattic

Webmaster Tools est notoirement lent à mettre à jour la page de liens/erreurs. En particulier, même lorsqu'une page n'est plus liée, Googlebot continue à la demander et à signaler qu'elle est introuvable.

Si l'une des URL suit un modèle commun, vous pouvez effectuer une redirection 301 vers la page correcte, ce qui devrait accélérer la suppression de ces erreurs par Google. (Remarque: je ne recommanderais pas d'ajouter des milliers de lignes à htaccess car cela peut sérieusement affecter les performances.)

En dehors de cela, vous ne pouvez malheureusement pas faire grand chose à part attendre. S'il n'y a absolument aucun lien pointant vers des pages inexistantes, la section Erreurs d'exploration se rétrécira lentement avec le temps. Cela peut prendre jusqu'à 3 mois dans mon expérience.

Notez que ce n'est pas le cas pour les liens externes - sur mon site, j'ai plusieurs erreurs 404 provenant de liens externes sur lesquels je n'ai aucun contrôle et je ne pense pas qu'elles disparaîtront jamais.

4
DisgruntledGoat

Voici ce que John Mueller de Google (qui travaille sur les outils pour les webmasters et les sitemaps) doit dire environ 404 erreurs qui apparaissent dans les outils pour les webmasters :

HELP! MON SITE A 939 ERREURS DE CRAWL !! 1

Je vois ce genre de question plusieurs fois par semaine; vous n'êtes pas seul - de nombreux sites Web contiennent des erreurs d'analyse.

  1. Les erreurs 404 sur des URL non valides ne nuisent en aucune façon à l’indexation ou au classement de votre site . Peu importe qu’il y en ait 100 ou 10 millions, ils ne nuisent pas au classement de votre site. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. Dans certains cas, les erreurs d'analyse peuvent provenir d'un problème structurel légitime sur votre site Web ou votre CMS. Comment vous dites Vérifiez l’origine de l’erreur d’analyse. S'il existe un lien brisé sur votre site, dans le code HTML statique de votre page, cela vaut toujours la peine de le corriger. (merci + Martino Mosna )
  3. Qu'en est-il des URL funky qui sont "clairement cassées?" Lorsque nos algorithmes aiment votre site, ils peuvent essayer de trouver du contenu de qualité supérieure, par exemple en essayant de découvrir de nouvelles URL en JavaScript. Si nous essayons ces "URL" et trouvons un 404, c’est génial et attendu. Nous ne voulons simplement rien rater d’important (insérez ici le mot Googlebot trop lié). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. Vous n'avez pas besoin de corriger les erreurs d'analyse dans les Outils pour les webmasters. La fonctionnalité "marquer comme fixe" est uniquement destinée à vous aider si vous souhaitez suivre vos progrès là-bas; cela ne change rien à notre pipeline de recherche Web, alors n'hésitez pas à l'ignorer si vous n'en avez pas besoin. http://support.google.com/webmasters/bin/answer.py?answer=24674
  5. Nous répertorions les erreurs d'analyse dans les outils pour les webmasters par priorité, en fonction de plusieurs facteurs. Si la première page d’erreurs d’analyse n’est manifestement pas pertinente, vous ne trouverez probablement pas d’erreurs d’analyse importantes dans les pages suivantes. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. Il n’est pas nécessaire de "réparer" les erreurs d’analyse sur votre site Web. Trouver 404 est normal et attendu d’un site Web sain et bien configuré. Si vous avez une nouvelle URL équivalente, il est recommandé d’y rediriger. Sinon, vous ne devriez pas créer de faux contenu, vous ne devriez pas rediriger vers votre page d'accueil, vous ne devriez pas non plus robots.txt interdire ces URL - toutes ces choses rendent plus difficile pour nous de reconnaître la structure de votre site et de la traiter correctement. Nous appelons ces erreurs "soft 404". http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Évidemment, si ces erreurs d’exploration apparaissent pour les URL qui vous intéressent, par exemple les URL de votre fichier Sitemap, vous devez agir immédiatement. Si Googlebot ne parvient pas à analyser vos URL importantes, elles risquent alors d’être supprimées de nos résultats de recherche et les utilisateurs risquent de ne pas pouvoir y accéder.
3
Stephen Ostermiller

Bloquez ces pages avec robots.txt, c'est l'itinéraire le plus simple.

Mon site contient plus de 100 000 erreurs 404 qui ne semblent pas disparaître. Parfois, il suffit de les laisser être.

1
SEOThomas

Votre page 404 renvoie-t-elle un vrai 404 ou renvoie-t-elle un 200 avec un contenu de 404? Je vois beaucoup de pages 404 personnalisées qui disent "page non trouvée" mais qui renvoient un statut 200 afin que Google pense qu'elles sont des pages actives et les garde dans leur index.

Sans avoir accès aux pages pour les consulter, il est difficile de dire exactement ce qui se passe, mais cela semble être le problème le plus courant de mon expérience.

1
Joshak

Si vous exécutez un script pour afficher les pages, vous pouvez détecter qu'il s'agit d'une page problématique et imprimer une page HTML vraie avec une balise META 200 status +:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

0
jflaflamme

Cela n’était peut-être pas vrai lorsque la question avait été posée à l’origine, mais vous pouvez désormais sélectionner les URL générant des 404 comme résultats pour les outils pour les webmasters que Google doit supprimer de son index et ne plus tenter d’exploration. Vous pouvez en faire 25 à la fois. Vous pouvez trouver cette installation sous Santé> Erreurs d'exploration.

0
paulmorriss