Un moyen facile d'identifier les pages indexées mais non liées à mon site

Question

Je me demande simplement s'il existe un moyen simple de connaître les pages indexées par Google qui ne sont pas directement liées sur mon site, par exemple: www.mysite.com/skype.html avait à l'origine un lien dans le menu de mon site, mais ce lien était enlevé. La page est toujours disponible lorsque l'URL est tapée directement, mais il n'y a pas de lien direct vers celle-ci. Je ne veux plus que Google indexe cette page et je veux mettre un "désaveu" dans mon fichier robots.txt.

GDav · Accepted Answer

Je pense que la réponse courte est non, bien que beaucoup dépende de la quantité de contenu dont nous parlons, du fait que vous ayez ou non des problèmes de duplication, etc.

L'opérateur site: vous montrera ce que Google a indexé (bien que son exactitude ne puisse être garantie), et certains outils permettent d'exporter les recherches Google vers des fichiers Excel, etc. Vous pouvez ensuite explorer votre site avec quelque chose comme Screaming Frog ou Xenu, qui ne trouvera les pages que si elles sont liées et le compare à l'index.

Cependant, si vous avez un contenu même assez important, de nombreux doublons, etc., la tâche peut être extrêmement lourde.

En passant - et ceci est couvert ailleurs sur ce site afin que je n'entre pas dans le sujet -, le fichier robots.txt n'est pas l'outil idéal pour le poste. Mieux vaut utiliser la balise noindex.

John Mueller · Answer

Dans la plupart des cas, je ne m'inquiéterais pas de trouver ce type de contenu - il est généralement assez bien géré par les algorithmes des moteurs de recherche (s'il n'est pas pertinent, il n'est pas affiché).

Cela dit, si vous souhaitez toujours trouver ce type de contenu, vous pouvez essayer de déterminer la différence entre les URL que vous savez que vous souhaitez indexer et celles que vous voyez apparaître dans les moteurs de recherche.

Trouver les URL que vous savez que vous souhaitez indexer peut s'avérer une tâche ardue. Une façon de le faire est d'utiliser un robot, une autre consiste à les extraire de votre CMS. Si vous travaillez sur un site Web plus volumineux, vous l’avez peut-être déjà sous la forme d’un fichier Sitemap.

Il est un peu plus difficile de trouver les URL indexées par les moteurs de recherche, mais vous pouvez en faire une approximation en consultant les journaux de votre serveur pour savoir quelles URL ont été analysées avec succès (en renvoyant "200 OK"). En règle générale, le contenu indexé est redéfini régulièrement - entre plusieurs fois par jour et une fois toutes les quelques semaines ou tous les mois. Si vous pouvez consulter les journaux de votre serveur pendant une période plus longue, vous devriez pouvoir obtenir une approximation raisonnable des URL que les moteurs de recherche ont analysées (et donc potentiellement indexées).

En fonction de la structure de votre site, vous devrez probablement filtrer certaines de ces URL pour supprimer les informations les plus communes que les moteurs de recherche ignorent déjà (des identifiants de session vous viennent à l’esprit). Gardez à l'esprit que crawlé ne signifie pas nécessairement indexé, mais s'il a été analysé avec succès, au moins il y a une chance qu'il puisse être indexé.

Ensuite, vous pouvez simplement comparer la liste des URL et obtenir les différences ( https://stackoverflow.com/questions/4544709 propose quelques suggestions pour les lignes de commande Unix/Linux). Pour terminer, vous pouvez vérifier deux fois que vous récupérez les URL finales pour vous assurer qu’elles renvoient toujours "200 OK" et qu’elles n’utilisent pas de balise méta noindex robots/googlebot (ni d’en-tête HTTP, si vous l’utilisez).

Je ne connais aucun outil qui effectue tout ce processus pour vous.