web-dev-qa-db-fra.com

Les URL déjà indexées seront-elles supprimées si j'utilise un fichier robots.txt pour mon site?

De nombreuses URL de mon site ont été ajoutées à l'index de Google, mais bon nombre d'entre elles sont obsolètes. Elles ne provoqueront jamais d'erreur 404 et entraîneront l'utilisateur sur la page d'accueil de mon site.

J'ai envoyé un nouveau plan du site avec mes dernières URL, mais les anciennes et obsolètes adresses de mon site sont toujours affichées en haut de la liste des recherches Google. Il y a des centaines de telles URL.

Je sais comment créer des demandes de suppression d'URL et robot.txt. Mais soumettre des demandes de suppression nécessitera beaucoup de temps et d’efforts. Je voudrais utiliser robots.txt à la place. Mais si je les répertorie dans mon robots.txt en utilisant une expression générique qui correspond à mes anciennes URL, Google les supprimera-t-il de son index? Ou va-t-il simplement arrêter de les crawler à nouveau, ce qui signifie qu'elles ne seront pas réindexées, mais les anciennes URL déjà indexées seront toujours affichées dans la recherche Google, ce que je ne souhaite pas. Pouvez-vous s'il vous plaît laissez-moi savoir ce que je devrais faire?

4
Aryan Venkat

Si j'empêche Google d'explorer une page à l'aide d'une directive interdire robots.txt, cette page disparaît-elle des résultats de la recherche? https://developers.google.com/webmasters/control-crawl-index/docs/faq

En empêchant Google d’explorer une page, il est probable que le classement de cette page en souffrira ou que celle-ci disparaisse complètement au fil du temps. Cela peut également réduire la quantité de détails fournis aux utilisateurs dans le texte situé sous le résultat de la recherche. En effet, sans le contenu de la page, le moteur de recherche dispose de beaucoup moins d'informations.

Cependant, robots.txt Disallow ne garantit pas qu'une page n'apparaîtra pas dans les résultats: Google peut toujours décider, en fonction d'informations externes comme les liens entrants, qu'elle est pertinente. Si vous souhaitez empêcher explicitement l'indexation d'une page, vous devez plutôt utiliser la méta-balise noindex robots ou l'en-tête HTTP X-Robots-Tag. Dans ce cas, vous ne devez pas interdire la page dans le fichier robots.txt, car celle-ci doit être explorée pour que la balise soit visible et respectée.

3
user29671

Voici la réponse officielle de Google à ce sujet: Supprimer complètement une page

Si vous souhaitez supprimer une page, vous devez remplir la page de suppression du formulaire d'index dans la page Outils pour les webmasters de Google ET. robots.txt ​​fichier pour exclure les pages afin que Google ne les indexe pas à nouveau.

Ils indiquent dans le lien ci-dessus que si la page existe dans l'index de Google et que vous utilisez simplement le fichier robots.txt ​​pour exclure la page, elle peut être indexé par Google:

Si la page existe toujours, utilisez le fichier robots.txt pour empêcher Google de l'explorer. Même si un fichier robots.txt n'autorise pas une URL, nous pouvons toujours indexer la page si nous trouvons son URL sur un autre site. Cependant, nous n'indexerons pas la page si elle est bloquée dans le fichier robots.txt et si une demande de suppression d'URL est active pour la page.

3
edsanz

Vous devez vous assurer que les pages obsolètes effectuent une redirection 301 vers votre page d'accueil ou un code d'état 404 ou 410.

Google supprimera éventuellement les pages des résultats de la recherche si vous mettez les URL dans robots.txt. Cependant, cela pourrait prendre du temps.

La méthode la plus rapide consiste à utiliser les Outils pour les webmasters et à supprimer les URL correspondantes.

1
Tero Kilkanen