web-dev-qa-db-fra.com

Nettoyer le site piraté en obligeant Google à explorer et à indexer uniquement les URL du sitemap

Donc, récemment, notre site Web a été piraté et nous essayons de tout nettoyer en ce moment. Mais, lors de la recherche sur le "site:", les sites Web japonais mis en cache sont toujours affichés.

Nous avons donc essayé de jouer avec robots.txt i.e .:

User-agent: *

Disallow: 

Sitemap: http://www.example.com/sitemap.xml

Mais lorsque j'entre l'URL incorrecte dans robots.txt testeur, il autorise toujours l'URL que nous ne voulons pas.

Existe-t-il un moyen pour Google de n’explorer que le sitemap sur robots.txt sans saisir manuellement tous les liens incorrects sur le Disallow?

2
Shan Xue

Google ne s'est jamais limité à l'exploration et à l'indexation des URL figurant dans le sitemap. Une telle fonctionnalité n'existe pas et je doute qu'elle le soit un jour.

Les sitemaps sont plutôt inutiles. Ils n'aident pas avec les classements. Ils ont rarement recours à Google pour indexer des pages qu'il n'aurait pas indexées autrement. Google ne les utilise réellement que pour choisir ses URL préférées, pour spécifier des URL de langues différentes et pour vous fournir des données supplémentaires dans la console de recherche. Voir Le sitemap Paradox .

Vous ne voulez probablement pas non plus utiliser le fichier robots.txt pour interdire les URL. robots.txt bloque l'analyse mais pas l'indexation. Vous devez demander à Google de réexaminer les URL et de constater qu'elles ont disparu. Googlebot doit pouvoir accéder aux URL pour cela.

Pour nettoyer vos URL piratées, assurez-vous qu'elles renvoient maintenant le statut 404. Google les supprimera dans les 24 heures suivant leur exploration. Il faudra peut-être quelques mois à Google pour supprimer toutes les URL, car certaines d'entre elles risquent de ne pas être analysées à nouveau. Voir Le site a été piraté, il est nécessaire de supprimer toutes les URL commençant par + de Google, utilisez robots.txt?

S'il n'y a pas trop d'URL, vous pouvez les soumettre individuellement via le outil de suppression des URL de la Google Search Console . Cela obligera Google à les supprimer beaucoup plus rapidement que d'attendre la nouvelle analyse, mais il n'existe aucune fonctionnalité de suppression en bloc.

1
Stephen Ostermiller