web-dev-qa-db-fra.com

Comment supprimer des milliers d'URL du cache Google?

Google a mis en cache des milliers de fichiers PDF de mon site Web, ce qui ne devrait pas être public. J'ai mis à jour mes en-têtes, mais je dois supprimer le cache existant de la visionneuse rapide.

L'outil Google pour les webmasters me permet de les supprimer un par un. Toutefois, ce n'est clairement pas pratique compte tenu de la quantité de fichiers à supprimer.

Est-ce que quelqu'un sait comment je peux supprimer par lots des PDF de la mémoire cache de Google? Idéalement, je voudrais un moyen de supprimer tout ce qui correspond à "site: mysite.com * .pdf"

12
laura

On dirait que vous avez déjà compris comment demander suppression d'une seule URL , ce qui est évidemment hors de question ici. La deuxième étape de ce processus vous permet également de demander suppression d'un répertoire entier , si les URL de fichier sont prévisibles de cette manière. (Si vous avez des milliers de fichiers PDF, j'espère qu'ils sont au moins un peu organisés.) Sinon, vous êtes quasiment à court d'options malheureusement.

9
Su'

J'ai récemment eu un hack qui a ajouté plusieurs milliers de fausses pages à mon site.

J'ai soumis un sitemap corrigé à la console de recherche Google (précédemment appelée Webmaster Tools) et activé tous les liens en 410, mais la plupart d'entre eux étaient toujours indexés.

J'ai utilisé Outils WebMaster - Suppression en masse d'URL Chrome Extension pour soumettre automatiquement les URL à supprimer. Il s’agit essentiellement d’un script qui prend une liste d’URL, puis les soumet pour vous, une à la fois. Cela prendra des heures pour toutes les soumettre, mais au moins vous ne devrez pas le faire vous-même. Voici un article sur son utilisation .

Vous pouvez obtenir une liste des URL indexées par Google en téléchargeant les données directement à partir de la console de recherche. Allez à État> Couverture d'index et sélectionnez les résultats valides, puis faites défiler vers le bas. Vous verrez que Google a indexé une tonne d'URL qui ne figurent pas dans votre sitemap. Vous pouvez télécharger les 1000 premiers résultats. Il y a apparemment un moyen détourné de les obtenir tous, pas seulement le premier mille, mais cela implique des appels d'API depuis Excel. J'ai juste attendu quelques jours entre chaque mille, car ils sont lentement tombés de l'index.

Google Index Coverage Snapshot

Un autre moyen consiste à créer un sitemap par un plug-in WP, puis à filtrer les fichiers PDF ou tout ce que vous ciblez. Vous devrez probablement faire un peu de copier/coller/supprimer manuellement ici. Juste pour être sûr, j'ai lentement fait défiler ma liste d'environ 2700 URL de spam et supprimé les URL légitimes. Cela n'a pris que 20 minutes environ.

Si vous n'essayez pas de neutraliser de manière permanente quelque chose, comme le spam, et tentez plutôt de masquer des ressources premium, vous devez utiliser d'autres méthodes pour empêcher l'indexation de ces ressources, telles qu'un fichier de robot. Mais s'il s'avère que Google n'a pas écouté ou que vous avez laissé tomber la balle, vous pouvez au moins résoudre le problème et les supprimer de l'index en quelques jours seulement.

Dans mon cas particulier, je me demande pourquoi Google n'a pas de bouton de machine à remonter le temps, d'annuler ou de réinitialiser. L'idée est que je peux dire à Google que le site a été piraté il y a quelques jours, mais nous l'avons réparé. Annulez donc le dernier x nombre de jours d'exploration et d'indexation. Mais cela serait trop facile.

2
fredsbend

Si les fichiers "ne devraient pas être publics", ils devraient être sur l'internet public. Vous pouvez supprimer les fichiers des listes Google (via le fichier robots.txt et d'autres méthodes), mais si les fichiers sont toujours là, tout le monde peut les télécharger.

Vous devriez les garder derrière une sorte d'authentification. Par exemple, déplacez les fichiers hors du répertoire Web public et envoyez-les à partir d'un script qui vérifie si l'utilisateur est valide en premier.

1
DisgruntledGoat