Le site a été piraté, vous devez supprimer toutes les URL commençant par + de Google, utilisez le fichier robots.txt?

Question

Pourriez-vous s'il vous plaît laissez-moi savoir comment bloquer ces URL de robots.txt pour que Googlebots arrête l'indexation?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Mon site Web a été piraté, ce qui est maintenant récupéré, mais le pirate informatique a indexé 5 000 URL dans Google et je reçois maintenant l'erreur 404 sur des liens générés aléatoirement, comme ci-dessus commençant par /+, comme ci-dessus.

Je me demandais s'il existait un moyen rapide autre que de supprimer manuellement ces URL de Google Webmaster Tools?

Peut-on bloquer ceci avec robots.txt aux URL commençant par +?

MrWhite · Answer

Mon site Web a été piraté, ce qui est maintenant récupéré, mais le pirate informatique a indexé 5000 URL dans Google et maintenant, l'erreur 404 s'affiche.

Un 404 est probablement préférable au blocage avec robots.txt si vous voulez que ces URL soient supprimées des moteurs de recherche (c'est-à-dire Google). Si vous bloquez l'analyse, l'URL peut toujours rester indexée. (Notez que robots.txt _ bloque principalement analyse, pas indexation.)

Si vous voulez "accélérer" la désindexation de ces URL, vous pourriez peut-être servir un "410 parti" au lieu de "404 non trouvé" habituel. Vous pouvez faire quelque chose comme ceci avec mod_rewrite (Apache) dans votre fichier racine .htaccess:

RewriteEngine On RewriteRule ^\+ - [G]

pastepotpete · Answer

Je vais répondre à la 2ème question.

Je me demandais s'il existait un moyen rapide autre que de supprimer manuellement ces URL des outils de Google pour les webmasters?

https://developers.google.com/webmasters/hacked/docs/clean_site

Google indique explicitement que la suppression via la console de recherche Google (le nouveau nom d'outils pour les webmasters) est la plus rapide.

Si le pirate informatique a créé des URL entièrement nouvelles et visibles par l'utilisateur, vous pouvez supprimer ces pages plus rapidement des résultats de recherche Google en utilisant la fonctionnalité Supprimer les URL de la console de recherche. C'est une étape entièrement facultative. Si vous supprimez simplement les pages, puis configurez votre serveur pour renvoyer un code d'état 404, les pages disparaîtront naturellement de l'index de Google avec le temps.

Mais ils comprennent également que cela n'est pas réalisable dans certains cas:

La décision d'utiliser la suppression d'URL dépendra probablement du nombre de nouvelles pages non souhaitées créées (un trop grand nombre de pages peut être fastidieux à inclure dans Supprimer des URL), ainsi que des dommages potentiels causés par ces pages aux utilisateurs. Pour que les pages soumises via la suppression d'URL n'apparaissent jamais dans les résultats de la recherche, assurez-vous qu'elles sont également configurées pour renvoyer une réponse 404 Fichier non trouvé pour les URL indésirables ou supprimées.

Ainsi, bien que vous puissiez bloquer ces pages dans le fichier robots.txt, vous ne prenez aucune des mesures correctives décrites dans Google.

Sven · Answer

User-Agent: * Disallow: /+

devrait faire ce que vous voulez. Il indiquera au robot de ne pas demander toutes les URL commençant par +.

davidbl · Answer

Si vous voulez vraiment utiliser le fichier robots.txt, ce serait une réponse simple à votre question. Aussi, j'ai inclus un lien vers où vous pouvez lire les spécifications sur le fichier robots.txt.

User-agent: * Disallow: /+

Lisez à propos des spécifications de robots.txt

Mais une autre alternative pourrait consister à utiliser .htaccess pour créer une règle de réécriture (si vous utilisez Apache, etc.) pour les récupérer et éventuellement indiquer à Google un meilleur code HTTP renvoyé ou simplement pour rediriger le trafic vers une autre page.