web-dev-qa-db-fra.com

Devrais-je bloquer l'agent Wget / 1.12 (linux-gnu)?

Est-ce un racloir? Il a essayé d'accéder à mon site qui est actuellement protégé par mot de passe à des fins de test. dois-je le bloquer?

5
getbuck

Wget est juste un outil de ligne de commande pour Linux qui récupère les ressources via HTTP - tout cela vous dit que quelqu'un a accédé à votre site via une ligne de commande, cela aurait pu être un bot qui vous raclait, mais il n'y a aucun moyen de savoir avec certitude

Si votre site est correctement protégé par mot de passe, il ne devrait pas être nécessaire de bloquer des agents utilisateurs particuliers :) x

13
Emily Shepherd

wget a des utilisations légitimes, oui, mais il est également très utile pour le raclage Web. Cependant, je ne pense pas que vous devriez essayer de le bloquer (ou tout autre agent) en utilisant la chaîne de l'agent utilisateur.

wget respecte, par défaut, votre fichier robots.txt. Il est vrai qu'un racleur peut simplement désactiver cette option, mais devinez quoi - il est tout aussi facile d'utiliser --user-agent MSIE(blahblah) et d'emprunter l'identité d'Internet Explorer si vous commencez à bloquer au niveau HTTP. J'ai déjà écrit des scripts de scraping et vous feriez mieux de penser que la modification de l'UA est l'une des premières étapes (si cela ne fonctionne pas, vous pouvez toujours changer de vitesse et simplement écrire un script pour automatiser IE, bien sûr).

Si cela vous inquiète vraiment, vous devrez essayer de capturer des pages ressemblant à des bots comportement - sans pages de parrainage, trop de requêtes dans un délai trop court, etc. Cependant, j'ai bien peur que vous Je constaterai rapidement que c'est assez simple pour quelqu'un qui souhaite supprimer votre site de manière à contourner toute mesure que vous pourriez éventuellement prendre (à l'exception de celles qui seraient trop onéreuses pour vos utilisateurs, par exemple, n'autoriser que l'affichage d'une page par heure). Ceci est également susceptible d'être un puits de temps.

Essentiellement, si des utilisateurs légitimes peuvent voir votre page, vous ne pouvez pas faire grand chose pour empêcher les personnes qui le cachent de la voir.

5
Casey

wget est souvent utilisé pour le grattage. C'est un outil de ligne de commande pour télécharger des pages Web et leurs ressources. Si votre site Web ne fait pas l'objet d'une publicité, vous pouvez être presque certain qu'il s'agit d'un bot en train de se gratter. Donc oui, vous pouvez le bloquer, mais vous devez aussi faire quelque chose de plus sophistiqué que le bloquer avec robots.txt, car wget peut facilement dire d'ignorer robots.txt.

Vous pouvez ajouter ce qui suit à cet agent utilisateur particulier dans .htaccess:

BrowserMatchNoCase Wget/1.12 (linux-gnu) wget
Order Deny,Allow
Deny from env=wget
1
nathangiesbrecht

Chaque fois que je lis des questions comme celle-ci, je pense au personnage de Kevin Spacey dans Henry et June. Le type qui écrivait toujours son plus grand roman, mais était tellement inquiet à l'idée que quelqu'un lui vole ses idées qu'il le garda enfermé dans une mallette, porté près de sa poitrine ...

Chaque utilisateur linux est un utilisateur "légitime" wget. Je l'utilise souvent pour récupérer des debs, des vidéos, des fichiers binaires, peu importe. Il est facile de conduire à partir de la ligne de commande, alors, oui, c'est un très bon grattoir. Mais ce n’est certainement pas sa seule utilisation, et le faire apparaître comme firefox ou msie n’est qu’à un paramètre, donc vous perdez votre temps à le bloquer. Si vous faites quoi que ce soit, vous allez attirer l'attention de tous ceux qui passent; ils vont changer la chaîne de l'agent utilisateur et commencer à chercher ce que vous avez "caché".

1
brad sanders