web-dev-qa-db-fra.com

Est-il possible d'empêcher wget d'explorer et de télécharger mon site Web?

Je ne veux pas qu'un seul de mes présumés sites soit exploré et téléchargé (fichiers css, images, html, etc.). Y at-il un moyen de bloquer complètement wget?

2
Taylor Swift

Oui et non. Laissez-moi vous expliquer.

Tout utilisateur peut modifier la chaîne d'agent d'utilisateur utilisée par Wget. Si la chaîne est pas modifiée, alors Wget peut facilement être capturé à l'aide des éléments suivants dans votre fichier .htaccess.

RewriteCond %{HTTP_USER_AGENT} wget.* [NC]
RewriteRule .* - [F,L]

Toutefois, si la chaîne de l'agent d'utilisateur est modifiée, vous ne saurez peut-être jamais qu'il s'agit de Wget.

Cela étant dit, tout maître Web qui existe depuis un certain temps sait bien: le fichier journal doit souvent être examiné pour rechercher des activités abusives. Il est possible de bloquer les mauvais acteurs au fur et à mesure qu'ils se présentent, mais impossible de les bloquer à l'avance, même si vous pouvez en avoir beaucoup.

Vous serez en mesure de mettre un terme à tous les abus si vous surveillez assez souvent les journaux d’accès à votre site et savez comment utiliser les expressions .htaccess et régulières. Ce n'est pas un processus difficile et devrait être bien compris par tout webmestre.

Si certains argumenteront uniquement d'un point de vue philosophique, le fait est que Wget devrait être bloqué dans la plupart des cas. Durant toutes les années où j'ai travaillé avec le Web (et c'est beaucoup plus que presque tout le monde), Wget n'a aucun but pour un utilisateur, si ce n'est de récupérer des ressources d'un site Web. Bien que certains sites s’ouvrent à cette forme d’activité et l’invitent réellement, tous les accès que j’ai connus avec Wget ont été une forme d’abus ou de vol.

2
closetnoc

La plupart des robots n'utilisent pas wget mais plutôt un robot d'exploration, et vous pouvez leur conseiller de vous en aller en publiant sur votre site un fichier robots.txt . Certains robots malhonnêtes n'honoreront pas votre fichier robots.txt et devront être explicitement bloqués. Vous pouvez les identifier en consultant les journaux de votre serveur Web, mais également en appliquant des informations accessibles au public listes noires .

1
avnr