web-dev-qa-db-fra.com

Le site Web est ciblé par des robots

avoir un petit site web. Lorsque j'effectue un netstat, il affiche beaucoup de trafic provenant de .p.mail.

Je pense que c'est une sorte de bot de courrier, essayant de récolter les adresses email de mon site web. Comment puis-je empêcher cela?

tcp        0     64 128.199.152.125:ssh     254.96.96.58.stat:49174 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-7.p.mail:52455 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    crawl-66-249-71-7:39927 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9-5.p.mail:48034 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-6.p.mail:38781 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-3.p.mail:49137 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9.mail.ru:46906  CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-3.p.mail:49102 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9-4.p.mail:60833 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-1.p.mail:58404 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-3.p.mail:38515 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    crawl-66-249-71-9:65419 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-4.p.mail:39761 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9-3.p.mail:46664 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-5.p.mail:57961 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-2.p.mail:58029 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-6.p.mail:53075 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9.mail.ru:47363  CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-4.p.mail:52394 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9.mail.ru:54476  CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9.mail.ru:36110  CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-2.p.mail:55155 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-7.p.mail:59306 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-2.p.mail:36667 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9-5.p.mail:51968 ESTABLISHED
tcp6       0      0 128.199.152.125:http    fetcher9-4.p.mail:41478 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-5.p.mail:60032 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-2.p.mail:44335 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-6.p.mail:57922 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-1.p.mail:59718 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-3.p.mail:47470 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9-6.p.mail:59941 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-1.p.mail:54604 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9.mail.ru:48307  ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-6.p.mail:47410 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-2.p.mail:52740 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9.mail.ru:48957  ESTABLISHED
tcp6       0      0 128.199.152.125:http    fetcher9-6.p.mail:55988 ESTABLISHED
tcp6       0      0 128.199.152.125:http    fetcher9-6.p.mail:45431 ESTABLISHED
tcp6       0      0 128.199.152.125:http    crawl-66-249-71-1:54299 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-1.p.mail:44075 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9-7.p.mail:51332 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-6.p.mail:40081 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-2.p.mail:47806 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-5.p.mail:40396 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    baiduspider-180-7:53078 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-1.p.mail:46357 CLOSE_WAIT
3
Inktown

Tu vas bien. Certains peuvent discuter, mais ce n'est pas un mauvais bot. Je recherche ces choses dans le cadre de mes recherches et bien que mail.ru soit très actif, je n'ai aucune mauvaise activité de bot à faire une recherche rapide.

Mail.ru exploite un moteur de recherche.

Ceci est un robot Web pour leur moteur de recherche. La page mentionnée dans la chaîne de l'agent est http://go.mail.ru/help/robots que vous devrez faire traduire par votre navigateur. Voici ce qu'il dit:

Crawler ou araignée (spider, crawler, bot) - un programme qui "marche" sur Internet, puis les télécharge pour une indexation ultérieure. Après avoir téléchargé le document, le robot l’analyse, détermine le type, le codage, la langue et ajoute des liens à partir de la page en place pour plus d’obkachki. Périodiquement, le robot retourne à la page déjà visitée pour vérifier sa pertinence.

Outre le robot principal, qui indexe l’ensemble de l’Internet dans son ensemble, il existe des solutions spécialisées pour le téléchargement d’images, de vidéos, de nouvelles, de flux RSS, etc. Il est ainsi possible d’accélérer la pénétration d’un certain type de documents dans l’index de recherche.

Vous pouvez bloquer leur agent utilisateur. De leur page:

La directive sert à désactiver les parties du site téléchargées par le robot ou l’ensemble du site. La valeur dans cette ligne est une URL partielle. Exemples:

User-agent: Mail.RU_Bot 
Disallow: / # is blocking access to the entire site 

User-agent: Mail.Ru 
Disallow: / search # blocks access to pages starting with '/ search', /search.html, / search / something, etc.
                  # To access other sections of the site open 
User-agent: * 
Disallow: # allowed access to the entire site, 
                  # Is equivalent to the absence of robots.txt

Vous devriez pouvoir bloquer le robot de tout votre site en utilisant:

User-agent: Mail.Ru
Disallow: /

Cela devrait pouvoir être bloqué si vous ne voulez pas du trafic russe. Autrement, on dit que mail.ru suit robots.txt et je ne vois aucun problème après une vérification rapide de ma base de données. Il semble être bien comporté.

Mail.ru mettra probablement quelques jours à lire le fichier robots.txt et à prendre connaissance du changement.

La méthode vient à point, vous pouvez toujours utiliser .htaccess (en supposant Apache) pour bloquer l’accès.

RewriteCond %{REMOTE_Host} ^.*\.mail\.ru$ [NC,OR]
RewriteCond %{REMOTE_ADDR} ^5\.61\.(2*3*[2-9]*)\.([0-2]*[0-5]*[0-5]*)$ [NC]
RewriteRule .* - [F,L]

Mais je ne le ferais pas trop tôt. Ce n'est probablement pas nécessaire.

2
closetnoc

J'ai fini par utiliser iptables pour bloquer les ips.

De la racine linux Shell j'ai tapé

iptables -A INPUT -s  217.69.133.13  -j DROP
iptables -A INPUT -s  217.69.133.12  -j DROP
iptables -A INPUT -s  217.69.133.10  -j DROP
iptables -A INPUT -s  217.69.133.11  -j DROP
iptables -A INPUT -s  217.69.133.14  -j DROP
iptables -A INPUT -s  217.69.133.15  -j DROP
iptables -A INPUT -s  217.69.133.16  -j DROP
iptables -A INPUT -s  217.69.133.17  -j DROP
iptables -A INPUT -s  217.69.133.18  -j DROP
iptables -A INPUT -s  fetcher9.mail.ru  -j DROP

Et ça s'est arrêté

1
Inktown