Bloquer le robot Yandex

Question

Notre site a eu un comportement très étrange ces derniers jours, beaucoup de temps morts, etc. Enfin, je pense avoir trouvé la cause, le bot Yandex rampe autour de 10 000 pages par heure! Je dois arrêter ça dès que possible, je pense que cela génère environ 50 à 100 Go de bande passante utilisée par jour.

IP bloquées (via https://myip.ms/info/bots/Google_Bing_Yahoo_Facebook_etc_Bot_IP_Addresses.html ):

100.43.90.0/24, 37.9.115.0/24, 37.140.165.0/24, 77.88.22.0/25, 77.88.29.0/24, 77.88.31.0/24, 77.88.59.0/24, 84.201.146.0/24, 84.201. 148.0/24, 84.201.149.0/24, 87.250.243.0/24, 87.250.253.0/24, 93.158.147.0/24, 93.158.148.0/24, 93.158.151.0/24, 93.158.153.0/32, 95.108.128.0/ 24, 95.108.138.0/24, 95.108.150.0/23, 95.108.158.0/24, 95.108.156.0/24, 95.108.188.128/25, 95.108.234.0/24, 95.108.248.0/24, 100.43.80.0/24, 100.43.80.0/24, 130.193.62.0/24, 141.8.153.0/24, 178.154.165.0/24, 178.154.166.128/25, 178.154.173.29, 178.154.200.158, 178.154.202.0/24, 178.154.205.0/24, 178.154.239.0/24, 178.154.239.0/24, 178.154.243.0/24, 37.9.84.253, 199.21.99.99, 178.154.162.29, 178.154.203.251, 178.154.211.250, 95.108.246.252, 5.45.254.0/24, 5.255.253.0/24, 37.140.141.0/24, 37.140. 188.0/24, 100.43.81.0/24, 100.43.85.0/24, 100.43.91.0/24, 199.21.99.0/24

Mon fichier robots.txt:

User-agent: Yandex Disallow: / User-agent: * Disallow: ... etc

Mais c'est apparemment toujours rampant comme l'a rapporté Cloudflare.

Que puis-je faire pour l'arrêter?

Kaboom · Answer

Depuis le site web de Yandex

User-Agent Mozilla/5.0 (compatible; Yandex...) string identifies Yandex robots. Robots can send GET (for example, YandexBot/3.0) and HEAD (YandexWebmaster/2.0) requests to a server. A reverse DNS lookup can be used to check the authenticity of Yandex robots. More information can be found in the How to check that a robot belongs to Yandex section of the Webmaster help. If you have any questions about our robots, please contact our support service: support@search.yandex.com. If you are experiencing technical issues with our robots we recommend attaching your server log.

Vous pouvez envoyer un e-mail à leur équipe pour lui demander de ne pas analyser votre serveur ni de bloquer l'agent utilisateur approprié. Si votre serveur est surchargé et ne peut pas suivre les demandes de téléchargement du robot, vous devez utiliser la directive Crawl-delay. Cela vous permettra de spécifier le délai minimum (en secondes) entre le téléchargement d'une page par le robot de recherche et le démarrage de la suivante.

Exemples:

User-agent: Yandex Crawl-delay: 2 # specifies a 2 second timeout

et

User-agent: * Disallow: /search Crawl-delay: 4.5 # specifies a 4.5 second timeout