web-dev-qa-db-fra.com

Qu'est-ce que l'agent utilisateur "Bytespider"?

Exemple de chaîne d'agent utilisateur:

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, comme Gecko) Chrome/56.0.1511.1269 Mobile Safari/537.36; Bytespider

Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 comme Mac OS X) AppleWebKit/537.36 (KHTML, comme Gecko) Chrome/44.0.7997.1233 Mobile Safari/537.36; Bytespider

8
Gokula Kannan

Nous voyions les mêmes choses - un ensemble raisonnablement petit d'agents utilisateurs Android/iOS, se terminant tous par Bytespider et ignorant tous nos robots.txt des dossiers. L'un de nos ingénieurs de plateforme a eu la brillante idée d'une recherche DNS inversée sur leur cluster.

Le résultat - cela semble être https://bytedance.com/

Étant donné qu'ils ne respectent pas le robots.txt fichier, je les considérerais comme du block-fodder.

4
James

Je le vois également sur mon site Web. Chaque seconde, il émet des demandes GET pour les pages inexistantes. J'ai eu recours au retour du code d'état HTTP 403 lorsque bytespider est dans la chaîne de l'agent utilisateur et bloque les adresses IP dans le pare-feu (en les ajoutant périodiquement en fonction des journaux du serveur) . La majorité des demandes sont émises à partir d'adresses IP appartenant à des FAI chinois et singapouriens ainsi qu'à Cloudflare.

Exemples de demandes:

172.69.22.98 - - [30/Sep/2019:13:16:10 +0000] "GET /CloudHD/interview-of-riyaz-14-bestfriend-secret-reveals-with-proof-yaari-hai/ZVRmSmlTQlFaRDQ.html HTTP/1.1" 403 571 "-" "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.5653.1247 Mobile Safari/537.36; Bytespider"
172.68.142.101 - - [30/Sep/2019:13:18:12 +0000] "GET /CloudHD/hot-desi-girl-big-boob-s-in-blouse-nude-selfie/WmVzSi1SOEtXTjg.html HTTP/1.1" 403 571 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.8372.1186 Mobile Safari/537.36; Bytespider"

Comme vous pouvez le deviner, aucun chemin d'accès semblable à ceux-ci n'est disponible sur mon site Web. Le bot n'a même jamais essayé de lire /robots.txt , il est donc inutile de le bloquer avec cette méthode.

bot Semrush s'est comporté presque à l'identique jusqu'à ce que je le bloque avec /robots.txt . Donc Bytespider peut être ce qu'il se présente quand il est bloqué et ne veut pas obtenir une mauvaise presse.

2
Jakub Alba