Interprétation de User-Agent vide

Question

Comment interpréter un agent utilisateur vide? J'ai un code d'analyse personnalisé et ce code doit analyser uniquement le trafic humain. J'ai une liste de travail d'utilisateurs-agents indiquant le trafic humain et le trafic de bot, mais l'agent-utilisateur vide se révèle problématique. Et je reçois beaucoup de trafic avec l'agent utilisateur vide, environ 10%.

De plus, j'ai élaboré la liste des agents utilisateurs trafic humain/trafic humain en analysant mes journaux actuels. En tant que tel, il se peut que je manque de nombreuses entrées. Existe-t-il une liste bien entretenue d’agents d’utilisateur indiquant le trafic de bot ou, à l’inverse, une liste d’agents d’utilisateur indiquant du trafic humain?

initall · Accepted Answer

Si vous souhaitez analyser uniquement le "trafic humain", je ne compterais pas ceux dont la chaîne d'agent utilisateur est vide ou manquante. D'après mon expérience, presque tous les navigateurs en enverront toujours un. Même la plupart des extensions ou plug-ins de confidentialité préfèrent simuler (y compris un autre nom d’exploitant ou de client) ou "normaliser" (par exemple, aucun numéro de version) ou aléatoire (par exemple, parfois FF, parfois IE chaînes) les chaînes de l’UA, mais pas complètement. supprimez-les (car cela pourrait causer des problèmes avec certains sites qui en dépendent, même si ce n'est pas une bonne idée.)

Une simple requête sans UA peut être faite comme ceci:

wget --user-agent="" www.example.com

Comme vous le voyez, vous pouvez ajouter ce que vous voulez. Les sites qui stockent et publient des agents utilisateur trouvés "à l'état sauvage" ne sont pas d'une grande utilité, car ils trouvent beaucoup de merde.

Peut-être que quelqu'un vient de récupérer votre contenu de manière récursive. Vous avez également utilisé un outil de référencement pour analyser votre site (certains permettent aux utilisateurs de modifier manuellement l’en-tête, d’autres avec l’intention d’ignorer une ligne robots.txt). Des choses comme ça. Dans ces situations, l'en-tête UA est souvent falsifié pour masquer le client et son objectif.

Si ces demandes persistent constamment, il peut être utile d'analyser plus en détail les en-têtes (mandataires?) Ou les adresses IP (un certain bloc? Société concernée par la confidentialité/mandataire?)

Igal Zeifman · Answer

Je travaille pour une entreprise de sécurité et nous surveillons notamment le trafic de Bad Bot.

D'après mon expérience, les visites d'êtres humains avec des données vierges d'agent utilisateur indiquent des tentatives de raclage/spam (généralement) effectuées par des bots de "navigateurs sans tête".

Ces visiteurs peuvent parfois exécuter JS, et ils apparaîtront donc dans GA - encore, cette dose ne les rend pas humains :)

Veuillez nous excuser pour le "plug", mais sachez que, si nécessaire, nous offrons des services de protection gratuits Bad Bot, associés à une accélération CDN et à d’autres avantages.

Dans ce cas précis, notre système reconnaîtrait cette visite comme "suspecte", la vérifierait contre les vecteurs d'attaque connus et - si vous n'êtes toujours pas sûr - effectuait des tests et des défis supplémentaires. Ces défis sont effectués de manière transparente, sans causer de retard à la session.

user6901 · Answer

Chaque morceau de logiciel qui accède à Internet ne reçoit pas comme par magie un agent utilisateur. Les développeurs de logiciels doivent programmer cette fonctionnalité dans leur logiciel. Votre agent utilisateur vierge signifie simplement qu'un développeur de logiciel a oublié d'ajouter un agent d'utilisateur à son logiciel.

Deantwo · Answer

Je vois quelques commentaires dans les réponses à cette question comparant l'agent utilisateur à cacher votre identité ou à être humain. C'est une comparaison absurde. User-Agent n'a rien à voir avec l'identité ou l'être humain.

Pensez-y comme à des chaussures. Vous demandez à vos visiteurs quel type de chaussures ils portent avant de les laisser entrer. Le plus souvent, c’est de savoir quel type de tapis vous devez dérouler, le beau tapis rouge pour des chaussures de ville propres, le vilain paillasson pour la boue. bottes, et pas de tapis pour les visiteurs qui sont des tapis allergiques.

Lorsque les visiteurs ne veulent pas dire quelles chaussures ils ont (alias. User-Agent vide), vous les ignorez.

Oui, de nombreuses bonnes pratiques essaient d'assumer certaines choses à propos de la demande Web en fonction des informations de l'entité User-Agent et d'autres en-têtes de demande. Ils fonctionnent peut-être très bien 99% du temps, mais comme dans tant d'autres pratiques similaires, ils sont sujets aux faux-positifs et nuisent ainsi aux utilisateurs ignorants.

Ayant rencontré le problème de l'utilisation accidentelle d'un agent utilisateur vide moi-même, je peux certainement dire que ce n'est pas amusant lorsqu'un service Web vous traite différemment simplement parce que vous n'avez pas pensé à le dire à propos de vos chaussures.