Pourquoi la mesure F est-elle une moyenne harmonique et non une moyenne arithmétique des mesures de précision et de rappel?

Question

Lorsque nous calculons la mesure F en tenant compte à la fois de la précision et du rappel, nous prenons la moyenne harmonique des deux mesures au lieu d'une simple moyenne arithmétique.

Quelle est la raison intuitive derrière la prise de la moyenne harmonique et non d'une simple moyenne?

Lerner Zhang · Accepted Answer

Ici, nous avons déjà des réponses élaborées mais j'ai pensé que plus d'informations à ce sujet seraient utiles pour certains gars qui veulent approfondir (en particulier pourquoi la mesure F).

Selon la théorie de la mesure, la mesure composite devrait satisfaire aux 6 définitions suivantes:

Connectivité (deux paires peuvent être commandées) et transitivité (si e1> = e2 et e2> = e3 alors e1> = e3)
Indépendance: deux composants contribuent indépendamment à l'efficacité de leurs effets.
Condition de Thomsen: Étant donné qu'à un rappel constant (précision) nous trouvons une différence d'efficacité pour deux valeurs de précision (rappel), cette différence ne peut pas être supprimée ou inversée en changeant la valeur constante.
Solvabilité limitée.
Chaque composant est essentiel: la variation de l'un tout en laissant l'autre constante donne une variation d'efficacité.
Propriété archimédienne pour chaque composant. Il garantit simplement que les intervalles sur un composant sont comparables.

On peut alors dériver et obtenir la fonction de l'efficacité:

Et normalement, nous n'utilisons pas l'efficacité mais le score F beaucoup plus simple parce que :

Maintenant que nous avons la formule générale de la mesure F:

où nous pouvons mettre davantage l'accent sur le rappel ou la précision en définissant la version bêta, car la version bêta est définie comme suit:

Si nous rappelons le poids plus important que la précision (tous les éléments pertinents sont sélectionnés), nous pouvons définir le bêta à 2 et nous obtenons la mesure F2. Et si nous faisons l'inverse et la précision du poids plus haut que le rappel (autant d'éléments sélectionnés sont pertinents que possible, par exemple dans certains scénarios de correction d'erreurs de grammaire comme CoNLL ) nous fixons simplement la bêta à 0,5 et obtenons le F0 .5 mesure. Et évidemment, nous pouvons définir la bêta sur 1 pour obtenir la mesure F1 la plus utilisée (moyenne harmonique de précision et de rappel).

Je pense que dans une certaine mesure, j'ai déjà expliqué pourquoi nous n'utilisons pas la moyenne arithmétique.

Les références:
1. https://en.wikipedia.org/wiki/F1_score
2. La vérité de la mesure F
3. Retrouvailles d'informations

Sean Owen · Answer

Pour expliquer, considérez par exemple, quelle est la moyenne de 30 mph et 40 mph est? si vous conduisez pendant 1 heure à chaque vitesse, la vitesse moyenne sur les 2 heures est en effet la moyenne arithmétique, 35 mph.

Cependant, si vous conduisez sur la même distance à chaque vitesse - disons 10 miles - alors la vitesse moyenne sur 20 miles est la moyenne harmonique de 30 et 40, environ 34,3 mph.

La raison en est que pour que la moyenne soit valide, vous avez vraiment besoin que les valeurs soient dans les mêmes unités mises à l'échelle. Les miles par heure doivent être comparés sur le même nombre d'heures; pour comparer sur le même nombre de miles, vous devez plutôt faire la moyenne des heures par mile, ce qui est exactement ce que fait la moyenne harmonique.

La précision et le rappel ont tous deux de vrais positifs au numérateur et des dénominateurs différents. Pour les faire la moyenne, il n'a vraiment de sens que de faire la moyenne de leurs inverses, donc la moyenne harmonique.

Anony-Mousse · Answer

Parce qu'il punit davantage les valeurs extrêmes.

Considérons une méthode triviale (par exemple, toujours renvoyant la classe A). Il existe des éléments de données infinis de la classe B et un seul élément de la classe A:

Precision: 0.0 Recall: 1.0

Lors de la prise de la moyenne arithmétique, elle serait correcte à 50%. En dépit d'être le pire résultat possible! Avec la moyenne harmonique, la mesure F1 est 0.

Arithmetic mean: 0.5 Harmonic mean: 0.0

En d'autres termes, pour avoir un F1 élevé, vous devez les deux avoir une haute précision et un rappel.

isarandi · Answer

La moyenne harmonique est l'équivalent de la moyenne arithmétique pour les inverses de quantités qui devraient être moyennées par la moyenne arithmétique. Plus précisément, avec la moyenne harmonique, vous transformez tous vos nombres sous la forme "moyennable" (en prenant la réciproque), vous prenez leur moyenne arithmétique puis retransformez le résultat en représentation originale (en reprenant la réciproque).

La précision et le rappel sont "naturellement" réciproques car leur numérateur est le même et leurs dénominateurs sont différents. Les fractions sont plus sensibles à la moyenne par moyenne arithmétique lorsqu'elles ont le même dénominateur.

Pour plus d'intuition, supposons que nous gardons constant le nombre de vrais éléments positifs. Ensuite, en prenant la moyenne harmonique de la précision et du rappel, vous prenez implicitement la moyenne arithmétique des faux positifs et des faux négatifs. Cela signifie essentiellement que les faux positifs et les faux négatifs sont tout aussi importants pour vous lorsque les vrais positifs restent les mêmes. Si un algorithme a N plus de faux positifs mais N moins de faux négatifs (tout en ayant les mêmes vrais positifs), la mesure F reste la même.

En d'autres termes, la mesure F convient lorsque:

les erreurs sont également mauvaises, qu'il s'agisse de faux positifs ou de faux négatifs
le nombre d'erreurs est mesuré par rapport au nombre de vrais positifs
les vrais négatifs sont sans intérêt

Le point 1 peut ou peut ne pas être vrai, il existe des variantes pondérées de la mesure F qui peuvent être utilisées si cette hypothèse n'est pas vraie. Le point 2 est tout à fait naturel puisque nous pouvons nous attendre à ce que les résultats évoluent si nous classons simplement de plus en plus de points. Les nombres relatifs devraient rester les mêmes.

Le point 3 est assez intéressant. Dans de nombreuses applications, les négatifs sont la valeur par défaut naturelle et il peut même être difficile ou arbitraire de spécifier ce qui compte vraiment comme un vrai négatif. Par exemple, une alarme incendie a un véritable événement négatif chaque seconde, chaque nanoseconde, chaque fois qu'un temps Planck s'est écoulé, etc.

Ou dans un cas de détection de visage, la plupart du temps vous "ne retournez pas correctement" des milliards de zones possibles dans l'image mais ce n'est pas intéressant. Les cas intéressants sont lorsque vous faites renvoyez une détection proposée ou lorsque vous devriez la renvoyez.

En revanche, la précision de la classification se soucie également des vrais positifs et des vrais négatifs et convient mieux si le nombre total d'échantillons (événements de classification) est bien défini et plutôt faible.

gadde saikumar · Answer

Les réponses ci-dessus sont bien expliquées. Ceci est juste pour une référence rapide pour comprendre la nature de la moyenne arithmétique et de la moyenne harmonique avec des graphiques. Comme vous pouvez le voir sur le graphique, considérez l'axe X et l'axe Y comme précision et rappel, et l'axe Z comme score F1. Ainsi, à partir de l'intrigue de la moyenne harmonique, la précision et le rappel devraient contribuer de manière égale pour que le score F1 augmente, contrairement à la moyenne arithmétique.

C'est pour la moyenne arithmétique.

C'est pour la moyenne harmonique.

C'est pour la moyenne arithmétique.

C'est pour la moyenne harmonique.