Comment lire la matrice de confusion du classificateur dans WEKA

Question

Désolé, je suis nouveau sur WEKA et j'apprends.

Dans ma sortie de classificateur d'arbre de décision (J48), il y a une matrice de confusion:

a b <----- classified as 130 8 a = functional 15 150 b = non-functional

Comment lire cette matrice? Quelle est la différence entre a & b?
De plus, quelqu'un peut-il m'expliquer quelles sont les valeurs de domaine?

Mental Nomad · Accepted Answer

Je le dirais ainsi:

La matrice de confusion est Weka rapportant à quel point ce modèle J48 est bon en termes de ce qu'il obtient bien et ce qu'il se passe mal.

Dans vos données, la variable cible était "fonctionnelle" ou "non fonctionnelle"; le côté droit de la matrice vous indique que la colonne "a" est fonctionnelle et "b" est non fonctionnelle.

Les colonnes vous indiquent comment votre modèle a classé vos échantillons - c'est ce que le modèle a prédit:

La première colonne contient tous les échantillons que votre modèle pense être "un" - 145 d'entre eux, au total
La deuxième colonne contient tous les échantillons que votre modèle pense être "b" - 158 d'entre eux

Les rangées, en revanche, représentent la réalité:

La première ligne contient tous les échantillons qui sont vraiment "a" - 138 d'entre eux, au total
La deuxième ligne contient tous les échantillons qui sont vraiment "b" - 165 d'entre eux

Connaissant les colonnes et les lignes, vous pouvez creuser dans les détails:

En haut à gauche, 130, sont les choses que votre modèle pense être "a" qui sont vraiment "a" <- elles étaient correctes
En bas à gauche, 15, sont les choses que votre modèle pense être "a" mais qui sont vraiment "b" <- une sorte d'erreur
En haut à droite, 8, sont les choses que votre modèle pense être "b" mais qui sont vraiment "a" <- un autre type d'erreur
En bas à droite, 150 sont les choses que votre modèle pense être "b" qui sont vraiment "b"

Donc, en haut à gauche et en bas à droite de la matrice, les choses sont correctes pour votre modèle.

En bas à gauche et en haut à droite de la matrice indiquent où votre modèle est confus.

Junuxx · Answer

Avez-vous lu la page wikipedia sur les matrices de confusion ? Le texte autour de la matrice est disposé légèrement différemment dans leur exemple (étiquettes de ligne à gauche plutôt qu'à droite), mais vous le lisez tout de même.

La ligne indique la vraie classe, la colonne indique la sortie du classificateur. Chaque entrée donne alors le nombre d'instances de <row> qui ont été classés comme <column>. Dans votre exemple, 15 Bs ont été (incorrectement) classés comme As, 150 Bs ont été correctement classés comme Bs, etc.

Par conséquent, toutes les classifications correct sont dans la diagonale en haut à gauche à en bas à droite. Tout ce qui est hors de cette diagonale est une classification incorrecte.

Modifier : La page Wikipedia a depuis inversé les lignes et les colonnes. Ça arrive. Lorsque vous étudiez une matrice de confusion, assurez-vous toujours de vérifier les étiquettes pour voir s'il s'agit de véritables classes en lignes, de classes prédites en colonnes ou inversement.