web-dev-qa-db-fra.com

Dans ggplot2, que représente la fin des lignes de boxplot?

Je ne trouve pas de description de ce que représentent les points d'extrémité des lignes d'un boxplot.

Par exemple, voici des valeurs en points au-dessus et en dessous de la fin des lignes. enter image description here

(Je me rends compte que le haut et le bas de la boîte sont le 25e et le 75e centile, et la ligne médiane est le 50e). Je suppose, car il y a des points au-dessus et au-dessous des lignes qu'ils ne représentent pas les valeurs max/min.

42
djq

Les "points" à la fin de la boîte à moustaches représentent des valeurs aberrantes. Il existe un certain nombre de règles différentes pour déterminer si un point est une valeur aberrante, mais la méthode que R et ggplot utilisent est la "règle 1.5". Si un point de données est:

  • moins de Q1 - 1,5 * IQR
  • supérieur à Q3 + 1,5 * IQR

ce point est alors classé comme une "valeur aberrante". Les moustaches sont définies comme suit:

moustache supérieure = min (max (x), Q_3 + 1,5 * IQR)

moustache inférieure = max (min (x), Q_1 - 1,5 * IQR)

où IQR = Q_3 - Q_1, la longueur de la boîte. Ainsi, la moustache supérieure est située au plus petit de la valeur maximale x et Q_3 + 1,5 IQR, tandis que la moustache inférieure est située au plus grand du plus petit valeur x et Q_1 - 1,5 IQR.

Informations supplémentaires

  • Voir la page wikipedia boxplot pour d'autres règles aberrantes.
  • Il existe en fait plusieurs façons de calculer les quantiles. Jetez un oeil à `? Quantile pour la description des différentes méthodes neuf.

Exemple

Considérez l'exemple suivant

> set.seed(1)
> x = rlnorm(20, 1/2)#skewed data
> par(mfrow=c(1,3))
> boxplot(x, range=1.7, main="range=1.7")
> boxplot(x, range=1.5, main="range=1.5")#default
> boxplot(x, range=0, main="range=0")#The same as range="Very big number"

Cela donne le tracé suivant: enter image description here

Lorsque nous réduisons la plage de 1,7 à 1,5, nous réduisons la longueur de la moustache. Cependant, range=0 est un cas particulier - il équivaut à "range = infinity"

63
csgillespie

Je pense que ggplot utilise les valeurs par défaut standard, les mêmes que boxplot: "les moustaches s'étendent jusqu'au point de données le plus extrême qui n'est pas plus de [1,5] fois la longueur de la boîte loin de la boîte"

Voir: boxplot.stats

14
Tyler

Tutoriel P1IMSA 8 - Comprendre les tracés de boîtes et de moustaches la vidéo offre une explication visuelle étape par étape des tracés de boîtes et de moustaches (Tukey).

À 4m 23s, j'explique la signification des extrémités des moustaches et sa relation avec le 1.5 * IQR.

Bien que le graphique montré dans la vidéo ait été rendu en utilisant D3.js plutôt que R, ses explications concordent avec les implémentations R des boîtes à moustaches mentionnées.

2
Ken Lin