Écart type pondéré dans NumPy

Question

numpy.average() a une option de poids, mais numpy.std() n'en a pas. Quelqu'un a-t-il des suggestions de solution?

Eric O Lebigot · Accepted Answer

Que diriez-vous du court "calcul manuel" suivant?

def weighted_avg_and_std(values, weights): """ Return the weighted average and standard deviation. values, weights -- Numpy ndarrays with the same shape. """ average = numpy.average(values, weights=weights) # Fast and numerically precise: variance = numpy.average((values-average)**2, weights=weights) return (average, math.sqrt(variance))

MSeifert · Answer

Il existe une classe dans statsmodels qui facilite le calcul des statistiques pondérées: statsmodels.stats.weightstats.DescrStatsW .

En supposant que cet ensemble de données et ces pondérations:

import numpy as np from statsmodels.stats.weightstats import DescrStatsW array = np.array([1,2,1,2,1,2,1,3]) weights = np.ones_like(array) weights[3] = 100

Vous initialisez la classe (notez que vous devez passer le facteur de correction, le delta degrés de liberté à ce stade):

weighted_stats = DescrStatsW(array, weights=weights, ddof=0)

Ensuite, vous pouvez calculer:

.mean la moyenne pondérée :

>>> weighted_stats.mean 1.97196261682243

.std l'écart type pondéré :

>>> weighted_stats.std 0.21434289609681711

.var la variance pondérée :

>>> weighted_stats.var 0.045942877107170932

.std_mean l'erreur standard de la moyenne pondérée:
```
>>> weighted_stats.std_mean 0.020818822467555047 
```
Juste au cas où vous seriez intéressé par la relation entre l'erreur standard et l'écart type: L'erreur standard est (pour ddof == 0) calculé comme l'écart type pondéré divisé par la racine carrée de la somme des poids moins 1 ( source correspondante pour statsmodels version 0.9 sur GitHub ):
```
standard_error = standard_deviation / sqrt(sum(weights) - 1) 
```

unutbu · Answer

Il ne semble pas encore y avoir une telle fonction dans numpy/scipy, mais il y a un ticket proposant cette fonctionnalité supplémentaire. Vous y trouverez Statistics.py qui implémente les écarts-types pondérés.

Leo · Answer

Voici une autre option:

np.sqrt(np.cov(values, aweights=weights))

abah · Answer

Il y a un très bon exemple proposé par gaborous :

import pandas as pd import numpy as np # X is the dataset, as a Pandas' DataFrame mean = mean = np.ma.average(X, axis=0, weights=weights) # Computing the weighted sample mean (fast, efficient and precise) # Convert to a Pandas' Series (it's just aesthetic and more # ergonomic; no difference in computed values) mean = pd.Series(mean, index=list(X.keys())) xm = X-mean # xm = X diff to mean xm = xm.fillna(0) # fill NaN with 0 (because anyway a variance of 0 is just void, but at least it keeps the other covariance's values computed correctly)) sigma2 = 1./(w.sum()-1) * xm.mul(w, axis=0).T.dot(xm); # Compute the unbiased weighted sample covariance

Équation correcte pour la covariance sans biais pondérée de l'échantillon, URL (version: 2016-06-28)