Python Pandas: groupe par groupe par et moyenne?

Question

J'ai un dataframe comme ceci:

cluster org time 1 a 8 1 a 6 2 h 34 1 c 23 2 d 74 3 w 6

Je voudrais calculer la moyenne de temps par organisation et par cluster.

Résultat attendu:

cluster mean(time) 1 15 ((8+6)/2+23)/2 2 54 (74+34)/2 3 6

Je ne sais pas comment le faire à Pandas, quelqu'un peut-il aider?

Zero · Accepted Answer

Si vous voulez d'abord prendre la moyenne sur la combinaison ['cluster', 'org'] puis à nouveau sur la moyenne sur les groupes cluster

In [59]: (df.groupby(['cluster', 'org'], as_index=False).mean() .groupby('cluster')['time'].mean()) Out[59]: cluster 1 15 2 54 3 6 Name: time, dtype: int64

Si vous ne voulez pas dire valeurs de cluster seulement, alors vous pourriez

In [58]: df.groupby(['cluster']).mean() Out[58]: time cluster 1 12.333333 2 54.000000 3 6.000000

Vous pouvez groupby sur ['cluster', 'org'] et ensuite prendre mean()

In [57]: df.groupby(['cluster', 'org']).mean() Out[57]: time cluster org 1 a 438886 c 23 2 d 9874 h 34 3 w 6

Vincepay · Answer

Je voudrais simplement faire ceci, qui suit littéralement ce que votre logique désirée était:

df.groupby(['org']).mean().groupby(['cluster']).mean()