Pandas trier par agrégat de groupe et colonne

Question

Étant donné le dataframe suivant

In [31]: Rand = np.random.RandomState(1) df = pd.DataFrame({'A': ['foo', 'bar', 'baz'] * 2, 'B': Rand.randn(6), 'C': Rand.rand(6) > .5}) In [32]: df Out[32]: A B C 0 foo 1.624345 False 1 bar -0.611756 True 2 baz -0.528172 False 3 foo -1.072969 True 4 bar 0.865408 False 5 baz -2.301539 True

Je voudrais le trier en groupes (A) par la somme agrégée de B, puis par la valeur dans C (non agrégé). Donc, fondamentalement, obtenir l'ordre des groupes A avec

In [28]: df.groupby('A').sum().sort('B') Out[28]: B C A baz -2.829710 1 bar 0.253651 1 foo 0.551377 1

Et ensuite par True/False, pour que cela ressemble finalement à ceci:

In [30]: df.ix[[5, 2, 1, 4, 3, 0]] Out[30]: A B C 5 baz -2.301539 True 2 baz -0.528172 False 1 bar -0.611756 True 4 bar 0.865408 False 3 foo -1.072969 True 0 foo 1.624345 False

Comment cela peut-il être fait?

Zelazny7 · Accepted Answer

Groupby A:

In [0]: grp = df.groupby('A')

Au sein de chaque groupe, additionnez sur B et diffusez les valeurs en utilisant transform. Puis triez par B:

In [1]: grp[['B']].transform(sum).sort('B') Out[1]: B 2 -2.829710 5 -2.829710 1 0.253651 4 0.253651 0 0.551377 3 0.551377

Indexez le df d'origine en passant l'index par le haut. Cela réordonnera les valeurs A en additionnant la somme des valeurs B:

In [2]: sort1 = df.ix[grp[['B']].transform(sum).sort('B').index] In [3]: sort1 Out[3]: A B C 2 baz -0.528172 False 5 baz -2.301539 True 1 bar -0.611756 True 4 bar 0.865408 False 0 foo 1.624345 False 3 foo -1.072969 True

Enfin, triez les valeurs 'C' dans les groupes de 'A' en utilisant le sort=False option pour conserver l’ordre de tri A à partir de l’étape 1:

In [4]: f = lambda x: x.sort('C', ascending=False) In [5]: sort2 = sort1.groupby('A', sort=False).apply(f) In [6]: sort2 Out[6]: A B C A baz 5 baz -2.301539 True 2 baz -0.528172 False bar 1 bar -0.611756 True 4 bar 0.865408 False foo 3 foo -1.072969 True 0 foo 1.624345 False

Nettoyez l’index df en utilisant reset_index avec drop=True:

In [7]: sort2.reset_index(0, drop=True) Out[7]: A B C 5 baz -2.301539 True 2 baz -0.528172 False 1 bar -0.611756 True 4 bar 0.865408 False 3 foo -1.072969 True 0 foo 1.624345 False

Mark Byers · Answer

Voici une approche plus concise ...

df['a_bsum'] = df.groupby('A')['B'].transform(sum) df.sort(['a_bsum','C'], ascending=[True, False]).drop('a_bsum', axis=1)

La première ligne ajoute une colonne au bloc de données avec la somme par groupe. La deuxième ligne effectue le tri puis supprime la colonne supplémentaire.

Résultat:

 A B C 5 baz -2.301539 True 2 baz -0.528172 False 1 bar -0.611756 True 4 bar 0.865408 False 3 foo -1.072969 True 0 foo 1.624345 False

NOTE: sort est obsolète, utilisez sort_values au lieu

Andy Hayden · Answer

Une façon de faire est d'insérer une colonne fictive avec les sommes afin de trier:

In [10]: sum_B_over_A = df.groupby('A').sum().B In [11]: sum_B_over_A Out[11]: A bar 0.253652 baz -2.829711 foo 0.551376 Name: B in [12]: df['sum_B_over_A'] = df.A.apply(sum_B_over_A.get_value) In [13]: df Out[13]: A B C sum_B_over_A 0 foo 1.624345 False 0.551376 1 bar -0.611756 True 0.253652 2 baz -0.528172 False -2.829711 3 foo -1.072969 True 0.551376 4 bar 0.865408 False 0.253652 5 baz -2.301539 True -2.829711 In [14]: df.sort(['sum_B_over_A', 'A', 'B']) Out[14]: A B C sum_B_over_A 5 baz -2.301539 True -2.829711 2 baz -0.528172 False -2.829711 1 bar -0.611756 True 0.253652 4 bar 0.865408 False 0.253652 3 foo -1.072969 True 0.551376 0 foo 1.624345 False 0.551376

et vous abandonneriez peut-être la rangée fictive

In [15]: df.sort(['sum_B_over_A', 'A', 'B']).drop('sum_B_over_A', axis=1) Out[15]: A B C 5 baz -2.301539 True 2 baz -0.528172 False 1 bar -0.611756 True 4 bar 0.865408 False 3 foo -1.072969 True 0 foo 1.624345 False