Pandas obtenir les n premiers enregistrements de chaque groupe

Question

Supposons que j'ai pandas DataFrame comme ceci:

>>> df = pd.DataFrame({'id':[1,1,1,2,2,2,2,3,4],'value':[1,2,3,1,2,3,4,1,1]}) >>> df id value 0 1 1 1 1 2 2 1 3 3 2 1 4 2 2 5 2 3 6 2 4 7 3 1 8 4 1

Je veux obtenir un nouveau DataFrame avec les 2 meilleurs enregistrements pour chaque identifiant, comme ceci:

 id value 0 1 1 1 1 2 3 2 1 4 2 2 7 3 1 8 4 1

Je peux le faire avec la numérotation des enregistrements au sein d'un groupe après l'autre en:

>>> dfN = df.groupby('id').apply(lambda x:x['value'].reset_index()).reset_index() >>> dfN id level_1 index value 0 1 0 0 1 1 1 1 1 2 2 1 2 2 3 3 2 0 3 1 4 2 1 4 2 5 2 2 5 3 6 2 3 6 4 7 3 0 7 1 8 4 0 8 1 >>> dfN[dfN['level_1'] <= 1][['id', 'value']] id value 0 1 1 1 1 2 3 2 1 4 2 2 7 3 1 8 4 1

Mais existe-t-il une approche plus efficace/élégante pour ce faire? En outre, l'approche de numérotation des enregistrements au sein de chaque groupe est plus élégante (comme la fonction de fenêtre SQL row_number () ).

dorvak · Accepted Answer

Avez-vous essayé df.groupby('id').head(2)

Ouput généré:

>>> df.groupby('id').head(2) id value id 1 0 1 1 1 1 2 2 3 2 1 4 2 2 3 7 3 1 4 8 4 1

(N'oubliez pas que vous devrez peut-être commander/trier avant, en fonction de vos données)

EDIT: Comme l’a demandé votre interlocuteur, utilisez df.groupby('id').head(2).reset_index(drop=True) pour supprimer le multindex et aplatir les résultats.

>>> df.groupby('id').head(2).reset_index(drop=True) id value 0 1 1 1 1 2 2 2 1 3 2 2 4 3 1 5 4 1

LondonRob · Answer

Depuis 0.14.1 , vous pouvez maintenant faire nlargest et nsmallest sur un objet groupby:

In [23]: df.groupby('id')['value'].nlargest(2) Out[23]: id 1 2 3 1 2 2 6 4 5 3 3 7 1 4 8 1 dtype: int64

Il y a une légère bizarrerie dans laquelle vous retrouvez l'index d'origine, mais cela peut être très utile en fonction de votre index d'origine .

Si cela ne vous intéresse pas, vous pouvez faire .reset_index(level=1, drop=True) pour vous en débarrasser complètement.

(Remarque: à partir de la version 0.17.1 vous pourrez le faire sur un DataFrameGroupBy également, mais pour l'instant, cela ne fonctionne qu'avec Series et SeriesGroupBy.)