Comment annuler (exploser) une colonne dans un pandas DataFrame?

Question

J'ai le DataFrame suivant où l'une des colonnes est un objet (cellule de type liste):

df=pd.DataFrame({'A':[1,2],'B':[[1,2],[1,2]]}) df Out[458]: A B 0 1 [1, 2] 1 2 [1, 2]

Ma sortie attendue est:

 A B 0 1 1 1 1 2 3 2 1 4 2 2

Que dois-je faire pour y parvenir?

Question connexe

pandas: lorsque le contenu de la cellule est une liste, créez une ligne pour chaque élément de la liste

Bonne question et réponse, mais ne manipule qu'une colonne avec liste (dans ma réponse, la fonction self-def fonctionnera pour plusieurs colonnes. La réponse acceptée est également d'utiliser le plus fastidieux apply, ce qui n'est pas recommandé. Vérifiez plus d'infos Quand devrais-je jamais utiliser pandas apply () dans mon code? )

WeNYoBen · Accepted Answer

En tant qu'utilisateur possédant à la fois R et python, j'ai déjà vu ce type de question plusieurs fois.

Dans R, ils ont la fonction intégrée du package tidyr appelée unnest. Mais dans Python (pandas), il n’existe pas de fonction intégrée pour ce type de question.

Je sais que object columns type rend toujours les données difficiles à convertir avec une fonction pandas '. Lorsque j'ai reçu les données comme celle-ci, la première chose qui me venait à l'esprit était de "mettre à plat" ou de désarmer les colonnes.

J'utilise les fonctions pandas et python pour ce type de question. Si la rapidité des solutions ci-dessus vous inquiète, vérifiez la réponse de l'utilisateur3483203, car il utilise numpy et la plupart du temps numpy est plus rapide. Je recommande Cpython et numba si la vitesse compte dans votre cas.

Méthode 0 [pandas> = 0.25]
À partir de pandas 0.25 , si vous n’avez besoin que d’exploser une colonne, vous pouvez utiliser la fonction explode:

_df.explode('B') A B 0 1 1 1 1 2 0 2 1 1 2 2 _

Méthode 1
apply + pd.Series (facile à comprendre mais en termes de performances non recommandé.)

_df.set_index('A').B.apply(pd.Series).stack().reset_index(level=0).rename(columns={0:'B'}) Out[463]: A B 0 1 1 1 1 2 0 2 1 1 2 2 _

Méthode 2
En utilisant repeat avec le constructeur DataFrame, recréez votre cadre de données (bon pour la performance, pas bon pour plusieurs colonnes)

_df=pd.DataFrame({'A':df.A.repeat(df.B.str.len()),'B':np.concatenate(df.B.values)}) df Out[465]: A B 0 1 1 0 1 2 1 2 1 1 2 2 _

Méthode 2.1
Par exemple, en plus de A, nous avons A.1 ..... A.n. Si nous utilisons toujours la méthode ( Méthode 2 ) ci-dessus, il est difficile pour nous de recréer les colonnes une par une.

Solution: join ou merge avec le index après "annuler" les colonnes simples

_s=pd.DataFrame({'B':np.concatenate(df.B.values)},index=df.index.repeat(df.B.str.len())) s.join(df.drop('B',1),how='left') Out[477]: B A 0 1 1 0 2 1 1 1 2 1 2 2 _

Si vous souhaitez que l'ordre des colonnes soit identique à celui utilisé précédemment, ajoutez reindex à la fin.

_s.join(df.drop('B',1),how='left').reindex(columns=df.columns) _

Méthode 3
recréer le list

_pd.DataFrame([[x] + [z] for x, y in df.values for z in y],columns=df.columns) Out[488]: A B 0 1 1 1 1 2 2 2 1 3 2 2 _

Si plus de deux colonnes, utilisez

_s=pd.DataFrame([[x] + [z] for x, y in Zip(df.index,df.B) for z in y]) s.merge(df,left_on=0,right_index=True) Out[491]: 0 1 A B 0 0 1 1 [1, 2] 1 0 2 1 [1, 2] 2 1 1 2 [1, 2] 3 1 2 2 [1, 2] _

Méthode 4
en utilisant reindex ou loc

_df.reindex(df.index.repeat(df.B.str.len())).assign(B=np.concatenate(df.B.values)) Out[554]: A B 0 1 1 0 1 2 1 2 1 1 2 2 #df.loc[df.index.repeat(df.B.str.len())].assign(B=np.concatenate(df.B.values)) _

Méthode 5
lorsque la liste ne contient que des valeurs uniques:

_df=pd.DataFrame({'A':[1,2],'B':[[1,2],[3,4]]}) from collections import ChainMap d = dict(ChainMap(*map(dict.fromkeys, df['B'], df['A']))) pd.DataFrame(list(d.items()),columns=df.columns[::-1]) Out[574]: B A 0 1 1 1 2 1 2 3 2 3 4 2 _

Méthode 6
utilisant numpy pour des performances élevées:

_newvalues=np.dstack((np.repeat(df.A.values,list(map(len,df.B.values))),np.concatenate(df.B.values))) pd.DataFrame(data=newvalues[0],columns=df.columns) A B 0 1 1 1 1 2 2 2 1 3 2 2 _

Méthode 7
en utilisant la fonction de base itertools cycle et chain: Pure python solution juste pour le fun

_from itertools import cycle,chain l=df.values.tolist() l1=[list(Zip([x[0]], cycle(x[1])) if len([x[0]]) > len(x[1]) else list(Zip(cycle([x[0]]), x[1]))) for x in l] pd.DataFrame(list(chain.from_iterable(l1)),columns=df.columns) A B 0 1 1 1 1 2 2 2 1 3 2 2 _

Généraliser à plusieurs colonnes

_df=pd.DataFrame({'A':[1,2],'B':[[1,2],[3,4]],'C':[[1,2],[3,4]]}) df Out[592]: A B C 0 1 [1, 2] [1, 2] 1 2 [3, 4] [3, 4] _

Fonction auto-def:

_def unnesting(df, explode): idx = df.index.repeat(df[explode[0]].str.len()) df1 = pd.concat([ pd.DataFrame({x: np.concatenate(df[x].values)}) for x in explode], axis=1) df1.index = idx return df1.join(df.drop(explode, 1), how='left') unnesting(df,['B','C']) Out[609]: B C A 0 1 1 1 0 2 2 1 1 3 3 2 1 4 4 2 _

Annulation dans le sens des colonnes

Toute la méthode ci-dessus parle du vertical annulant et explose, Si vous avez besoin de passer la liste horizontal , vérifiez avec le constructeur _pd.DataFrame_

_df.join(pd.DataFrame(df.B.tolist(),index=df.index).add_prefix('B_')) Out[33]: A B C B_0 B_1 0 1 [1, 2] [1, 2] 1 2 1 2 [3, 4] [3, 4] 3 4 _

Fonction mise à jour

_def unnesting(df, explode, axis): if axis==1: idx = df.index.repeat(df[explode[0]].str.len()) df1 = pd.concat([ pd.DataFrame({x: np.concatenate(df[x].values)}) for x in explode], axis=1) df1.index = idx return df1.join(df.drop(explode, 1), how='left') else : df1 = pd.concat([ pd.DataFrame(df[x].tolist(), index=df.index).add_prefix(x) for x in explode], axis=1) return df1.join(df.drop(explode, 1), how='left') _

Test de sortie

_unnesting(df, ['B','C'], axis=0) Out[36]: B0 B1 C0 C1 A 0 1 2 1 2 1 1 3 4 3 4 2 _

user3483203 · Answer

Option 1

Si toutes les sous-listes de l'autre colonne ont la même longueur, numpy peut être une option efficace ici:

vals = np.array(df.B.values.tolist()) a = np.repeat(df.A, vals.shape[1]) pd.DataFrame(np.column_stack((a, vals.ravel())), columns=df.columns)

 A B 0 1 1 1 1 2 2 2 1 3 2 2

Option 2

Si les sous-listes ont une longueur différente, une étape supplémentaire est nécessaire:

vals = df.B.values.tolist() rs = [len(r) for r in vals] a = np.repeat(df.A, rs) pd.DataFrame(np.column_stack((a, np.concatenate(vals))), columns=df.columns)

 A B 0 1 1 1 1 2 2 2 1 3 2 2

Option 3

J'ai essayé de généraliser ceci pour travailler à aplatir N colonnes et mosaïque M colonnes, je travaillerai plus tard pour le rendre plus efficace:

df = pd.DataFrame({'A': [1,2,3], 'B': [[1,2], [1,2,3], [1]], 'C': [[1,2,3], [1,2], [1,2]], 'D': ['A', 'B', 'C']})

 A B C D 0 1 [1, 2] [1, 2, 3] A 1 2 [1, 2, 3] [1, 2] B 2 3 [1] [1, 2] C

def unnest(df, tile, explode): vals = df[explode].sum(1) rs = [len(r) for r in vals] a = np.repeat(df[tile].values, rs, axis=0) b = np.concatenate(vals.values) d = np.column_stack((a, b)) return pd.DataFrame(d, columns = tile + ['_'.join(explode)]) unnest(df, ['A', 'D'], ['B', 'C'])

 A D B_C 0 1 A 1 1 1 A 2 2 1 A 1 3 1 A 2 4 1 A 3 5 2 B 1 6 2 B 2 7 2 B 3 8 2 B 1 9 2 B 2 10 3 C 1 11 3 C 1 12 3 C 2

Fonctions

def wen1(df): return df.set_index('A').B.apply(pd.Series).stack().reset_index(level=0).rename(columns={0: 'B'}) def wen2(df): return pd.DataFrame({'A':df.A.repeat(df.B.str.len()),'B':np.concatenate(df.B.values)}) def wen3(df): s = pd.DataFrame({'B': np.concatenate(df.B.values)}, index=df.index.repeat(df.B.str.len())) return s.join(df.drop('B', 1), how='left') def wen4(df): return pd.DataFrame([[x] + [z] for x, y in df.values for z in y],columns=df.columns) def chris1(df): vals = np.array(df.B.values.tolist()) a = np.repeat(df.A, vals.shape[1]) return pd.DataFrame(np.column_stack((a, vals.ravel())), columns=df.columns) def chris2(df): vals = df.B.values.tolist() rs = [len(r) for r in vals] a = np.repeat(df.A.values, rs) return pd.DataFrame(np.column_stack((a, np.concatenate(vals))), columns=df.columns)

Timings

import pandas as pd import matplotlib.pyplot as plt import numpy as np from timeit import timeit res = pd.DataFrame( index=['wen1', 'wen2', 'wen3', 'wen4', 'chris1', 'chris2'], columns=[10, 50, 100, 500, 1000, 5000, 10000], dtype=float ) for f in res.index: for c in res.columns: df = pd.DataFrame({'A': [1, 2], 'B': [[1, 2], [1, 2]]}) df = pd.concat([df]*c) stmt = '{}(df)'.format(f) setp = 'from __main__ import df, {}'.format(f) res.at[f, c] = timeit(stmt, setp, number=50) ax = res.div(res.min()).T.plot(loglog=True) ax.set_xlabel("N") ax.set_ylabel("time (relative)")

Performance

Daniel Mesejo · Answer

Une alternative consiste à appliquer le recette du maillage sur les lignes des colonnes pour annuler:

import numpy as np import pandas as pd def unnest(frame, explode): def mesh(values): return np.array(np.meshgrid(*values)).T.reshape(-1, len(values)) data = np.vstack(mesh(row) for row in frame[explode].values) return pd.DataFrame(data=data, columns=explode) df = pd.DataFrame({'A': [1, 2], 'B': [[1, 2], [1, 2]]}) print(unnest(df, ['A', 'B'])) # base print() df = pd.DataFrame({'A': [1, 2], 'B': [[1, 2], [3, 4]], 'C': [[1, 2], [3, 4]]}) print(unnest(df, ['A', 'B', 'C'])) # multiple columns print() df = pd.DataFrame({'A': [1, 2, 3], 'B': [[1, 2], [1, 2, 3], [1]], 'C': [[1, 2, 3], [1, 2], [1, 2]], 'D': ['A', 'B', 'C']}) print(unnest(df, ['A', 'B'])) # uneven length lists print() print(unnest(df, ['D', 'B'])) # different types print()

Sortie

 A B 0 1 1 1 1 2 2 2 1 3 2 2 A B C 0 1 1 1 1 1 2 1 2 1 1 2 3 1 2 2 4 2 3 3 5 2 4 3 6 2 3 4 7 2 4 4 A B 0 1 1 1 1 2 2 2 1 3 2 2 4 2 3 5 3 1 D B 0 A 1 1 A 2 2 B 1 3 B 2 4 B 3 5 C 1

joelostblom · Answer

L’explosion d’une colonne de type liste a été considérablement simplifiée dans pandas 0.25 avec l’ajout de la méthode explode():

df = pd.DataFrame({'A': [1, 2], 'B': [[1, 2], [1, 2]]}) df.explode('B')

En dehors:

 A B 0 1 1 0 1 2 1 2 1 1 2 2

Ze Tang · Answer

Parce que normalement les longueurs de sous-listes sont différentes et que rejoindre/fusionner coûte beaucoup plus cher en calcul. J'ai retesté la méthode pour différentes colonnes de sous-liste de longueur et pour des colonnes plus normales.

MultiIndex devrait aussi être un moyen plus facile d’écrire et a presque les mêmes performances que numpy.

Étonnamment, dans mon implémentation, la compréhension a la meilleure performance.

def stack(df): return df.set_index(['A', 'C']).B.apply(pd.Series).stack() def comprehension(df): return pd.DataFrame([x + [z] for x, y in Zip(df[['A', 'C']].values.tolist(), df.B) for z in y]) def multiindex(df): return pd.DataFrame(np.concatenate(df.B.values), index=df.set_index(['A', 'C']).index.repeat(df.B.str.len())) def array(df): return pd.DataFrame( np.column_stack(( np.repeat(df[['A', 'C']].values, df.B.str.len(), axis=0), np.concatenate(df.B.values) )) ) import pandas as pd import matplotlib.pyplot as plt import numpy as np from timeit import timeit res = pd.DataFrame( index=[ 'stack', 'comprehension', 'multiindex', 'array', ], columns=[1000, 2000, 5000, 10000, 20000, 50000], dtype=float ) for f in res.index: for c in res.columns: df = pd.DataFrame({'A': list('abc'), 'C': list('def'), 'B': [['g', 'h', 'i'], ['j', 'k'], ['l']]}) df = pd.concat([df] * c) stmt = '{}(df)'.format(f) setp = 'from __main__ import df, {}'.format(f) res.at[f, c] = timeit(stmt, setp, number=20) ax = res.div(res.min()).T.plot(loglog=True) ax.set_xlabel("N") ax.set_ylabel("time (relative)")

Performance

Temps relatif de chaque méthode

ayorgo · Answer

Mes 5 centimes:

df[['B', 'B2']] = pd.DataFrame(df['B'].values.tolist()) df[['A', 'B']].append(df[['A', 'B2']].rename(columns={'B2': 'B'}), ignore_index=True)

et 5 autres

df[['B1', 'B2']] = pd.DataFrame([*df['B']]) # if values.tolist() is too boring (pd.wide_to_long(df.drop('B', 1), 'B', 'A', '') .reset_index(level=1, drop=True) .reset_index())

les deux résultant dans le même

 A B 0 1 1 1 2 1 2 1 2 3 2 2

U10-Forward · Answer

Quelque chose de joli n'est pas recommandé (au moins travailler dans ce cas):

df=pd.concat([df]*2).sort_index() it=iter(df['B'].tolist()[0]+df['B'].tolist()[0]) df['B']=df['B'].apply(lambda x:next(it))

concat + sort_index + iter + apply + next.

Maintenant:

print(df)

Est:

 A B 0 1 1 0 1 2 1 2 1 1 2 2

Si vous vous souciez de l'index:

df=df.reset_index(drop=True)

Maintenant:

print(df)

Est:

 A B 0 1 1 1 1 2 2 2 1 3 2 2

Markus Dutschke · Answer

J'ai généralisé le problème un peu pour être applicable à plus de colonnes.

Résumé de ma solution:

In[74]: df Out[74]: A B C columnD 0 A1 B1 [C1.1, C1.2] D1 1 A2 B2 [C2.1, C2.2] [D2.1, D2.2, D2.3] 2 A3 B3 C3 [D3.1, D3.2] In[75]: dfListExplode(df,['C','columnD']) Out[75]: A B C columnD 0 A1 B1 C1.1 D1 1 A1 B1 C1.2 D1 2 A2 B2 C2.1 D2.1 3 A2 B2 C2.1 D2.2 4 A2 B2 C2.1 D2.3 5 A2 B2 C2.2 D2.1 6 A2 B2 C2.2 D2.2 7 A2 B2 C2.2 D2.3 8 A3 B3 C3 D3.1 9 A3 B3 C3 D3.2

Exemple complet:

L'explosion proprement dite est réalisée en 3 lignes. Le reste est constitué de cosmétiques (explosion multi-colonnes, manipulation de chaînes au lieu de listes dans la colonne d'explosion, ... ).

import pandas as pd import numpy as np df=pd.DataFrame( {'A': ['A1','A2','A3'], 'B': ['B1','B2','B3'], 'C': [ ['C1.1','C1.2'],['C2.1','C2.2'],'C3'], 'columnD': [ 'D1',['D2.1','D2.2', 'D2.3'],['D3.1','D3.2']], }) print('df',df, sep='
') def dfListExplode(df, explodeKeys): if not isinstance(explodeKeys, list): explodeKeys=[explodeKeys] # recursive handling of explodeKeys if len(explodeKeys)==0: return df Elif len(explodeKeys)==1: explodeKey=explodeKeys[0] else: return dfListExplode( dfListExplode(df, explodeKeys[:1]), explodeKeys[1:]) # perform explosion/unnesting for key: explodeKey dfPrep=df[explodeKey].apply(lambda x: x if isinstance(x,list) else [x]) #casts all elements to a list dfIndExpl=pd.DataFrame([[x] + [z] for x, y in Zip(dfPrep.index,dfPrep.values) for z in y ], columns=['explodedIndex',explodeKey]) dfMerged=dfIndExpl.merge(df.drop(explodeKey, axis=1), left_on='explodedIndex', right_index=True) dfReind=dfMerged.reindex(columns=list(df)) return dfReind dfExpl=dfListExplode(df,['C','columnD']) print('dfExpl',dfExpl, sep='
')

Crédits à réponse de WeNYoBen

Ben Pap · Answer

df=pd.DataFrame({'A':[1,2],'B':[[1,2],[1,2]]}) pd.concat([df['A'], pd.DataFrame(df['B'].values.tolist())], axis = 1)\ .melt(id_vars = 'A', value_name = 'B')\ .dropna()\ .drop('variable', axis = 1) A B 0 1 1 1 2 1 2 1 2 3 2 2

Avez-vous pensé à cette méthode? ou est-il trop coûteux de concateler et de fondre?

serge2020 · Answer

# Here's the answer to the related question in: # https://stackoverflow.com/q/56708671/11426125 # initial dataframe df12=pd.DataFrame({'Date':['2007-12-03','2008-09-07'],'names': [['Peter','Alex'],['Donald','Stan']]}) # convert dataframe to array for indexing list values (names) a = np.array(df12.values) # create a new, dataframe with dimensions for unnested b = np.ndarray(shape = (4,2)) df2 = pd.DataFrame(b, columns = ["Date", "names"], dtype = str) # implement loops to assign date/name values as required i = range(len(a[0])) j = range(len(a[0])) for x in i: for y in j: df2.iat[2*x+y, 0] = a[x][0] df2.iat[2*x+y, 1] = a[x][1][y] # set Date column as Index df2.Date=pd.to_datetime(df2.Date) df2.index=df2.Date df2.drop('Date',axis=1,inplace =True)

Siraj S. · Answer

df=pd.DataFrame({'A':[1,2],'B':[[1,2],[1,2]]}) out = pd.concat([df.loc[:,'A'],(df.B.apply(pd.Series))], axis=1, sort=False) out = out.set_index('A').stack().droplevel(level=1).reset_index().rename(columns={0:"B"}) A B 0 1 1 1 1 2 2 2 1 3 2 2

vous pouvez l'implémenter en tant que doublure, si vous ne souhaitez pas créer d'objet intermédiaire