Comparer deux cadres de données et comprendre les différences

Question

J'ai deux dataframes. Exemples:

df1: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green df2: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green 2013-11-25 Apple 22.1 Red 2013-11-25 Orange 8.6 Orange

Chaque image a la date sous forme d’index. Les deux images ont la même structure.

Ce que je veux faire, c'est comparer ces deux images et trouver quelles lignes sont dans df2 qui ne sont pas dans df1. Je veux comparer la date (index) et la première colonne (Banana, Apple, etc.) pour voir s’ils existent dans df2 vs df1.

J'ai essayé ce qui suit:

Pour la première approche, j'obtiens cette erreur: "Exception: on ne peut comparer que des objets DataFrame portant une étiquette identique". J'ai essayé de supprimer la date en tant qu'index, mais j'obtiens la même erreur.

Sur la troisième approche , je reçois l'affirmation de retourner False mais je ne peux pas comprendre comment voir les différentes lignes.

Tous les pointeurs seraient les bienvenus

alko · Accepted Answer

Cette approche, df1 != df2, ne fonctionne que pour les images comportant des lignes et des colonnes identiques. En fait, tous les axes de dataframes sont comparés à la méthode _indexed_same et une exception est levée si des différences sont trouvées, même dans l’ordre des colonnes/indices.

Si je vous ai bien compris, vous ne voulez pas trouver de changements, mais une différence symétrique. Pour cela, une approche pourrait être de concaténer des cadres de données:

>>> df = pd.concat([df1, df2]) >>> df = df.reset_index(drop=True)

par groupe

>>> df_gpby = df.groupby(list(df.columns))

obtenir l'index des enregistrements uniques

>>> idx = [x[0] for x in df_gpby.groups.values() if len(x) == 1]

filtre

>>> df.reindex(idx) Date Fruit Num Color 9 2013-11-25 Orange 8.6 Orange 8 2013-11-25 Apple 22.1 Red

jur · Answer

Le transfert des images de données à concatresser dans un dictionnaire génère un cadre de données multi-index à partir duquel vous pouvez facilement supprimer les doublons, ce qui donne un cadre de données multi-index présentant les différences entre les images:

import sys if sys.version_info[0] < 3: from StringIO import StringIO else: from io import StringIO import pandas as pd DF1 = StringIO("""Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green """) DF2 = StringIO("""Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green 2013-11-25 Apple 22.1 Red 2013-11-25 Orange 8.6 Orange""") df1 = pd.read_table(DF1, sep='\s+') df2 = pd.read_table(DF2, sep='\s+') #%% dfs_dictionary = {'DF1':df1,'DF2':df2} df=pd.concat(dfs_dictionary) df.drop_duplicates(keep=False)

Résultat:

 Date Fruit Num Color DF2 4 2013-11-25 Apple 22.1 Red 5 2013-11-25 Orange 8.6 Orange

fnl · Answer

S'appuyant sur la réponse d'alko qui a presque fonctionné pour moi, à l'exception de l'étape de filtrage (où je reçois: ValueError: cannot reindex from a duplicate axis), voici la solution finale que j'ai utilisée:

# join the dataframes united_data = pd.concat([data1, data2, data3, ...]) # group the data by the whole row to find duplicates united_data_grouped = united_data.groupby(list(united_data.columns)) # detect the row indices of unique rows uniq_data_idx = [x[0] for x in united_data_grouped.indices.values() if len(x) == 1] # extract those unique values uniq_data = united_data.iloc[uniq_data_idx]

eyquem · Answer

J'ai cette solution. Est-ce que cela vous aide?

text = """df1: 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green df2: 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green 2013-11-25 Apple 22.1 Red 2013-11-25 Orange 8.6 Orange argetz45 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 118.6 Orange 2013-11-24 Apple 74.6 Green 2013-11-24 Celery 10.2 Green 2013-11-25 Nuts 45.8 Brown 2013-11-25 Apple 22.1 Red 2013-11-25 Orange 8.6 Orange 2013-11-26 Pear 102.54 Pale"""

.

from collections import OrderedDict import re r = re.compile('([a-zA-Z\d]+).*
' '(20\d\d-[01]\d-[0123]\d.+
?' '(.+
?)*)' '(?=[ 
]*\Z' '|' '
+[a-zA-Z\d]+.*
' '20\d\d-[01]\d-[0123]\d)') r2 = re.compile('((20\d\d-[01]\d-[0123]\d) +([^\d.]+)(?<! )[^
]+)') d = OrderedDict() bef = [] for m in r.finditer(text): li = [] for x in r2.findall(m.group(2)): if not any(x[1:3]==elbef for elbef in bef): bef.append(x[1:3]) li.append(x[0]) d[m.group(1)] = li for name,lu in d.iteritems(): print '%s
%s
' % (name,'
'.join(lu))

résultat

df1 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green df2 2013-11-25 Apple 22.1 Red 2013-11-25 Orange 8.6 Orange argetz45 2013-11-25 Nuts 45.8 Brown 2013-11-26 Pear 102.54 Pale

SpeedCoder5 · Answer

# given df1=pd.DataFrame({'Date':['2013-11-24','2013-11-24','2013-11-24','2013-11-24'], 'Fruit':['Banana','Orange','Apple','Celery'], 'Num':[22.1,8.6,7.6,10.2], 'Color':['Yellow','Orange','Green','Green']}) df2=pd.DataFrame({'Date':['2013-11-24','2013-11-24','2013-11-24','2013-11-24','2013-11-25','2013-11-25'], 'Fruit':['Banana','Orange','Apple','Celery','Apple','Orange'], 'Num':[22.1,8.6,7.6,1000,22.1,8.6], 'Color':['Yellow','Orange','Green','Green','Red','Orange']}) # find which rows are in df2 that aren't in df1 by Date and Fruit df_2notin1 = df2[~(df2['Date'].isin(df1['Date']) & df2['Fruit'].isin(df1['Fruit']) )].dropna().reset_index(drop=True) # output print('df_2notin1
', df_2notin1) # Color Date Fruit Num # 0 Red 2013-11-25 Apple 22.1 # 1 Orange 2013-11-25 Orange 8.6

ntg · Answer

Il existe une solution plus simple, plus rapide et meilleure, Et si les chiffres sont différents, vous pouvez même obtenir des différences de quantités:

df1_i = df1.set_index(['Date','Fruit','Color']) df2_i = df2.set_index(['Date','Fruit','Color']) df_diff = df1_i.join(df2_i,how='outer',rsuffix='_').fillna(0) df_diff = (df_diff['Num'] - df_diff['Num_'])

Ici, df_diff est un résumé des différences. Vous pouvez même l'utiliser pour trouver les différences de quantités. Dans votre exemple:

Explication: De même que pour comparer deux listes, pour le faire efficacement, nous devons d’abord les commander, puis les comparer (la conversion de la liste en ensembles/hachage serait également rapide; les deux sont une amélioration incroyable du simple O (N ^ 2) double boucle de comparaison

Remarque: le code suivant produit les tables:

df1=pd.DataFrame({ 'Date':['2013-11-24','2013-11-24','2013-11-24','2013-11-24'], 'Fruit':['Banana','Orange','Apple','Celery'], 'Num':[22.1,8.6,7.6,10.2], 'Color':['Yellow','Orange','Green','Green'], }) df2=pd.DataFrame({ 'Date':['2013-11-24','2013-11-24','2013-11-24','2013-11-24','2013-11-25','2013-11-25'], 'Fruit':['Banana','Orange','Apple','Celery','Apple','Orange'], 'Num':[22.1,8.6,7.6,10.2,22.1,8.6], 'Color':['Yellow','Orange','Green','Green','Red','Orange'], })

gandreoti · Answer

Un détail important à noter est que vos données ont les valeurs d'index dupliquées , donc pour effectuer une comparaison simple, nous devons tout rendre unique avec df.reset_index() et par conséquent nous pouvons effectuer des sélections en fonction de conditions. Une fois que dans votre cas l'index est défini, je suppose que vous souhaitez conserver l'index afin qu'il existe une solution sur une ligne:

[~df2.reset_index().isin(df1.reset_index())].dropna().set_index('Date')

Une fois que l'objectif d'un point de vue Pythonic est d'améliorer la lisibilité, nous pouvons casser un peu:

# keep the index name, if it does not have a name it uses the default name index_name = df.index.name if df.index.name else 'index' # setting the index to become unique df1 = df1.reset_index() df2 = df2.reset_index() # getting the differences to a Dataframe df_diff = df2[~df2.isin(df1)].dropna().set_index(index_name)

Carson Arucard · Answer

J'espère que cela vous sera utile. ^ o ^

df1 = pd.DataFrame({'date': ['0207', '0207'], 'col1': [1, 2]}) df2 = pd.DataFrame({'date': ['0207', '0207', '0208', '0208'], 'col1': [1, 2, 3, 4]}) print(f"df1(Before):
{df1}
df2:
{df2}") """ df1(Before): date col1 0 0207 1 1 0207 2 df2: date col1 0 0207 1 1 0207 2 2 0208 3 3 0208 4 """ old_set = set(df1.index.values) new_set = set(df2.index.values) new_data_index = new_set - old_set new_data_list = [] for idx in new_data_index: new_data_list.append(df2.loc[idx]) if len(new_data_list) > 0: df1 = df1.append(new_data_list) print(f"df1(After):
{df1}") """ df1(After): date col1 0 0207 1 1 0207 2 2 0208 3 3 0208 4 """