Pyspark: Filtrer le cadre de données en fonction de plusieurs conditions

Question

Je veux filtrer dataframe selon les conditions suivantes d’une part (d <5) et d’autre part (la valeur de col2 n’est pas égale à sa contrepartie dans col4 si la valeur dans col1 est égale à sa contrepartie dans col3).

Si le cadre de données d'origine DF est le suivant:

+----+----+----+----+---+ |col1|col2|col3|col4| d| +----+----+----+----+---+ | A| xx| D| vv| 4| | C| xxx| D| vv| 10| | A| x| A| xx| 3| | E| xxx| B| vv| 3| | E| xxx| F| vvv| 6| | F|xxxx| F| vvv| 4| | G| xxx| G| xxx| 4| | G| xxx| G| xx| 4| | G| xxx| G| xxx| 12| | B|xxxx| B| xx| 13| +----+----+----+----+---+

La Dataframe souhaitée est:

+----+----+----+----+---+ |col1|col2|col3|col4| d| +----+----+----+----+---+ | A| xx| D| vv| 4| | A| x| A| xx| 3| | E| xxx| B| vv| 3| | F|xxxx| F| vvv| 4| | G| xxx| G| xx| 4| +----+----+----+----+---+

Code que j'ai essayé et qui n'a pas fonctionné comme prévu:

cols=[('A','xx','D','vv',4),('C','xxx','D','vv',10),('A','x','A','xx',3),('E','xxx','B','vv',3),('E','xxx','F','vvv',6),('F','xxxx','F','vvv',4),('G','xxx','G','xxx',4),('G','xxx','G','xx',4),('G','xxx','G','xxx',12),('B','xxxx','B','xx',13)] df=spark.createDataFrame(cols,['col1','col2','col3','col4','d']) df.filter((df.d<5)& (df.col2!=df.col4) & (df.col1==df.col3)).show() +----+----+----+----+---+ |col1|col2|col3|col4| d| +----+----+----+----+---+ | A| x| A| xx| 3| | F|xxxx| F| vvv| 4| | G| xxx| G| xx| 4| +----+----+----+----+---+

Que dois-je faire pour obtenir le résultat souhaité?

pault · Accepted Answer

Votre condition logique est fausse. IIUC, ce que vous voulez c'est:

import pyspark.sql.functions as f df.filter((f.col('d')<5))\ .filter( ((f.col('col1') != f.col('col3')) | (f.col('col2') != f.col('col4')) & (f.col('col1') == f.col('col3'))) )\ .show()

J'ai cassé l'étape filter() en 2 appels de lisibilité, mais vous pouvez également le faire sur une seule ligne.

Sortie:

+----+----+----+----+---+ |col1|col2|col3|col4| d| +----+----+----+----+---+ | A| xx| D| vv| 4| | A| x| A| xx| 3| | E| xxx| B| vv| 3| | F|xxxx| F| vvv| 4| | G| xxx| G| xx| 4| +----+----+----+----+---+

ohke · Answer

Vous pouvez aussi écrire comme ci-dessous (sans pyspark.sql.functions):

df.filter('d<5 and (col1 <> col3 or (col1 = col3 and col2 <> col4))').show()

Résultat:

+----+----+----+----+---+ |col1|col2|col3|col4| d| +----+----+----+----+---+ | A| xx| D| vv| 4| | A| x| A| xx| 3| | E| xxx| B| vv| 3| | F|xxxx| F| vvv| 4| | G| xxx| G| xx| 4| +----+----+----+----+---+