pyspark collect_set ou collect_list avec groupby

Question

Comment puis-je utiliser collect_set Ou collect_list Sur une trame de données après groupby. par exemple: df.groupby('key').collect_set('values'). Je reçois une erreur: AttributeError: 'GroupedData' object has no attribute 'collect_set'

ksindi · Accepted Answer

Vous devez utiliser agg. Exemple:

from pyspark import SparkContext from pyspark.sql import HiveContext from pyspark.sql import functions as F sc = SparkContext("local") sqlContext = HiveContext(sc) df = sqlContext.createDataFrame([ ("a", None, None), ("a", "code1", None), ("a", "code2", "name2"), ], ["id", "code", "name"]) df.show() +---+-----+-----+ | id| code| name| +---+-----+-----+ | a| null| null| | a|code1| null| | a|code2|name2| +---+-----+-----+

Notez ci-dessus que vous devez créer un HiveContext. Voir https://stackoverflow.com/a/35529093/6904 pour traiter avec différentes versions Spark.

(df .groupby("id") .agg(F.collect_set("code"), F.collect_list("name")) .show()) +---+-----------------+------------------+ | id|collect_set(code)|collect_list(name)| +---+-----------------+------------------+ | a| [code1, code2]| [name2]| +---+-----------------+------------------+