Inclure des valeurs nulles dans un Apache Spark Join

Question

Je voudrais inclure des valeurs null dans un Apache Spark rejoindre. Spark n'inclut pas les lignes avec null par défaut.

Voici le comportement par défaut Spark.

val numbersDf = Seq( ("123"), ("456"), (null), ("") ).toDF("numbers") val lettersDf = Seq( ("123", "abc"), ("456", "def"), (null, "zzz"), ("", "hhh") ).toDF("numbers", "letters") val joinedDf = numbersDf.join(lettersDf, Seq("numbers"))

Voici le résultat de joinedDf.show():

+-------+-------+ |numbers|letters| +-------+-------+ | 123| abc| | 456| def| | | hhh| +-------+-------+

Ceci est la sortie que je voudrais:

+-------+-------+ |numbers|letters| +-------+-------+ | 123| abc| | 456| def| | | hhh| | null| zzz| +-------+-------+

user6910411 · Accepted Answer

Spark fournit un opérateur spécial NULL égalité de sécurité:

numbersDf .join(lettersDf, numbersDf("numbers") <=> lettersDf("numbers")) .drop(lettersDf("numbers"))

+-------+-------+ |numbers|letters| +-------+-------+ | 123| abc| | 456| def| | null| zzz| | | hhh| +-------+-------+

Veillez à ne pas l'utiliser avec Spark 1.5 ou version antérieure. Avant Spark 1.6, il fallait un produit cartésien ( SPARK-11111 - Jointure rapide null-safe).

Dans Spark 2.3.0 ou une version ultérieure, vous pouvez utiliser Column.eqNullSafe in PySpark :

numbers_df = sc.parallelize([ ("123", ), ("456", ), (None, ), ("", ) ]).toDF(["numbers"]) letters_df = sc.parallelize([ ("123", "abc"), ("456", "def"), (None, "zzz"), ("", "hhh") ]).toDF(["numbers", "letters"]) numbers_df.join(letters_df, numbers_df.numbers.eqNullSafe(letters_df.numbers))

+-------+-------+-------+ |numbers|numbers|letters| +-------+-------+-------+ | 456| 456| def| | null| null| zzz| | | | hhh| | 123| 123| abc| +-------+-------+-------+

et %<=>% dans SparkR :

numbers_df <- createDataFrame(data.frame(numbers = c("123", "456", NA, ""))) letters_df <- createDataFrame(data.frame( numbers = c("123", "456", NA, ""), letters = c("abc", "def", "zzz", "hhh") )) head(join(numbers_df, letters_df, numbers_df$numbers %<=>% letters_df$numbers))

 numbers numbers letters 1 456 456 def 2 <NA> <NA> zzz 3 hhh 4 123 123 abc

Avec [~ # ~] sql [~ # ~] ( Spark 2.2.0 + ) vous pouvez utiliser IS NOT DISTINCT FROM:

SELECT * FROM numbers JOIN letters ON numbers.numbers IS NOT DISTINCT FROM letters.numbers

Ceci peut également être utilisé avec DataFrame API:

numbersDf.alias("numbers") .join(lettersDf.alias("letters")) .where("numbers.numbers IS NOT DISTINCT FROM letters.numbers")

jasonS · Answer

val numbers2 = numbersDf.withColumnRenamed("numbers","num1") //rename columns so that we can disambiguate them in the join val letters2 = lettersDf.withColumnRenamed("numbers","num2") val joinedDf = numbers2.join(letters2, $"num1" === $"num2" || ($"num1".isNull && $"num2".isNull) ,"outer") joinedDf.select("num1","letters").withColumnRenamed("num1","numbers").show //rename the columns back to the original names