Filtrage de DataFrame en utilisant la longueur d'une colonne

Question

Je veux filtrer une DataFrame en utilisant une condition liée à la longueur d'une colonne, cette question peut être très simple, mais je n'ai trouvé aucune question connexe dans l'OS.

Plus spécifiquement, j'ai une DataFrame avec seulement une Column laquelle de ArrayType(StringType()), je veux filtrer la DataFrame en utilisant la longueur comme filtre, j'ai tiré un extrait ci-dessous.

df = sqlContext.read.parquet("letters.parquet") df.show() # The output will be # +------------+ # | tokens| # +------------+ # |[L, S, Y, S]| # |[L, V, I, S]| # |[I, A, N, A]| # |[I, L, S, A]| # |[E, N, N, Y]| # |[E, I, M, A]| # |[O, A, N, A]| # | [S, U, S]| # +------------+ # But I want only the entries with length 3 or less fdf = df.filter(len(df.tokens) <= 3) fdf.show() # But it says that the TypeError: object of type 'Column' has no len(), so the previous statement is obviously incorrect.

J'ai lu Documentation de la colonne , mais je n'ai trouvé aucun bien utile à cet égard. J'apprécie toute aide!

zero323 · Accepted Answer

Dans Spark> = 1.5, vous pouvez utiliser size function:

from pyspark.sql.functions import col, size df = sqlContext.createDataFrame([ (["L", "S", "Y", "S"], ), (["L", "V", "I", "S"], ), (["I", "A", "N", "A"], ), (["I", "L", "S", "A"], ), (["E", "N", "N", "Y"], ), (["E", "I", "M", "A"], ), (["O", "A", "N", "A"], ), (["S", "U", "S"], )], ("tokens", )) df.where(size(col("tokens")) <= 3).show() ## +---------+ ## | tokens| ## +---------+ ## |[S, U, S]| ## +---------+

Dans Spark <1.5, une FDU devrait faire l'affaire:

from pyspark.sql.types import IntegerType from pyspark.sql.functions import udf size_ = udf(lambda xs: len(xs), IntegerType()) df.where(size_(col("tokens")) <= 3).show() ## +---------+ ## | tokens| ## +---------+ ## |[S, U, S]| ## +---------+

Si vous utilisez HiveContext, alors size UDF avec du SQL brut devrait fonctionner avec n’importe quelle version:

df.registerTempTable("df") sqlContext.sql("SELECT * FROM df WHERE size(tokens) <= 3").show() ## +--------------------+ ## | tokens| ## +--------------------+ ## |ArrayBuffer(S, U, S)| ## +--------------------+

Pour les colonnes de chaîne, vous pouvez utiliser une fonction udf définie ci-dessus ou length:

from pyspark.sql.functions import length df = sqlContext.createDataFrame([("fooo", ), ("bar", )], ("k", )) df.where(length(col("k")) <= 3).show() ## +---+ ## | k| ## +---+ ## |bar| ## +---+

mputha · Answer

Voici un exemple pour String in scala:

val stringData = Seq(("Maheswara"), ("Mokshith")) val df = sc.parallelize(stringData).toDF df.where((length($"value")) <= 8).show +--------+ | value| +--------+ |Mokshith| +--------+ df.withColumn("length", length($"value")).show +---------+------+ | value|length| +---------+------+ |Maheswara| 9| | Mokshith| 8| +---------+------+

mputha · Answer

@AlbertoBonsanto: les filtres de code ci-dessous sont basés sur la taille du tableau:

val input = Seq(("a1,a2,a3,a4,a5"), ("a1,a2,a3,a4"), ("a1,a2,a3"), ("a1,a2"), ("a1")) val df = sc.parallelize(input).toDF("tokens") val tokensArrayDf = df.withColumn("tokens", split($"tokens", ",")) tokensArrayDf.show +--------------------+ | tokens| +--------------------+ |[a1, a2, a3, a4, a5]| | [a1, a2, a3, a4]| | [a1, a2, a3]| | [a1, a2]| | [a1]| +--------------------+ tokensArrayDf.filter(size($"tokens") > 3).show +--------------------+ | tokens| +--------------------+ |[a1, a2, a3, a4, a5]| | [a1, a2, a3, a4]| +--------------------+