comment filtrer une valeur nulle de spark dataframe

Question

J'ai créé un cadre de données dans spark avec le schéma suivant:

root |-- user_id: long (nullable = false) |-- event_id: long (nullable = false) |-- invited: integer (nullable = false) |-- day_diff: long (nullable = true) |-- interested: integer (nullable = false) |-- event_owner: long (nullable = false) |-- friend_id: long (nullable = false)

Et les données sont affichées ci-dessous:

+----------+----------+-------+--------+----------+-----------+---------+ | user_id| event_id|invited|day_diff|interested|event_owner|friend_id| +----------+----------+-------+--------+----------+-----------+---------+ | 4236494| 110357109| 0| -1| 0| 937597069| null| | 78065188| 498404626| 0| 0| 0| 2904922087| null| | 282487230|2520855981| 0| 28| 0| 3749735525| null| | 335269852|1641491432| 0| 2| 0| 1490350911| null| | 437050836|1238456614| 0| 2| 0| 991277599| null| | 447244169|2095085551| 0| -1| 0| 1579858878| null| | 516353916|1076364848| 0| 3| 1| 3597645735| null| | 528218683|1151525474| 0| 1| 0| 3433080956| null| | 531967718|3632072502| 0| 1| 0| 3863085861| null| | 627948360|2823119321| 0| 0| 0| 4092665803| null| | 811791433|3513954032| 0| 2| 0| 415464198| null| | 830686203| 99027353| 0| 0| 0| 3549822604| null| |1008893291|1115453150| 0| 2| 0| 2245155244| null| |1239364869|2824096896| 0| 2| 1| 2579294650| null| |1287950172|1076364848| 0| 0| 0| 3597645735| null| |1345896548|2658555390| 0| 1| 0| 2025118823| null| |1354205322|2564682277| 0| 3| 0| 2563033185| null| |1408344828|1255629030| 0| -1| 1| 804901063| null| |1452633375|1334001859| 0| 4| 0| 1488588320| null| |1625052108|3297535757| 0| 3| 0| 1972598895| null| +----------+----------+-------+--------+----------+-----------+---------+

Je veux filtrer les lignes ont des valeurs nulles dans le champ "ami_id".

scala> val aaa = test.filter("friend_id is null") scala> aaa.count

J'ai: res52: Long = 0 ce qui est évident pas correct. Quelle est la bonne façon de l'obtenir?

Une autre question, je veux remplacer les valeurs dans le champ friend_id. Je veux remplacer null avec 0 et 1 pour toute autre valeur sauf null. Le code que je peux comprendre est:

val aaa = train_friend_join.select($"user_id", $"event_id", $"invited", $"day_diff", $"interested", $"event_owner", ($"friend_id" != null)?1:0)

Ce code ne fonctionne pas non plus. Quelqu'un peut-il me dire comment puis-je résoudre ce problème? Merci

Sachin Tyagi · Accepted Answer

Disons que vous avez cette configuration de données (pour que les résultats soient reproductibles):

// declaring data types case class Company(cName: String, cId: String, details: String) case class Employee(name: String, id: String, email: String, company: Company) // setting up example data val e1 = Employee("n1", null, "n1@c1.com", Company("c1", "1", "d1")) val e2 = Employee("n2", "2", "n2@c1.com", Company("c1", "1", "d1")) val e3 = Employee("n3", "3", "n3@c1.com", Company("c1", "1", "d1")) val e4 = Employee("n4", "4", "n4@c2.com", Company("c2", "2", "d2")) val e5 = Employee("n5", null, "n5@c2.com", Company("c2", "2", "d2")) val e6 = Employee("n6", "6", "n6@c2.com", Company("c2", "2", "d2")) val e7 = Employee("n7", "7", "n7@c3.com", Company("c3", "3", "d3")) val e8 = Employee("n8", "8", "n8@c3.com", Company("c3", "3", "d3")) val employees = Seq(e1, e2, e3, e4, e5, e6, e7, e8) val df = sc.parallelize(employees).toDF

Les données sont:

+----+----+---------+---------+ |name| id| email| company| +----+----+---------+---------+ | n1|null|n1@c1.com|[c1,1,d1]| | n2| 2|n2@c1.com|[c1,1,d1]| | n3| 3|n3@c1.com|[c1,1,d1]| | n4| 4|n4@c2.com|[c2,2,d2]| | n5|null|n5@c2.com|[c2,2,d2]| | n6| 6|n6@c2.com|[c2,2,d2]| | n7| 7|n7@c3.com|[c3,3,d3]| | n8| 8|n8@c3.com|[c3,3,d3]| +----+----+---------+---------+

Maintenant, pour filtrer les employés avec null ids, vous ferez -

df.filter("id is null").show

qui vous montrera correctement ce qui suit:

+----+----+---------+---------+ |name| id| email| company| +----+----+---------+---------+ | n1|null|n1@c1.com|[c1,1,d1]| | n5|null|n5@c2.com|[c2,2,d2]| +----+----+---------+---------+

En ce qui concerne la deuxième partie de votre question, vous pouvez remplacer les null ids par 0 et les autres valeurs par 1 par ceci -

df.withColumn("id", when($"id".isNull, 0).otherwise(1)).show

Cela se traduit par:

+----+---+---------+---------+ |name| id| email| company| +----+---+---------+---------+ | n1| 0|n1@c1.com|[c1,1,d1]| | n2| 1|n2@c1.com|[c1,1,d1]| | n3| 1|n3@c1.com|[c1,1,d1]| | n4| 1|n4@c2.com|[c2,2,d2]| | n5| 0|n5@c2.com|[c2,2,d2]| | n6| 1|n6@c2.com|[c2,2,d2]| | n7| 1|n7@c3.com|[c3,3,d3]| | n8| 1|n8@c3.com|[c3,3,d3]| +----+---+---------+---------+

Adriana Lazar · Answer

Ou comme df.filter($"friend_id".isNotNull)

Michael Kopaniov · Answer

df.where(df.col("friend_id").isNull)

chAlexey · Answer

Une bonne solution pour moi était de supprimer les lignes contenant des valeurs nulles:

Dataset<Row> filtered = df.filter(row => !row.anyNull());

Si vous êtes intéressé par l’autre cas, appelez simplement row.anyNull(). (Spark 2.1.0 utilisant Java API)

Ayush Vatsyayan · Answer

Il y a deux façons de le faire: créer une condition de filtre 1) manuellement 2) dynamiquement.

Exemple de DataFrame:

val df = spark.createDataFrame(Seq( (0, "a1", "b1", "c1", "d1"), (1, "a2", "b2", "c2", "d2"), (2, "a3", "b3", null, "d3"), (3, "a4", null, "c4", "d4"), (4, null, "b5", "c5", "d5") )).toDF("id", "col1", "col2", "col3", "col4") +---+----+----+----+----+ | id|col1|col2|col3|col4| +---+----+----+----+----+ | 0| a1| b1| c1| d1| | 1| a2| b2| c2| d2| | 2| a3| b3|null| d3| | 3| a4|null| c4| d4| | 4|null| b5| c5| d5| +---+----+----+----+----+

1) Création manuelle de la condition de filtre c'est-à-dire utiliser la fonction DataFrame where ou filter

df.filter(col("col1").isNotNull && col("col2").isNotNull).show

ou

df.where("col1 is not null and col2 is not null").show

Résultat:

+---+----+----+----+----+ | id|col1|col2|col3|col4| +---+----+----+----+----+ | 0| a1| b1| c1| d1| | 1| a2| b2| c2| d2| | 2| a3| b3|null| d3| +---+----+----+----+----+

2) Création dynamique de la condition de filtrage: Ceci est utile lorsque nous ne voulons pas qu'une colonne ait une valeur nulle et qu'il y ait un grand nombre de colonnes, ce qui est généralement le cas.

Dans ces cas, la création manuelle de la condition de filtre perdra beaucoup de temps. Dans le code ci-dessous, nous incluons toutes les colonnes de manière dynamique à l'aide de la fonction map et reduce sur les colonnes DataFrame:

val filterCond = df.columns.map(x=>col(x).isNotNull).reduce(_ && _)

À quoi ressemble filterCond:

filterCond: org.Apache.spark.sql.Column = (((((id IS NOT NULL) AND (col1 IS NOT NULL)) AND (col2 IS NOT NULL)) AND (col3 IS NOT NULL)) AND (col4 IS NOT NULL))

Filtration:

val filteredDf = df.filter(filterCond)

Résultat:

+---+----+----+----+----+ | id|col1|col2|col3|col4| +---+----+----+----+----+ | 0| a1| b1| c1| d1| | 1| a2| b2| c2| d2| +---+----+----+----+----+

Andrushenko Alexander · Answer

Voici une solution pour spark en Java. Pour sélectionner des lignes de données contenant null. Lorsque vous avez des données de jeu de données, vous effectuez les opérations suivantes:

Dataset<Row> containingNulls = data.where(data.col("COLUMN_NAME").isNull())

Pour filtrer les données sans nulls vous faites:

Dataset<Row> withoutNulls = data.where(data.col("COLUMN_NAME").isNotNull())

Les dataframes contiennent souvent des colonnes de type String où, au lieu de NULL, nous avons des chaînes vides comme "". Pour filtrer ces données, nous faisons:

Dataset<Row> withoutNullsAndEmpty = data.where(data.col("COLUMN_NAME").isNotNull().and(data.col("COLUMN_NAME").notEqual("")))

mputha · Answer

pour la première question, il est exact que vous filtrez les valeurs nulles et que le nombre est égal à zéro.

pour le deuxième remplacement: utiliser comme ci-dessous:

val options = Map("path" -> "...\ex.csv", "header" -> "true") val dfNull = spark.sqlContext.load("com.databricks.spark.csv", options) scala> dfNull.show +----------+----------+-------+--------+----------+-----------+---------+ | user_id| event_id|invited|day_diff|interested|event_owner|friend_id| +----------+----------+-------+--------+----------+-----------+---------+ | 4236494| 110357109| 0| -1| 0| 937597069| null| | 78065188| 498404626| 0| 0| 0| 2904922087| null| | 282487230|2520855981| 0| 28| 0| 3749735525| null| | 335269852|1641491432| 0| 2| 0| 1490350911| null| | 437050836|1238456614| 0| 2| 0| 991277599| null| | 447244169|2095085551| 0| -1| 0| 1579858878| a| | 516353916|1076364848| 0| 3| 1| 3597645735| b| | 528218683|1151525474| 0| 1| 0| 3433080956| c| | 531967718|3632072502| 0| 1| 0| 3863085861| null| | 627948360|2823119321| 0| 0| 0| 4092665803| null| | 811791433|3513954032| 0| 2| 0| 415464198| null| | 830686203| 99027353| 0| 0| 0| 3549822604| null| |1008893291|1115453150| 0| 2| 0| 2245155244| null| |1239364869|2824096896| 0| 2| 1| 2579294650| d| |1287950172|1076364848| 0| 0| 0| 3597645735| null| |1345896548|2658555390| 0| 1| 0| 2025118823| null| |1354205322|2564682277| 0| 3| 0| 2563033185| null| |1408344828|1255629030| 0| -1| 1| 804901063| null| |1452633375|1334001859| 0| 4| 0| 1488588320| null| |1625052108|3297535757| 0| 3| 0| 1972598895| null| +----------+----------+-------+--------+----------+-----------+---------+ dfNull.withColumn("friend_idTmp", when($"friend_id".isNull, "1").otherwise("0")).drop($"friend_id").withColumnRenamed("friend_idTmp", "friend_id").show +----------+----------+-------+--------+----------+-----------+---------+ | user_id| event_id|invited|day_diff|interested|event_owner|friend_id| +----------+----------+-------+--------+----------+-----------+---------+ | 4236494| 110357109| 0| -1| 0| 937597069| 1| | 78065188| 498404626| 0| 0| 0| 2904922087| 1| | 282487230|2520855981| 0| 28| 0| 3749735525| 1| | 335269852|1641491432| 0| 2| 0| 1490350911| 1| | 437050836|1238456614| 0| 2| 0| 991277599| 1| | 447244169|2095085551| 0| -1| 0| 1579858878| 0| | 516353916|1076364848| 0| 3| 1| 3597645735| 0| | 528218683|1151525474| 0| 1| 0| 3433080956| 0| | 531967718|3632072502| 0| 1| 0| 3863085861| 1| | 627948360|2823119321| 0| 0| 0| 4092665803| 1| | 811791433|3513954032| 0| 2| 0| 415464198| 1| | 830686203| 99027353| 0| 0| 0| 3549822604| 1| |1008893291|1115453150| 0| 2| 0| 2245155244| 1| |1239364869|2824096896| 0| 2| 1| 2579294650| 0| |1287950172|1076364848| 0| 0| 0| 3597645735| 1| |1345896548|2658555390| 0| 1| 0| 2025118823| 1| |1354205322|2564682277| 0| 3| 0| 2563033185| 1| |1408344828|1255629030| 0| -1| 1| 804901063| 1| |1452633375|1334001859| 0| 4| 0| 1488588320| 1| |1625052108|3297535757| 0| 3| 0| 1972598895| 1| +----------+----------+-------+--------+----------+-----------+---------+

Robin Wang · Answer

D'après l'allusion de Michael Kopaniov, les œuvres ci-dessous

df.where(df("id").isNotNull).show

Steven Li · Answer

J'utilise le code suivant pour résoudre ma question. Ça marche. Mais comme nous le savons tous, je travaille sur les distances d'un pays pour le résoudre. Alors, y a-t-il un raccourci pour cela? Merci

def filter_null(field : Any) : Int = field match { case null => 0 case _ => 1 } val test = train_event_join.join( user_friends_pair, train_event_join("user_id") === user_friends_pair("user_id") && train_event_join("event_owner") === user_friends_pair("friend_id"), "left" ).select( train_event_join("user_id"), train_event_join("event_id"), train_event_join("invited"), train_event_join("day_diff"), train_event_join("interested"), train_event_join("event_owner"), user_friends_pair("friend_id") ).rdd.map{ line => ( line(0).toString.toLong, line(1).toString.toLong, line(2).toString.toLong, line(3).toString.toLong, line(4).toString.toLong, line(5).toString.toLong, filter_null(line(6)) ) }.toDF("user_id", "event_id", "invited", "day_diff", "interested", "event_owner", "creator_is_friend")