web-dev-qa-db-fra.com

comment créer DataFrame à partir de plusieurs tableaux dans Spark Scala?

val tvalues: Array[Double] = Array(1.866393526974307, 2.864048126935307, 4.032486069215076, 7.876169953355888, 4.875333799256043, 14.316322626848278)
val pvalues: Array[Double] = Array(0.064020056478447, 0.004808399479386827, 8.914865448939047E-5, 7.489564524121306E-13, 2.8363794106756046E-6, 0.0)

J'ai deux tableaux comme ci-dessus, j'ai besoin de construire un DataFrame à partir de ces tableaux comme suit,

Tvalues                Pvalues
1.866393526974307      0.064020056478447
2.864048126935307      0.004808399479386827
......                 .....

À partir de maintenant, j'essaie avec StringBuilder dans Scala. qui ne se passe pas comme prévu. aidez-moi s'il vous plaît.

11
Sam

Essayez par exemple

val df = sc.parallelize(tpvalues Zip pvalues).toDF("Tvalues","Pvalues")

et ainsi

scala> df.show
+------------------+--------------------+
|          Tvalues|             Pvalues|
+------------------+--------------------+
| 1.866393526974307|   0.064020056478447|
| 2.864048126935307|0.004808399479386827|
| 4.032486069215076|8.914865448939047E-5|
| 7.876169953355888|7.489564524121306...|
| 4.875333799256043|2.836379410675604...|
|14.316322626848278|                 0.0|
+------------------+--------------------+

En utilisant parallelize nous obtenons un RDD de tuples - le premier élément du premier tableau, le deuxième élément de l'autre tableau -, qui est transformé en une trame de données de lignes, une ligne pour chaque tuple.

Mise à jour

Pour dataframe'ing plusieurs tableaux (tous avec la même taille), par exemple 4 tableaux, considérez

case class Row(i: Double, j: Double, k: Double, m: Double)

val xs = Array(arr1, arr2, arr3, arr4).transpose
val rdd = sc.parallelize(xs).map(ys => Row(ys(0), ys(1), ys(2), ys(3))
val df = rdd.toDF("i","j","k","m")
12
elm