Spark: création par programme d'un schéma de structure de données dans scala

Question

J'ai un petit ensemble de données qui sera le résultat d'un travail Spark. Je songe à convertir cet ensemble de données en un bloc de données pour plus de commodité à la fin du travail, mais je me suis efforcé de définir correctement le schéma. Le problème est le dernier champ ci-dessous (topValues); c'est un ArrayBuffer de tuples - clés et compte.

 val innerSchema = StructType( Array( StructField("value", StringType), StructField("count", LongType) ) ) val outputSchema = StructType( Array( StructField("name", StringType, nullable=false), StructField("index", IntegerType, nullable=false), StructField("count", LongType, nullable=false), StructField("empties", LongType, nullable=false), StructField("nulls", LongType, nullable=false), StructField("uniqueValues", LongType, nullable=false), StructField("mean", DoubleType), StructField("min", DoubleType), StructField("max", DoubleType), StructField("topValues", innerSchema) ) ) val result = stats.columnStats.map{ c => Row(c._2.name, c._1, c._2.count, c._2.empties, c._2.nulls, c._2.uniqueValues, c._2.mean, c._2.min, c._2.max, c._2.topValues.topN) } val rdd = sc.parallelize(result.toSeq) val outputDf = sqlContext.createDataFrame(rdd, outputSchema) outputDf.show()

L'erreur que je reçois est un MatchError: scala.MatchError: ArrayBuffer((10,2), (20,3), (8,1)) (of class scala.collection.mutable.ArrayBuffer)

Lorsque je débogue et inspecte mes objets, je vois ceci:

rdd: ParallelCollectionRDD[2] rdd.data: "ArrayBuffer" size = 2 rdd.data(0): [age,2,6,0,0,3,14.666666666666666,8.0,20.0,ArrayBuffer((10,2), (20,3), (8,1))] rdd.data(1): [gender,3,6,0,0,2,0.0,0.0,0.0,ArrayBuffer((M,4), (F,2))]

Il me semble que j'ai décrit avec précision le ArrayBuffer de n-uplets dans mon schema intérieur, mais Spark n'est pas d'accord.

Une idée de comment je devrais définir le schéma?

David Griffin · Accepted Answer

val rdd = sc.parallelize(Array(Row(ArrayBuffer(1,2,3,4)))) val df = sqlContext.createDataFrame( rdd, StructType(Seq(StructField("arr", ArrayType(IntegerType, false), false) ) df.printSchema root |-- arr: array (nullable = false) | |-- element: integer (containsNull = false) df.show +------------+ | arr| +------------+ |[1, 2, 3, 4]| +------------+

Stuart · Answer

Comme David l'a souligné, je devais utiliser un ArrayType. Spark est content de ça:

 val outputSchema = StructType( Array( StructField("name", StringType, nullable=false), StructField("index", IntegerType, nullable=false), StructField("count", LongType, nullable=false), StructField("empties", LongType, nullable=false), StructField("nulls", LongType, nullable=false), StructField("uniqueValues", LongType, nullable=false), StructField("mean", DoubleType), StructField("min", DoubleType), StructField("max", DoubleType), StructField("topValues", ArrayType(StructType(Array( StructField("value", StringType), StructField("count", LongType) )))) ) )

Arun Goudar · Answer

import spark.implicits._ import org.Apache.spark.sql.types._ import org.Apache.spark.sql.functions._ val searchPath = "/path/to/.csv" val columns = "col1,col2,col3,col4,col5,col6,col7" val fields = columns.split(",").map(fieldName => StructField(fieldName, StringType, nullable = true)) val customSchema = StructType(fields) var dfPivot =spark.read.format("com.databricks.spark.csv").option("header","false").option("inferSchema", "false").schema(customSchema).load(searchPath)

Lorsque vous chargez les données avec un schéma personnalisé, cela sera beaucoup plus rapide que de charger des données avec un schéma par défaut