web-dev-qa-db-fra.com

Syntaxe lors de la définition du schéma pour Pyspark.sql à l'aide de StructType

Je suis nouveau à spark et jouais avec Pyspark.sql. Selon la documentation de pyspark.sql ici , on peut aller sur la définition de Spark dataframe et schéma comme ceci:

rdd = sc.textFile('./some csv_to_play_around.csv'

schema = StructType([StructField('Name', StringType(), True),
                     StructField('DateTime', TimestampType(), True)
                     StructField('Age', IntegerType(), True)])

# create dataframe
df3 = sqlContext.createDataFrame(rdd, schema)

Ma question est, que signifie le True dans la liste schema ci-dessus? Je n'arrive pas à le trouver dans la documentation. Merci d'avance

16
Jason

Cela signifie que si la colonne autorise les valeurs nulles, true pour nullable et false pour non nullable

StructField (nom, dataType, nullable): représente un champ dans un StructType. Le nom d'un champ est indiqué par son nom. Le type de données d'un champ est indiqué par dataType. nullable est utilisé pour indiquer si les valeurs de ces champs peuvent avoir des valeurs nulles.

Reportez-vous à Spark SQL et DataFrame Guide pour plus d'informations.

17
yjshen