web-dev-qa-db-fra.com

Affichage du contenu d'une colonne Spark Dataframe

J'utilise Spark 1.3.1.

J'essaie de visualiser les valeurs d'une colonne Spark dataframe en Python. Avec un Spark dataframe, je peux faire df.collect() pour afficher le contenu du dataframe, mais il n'y a pas une telle méthode pour une colonne Spark dataframe du mieux que je peux voir.

Par exemple, le cadre de données df contient une colonne nommée 'Zip_code'. Je peux donc faire df['Zip_code'] et ça tourne un pyspark.sql.dataframe.Column tapez, mais je ne trouve pas de moyen d'afficher les valeurs dans df['Zip_code'].

26
John Lin

Vous pouvez accéder au RDD sous-jacent et le mapper dessus

df.rdd.map(lambda r: r.Zip_code).collect()

Vous pouvez également utiliser select si les résultats encapsulés à l'aide d'objets Row ne vous dérangent pas:

df.select('Zip_code').collect()

Enfin, si vous souhaitez simplement inspecter le contenu, la méthode show devrait suffire:

df.select('Zip_code').show()
29
zero323

Pour afficher le contenu complet:

df.select("raw").take(1).foreach(println)

(show vous montrera un aperçu).

2
Thomas Decaux