web-dev-qa-db-fra.com

Comment afficher le contenu complet d'une colonne dans un Dataframe Spark?

J'utilise spark-csv pour charger des données dans un DataFrame. Je veux faire une requête simple et afficher le contenu:

val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv")
df.registerTempTable("tasks")
results = sqlContext.sql("select col from tasks");
results.show()

Le col semble tronqué:

scala> results.show();
+--------------------+
|                 col|
+--------------------+
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-06 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
+--------------------+

Comment afficher le contenu complet de la colonne?

153
tracer

results.show(20, false) ne sera pas tronqué. Vérifiez le source

290
TomTom101

Si vous mettez results.show(false), les résultats ne seront pas tronqués

27
Narendra Parmar

Les autres solutions sont bonnes. Si ce sont vos objectifs:

  1. Pas de troncature de colonnes,
  2. Pas de perte de lignes,
  3. Vite et
  4. Efficace

Ces deux lignes sont utiles ...

    df.persist
    df.show(df.count, false) // in Scala or 'False' in Python

En persistant, les deux actions de l'exécuteur, count et show, sont plus rapides et plus efficaces lorsque vous utilisez persist ou cache pour conserver la structure de trame de données sous-jacente provisoire au sein des exécuteurs. En savoir plus sur persist et cache .

12
codeaperature

Le code ci-dessous aiderait à afficher toutes les lignes sans troncature dans chaque colonne

df.show(df.count(), False)
12
MoeChen

results.show(20, False) ou results.show(20, false) selon que vous l'exécutez sous Java/Scala/Python

9
Deepak Babu P R

results.show(false) vous montrera le contenu complet de la colonne.

Show méthode par défaut limite à 20, et l'ajout d'un nombre avant false affichera plus de lignes.

3
Chetan Tamballa

essayez cette commande:

df.show(df.count())
1
epic_last_song

Dans Databricks , vous pouvez visualiser le cadre de données dans un format tabulaire. Avec la commande:

display(results)

Ça va ressembler

enter image description here

1
Ignacio Alorre

results.show(20,false) a fait le tour pour moi en Scala.

1
SKA

J'utilise l'extension plugin Chrome qui fonctionne plutôt bien:

[ https://userstyles.org/styles/157357/jupyter-notebook-wide] [1]

0
KeepLearning