Pyspark Enregistrer le cadre de données sur S3

Question

Je veux enregistrer dataframe sur s3, mais lorsque je sauvegarde le fichier sur s3, il crée un fichier vide avec ${folder_name}, dans lequel je souhaite enregistrer le fichier.

Syntaxe pour enregistrer le dataframe: -

f.write.parquet("s3n://bucket-name/shri/test")

Il enregistre le fichier dans le dossier test mais crée $test sous shri.

Est-il possible de le sauvegarder sans créer ce dossier supplémentaire?

Usman Azhar · Answer

J'ai pu le faire en utilisant le code ci-dessous.

df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite")

Shrikant · Answer

J'ai trouvé un poste similaire sur la pile, voici le lien. Il a répondu à la question.

Fichier de sortie de Junk Spark sur S3 avec des signes dollar

Bob Swain · Answer

À ma connaissance, il n’existe aucun moyen de contrôler la dénomination des fichiers de parquet. Lorsque vous écrivez une image de données dans un parquet, vous spécifiez le nom du répertoire et spark crée les fichiers de parquet appropriés dans ce répertoire.