web-dev-qa-db-fra.com

Où est la référence pour les options d'écriture ou de lecture par format?

J'utilise Spark 1.6.1.

Nous essayons d'écrire un fichier ORC sur HDFS à l'aide de HiveContext et DataFrameWriter. Bien que nous puissions utiliser

df.write().orc(<path>)

nous préférons faire quelque chose comme

df.write().options(Map("format" -> "orc", "path" -> "/some_path")

C'est pour que nous ayons la flexibilité de changer le format ou le chemin racine en fonction de l'application qui utilise cette bibliothèque d'assistance. Où pouvons-nous trouver une référence aux options qui peuvent être passées dans DataFrameWriter? Je n'ai rien trouvé dans les documents ici

https://spark.Apache.org/docs/1.6.0/api/Java/org/Apache/spark/sql/DataFrameWriter.html#options (Java.util.Map)

13
Satyam

Où pouvons-nous trouver une référence aux options qui peuvent être passées dans DataFrameWriter?

La réponse la plus définitive et faisant autorité sont les sources :

Une description que vous pouvez trouver dans les documents, mais il n'y a pas une seule page (qui pourrait éventuellement être générée automatiquement à partir des sources pour rester le plus à jour).

La raison étant que les options sont séparées de l'implémentation du format exprès pour avoir la flexibilité que vous souhaitez offrir par cas d'utilisation (comme vous l'avez dûment noté):

C'est pour que nous ayons la flexibilité de changer le format ou le chemin racine en fonction de l'application qui utilise cette bibliothèque d'assistance.


Votre question semble similaire à Comment connaître les formats de fichiers pris en charge par Databricks? où j'ai dit:

Où puis-je obtenir la liste des options prises en charge pour chaque format de fichier?

Ce n'est pas possible car il n'y a pas API à suivre (comme dans Spark MLlib) pour définir les options. Chaque format ne cela seul ... malheureusement et votre meilleur pari est de lire la documentation ou (plus faisant autorité) le code source.

17
Jacek Laskowski