web-dev-qa-db-fra.com

Apache Spark vs Apache Spark 2

Quelles sont les améliorations apportées par Apache Spark2 par rapport à Apache Spark?

  1. Du point de vue de l'architecture
  2. Du point de vue de l'application
  3. ou plus
11
YoungHobbit

Apache Spark 2.0.0 Les API sont restées largement similaires à 1.X, Spark 2.0.0 a des changements de rupture d'API)

Apache Spark 2.0.0 est la première version de la ligne 2.x. Les principales mises à jour sont Utilisation de l'API, prise en charge de SQL 2003, améliorations des performances, streaming structuré, prise en charge R UDF, ainsi que des améliorations opérationnelles.

Nouveau dans spark 2:

  • Le plus grand changement que je puisse voir est que les API DataSet et DataFrame seront fusionnées.
  • Le dernier et le meilleur de Spark sera beaucoup plus efficace que les précédents. Spark 2.0 va se concentrer sur une combinaison de Parquet et de mise en cache pour atteindre débit encore meilleur.
  • Le streaming structuré est une autre grande chose!
  • Ce sera la première version qui se concentrera sur ETL. Les versions successives ajouteront plus d'opérateurs et de bibliothèques pour ETL

Vous pouvez passer par Spark version 2.0. où les mises à jour dans les points suivants sont expliquées:

  • Stabilité de l'API
  • Core et Spark SQL
  • MLlib
  • SparkR
  • Diffusion
  • Dépendance, emballage et opérations
  • Suppressions, changements de comportement et dépréciations
  • Problèmes connus
11
bob

Il n'y a pas beaucoup de différence en ce qui concerne l'architecture car la coquille est toujours DAG et RDD, ce qui est la partie la plus importante!

Bien que Spark 2.0 est beaucoup plus optimisé et dispose de DataSet Api qui donne beaucoup plus de puissance aux mains des développeurs. Je dirais donc que l'architecture est la même, c'est juste le Spark 2.0 fournit beaucoup optimisé et dispose d'un riche ensemble d'Api!

Ce sont les principales choses qui sont fournies par Apache Spark 2.0:

  • Le plus grand changement que je puisse voir est que les API DataSet et DataFrame seront fusionnées.
  • Le dernier et le meilleur de Spark sera beaucoup plus efficace que les précédents. Spark 2.0 va se concentrer sur une combinaison de Parquet et de mise en cache pour atteindre débit encore meilleur.
  • Le streaming structuré est une autre grande chose!
  • Ce sera la première version qui se concentrera sur ETL. Les versions successives ajouteront plus d'opérateurs et de bibliothèques pour ETL

Pour plus d'informations, veuillez prendre un coup d'œil ici: https://www.quora.com/What-are-special-features-and-advantages-of-Apache-Spark-2-0-over-earlier-versions

5
Shiv4nsh