web-dev-qa-db-fra.com

Lequel choisir Apache Oozie ou Apache Airflow? Besoin d'une comparaison

Je suis nouveau dans les planificateurs de travaux et recherchais un pour exécuter des travaux sur un cluster de Big Data. J'étais assez confus avec les choix disponibles. Trouvé Oozie pour avoir de nombreuses limitations par rapport à celles déjà existantes telles que TWS, Autosys, etc.

Besoin de quelques points de comparaison sur Oozie vs Airflow.

Apprécier ton aide.

16
Vishal786btc

D'après mon expérience, Airflow est le meilleur pipeline de données en ce moment. Il est le mieux adapté pour gérer des workflows complexes et de longue durée. L'interface utilisateur et la modularité sont au-dessus.

Débit d'air

  • + Python Code pour les DAGs
  • + Dispose de connecteurs pour tous les principaux fournisseurs de services/cloud
  • + Plus polyvalent
  • + Mesures avancées
  • + Meilleure interface utilisateur et API
  • + Capable de créer des workflows extrêmement complexes
  • + Jinja Templating
  • + Peut être utilisé comme orchestrateur pour l'écosystème Tensorflow Extended
  • = Peut être parallélisé
  • = Connexions natives à HDFS, Hive, PIG etc.
  • = Graphique en DAG

Oozie

  • --- Java ou XML pour les DAGs
  • - difficile de construire des pipelines complexes
  • - communauté plus petite et moins active
  • - pire interface graphique Web
  • - Java API
  • = Peut être parallélisé
  • = Connexions natives à HDFS, Hive, PIG etc.
  • = Graphique en DAG

Comme vous le voyez, Airflow est une option plus facile à utiliser (en particulier dans une grande équipe heteregenoeus), plus polyvalente et puissante que Oozie.

Comme je l'ai dit: optez pour Airflow.

Article que vous pourriez trouver intéressant

20