web-dev-qa-db-fra.com

Tarification d'AWS Glue par rapport à AWS EMR

Je fais une comparaison de prix entre AWS Glue et AWS EMR afin de choisir entre EMR et Glue.

J'ai considéré 6 DPU (4 vCPU + 16 Go de mémoire) avec ETL Job en cours d'exécution pendant 10 minutes pendant 30 jours. Les demandes de robot d'exploration attendues sont supposées être supérieures de 1 million au niveau gratuit et sont calculées à 1 $ pour le million de demandes supplémentaires.

Sur EMR, j'ai considéré m3.xlarge pour EC2 et EMR (prix à 0,266 $ et 0,070 $ respectivement) avec 6 nœuds, fonctionnant pendant 10 minutes pendant 30 jours.

En calculant pour un mois, je vois que AWS Glue se situe autour de 14,64 $, tandis que pour EMR, il se situe autour de 10,08 $. Je n'ai pas pris en compte d'autres dépenses supplémentaires telles que S3, RDS, Redshift, etc. & DEV Endpoint qui est facultatif, car mon objectif est de comparer les avantages du prix du travail ETL

On dirait que l'EMR est moins cher par rapport à AWS Glue. Le prix du DME est-il correct, quelqu'un peut-il suggérer s'il manque quelque chose? J'ai essayé le calculateur de prix AWS pour EMR, mais confus, et je ne sais pas si les heures normalisées y sont facturées.

Cordialement

Yuva

12
Yuva

Si vous utilisez Spot instance d'EMR au lieu de On-Demand cela coûtera 1/3 du prix à la demande et s'avérera beaucoup moins cher. AWS Glue n'a pas cet avantage tarifaire.

1
Srihari Karanth

Si votre infrastructure n'a pas besoin d'une mise à l'échelle drastique (et est principalement avec une configuration fixe), utilisez EMR. Mais si cela est nécessaire, Glue est un meilleur choix car il est sans serveur. En changeant simplement les DPU, votre infrastructure est mise à l'échelle. Cependant, dans EMR, vous devez décider du type de cluster, du nombre de nœuds et des règles de mise à l'échelle automatique. Pour chaque changement, vous devrez changer le script de création de cluster, le tester, le déployer - ajouter essentiellement des frais généraux de cycle de publication standard pour le changement. Avec le changement dans la configuration infra, vous voudrez peut-être changer spark config pour optimiser les travaux en conséquence. Ainsi, le temps pour faire la nouvelle version est plus long avec le changement de configuration infra. Si vous ajoutez une configuration haute pour commencer, cela coûtera plus cher. Si vous ajoutez une configuration basse pour commencer, vous aurez besoin de changements fréquents dans le script.

Cela dit, AWS Glue a une configuration infra fixe pour chaque DPU - par exemple 16 Go de mémoire par cœur. Si votre ETL requiert plus de mémoire par cœur, vous devrez peut-être passer à EMR. Cependant, si votre ETL est conçu de manière à ne pas dépasser 11 Go de mémoire de pilote avec 1 exécuteur ou 5,5 Go avec 2 exécuteurs (par exemple, prendre un volume de données supplémentaire en parallèle sur le nouveau cœur ou diviser le volume en lot de 5 Go/11 Go et exécuter pour boucle sur le même noyau), la colle est le bon choix.

Si votre ETL est complexe et que tous les travaux vont occuper le cluster tout au long de la journée, je recommanderais d'utiliser EMR avec une équipe de développeurs dédiée pour gérer les infra EMR.

1
Sandeep Fatangare