Comment exécuter spark submit sur Amazon EMR à partir de la fonction Lambda?

Question

Je souhaite exécuter le travail de soumission d'étincelle sur un cluster AWS EMR en fonction de l'événement de téléchargement de fichier sur S3. J'utilise AWS Lambda pour capturer l'événement, mais je ne sais pas comment soumettre le travail de soumission d'étincelle sur un cluster EMR à partir de la fonction Lambda.

La plupart des réponses que j'ai recherchées concernaient l'ajout d'une étape dans le cluster EMR. Mais je ne sais pas si je peux ajouter une étape pour déclencher "spark submit --with args" dans l’étape ajoutée.

Osama Haggag · Answer

Vous pouvez, je devais faire la même chose la semaine dernière!

En utilisant boto3 pour Python (les autres langages auraient certainement une solution similaire), vous pouvez démarrer un cluster avec l’étape définie ou attacher une étape à un cluster déjà en place.

Définir le cluster avec l'étape

def lambda_handler(event, context): conn = boto3.client("emr") cluster_id = conn.run_job_flow( Name='ClusterName', ServiceRole='EMR_DefaultRole', JobFlowRole='EMR_EC2_DefaultRole', VisibleToAllUsers=True, LogUri='s3n://some-log-uri/elasticmapreduce/', ReleaseLabel='emr-5.8.0', Instances={ 'InstanceGroups': [ { 'Name': 'Master nodes', 'Market': 'ON_DEMAND', 'InstanceRole': 'MASTER', 'InstanceType': 'm3.xlarge', 'InstanceCount': 1, }, { 'Name': 'Slave nodes', 'Market': 'ON_DEMAND', 'InstanceRole': 'CORE', 'InstanceType': 'm3.xlarge', 'InstanceCount': 2, } ], 'Ec2KeyName': 'key-name', 'KeepJobFlowAliveWhenNoSteps': False, 'TerminationProtected': False }, Applications=[{ 'Name': 'Spark' }], Configurations=[{ "Classification":"spark-env", "Properties":{}, "Configurations":[{ "Classification":"export", "Properties":{ "PYSPARK_PYTHON":"python35", "PYSPARK_DRIVER_PYTHON":"python35" } }] }], BootstrapActions=[{ 'Name': 'Install', 'ScriptBootstrapAction': { 'Path': 's3://path/to/bootstrap.script' } }], Steps=[{ 'Name': 'StepName', 'ActionOnFailure': 'TERMINATE_CLUSTER', 'HadoopJarStep': { 'Jar': 's3n://elasticmapreduce/libs/script-runner/script-runner.jar', 'Args': [ "/usr/bin/spark-submit", "--deploy-mode", "cluster", 's3://path/to/code.file', '-i', 'input_arg', '-o', 'output_arg' ] } }], ) return "Started cluster {}".format(cluster_id)

Attacher une étape à un cluster déjà en cours d'exécution

Selon ici

def lambda_handler(event, context): conn = boto3.client("emr") # chooses the first cluster which is Running or Waiting # possibly can also choose by name or already have the cluster id clusters = conn.list_clusters() # choose the correct cluster clusters = [c["Id"] for c in clusters["Clusters"] if c["Status"]["State"] in ["RUNNING", "WAITING"]] if not clusters: sys.stderr.write("No valid clusters
") sys.stderr.exit() # take the first relevant cluster cluster_id = clusters[0] # code location on your emr master node CODE_DIR = "/home/hadoop/code/" # spark configuration example step_args = ["/usr/bin/spark-submit", "--spark-conf", "your-configuration", CODE_DIR + "your_file.py", '--your-parameters', 'parameters'] step = {"Name": "what_you_do-" + time.strftime("%Y%m%d-%H:%M"), 'ActionOnFailure': 'CONTINUE', 'HadoopJarStep': { 'Jar': 's3n://elasticmapreduce/libs/script-runner/script-runner.jar', 'Args': step_args } } action = conn.add_job_flow_steps(JobFlowId=cluster_id, Steps=[step]) return "Added step: %s"%(action)

vipul choudhary · Answer

Code python de la fonction AWS Lambda si vous souhaitez exécuter Spark jar à l'aide de la commande spark submit:

from botocore.vendored import requests import json def lambda_handler(event, context): headers = { "content-type": "application/json" } url = 'http://ip-address.ec2.internal:8998/batches' payload = { 'file' : 's3://Bucket/Orchestration/RedshiftJDBC41.jar s3://Bucket/Orchestration/mysql-connector-Java-8.0.12.jar s3://Bucket/Orchestration/SparkCode.jar', 'className' : 'Main Class Name', 'args' : [event.get('rootPath')] } res = requests.post(url, data = json.dumps(payload), headers = headers, verify = False) json_data = json.loads(res.text) return json_data.get('id')