Utilisez Spring avec Spark

Question

Je suis en train de développer une application Spark et j'ai l'habitude de Spring comme infrastructure d'injection de dépendances. Maintenant, je suis coincé avec le problème, que la partie de traitement utilise la fonctionnalité @Autowired de Spring, mais il est sérialisé et désérialisé par Spark.

Le code suivant me pose donc des problèmes:

Processor processor = ...; // This is a Spring constructed object // and makes all the trouble JavaRDD<Txn> rdd = ...; // some data for Spark rdd.foreachPartition(processor);

Le processeur ressemble à ça:

public class Processor implements VoidFunction<Iterator<Txn>>, Serializeable { private static final long serialVersionUID = 1L; @Autowired // This will not work if the object is deserialized private transient DatabaseConnection db; @Override public void call(Iterator<Txn> txns) { ... // do some fance stuff db.store(txns); } }

Ma question est donc: est-il même possible d'utiliser quelque chose comme Spring en combinaison avec Spark? Sinon, quelle est la façon la plus élégante de faire quelque chose comme ça? Toute aide est appréciée!

EpicPandaForce · Accepted Answer

DE LA QUESTION DEMANDEUR: Ajouté: Pour interférer directement avec la partie de désérialisation sans modifier vos propres classes, utilisez le projet spring-spark par parapluplu. Cela projette le câblage automatique de votre haricot lorsqu'il est désérialisé au printemps.

MODIFIER:

Pour utiliser Spark, vous avez besoin de la configuration suivante (également vue dans ce référentiel ):

Spring Boot + Spark:

.

<parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>1.5.2.RELEASE</version> <relativePath/> <!-- lookup parent from repository --> </parent>

...

<dependencies> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> <exclusions> <exclusion> <groupId>ch.qos.logback</groupId> <artifactId>logback-classic</artifactId> </exclusion> </exclusions> </dependency> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-test</artifactId> <scope>test</scope> </dependency> <!-- https://mvnrepository.com/artifact/org.Apache.spark/spark-core_2.11 --> <dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.0</version> <exclusions> <exclusion> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> </exclusion> <exclusion> <groupId>log4j</groupId> <artifactId>log4j</artifactId> </exclusion> </exclusions> </dependency> <!-- https://mvnrepository.com/artifact/org.Apache.spark/spark-sql_2.11 --> <dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.1.0</version> </dependency> <!-- fix Java.lang.ClassNotFoundException: org.codehaus.commons.compiler.UncheckedCompileException --> <dependency> <groupId>org.codehaus.janino</groupId> <artifactId>commons-compiler</artifactId> <version>2.7.8</version> </dependency> <!-- https://mvnrepository.com/artifact/org.slf4j/log4j-over-slf4j --> <dependency> <groupId>org.slf4j</groupId> <artifactId>log4j-over-slf4j</artifactId> <version>1.7.25</version> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-api</artifactId> <version>1.7.5</version> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-simple</artifactId> <version>1.6.4</version> </dependency> </dependencies>

Ensuite, vous avez besoin de la classe d'application, comme d'habitude avec Spring Boot:

@SpringBootApplication public class SparkExperimentApplication { public static void main(String[] args) { SpringApplication.run(SparkExperimentApplication.class, args); } }

Et puis une configuration qui lie tout cela ensemble

@Configuration @PropertySource("classpath:application.properties") public class ApplicationConfig { @Autowired private Environment env; @Value("${app.name:jigsaw}") private String appName; @Value("${spark.home}") private String sparkHome; @Value("${master.uri:local}") private String masterUri; @Bean public SparkConf sparkConf() { SparkConf sparkConf = new SparkConf() .setAppName(appName) .setSparkHome(sparkHome) .setMaster(masterUri); return sparkConf; } @Bean public JavaSparkContext javaSparkContext() { return new JavaSparkContext(sparkConf()); } @Bean public SparkSession sparkSession() { return SparkSession .builder() .sparkContext(javaSparkContext().sc()) .appName("Java Spark SQL basic example") .getOrCreate(); } @Bean public static PropertySourcesPlaceholderConfigurer propertySourcesPlaceholderConfigurer() { return new PropertySourcesPlaceholderConfigurer(); } }

Ensuite, vous pouvez utiliser la classe SparkSession pour communiquer avec Spark SQL:

/** * Created by achat1 on 9/23/15. * Just an example to see if it works. */ @Component public class WordCount { @Autowired private SparkSession sparkSession; public List<Count> count() { String input = "hello world hello hello hello"; String[] _words = input.split(" "); List<Word> words = Arrays.stream(_words).map(Word::new).collect(Collectors.toList()); Dataset<Row> dataFrame = sparkSession.createDataFrame(words, Word.class); dataFrame.show(); //StructType structType = dataFrame.schema(); RelationalGroupedDataset groupedDataset = dataFrame.groupBy(col("Word")); groupedDataset.count().show(); List<Row> rows = groupedDataset.count().collectAsList();//JavaConversions.asScalaBuffer(words)).count(); return rows.stream().map(new Function<Row, Count>() { @Override public Count apply(Row row) { return new Count(row.getString(0), row.getLong(1)); } }).collect(Collectors.toList()); } }

Se référant à ces deux classes:

public class Word { private String Word; public Word() { } public Word(String Word) { this.Word = Word; } public void setWord(String Word) { this.Word = Word; } public String getWord() { return Word; } } public class Count { private String Word; private long count; public Count() { } public Count(String Word, long count) { this.Word = Word; this.count = count; } public String getWord() { return Word; } public void setWord(String Word) { this.Word = Word; } public long getCount() { return count; } public void setCount(long count) { this.count = count; } }

Ensuite, vous pouvez exécuter voir qu'il renvoie les bonnes données:

@RequestMapping("api") @Controller public class ApiController { @Autowired WordCount wordCount; @RequestMapping("wordcount") public ResponseEntity<List<Count>> words() { return new ResponseEntity<>(wordCount.count(), HttpStatus.OK); } }

Dit

[{"Word":"hello","count":4},{"Word":"world","count":1}]