当前位置:   article > 正文

Springboot 整合 spring batch 实现批处理 ,小白文实例讲解_springbatch

springbatch

前言

 

概念词就不多说了,我简单地介绍下 , spring batch 是一个 方便使用的 较健全的 批处理 框架。

为什么说是方便使用的,因为这是 基于spring的一个框架,接入简单、易理解、流程分明

为什么说是较健全的, 因为它提供了往常我们在对大批量数据进行处理时需要考虑到的 日志跟踪、事务粒度调配、可控执行、失败机制、重试机制、数据读写等

 

 

正文

 

那么回到文章,我们该篇文章将会带来给大家的是什么?(结合实例讲解那是当然的)

 

从实现的业务场景来说,有以下两个:

 

1. 从  csv文件 读取数据,进行业务处理再存储

2. 从 数据库 读取数据,进行业务处理再存储

 

也就是平时经常遇到的数据清理或者数据过滤,又或者是数据迁移备份等等。 大批量的数据,自己实现分批处理需要考虑的东西太多了,又不放心,那么使用 Spring Batch 框架 是一个很好的选择。

 

首先,在进入实例教程前,我们看看这次的实例里,我们使用springboot 整合spring batch 框架,要编码的东西有什么?

 

通过一张简单的图来了解:

spring batch

 

可能大家看到这个图,是不是多多少少想起来定时任务框架? 确实有那么点像,但是我必须在这告诉大家,这是一个批处理框架,不是一个schuedling 框架。 但是前面提到它提供了可执行控制,也就是说,啥时候执行是可控的,那么显然就是自己可以进行扩展结合定时任务框架,实现你心中所想。

 

ok,回到主题,相信大家能从图中简单明了地看到我们这次实例,需要实现的东西有什么了。所以我就不在对各个小组件进行大批量文字的描述了。

 

那么我们事不宜迟,开始我们的实例教程。

 

首先准备一个数据库,里面建一张简单的表,用于实例数据的写入存储或者说是读取等等。

bloginfo表

相关建表sql语句:
 

  1. CREATE TABLE `bloginfo` (
  2. `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键',
  3. `blogAuthor` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '博客作者标识',
  4. `blogUrl` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '博客链接',
  5. `blogTitle` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '博客标题',
  6. `blogItem` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '博客栏目',
  7. PRIMARY KEY (`id`) USING BTREE
  8. ) ENGINE = InnoDB AUTO_INCREMENT = 89031 CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

 

pom文件里的核心依赖:

  1. <dependency>
  2. <groupId>org.springframework.boot</groupId>
  3. <artifactId>spring-boot-starter-web</artifactId>
  4. </dependency>
  5. <dependency>
  6. <groupId>org.springframework.boot</groupId>
  7. <artifactId>spring-boot-starter-test</artifactId>
  8. <scope>test</scope>
  9. </dependency>
  10. <!-- spring batch -->
  11. <dependency>
  12. <groupId>org.springframework.boot</groupId>
  13. <artifactId>spring-boot-starter-batch</artifactId>
  14. </dependency>
  15. <!-- hibernate validator -->
  16. <dependency>
  17. <groupId>org.hibernate</groupId>
  18. <artifactId>hibernate-validator</artifactId>
  19. <version>6.0.7.Final</version>
  20. </dependency>
  21. <!-- mybatis -->
  22. <dependency>
  23. <groupId>org.mybatis.spring.boot</groupId>
  24. <artifactId>mybatis-spring-boot-starter</artifactId>
  25. <version>2.0.0</version>
  26. </dependency>
  27. <!-- mysql -->
  28. <dependency>
  29. <groupId>mysql</groupId>
  30. <artifactId>mysql-connector-java</artifactId>
  31. <scope>runtime</scope>
  32. </dependency>
  33. <!-- druid数据源驱动 1.1.10解决springboot从1.0——2.0版本问题-->
  34. <dependency>
  35. <groupId>com.alibaba</groupId>
  36. <artifactId>druid-spring-boot-starter</artifactId>
  37. <version>1.1.18</version>
  38. </dependency>

 

yml文件:

  1. spring:
  2. batch:
  3. job:
  4. #设置为 false -需要jobLaucher.run执行
  5. enabled: false
  6. initialize-schema: always
  7. # table-prefix: my-batch
  8. datasource:
  9. druid:
  10. username: root
  11. password: root
  12. url: jdbc:mysql://localhost:3306/hellodemo?useSSL=false&useUnicode=true&characterEncoding=UTF-8&serverTimezone=GMT%2B8&zeroDateTimeBehavior=convertToNull
  13. driver-class-name: com.mysql.cj.jdbc.Driver
  14. initialSize: 5
  15. minIdle: 5
  16. maxActive: 20
  17. maxWait: 60000
  18. timeBetweenEvictionRunsMillis: 60000
  19. minEvictableIdleTimeMillis: 300000
  20. validationQuery: SELECT 1 FROM DUAL
  21. testWhileIdle: true
  22. testOnBorrow: false
  23. testOnReturn: false
  24. poolPreparedStatements: true
  25. maxPoolPreparedStatementPerConnectionSize: 20
  26. useGlobalDataSourceStat: true
  27. connectionProperties: druid.stat.mergeSql=true;druid.stat.slowSqlMillis=5000
  28. server:
  29. port: 8665

 

ps:这里我们用到了druid数据库连接池,其实有个小坑,后面文章会讲到。

 

因为我们这次的实例最终数据处理完之后,是写入数据库存储(当然你也可以输出到文件等等)。

所以我们前面也建了一张表,pom文件里面我们也整合的mybatis,那么我们在整合spring batch 主要编码前,我们先把这些关于数据库打通用到的简单过一下。

 

pojo 层

BlogInfo.java :

  1. /**
  2. * @Author : JCccc
  3. * @CreateTime : 2020/3/17
  4. * @Description :
  5. **/
  6. public class BlogInfo {
  7. private Integer id;
  8. private String blogAuthor;
  9. private String blogUrl;
  10. private String blogTitle;
  11. private String blogItem;
  12. @Override
  13. public String toString() {
  14. return "BlogInfo{" +
  15. "id=" + id +
  16. ", blogAuthor='" + blogAuthor + '\'' +
  17. ", blogUrl='" + blogUrl + '\'' +
  18. ", blogTitle='" + blogTitle + '\'' +
  19. ", blogItem='" + blogItem + '\'' +
  20. '}';
  21. }
  22. public Integer getId() {
  23. return id;
  24. }
  25. public void setId(Integer id) {
  26. this.id = id;
  27. }
  28. public String getBlogAuthor() {
  29. return blogAuthor;
  30. }
  31. public void setBlogAuthor(String blogAuthor) {
  32. this.blogAuthor = blogAuthor;
  33. }
  34. public String getBlogUrl() {
  35. return blogUrl;
  36. }
  37. public void setBlogUrl(String blogUrl) {
  38. this.blogUrl = blogUrl;
  39. }
  40. public String getBlogTitle() {
  41. return blogTitle;
  42. }
  43. public void setBlogTitle(String blogTitle) {
  44. this.blogTitle = blogTitle;
  45. }
  46. public String getBlogItem() {
  47. return blogItem;
  48. }
  49. public void setBlogItem(String blogItem) {
  50. this.blogItem = blogItem;
  51. }
  52. }

mapper层

BlogMapper.java :

ps: 可以看到这个实例我用的是注解的方式,哈哈为了省事,而且我还不写servcie层和impl层,也是为了省事,因为该篇文章重点不在这些,所以这些不好的大家不要学。

  1. import com.example.batchdemo.pojo.BlogInfo;
  2. import org.apache.ibatis.annotations.*;
  3. import java.util.List;
  4. import java.util.Map;
  5. /**
  6. * @Author : JCccc
  7. * @CreateTime : 2020/3/17
  8. * @Description :
  9. **/
  10. @Mapper
  11. public interface BlogMapper {
  12. @Insert("INSERT INTO bloginfo ( blogAuthor, blogUrl, blogTitle, blogItem ) VALUES ( #{blogAuthor}, #{blogUrl},#{blogTitle},#{blogItem}) ")
  13. @Options(useGeneratedKeys = true, keyProperty = "id")
  14. int insert(BlogInfo bloginfo);
  15. @Select("select blogAuthor, blogUrl, blogTitle, blogItem from bloginfo where blogAuthor < #{authorId}")
  16. List<BlogInfo> queryInfoById(Map<String , Integer> map);
  17. }

 

接下来 ,重头戏,我们开始对前边那张图里涉及到的各个小组件进行编码。

 

首先创建一个 配置类, MyBatchConfig.java:

从我起名来看,可以知道这基本就是咱们整合spring batch 涉及到的一些配置组件都会写在这里了。

 

首先我们按照咱们上面的图来看,

里面包含内容有:

1)JobRepository    job的注册/存储器

 2)JobLauncher      job的执行器 

3)Job                        job任务,包含一个或多个Step

 4)Step                    包含(ItemReader、ItemProcessor和ItemWriter) 

 5)ItemReader         数据读取器 

 6)ItemProcessor     数据处理器

7)ItemWriter              数据输出器

 

 

 

首先,在MyBatchConfig类前加入注解:

@Configuration  用于告诉spring,咱们这个类是一个自定义配置类,里面很多bean都需要加载到spring容器里面

@EnableBatchProcessing 开启批处理支持

然后开始往MyBatchConfig类里,编写各个小组件。

 

JobRepository

写在MyBatchConfig类里

  1. /**
  2. * JobRepository定义:Job的注册容器以及和数据库打交道(事务管理等)
  3. * @param dataSource
  4. * @param transactionManager
  5. * @return
  6. * @throws Exception
  7. */
  8. @Bean
  9. public JobRepository myJobRepository(DataSource dataSource, PlatformTransactionManager transactionManager) throws Exception{
  10. JobRepositoryFactoryBean jobRepositoryFactoryBean = new JobRepositoryFactoryBean();
  11. jobRepositoryFactoryBean.setDatabaseType("mysql");
  12. jobRepositoryFactoryBean.setTransactionManager(transactionManager);
  13. jobRepositoryFactoryBean.setDataSource(dataSource);
  14. return jobRepositoryFactoryBean.getObject();
  15. }

 

JobLauncher

写在MyBatchConfig类里 

  1. /**
  2. * jobLauncher定义: job的启动器,绑定相关的jobRepository
  3. * @param dataSource
  4. * @param transactionManager
  5. * @return
  6. * @throws Exception
  7. */
  8. @Bean
  9. public SimpleJobLauncher myJobLauncher(DataSource dataSource, PlatformTransactionManager transactionManager) throws Exception{
  10. SimpleJobLauncher jobLauncher = new SimpleJobLauncher();
  11. // 设置jobRepository
  12. jobLauncher.setJobRepository(myJobRepository(dataSource, transactionManager));
  13. return jobLauncher;
  14. }

Job

写在MyBatchConfig类里 

  1. /**
  2. * 定义job
  3. * @param jobs
  4. * @param myStep
  5. * @return
  6. */
  7. @Bean
  8. public Job myJob(JobBuilderFactory jobs, Step myStep){
  9. return jobs.get("myJob")
  10. .incrementer(new RunIdIncrementer())
  11. .flow(myStep)
  12. .end()
  13. .listener(myJobListener())
  14. .build();
  15. }

 

对于Job的运行,是可以配置监听器的

JobListener

写在MyBatchConfig类里 

  1. /**
  2. * 注册job监听器
  3. * @return
  4. */
  5. @Bean
  6. public MyJobListener myJobListener(){
  7. return new MyJobListener();
  8. }

这是一个我们自己自定义的监听器,所以是单独创建的,MyJobListener.java:

  1. /**
  2. * @Author : JCccc
  3. * @CreateTime : 2020/3/17
  4. * @Description :监听Job执行情况,实现JobExecutorListener,且在batch配置类里,Job的Bean上绑定该监听器
  5. **/
  6. public class MyJobListener implements JobExecutionListener {
  7. private Logger logger = LoggerFactory.getLogger(MyJobListener.class);
  8. @Override
  9. public void beforeJob(JobExecution jobExecution) {
  10. logger.info("job 开始, id={}",jobExecution.getJobId());
  11. }
  12. @Override
  13. public void afterJob(JobExecution jobExecution) {
  14. logger.info("job 结束, id={}",jobExecution.getJobId());
  15. }
  16. }

 

Step(ItemReader   ItemProcessor   ItemWriter)

step里面包含数据读取器,数据处理器,数据输出器三个小组件的的实现。

我们也是一个个拆解来进行编写。

文章前边说到,该篇实现的场景包含两种,一种是从csv文件读入大量数据进行处理,另一种是从数据库表读入大量数据进行处理。

 

 

从CSV文件读取数据

 

ItemReader   

写在MyBatchConfig类里

  1. /**
  2. * ItemReader定义:读取文件数据+entirty实体类映射
  3. * @return
  4. */
  5. @Bean
  6. public ItemReader<BlogInfo> reader(){
  7. // 使用FlatFileItemReader去读cvs文件,一行即一条数据
  8. FlatFileItemReader<BlogInfo> reader = new FlatFileItemReader<>();
  9. // 设置文件处在路径
  10. reader.setResource(new ClassPathResource("static/bloginfo.csv"));
  11. // entity与csv数据做映射
  12. reader.setLineMapper(new DefaultLineMapper<BlogInfo>() {
  13. {
  14. setLineTokenizer(new DelimitedLineTokenizer() {
  15. {
  16. setNames(new String[]{"blogAuthor","blogUrl","blogTitle","blogItem"});
  17. }
  18. });
  19. setFieldSetMapper(new BeanWrapperFieldSetMapper<BlogInfo>() {
  20. {
  21. setTargetType(BlogInfo.class);
  22. }
  23. });
  24. }
  25. });
  26. return reader;
  27. }

简单代码解析:

对于数据读取器 ItemReader ,我们给它安排了一个读取监听器,创建 MyReadListener.java :

  1. /**
  2. * @Author : JCccc
  3. * @CreateTime : 2020/3/17
  4. * @Description :
  5. **/
  6. public class MyReadListener implements ItemReadListener<BlogInfo> {
  7. private Logger logger = LoggerFactory.getLogger(MyReadListener.class);
  8. @Override
  9. public void beforeRead() {
  10. }
  11. @Override
  12. public void afterRead(BlogInfo item) {
  13. }
  14. @Override
  15. public void onReadError(Exception ex) {
  16. try {
  17. logger.info(format("%s%n", ex.getMessage()));
  18. } catch (Exception e) {
  19. e.printStackTrace();
  20. }
  21. }
  22. }

 

ItemProcessor

写在MyBatchConfig类里

  1. /**
  2. * 注册ItemProcessor: 处理数据+校验数据
  3. * @return
  4. */
  5. @Bean
  6. public ItemProcessor<BlogInfo, BlogInfo> processor(){
  7. MyItemProcessor myItemProcessor = new MyItemProcessor();
  8. // 设置校验器
  9. myItemProcessor.setValidator(myBeanValidator());
  10. return myItemProcessor;
  11. }

数据处理器,是我们自定义的,里面主要是包含我们对数据处理的业务逻辑,并且我们设置了一些数据校验器,我们这里使用
JSR-303的Validator来作为校验器。

校验器

写在MyBatchConfig类里

  1. /**
  2. * 注册校验器
  3. * @return
  4. */
  5. @Bean
  6. public MyBeanValidator myBeanValidator(){
  7. return new MyBeanValidator<BlogInfo>();
  8. }

 

创建MyItemProcessor.java :

ps: 里面我的数据处理逻辑是,获取出读取数据里面的每条数据的blogItem字段,如果是springboot,那就对title字段值进行替换。

其实也就是模拟一个简单地数据处理场景。

  1. import com.example.batchdemo.pojo.BlogInfo;
  2. import org.springframework.batch.item.validator.ValidatingItemProcessor;
  3. import org.springframework.batch.item.validator.ValidationException;
  4. /**
  5. * @Author : JCccc
  6. * @CreateTime : 2020/3/17
  7. * @Description :
  8. **/
  9. public class MyItemProcessor extends ValidatingItemProcessor<BlogInfo> {
  10. @Override
  11. public BlogInfo process(BlogInfo item) throws ValidationException {
  12. /**
  13. * 需要执行super.process(item)才会调用自定义校验器
  14. */
  15. super.process(item);
  16. /**
  17. * 对数据进行简单的处理
  18. */
  19. if (item.getBlogItem().equals("springboot")) {
  20. item.setBlogTitle("springboot 系列还请看看我Jc");
  21. } else {
  22. item.setBlogTitle("未知系列");
  23. }
  24. return item;
  25. }
  26. }

创建MyBeanValidator.java:

  1. import org.springframework.batch.item.validator.ValidationException;
  2. import org.springframework.batch.item.validator.Validator;
  3. import org.springframework.beans.factory.InitializingBean;
  4. import javax.validation.ConstraintViolation;
  5. import javax.validation.Validation;
  6. import javax.validation.ValidatorFactory;
  7. import java.util.Set;
  8. /**
  9. * @Author : JCccc
  10. * @CreateTime : 2020/3/2017
  11. * @Description :
  12. **/
  13. public class MyBeanValidator<T> implements Validator<T>, InitializingBean {
  14. private javax.validation.Validator validator;
  15. @Override
  16. public void validate(T value) throws ValidationException {
  17. /**
  18. * 使用Validator的validate方法校验数据
  19. */
  20. Set<ConstraintViolation<T>> constraintViolations =
  21. validator.validate(value);
  22. if (constraintViolations.size() > 0) {
  23. StringBuilder message = new StringBuilder();
  24. for (ConstraintViolation<T> constraintViolation : constraintViolations) {
  25. message.append(constraintViolation.getMessage() + "\n");
  26. }
  27. throw new ValidationException(message.toString());
  28. }
  29. }
  30. /**
  31. * 使用JSR-303的Validator来校验我们的数据,在此进行JSR-303的Validator的初始化
  32. * @throws Exception
  33. */
  34. @Override
  35. public void afterPropertiesSet() throws Exception {
  36. ValidatorFactory validatorFactory =
  37. Validation.buildDefaultValidatorFactory();
  38. validator = validatorFactory.usingContext().getValidator();
  39. }
  40. }

ps:其实该篇文章没有使用这个数据校验器,大家想使用的话,可以在实体类上添加一些校验器的注解@NotNull @Max @Email等等。我偏向于直接在处理器里面进行处理,想把关于数据处理的代码都写在一块。

 

ItemWriter
 

写在MyBatchConfig类里

  1. /**
  2. * ItemWriter定义:指定datasource,设置批量插入sql语句,写入数据库
  3. * @param dataSource
  4. * @return
  5. */
  6. @Bean
  7. public ItemWriter<BlogInfo> writer(DataSource dataSource){
  8. // 使用jdbcBcatchItemWrite写数据到数据库中
  9. JdbcBatchItemWriter<BlogInfo> writer = new JdbcBatchItemWriter<>();
  10. // 设置有参数的sql语句
  11. writer.setItemSqlParameterSourceProvider(new BeanPropertyItemSqlParameterSourceProvider<BlogInfo>());
  12. String sql = "insert into bloginfo "+" (blogAuthor,blogUrl,blogTitle,blogItem) "
  13. +" values(:blogAuthor,:blogUrl,:blogTitle,:blogItem)";
  14. writer.setSql(sql);
  15. writer.setDataSource(dataSource);
  16. return writer;
  17. }

简单代码解析:

同样 对于数据读取器 ItemWriter ,我们给它也安排了一个输出监听器,创建 MyWriteListener.java:

  1. import com.example.batchdemo.pojo.BlogInfo;
  2. import org.slf4j.Logger;
  3. import org.slf4j.LoggerFactory;
  4. import org.springframework.batch.core.ItemWriteListener;
  5. import java.util.List;
  6. import static java.lang.String.format;
  7. /**
  8. * @Author : JCccc
  9. * @CreateTime : 2020/3/17
  10. * @Description :
  11. **/
  12. public class MyWriteListener implements ItemWriteListener<BlogInfo> {
  13. private Logger logger = LoggerFactory.getLogger(MyWriteListener.class);
  14. @Override
  15. public void beforeWrite(List<? extends BlogInfo> items) {
  16. }
  17. @Override
  18. public void afterWrite(List<? extends BlogInfo> items) {
  19. }
  20. @Override
  21. public void onWriteError(Exception exception, List<? extends BlogInfo> items) {
  22. try {
  23. logger.info(format("%s%n", exception.getMessage()));
  24. for (BlogInfo message : items) {
  25. logger.info(format("Failed writing BlogInfo : %s", message.toString()));
  26. }
  27. } catch (Exception e) {
  28. e.printStackTrace();
  29. }
  30. }
  31. }

ItemReader   ItemProcessor   ItemWriter

这三个小组件到这里,我们都实现了,那么接下来就是把这三个小组件跟我们的step去绑定起来。

写在MyBatchConfig类里

  1. /**
  2. * step定义:
  3. * 包括
  4. * ItemReader 读取
  5. * ItemProcessor 处理
  6. * ItemWriter 输出
  7. * @param stepBuilderFactory
  8. * @param reader
  9. * @param writer
  10. * @param processor
  11. * @return
  12. */
  13. @Bean
  14. public Step myStep(StepBuilderFactory stepBuilderFactory, ItemReader<BlogInfo> reader,
  15. ItemWriter<BlogInfo> writer, ItemProcessor<BlogInfo, BlogInfo> processor){
  16. return stepBuilderFactory
  17. .get("myStep")
  18. .<BlogInfo, BlogInfo>chunk(65000) // Chunk的机制(即每次读取一条数据,再处理一条数据,累积到一定数量后再一次性交给writer进行写入操作)
  19. .reader(reader).faultTolerant().retryLimit(3).retry(Exception.class).skip(Exception.class).skipLimit(2)
  20. .listener(new MyReadListener())
  21. .processor(processor)
  22. .writer(writer).faultTolerant().skip(Exception.class).skipLimit(2)
  23. .listener(new MyWriteListener())
  24. .build();
  25. }

这个Step,稍作讲解。

前边提到了,spring batch框架,提供了事务的控制,重启,检测跳过等等机制。

那么,这些东西的实现,很多都在于这个step环节的设置。

首先看到我们代码出现的第一个设置,

chunk( 6500 ) 

Chunk的机制(即每次读取一条数据,再处理一条数据,累积到一定数量后再一次性交给writer进行写入操作。

没错,对于整个step环节,就是数据的读取,处理最后到输出。

这个chunk机制里,我们传入的 6500,也就是是告诉它,读取处理数据,累计达到 6500条进行一次批次处理,去执行写入操作。

这个传值,是根据具体业务而定,可以是500条一次,1000条一次,也可以是20条一次,50条一次。

通过一张简单的小图来帮助理解:

 

在我们大量数据处理,不管是读取或者说是写入,都肯定会涉及到一些未知或者已知因素导致某条数据失败了。

那么如果说咱们啥也不设置,失败一条数据,那么我们就当作整个失败了?。显然这个太不人性,所以spring batch 提供了 retry 和 skip 两个设置(其实还有restart) ,通过这两个设置来人性化地解决一些数据操作失败场景。

 

 retryLimit(3).retry(Exception.class)  

没错,这个就是设置重试,当出现异常的时候,重试多少次。我们设置为3,也就是说当一条数据操作失败,那我们会对这条数据进行重试3次,还是失败就是 当做失败了, 那么我们如果有配置skip(推荐配置使用),那么这个数据失败记录就会留到给 skip 来处理。

 

skip(Exception.class).skipLimit(2)  

skip,跳过,也就是说我们如果设置3, 那么就是可以容忍 3条数据的失败。只有达到失败数据达到3次,我们才中断这个step。

对于失败的数据,我们做了相关的监听器以及异常信息记录,供与后续手动补救。

 

那么记下来我们开始去调用这个批处理job,我们通过接口去触发这个批处理事件,新建一个Controller,TestController.java:

  1. /**
  2. * @Author : JCccc
  3. * @CreateTime : 2020/3/17
  4. * @Description :
  5. **/
  6. @RestController
  7. public class TestController {
  8. @Autowired
  9. SimpleJobLauncher jobLauncher;
  10. @Autowired
  11. Job myJob;
  12. @GetMapping("testJob")
  13. public void testJob() throws JobParametersInvalidException, JobExecutionAlreadyRunningException, JobRestartException, JobInstanceAlreadyCompleteException {
  14. // 后置参数:使用JobParameters中绑定参数 addLong addString 等方法
  15. JobParameters jobParameters = new JobParametersBuilder().toJobParameters();
  16. jobLauncher.run(myJob, jobParameters);
  17. }
  18. }

对了,我准备了一个csv文件 bloginfo.csv,里面大概8万多条数据,用来进行批处理测试: 

 

这个文件的路径跟我们的数据读取器里面读取的路径要一直,

 

目前我们数据库是这个样子,

 

接下来我们把我们的项目启动起来,

再看一眼数据库,生成了一些batch用来跟踪记录job的一些数据表:

 

我们来调用一下testJob接口,

然后看下数据库,可以看的数据全部都进行了相关的逻辑处理并插入到了数据库:

 

到这里,我们对Springboot 整合 spring batch 其实已经操作完毕了,也实现了从csv文件读取数据处理存储的业务场景。

 

 

从数据库读取数据

 

ps:前排提示使用druid有坑。后面会讲到。

那么接下来实现场景,从数据库表内读取数据进行处理输出到新的表里面。

 

那么基于我们上边的整合,我们已经实现了

 

1)JobRepository    job的注册/存储器

 2)JobLauncher      job的执行器 

3)Job                        job任务,包含一个或多个Step

 4)Step                    包含(ItemReader、ItemProcessor和ItemWriter) 

 5)ItemReader         数据读取器 

 6)ItemProcessor     数据处理器

7)ItemWriter              数据输出器

外加

8) job监听器

9)reader监听器

10)writer监听器

11)process数据校验器

 

那么对于我们新写一个job完成 一个新的场景,我们需要全部重写么?

显然没必要,当然完全新写一套也是可以的。

那么该篇,对于一个新的也出场景,从csv文件读取数据转换到数据库表读取数据,我们重新新建的有:

 

1. 数据读取器  原先使用的是 FlatFileItemReader ,我们现在改为使用 MyBatisCursorItemReader 。

2.数据处理器  新的场景,业务为了好扩展,所以我们处理器最好也新建一个

3.数据输出器    新的场景,业务为了好扩展,所以我们数据输出器最好也新建一个

4.step的绑定设置, 新的场景,业务为了好扩展,所以我们step最好也新建一个

5.Job  当然是要重新写一个了

其他我们照用原先的就行, JobRepository    ,JobLauncher    , 以及各种监听器啥的,暂且不重新建了。

 

新建MyItemProcessorNew.java:

  1. import org.springframework.batch.item.validator.ValidatingItemProcessor;
  2. import org.springframework.batch.item.validator.ValidationException;
  3. /**
  4. * @Author : JCccc
  5. * @CreateTime : 2020/3/17
  6. * @Description :
  7. **/
  8. public class MyItemProcessorNew extends ValidatingItemProcessor<BlogInfo> {
  9. @Override
  10. public BlogInfo process(BlogInfo item) throws ValidationException {
  11. /**
  12. * 需要执行super.process(item)才会调用自定义校验器
  13. */
  14. super.process(item);
  15. /**
  16. * 对数据进行简单的处理
  17. */
  18. Integer authorId= Integer.valueOf(item.getBlogAuthor());
  19. if (authorId<20000) {
  20. item.setBlogTitle("这是都是小于20000的数据");
  21. } else if (authorId>20000 && authorId<30000){
  22. item.setBlogTitle("这是都是小于30000但是大于20000的数据");
  23. }else {
  24. item.setBlogTitle("旧书不厌百回读");
  25. }
  26. return item;
  27. }
  28. }

 然后其他重新定义的小组件,写在MyBatchConfig类里:

  1. /**
  2. * 定义job
  3. * @param jobs
  4. * @param stepNew
  5. * @return
  6. */
  7. @Bean
  8. public Job myJobNew(JobBuilderFactory jobs, Step stepNew){
  9. return jobs.get("myJobNew")
  10. .incrementer(new RunIdIncrementer())
  11. .flow(stepNew)
  12. .end()
  13. .listener(myJobListener())
  14. .build();
  15. }
  16. @Bean
  17. public Step stepNew(StepBuilderFactory stepBuilderFactory, MyBatisCursorItemReader<BlogInfo> itemReaderNew,
  18. ItemWriter<BlogInfo> writerNew, ItemProcessor<BlogInfo, BlogInfo> processorNew){
  19. return stepBuilderFactory
  20. .get("stepNew")
  21. .<BlogInfo, BlogInfo>chunk(65000) // Chunk的机制(即每次读取一条数据,再处理一条数据,累积到一定数量后再一次性交给writer进行写入操作)
  22. .reader(itemReaderNew).faultTolerant().retryLimit(3).retry(Exception.class).skip(Exception.class).skipLimit(10)
  23. .listener(new MyReadListener())
  24. .processor(processorNew)
  25. .writer(writerNew).faultTolerant().skip(Exception.class).skipLimit(2)
  26. .listener(new MyWriteListener())
  27. .build();
  28. }
  29. @Bean
  30. public ItemProcessor<BlogInfo, BlogInfo> processorNew(){
  31. MyItemProcessorNew csvItemProcessor = new MyItemProcessorNew();
  32. // 设置校验器
  33. csvItemProcessor.setValidator(myBeanValidator());
  34. return csvItemProcessor;
  35. }
  36. @Autowired
  37. private SqlSessionFactory sqlSessionFactory;
  38. @Bean
  39. @StepScope
  40. //Spring Batch提供了一个特殊的bean scope类(StepScope:作为一个自定义的Spring bean scope)。这个step scope的作用是连接batches的各个steps。这个机制允许配置在Spring的beans当steps开始时才实例化并且允许你为这个step指定配置和参数。
  41. public MyBatisCursorItemReader<BlogInfo> itemReaderNew(@Value("#{jobParameters[authorId]}") String authorId) {
  42. System.out.println("开始查询数据库");
  43. MyBatisCursorItemReader<BlogInfo> reader = new MyBatisCursorItemReader<>();
  44. reader.setQueryId("com.example.batchdemo.mapper.BlogMapper.queryInfoById");
  45. reader.setSqlSessionFactory(sqlSessionFactory);
  46. Map<String , Object> map = new HashMap<>();
  47. map.put("authorId" , Integer.valueOf(authorId));
  48. reader.setParameterValues(map);
  49. return reader;
  50. }
  51. /**
  52. * ItemWriter定义:指定datasource,设置批量插入sql语句,写入数据库
  53. * @param dataSource
  54. * @return
  55. */
  56. @Bean
  57. public ItemWriter<BlogInfo> writerNew(DataSource dataSource){
  58. // 使用jdbcBcatchItemWrite写数据到数据库中
  59. JdbcBatchItemWriter<BlogInfo> writer = new JdbcBatchItemWriter<>();
  60. // 设置有参数的sql语句
  61. writer.setItemSqlParameterSourceProvider(new BeanPropertyItemSqlParameterSourceProvider<BlogInfo>());
  62. String sql = "insert into bloginfonew "+" (blogAuthor,blogUrl,blogTitle,blogItem) "
  63. +" values(:blogAuthor,:blogUrl,:blogTitle,:blogItem)";
  64. writer.setSql(sql);
  65. writer.setDataSource(dataSource);
  66. return writer;
  67. }

代码需要注意的点

数据读取器 MyBatisCursorItemReader 

对应的mapper方法:

数据处理器 MyItemProcessorNew:

数据输出器,新插入到别的数据库表去,特意这样为了测试:

当然我们的数据库为了测试这个场景,也是新建了一张表,bloginfonew 表。

 

接下来,我们新写一个接口来执行新的这个job:

  1. @Autowired
  2. SimpleJobLauncher jobLauncher;
  3. @Autowired
  4. Job myJobNew;
  5. @GetMapping("testJobNew")
  6. public void testJobNew(@RequestParam("authorId") String authorId) throws JobParametersInvalidException, JobExecutionAlreadyRunningException, JobRestartException, JobInstanceAlreadyCompleteException {
  7. JobParameters jobParametersNew = new JobParametersBuilder().addLong("timeNew", System.currentTimeMillis())
  8. .addString("authorId",authorId)
  9. .toJobParameters();
  10. jobLauncher.run(myJobNew,jobParametersNew);
  11. }

ok,我们来调用一些这个接口:

看下控制台:

没错,这就是失败的,原因是因为跟druid有关,报了一个数据库功能不支持。 这是在数据读取的时候报的错。

我初步测试认为是MyBatisCursorItemReader ,druid 数据库连接池不支持。

那么,我们只需要:

1.注释掉druid连接池 jar依赖

2.yml里替换连接池配置

其实我们不配置其他连接池,springboot 2.X 版本已经为我们整合了默认的连接池 HikariCP 。

在Springboot2.X版本,数据库的连接池官方推荐使用HikariCP
 

如果不是为了druid的那些后台监控数据,sql分析等等,完全是优先使用HikariCP的。

 

  官方的原话:

  1. We preferHikariCPfor its performance and concurrency. If HikariCP is available, we always choose it.

翻译:

我们更喜欢hikaricpf的性能和并发性。如果有HikariCP,我们总是选择它。

 

所以我们就啥连接池也不配了,使用默认的HikariCP 连接池。

当然你想配,也是可以的:

 

所以我们剔除掉druid链接池后,我们再来调用一下新接口:

 

可以看到,从数据库获取数据并进行批次处理写入job是成功的:

新的表里面插入的数据都进行了自己写的逻辑处理: 

 

 

 

好了,springboot 整合 spring batch 批处理框架, 就到此吧。 

 

 

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/201215
推荐阅读
相关标签
  

闽ICP备14008679号