当前位置:   article > 正文

分布式集群架构场景化解决⽅案(四)分布式调度问题_dangdang simplejob

dangdang simplejob
调度 —> 定时任务,分布式调度 —> 在分布式集群环境下定时任务这件事
Elastic-job (当当⽹开源的分布式调度框架)

一. 定时任务的场景

定时任务形式:每隔⼀定时间 / 特定某⼀时刻执⾏
例如:
订单审核、出库
订单超时⾃动取消、⽀付退款
礼券同步、⽣成、发放作业
物流信息推送、抓取作业、退换货处理作业
数据积压监控、⽇志监控、服务可⽤性探测作业
定时备份数据
⾦融系统每天的定时结算
数据归档、清理作业
报表、离线数据分析作业

二. 什么是分布式调度

什么是分布式任务调度?有两层含义

1 )运⾏在分布式集群环境下的调度任务(同⼀个定时任务程序部署多份,只应该有⼀个定时任务在执⾏)
2 )分布式调度 —> 定时任务的分布式 —> 定时任务的拆分(即为把⼀个⼤的作业任务拆分为多个⼩的作业任务,同时执⾏)

三.  定时任务与消息队列的区别

(一)共同点

异步处理
⽐如注册、下单事件
应⽤解耦
不管定时任务作业还是 MQ 都可以作为两个应⽤之间的⻮轮实现应⽤解耦,这个⻮轮可以中转
数据,当然单体服务不需要考虑这些,服务拆分的时候往往都会考虑
流量削峰
双⼗⼀的时候,任务作业和 MQ 都可以⽤来扛流量,后端系统根据服务能⼒定时处理订单或者
MQ 抓取订单抓取到⼀个订单到来事件的话触发处理,对于前端⽤户来说看到的结果是已经
下单成功了,下单是不受任何影响的

(二)本质不同

定时任务作业是时间驱动,⽽ MQ 是事件驱动;
时间驱动是不可代替的,⽐如⾦融系统每⽇的利息结算,不是说利息来⼀条(利息到来事件)就算
⼀下,⽽往往是通过定时任务批量计算;
所以,定时任务作业更倾向于批处理, MQ 倾向于逐条处理;

四. 定时任务的实现⽅式

定时任务的实现⽅式有多种。早期没有定时任务框架的时候,我们会使⽤ JDK 中的 Timer 机制和多线程机制( Runnable+ 线程休眠)来实现定时或者间隔⼀段时间执⾏某⼀段程序;后来有了定时任务框架,⽐ 如⼤名鼎鼎的 Quartz 任务调度框架,使⽤时间表达式(包括:秒、分、时、⽇、周、年)配置某⼀个任 务什么时间去执⾏:

(一)任务调度框架Quartz回顾示意(我们课程主要内容不是Quartz)

1. 引入jar

  1. <!--任务调度框架quartz-->
  2. <!-- https://mvnrepository.com/artifact/org.quartz-scheduler/quartz -->
  3. <dependency>
  4. <groupId>org.quartz-scheduler</groupId>
  5. <artifactId>quartz</artifactId>
  6. <version>2.3.2</version>
  7. </dependency>

2. 定时任务作业主调度程序

  1. package quartz;
  2. import org.quartz.*;
  3. import org.quartz.impl.StdSchedulerFactory;
  4. public class QuartzMan {
  5. // 1、创建任务调度器(好比公交调度站)
  6. public static Scheduler createScheduler() throws SchedulerException {
  7. SchedulerFactory schedulerFactory = new StdSchedulerFactory();
  8. Scheduler scheduler = schedulerFactory.getScheduler();
  9. return scheduler;
  10. }
  11. // 2、创建一个任务(好比某一个公交车的出行)
  12. public static JobDetail createJob() {
  13. JobBuilder jobBuilder = JobBuilder.newJob(DemoJob.class); // TODO 自定义任务类
  14. //设置任务的基本属性
  15. jobBuilder.withIdentity("jobName","myJob");
  16. JobDetail jobDetail = jobBuilder.build();
  17. return jobDetail;
  18. }
  19. /**
  20. * 3、创建作业任务时间触发器(类似于公交车出车时间表)
  21. * cron表达式由七个位置组成,空格分隔
  22. * 1、Seconds(秒) 0~59
  23. * 2、Minutes(分) 0~59
  24. * 3、Hours(小时) 0~23
  25. * 4、Day of Month(天)1~31,注意有的月份不足31天
  26. * 5、Month(月) 0~11,或者 JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC
  27. * 6、Day of Week(周) 1~7,1=SUN或者 SUN,MON,TUE,WEB,THU,FRI,SAT
  28. * 7、Year(年)1970~2099 可选项
  29. *示例:
  30. * 0 0 11 * * ? 每天的11点触发执行一次
  31. * 0 30 10 1 * ? 每月1号上午10点半触发执行一次
  32. */
  33. public static Trigger createTrigger() {
  34. // 创建时间触发器
  35. CronTrigger cronTrigger = TriggerBuilder.newTrigger()
  36. .withIdentity("triggerName","myTrigger")
  37. .startNow()
  38. //设置时间表达式:每隔2秒执行一次
  39. .withSchedule(CronScheduleBuilder.cronSchedule("*/2 * * * * ?")).build();
  40. return cronTrigger;
  41. }
  42. /**
  43. * main函数中开启定时任务
  44. * @param args
  45. */
  46. public static void main(String[] args) throws SchedulerException {
  47. // 1、创建任务调度器(好比公交调度站)
  48. Scheduler scheduler = QuartzMan.createScheduler();
  49. // 2、创建一个任务(好比某一个公交车的出行)
  50. JobDetail job = QuartzMan.createJob();
  51. // 3、创建任务的时间触发器(好比这个公交车的出行时间表)
  52. Trigger trigger = QuartzMan.createTrigger();
  53. // 4、使用任务调度器根据时间触发器执行我们的任务
  54. scheduler.scheduleJob(job,trigger);
  55. scheduler.start();
  56. }
  57. }

3. 定义⼀个job,需实现Job接⼝

  1. package quartz;
  2. import org.quartz.Job;
  3. import org.quartz.JobExecutionContext;
  4. import org.quartz.JobExecutionException;
  5. public class DemoJob implements Job {
  6. @Override
  7. public void execute(JobExecutionContext jobExecutionContext) throws JobExecutionException {
  8. System.out.println("我是一个定时任务执行逻辑");
  9. }
  10. }
以上,是回顾⼀下任务调度框架 Quartz 的⼤致⽤法,那么在分布式架构环境中使⽤ Quartz 已经不能更好的满⾜我们需求,我们可以使⽤专业的分布式调度框架,这⾥我们推荐使⽤ Elastic-job

五. 分布式调度框架Elastic-Job

(一)Elastic-Job介绍

Elastic-Job 是当当⽹开源的⼀个分布式调度解决⽅案,基于 Quartz ⼆次开发的,由两个相互独⽴的⼦项⽬ Elastic-Job-Lite Elastic-Job-Cloud 组成。我们要学习的是 Elastic-Job-Lite ,它定位为轻量级⽆中⼼ 化解决⽅案,使⽤ Jar 包的形式提供分布式任务的协调服务,⽽ Elastic-Job-Cloud ⼦项⽬需要结合 Mesos 以及 Docker 在云环境下使⽤。
Elastic-Job github 地址: https://github.com/elasticjob
主要功能介绍:
  • 分布式调度协调
  • 在分布式环境中,任务能够按指定的调度策略执⾏,并且能够避免同⼀任务多实例重复执⾏
  • 丰富的调度策略 基于成熟的定时任务作业框架Quartz cron表达式执⾏定时任务
  • 弹性扩容缩容 当集群中增加某⼀个实例,它应当也能够被选举并执⾏任务;当集群减少⼀个实例时,它所执⾏的任务能被转移到别的实例来执⾏。
  • 失效转移 某实例在任务执⾏失败后,会被转移到其他实例执⾏
  • 错过执⾏作业重触发 若因某种原因导致作业错过执⾏,⾃动记录错过执⾏的作业,并在上次作业完成后⾃动触发。
  • ⽀持并⾏调度 ⽀持任务分⽚,任务分⽚是指将⼀个任务分为多个⼩任务项在多个实例同时执⾏。
  • 作业分⽚⼀致性 当任务被分⽚后,保证同⼀分⽚在分布式环境中仅⼀个执⾏实例

(二)Elastic-Job-Lite应⽤

jar 包( API + 安装 zk 软件
Elastic-Job 依赖于 Zookeeper 进⾏分布式协调,所以需要安装 Zookeeper 软件( 3.4.6 版本以上),关于 Zookeeper ,此处我们不做详解,在阶段三会有深度学习,我们此处需要明⽩ Zookeeper 的本质功能: 存储 + 通知。

1. 安装Zookeeper(此处单例配置)

我们使⽤ 3.4.10 版本,在 linux 平台解压下载的 zookeeper-3.4.10.tar.gz
2 )进⼊ conf ⽬录, cp zoo_sample.cfg zoo.cfg
3) 进⼊ bin ⽬录,启动 zk 服务
启动 ./zkServer.sh start
停⽌ ./zkServer.sh stop
查看状态 ./zkServer.sh status

2. Zookeeper的树形节点结构图

 3. 引入jar包

  1. <!-- https://mvnrepository.com/artifact/com.dangdang/elastic-job-lite-core -->
  2. <!--elastic-job-lite核心包-->
  3. <dependency>
  4. <groupId>com.dangdang</groupId>
  5. <artifactId>elastic-job-lite-core</artifactId>
  6. <version>2.1.5</version>
  7. </dependency>

4. 定时任务实例

需求:每隔两秒钟执⾏⼀次定时任务( resume 表中未归档的数据归档到 resume_bak 表中,
每次归档 1 条记录)
1 resume_bak resume 表结构完全⼀样
2 resume 表中数据归档之后不删除,只将 state 置为 " 已归档 "
数据
  1. -- ----------------------------
  2. -- Table structure for resume
  3. -- ----------------------------
  4. DROP TABLE IF EXISTS `resume`;
  5. CREATE TABLE `resume` (
  6. `id` bigint(20) NOT NULL AUTO_INCREMENT,
  7. `name` varchar(255) DEFAULT NULL,
  8. `sex` varchar(255) DEFAULT NULL,
  9. `phone` varchar(255) DEFAULT NULL,
  10. `address` varchar(255) DEFAULT NULL,
  11. `education` varchar(255) DEFAULT NULL,
  12. `state` varchar(255) DEFAULT NULL,
  13. PRIMARY KEY (`id`)
  14. ) ENGINE=InnoDB AUTO_INCREMENT=1001 DEFAULT CHARSET=utf8;
  15. SET FOREIGN_KEY_CHECKS = 1;

5. 定时任务类

  1. package elasticjob;
  2. import com.dangdang.ddframe.job.api.ShardingContext;
  3. import com.dangdang.ddframe.job.api.simple.SimpleJob;
  4. import java.util.List;
  5. import java.util.Map;
  6. /**
  7. * ElasticJobLite定时任务业务逻辑处理类
  8. */
  9. public class ArchivieJob implements SimpleJob {
  10. /**
  11. * 需求:resume表中未归档的数据归档到resume_bak表中,每次归档1条记录
  12. * execute方法中写我们的业务逻辑(execute方法每次定时任务执行都会执行一次)
  13. * @param shardingContext
  14. */
  15. @Override
  16. public void execute(ShardingContext shardingContext) {
  17. //获取当前的分片
  18. int shardingItem = shardingContext.getShardingItem();
  19. System.out.println("=====>>>>当前分片:" + shardingItem);
  20. // 获取分片参数shardingItemParameters("0=bachelor,1=master,2=doctor").build();在ElasticJobMain类中设置的
  21. String shardingParameter = shardingContext.getShardingParameter(); // 0=bachelor,1=master,2=doctor
  22. // 1 从resume表中查询出1条记录(未归档)
  23. String selectSql = "select * from resume where state='未归档' and education='"+ shardingParameter +"' limit 1";
  24. List<Map<String, Object>> list = JdbcUtil.executeQuery(selectSql);
  25. if(list == null || list.size() ==0 ) {
  26. System.out.println("数据已经处理完毕!!!!!!");
  27. return;
  28. }
  29. // 2 "未归档"更改为"已归档"
  30. Map<String, Object> stringObjectMap = list.get(0);
  31. long id = (long) stringObjectMap.get("id");
  32. String name = (String) stringObjectMap.get("name");
  33. String education = (String) stringObjectMap.get("education");
  34. System.out.println("=======>>>>id:" + id + " name:" + name + " education:" + education);
  35. String updateSql = "update resume set state='已归档' where id=?";
  36. JdbcUtil.executeUpdate(updateSql,id);
  37. // 3 归档这条记录,把这条记录插入到resume_bak表
  38. String insertSql = "insert into resume_bak select * from resume where id=?";
  39. JdbcUtil.executeUpdate(insertSql,id);
  40. }
  41. }

6. 主类

  1. package elasticjob;
  2. import com.dangdang.ddframe.job.config.JobCoreConfiguration;
  3. import com.dangdang.ddframe.job.config.simple.SimpleJobConfiguration;
  4. import com.dangdang.ddframe.job.lite.api.JobScheduler;
  5. import com.dangdang.ddframe.job.lite.config.LiteJobConfiguration;
  6. import com.dangdang.ddframe.job.reg.base.CoordinatorRegistryCenter;
  7. import com.dangdang.ddframe.job.reg.zookeeper.ZookeeperConfiguration;
  8. import com.dangdang.ddframe.job.reg.zookeeper.ZookeeperRegistryCenter;
  9. public class ElasticJobMain {
  10. public static void main(String[] args) {
  11. // 配置分布式协调服务(注册中心)Zookeeper
  12. ZookeeperConfiguration zookeeperConfiguration = new ZookeeperConfiguration("192.168.200.128:2181","data-archive-job");
  13. CoordinatorRegistryCenter coordinatorRegistryCenter = new ZookeeperRegistryCenter(zookeeperConfiguration);
  14. coordinatorRegistryCenter.init();
  15. // 配置任务(时间事件、定时任务业务逻辑、调度器)
  16. JobCoreConfiguration jobCoreConfiguration = JobCoreConfiguration
  17. .newBuilder("archive-job", "*/2 * * * * ?", 3)
  18. .shardingItemParameters("0=bachelor,1=master,2=doctor").build();
  19. SimpleJobConfiguration simpleJobConfiguration = new SimpleJobConfiguration(jobCoreConfiguration,ArchivieJob.class.getName());
  20. //这里加overwrite(true)的时候当重写上面的配置信息时会重写进zookeeper中
  21. JobScheduler jobScheduler = new JobScheduler(coordinatorRegistryCenter, LiteJobConfiguration.newBuilder(simpleJobConfiguration).overwrite(true).build());
  22. jobScheduler.init();
  23. }
  24. }

7. JdbcUtil⼯具类

  1. package elasticjob;
  2. import java.sql.*;
  3. import java.util.ArrayList;
  4. import java.util.HashMap;
  5. import java.util.List;
  6. import java.util.Map;
  7. public class JdbcUtil {
  8. //url
  9. private static String url = "jdbc:mysql://192.168.200.128:3306/jpa?characterEncoding=utf8&useSSL=false";
  10. //user
  11. private static String user = "root";
  12. //password
  13. private static String password = "PcPc@123";
  14. //驱动程序类
  15. private static String driver = "com.mysql.jdbc.Driver";
  16. static {
  17. try {
  18. Class.forName(driver);
  19. } catch (ClassNotFoundException e) {
  20. // TODO Auto-generated catch block
  21. e.printStackTrace();
  22. }
  23. }
  24. public static Connection getConnection() {
  25. try {
  26. return DriverManager.getConnection(url, user, password);
  27. } catch (SQLException e) {
  28. // TODO Auto-generated catch block
  29. e.printStackTrace();
  30. }
  31. return null;
  32. }
  33. public static void close(ResultSet rs, PreparedStatement ps, Connection con) {
  34. if (rs != null) {
  35. try {
  36. rs.close();
  37. } catch (SQLException e) {
  38. // TODO Auto-generated catch block
  39. e.printStackTrace();
  40. } finally {
  41. if (ps != null) {
  42. try {
  43. ps.close();
  44. } catch (SQLException e) {
  45. // TODO Auto-generated catch block
  46. e.printStackTrace();
  47. } finally {
  48. if (con != null) {
  49. try {
  50. con.close();
  51. } catch (SQLException e) {
  52. // TODO Auto-generated catch block
  53. e.printStackTrace();
  54. }
  55. }
  56. }
  57. }
  58. }
  59. }
  60. }
  61. /***
  62. * DML操作(增删改)
  63. * 1.获取连接数据库对象
  64. * 2.预处理
  65. * 3.执行更新操作
  66. * @param sql
  67. * @param obj
  68. */
  69. //调用者只需传入一个sql语句,和一个Object数组。该数组存储的是SQL语句中的占位符
  70. public static void executeUpdate(String sql,Object...obj) {
  71. Connection con = getConnection();//调用getConnection()方法连接数据库
  72. PreparedStatement ps = null;
  73. try {
  74. ps = con.prepareStatement(sql);//预处理
  75. for (int i = 0; i < obj.length; i++) {//预处理声明占位符
  76. ps.setObject(i + 1, obj[i]);
  77. }
  78. ps.executeUpdate();//执行更新操作
  79. } catch (SQLException e) {
  80. // TODO Auto-generated catch block
  81. e.printStackTrace();
  82. } finally {
  83. close(null, ps, con);//调用close()方法关闭资源
  84. }
  85. }
  86. /***
  87. * DQL查询
  88. * Result获取数据集
  89. *
  90. * @param sql
  91. * @param obj
  92. * @return
  93. */
  94. public static List<Map<String,Object>> executeQuery(String sql, Object...obj) {
  95. Connection con = getConnection();
  96. ResultSet rs = null;
  97. PreparedStatement ps = null;
  98. try {
  99. ps = con.prepareStatement(sql);
  100. for (int i = 0; i < obj.length; i++) {
  101. ps.setObject(i + 1, obj[i]);
  102. }
  103. rs = ps.executeQuery();
  104. //new 一个空的list集合用来存放查询结果
  105. List<Map<String, Object>> list = new ArrayList<>();
  106. //获取结果集的列数
  107. int count = rs.getMetaData().getColumnCount();
  108. //对结果集遍历每一条数据是一个Map集合,列是k,值是v
  109. while (rs.next()) {
  110. //一个空的map集合,用来存放每一行数据
  111. Map<String, Object> map = new HashMap<String, Object>();
  112. for (int i = 0; i < count; i++) {
  113. Object ob = rs.getObject(i + 1);//获取值
  114. String key = rs.getMetaData().getColumnName(i + 1);//获取k即列名
  115. map.put(key, ob);
  116. }
  117. list.add(map);
  118. }
  119. return list;
  120. } catch (SQLException e) {
  121. // TODO Auto-generated catch block
  122. e.printStackTrace();
  123. } finally {
  124. close(rs, ps, con);
  125. }
  126. return null;
  127. }
  128. }

(四)Elastic-Job-Lite轻量级去中⼼化的特点

如何理解轻量级和去中⼼化?

 (五)任务分⽚

⼀个⼤的⾮常耗时的作业 Job ,⽐如:⼀次要处理⼀亿的数据,那这⼀亿的数据存储在数据库中,如果⽤⼀个作业节点处理⼀亿数据要很久,在互联⽹领域是不太能接受的,互联⽹领域更希望机器的增加去 横向扩展处理能⼒。所以, ElasticJob 可以把作业分为多个的 task (每⼀个 task 就是⼀个任务分⽚),每 ⼀个 task 交给具体的⼀个机器实例去处理(⼀个机器实例是可以处理多个 task 的),但是具体每个 task 执⾏什么逻辑由我们⾃⼰来指定。

 

Strategy 策略定义这些分⽚项怎么去分配到各个机器上去,默认是平均去分,可以定制,⽐如某⼀个机器负载 ⽐较⾼或者预配置⽐较⾼,那么就可以写策略。分⽚和作业本身是通过⼀个注册中⼼协调的,因 为在分布式环境下,状态数据肯定集中到⼀点,才可以在分布式中沟通。
分⽚代码

 

 

(六)弹性扩容

 

新增加⼀个运⾏实例 app3 ,它会⾃动注册到注册中⼼,注册中⼼发现新的服务上线,注册中⼼会通知ElasticJob 进⾏重新分⽚,那么总得分⽚项有多少,那么就可以搞多少个实例机器,⽐如完全可以分 1000 最多就可以有多少 app 实例,,,,机器能成的主,完全可以分 1000
那么就可以搞 1000 台机器⼀起执⾏作业。
注意:
1 )分⽚项也是⼀个 JOB 配置,修改配置,重新分⽚,在 下⼀次定时运⾏之前会重新调⽤分⽚算法 ,那么这个分⽚算法的结果就是:哪台机器运⾏哪⼀个⼀⽚,这个结果存储到 zk 中的,主节点会把分⽚给分好 放到注册中⼼去,然后执⾏节点从注册中⼼获取信息 ( 执⾏节点在定时任务开启的时候获取相应的分 )
2 )如果所有的节点挂掉值剩下⼀个节点,所有分⽚都会指向剩下的⼀个节点,这也是 ElasticJob 的⾼可⽤。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/642559
推荐阅读
相关标签
  

闽ICP备14008679号