当前位置:   article > 正文

分布式id生成方式_baidu 分布式id

baidu 分布式id

转载:一口气说出 9种 分布式ID生成方式,面试官有点懵了

目录

1.为什么要用分布式ID 

1.1 什么是分布式ID

1.2 分布式ID需要满足那些条件 

 2. 分布式ID都有哪些生成方式

2.1 基于UUID

2.2 基于数据库自增ID

2.3 基于数据库集群模式

2.4 基于数据库的号段模式

2.5 基于Redis模式

2.6 基于雪花算法(Snowflake)模式

2.7 百度(uid-generator) 

2.8 美团(Leaf) 

2.9 滴滴(Tinyid) 

总结


1.为什么要用分布式ID 

1.1 什么是分布式ID

拿MySQL数据库举个栗子:

在我们业务数据量不大的时候,单库单表完全可以支撑现有业务,数据再大一点搞个MySQL主从同步读写分离也能对付。

但随着数据日渐增长,主从同步也扛不住了,就需要对数据库进行分库分表,但分库分表后需要有一个唯一ID来标识一条数据,数据库的自增ID显然不能满足需求;特别一点的如订单、优惠券也都需要有唯一ID做标识。此时一个能够生成全局唯一ID的系统是非常必要的。那么这个全局唯一ID就叫分布式ID

就是你做单表支撑业务,通过唯一标识找到对应的数据,比如主键id就可以,这个绝对不会重复,如果数据量特别大的话,比如订单数据量特别大的话,单张表就满足不了要求,做分库分表的话,主键就无法做唯一标识了,需要一个全局唯一的id 

1.2 分布式ID需要满足那些条件 

  • 全局唯一:必须保证ID是全局性唯一的,基本要求
  • 高性能:高可用低延时,ID生成响应要块,否则反倒会成为业务瓶颈
  • 高可用:100%的可用性是骗人的,但是也要无限接近于100%的可用性,这两点总结起来就是高可用高并发
  • 好接入:要秉着拿来即用的设计原则,在系统设计和实现上要尽可能的简单,有的业务场景就需要用好识别一些的id
  • 趋势递增:最好趋势递增,这个要求就得看具体业务场景了,一般不严格要求,如果逐渐递增的话,存在数据库索引中,就避免频繁树结构的更改,不用进行页的更改

什么是高可用:

高可用 HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计减少系统不能提供服务的时间。就是有故障的时候受到影响很小

什么是高并发:

高并发(High Concurrency)是互联网分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计保证系统能够同时并行处理很多请求。

 2. 分布式ID都有哪些生成方式

今天主要分析一下以下9种,分布式ID生成器方式以及优缺点: 

  • UUID
  • 数据库自增ID
  • 数据库多主模式
  • 号段模式
  • Redis
  • 雪花算法(SnowFlake)
  • 滴滴出品(TinyID)
  • 百度 (Uidgenerator)
  • 美团(Leaf) 

那么它们都是如何实现?以及各自有什么优缺点?我们往下看 

2.1 基于UUID

在Java的世界里,想要得到一个具有唯一性的ID,首先被想到可能就是UUID,毕竟它有着全球唯一的特性。那么UUID可以做分布式ID吗?答案是可以的,但是并不推荐!

实现方式: 

  1. public static void main(String[] args) {
  2. String uuid = UUID.randomUUID().toString().replaceAll("-","");
  3. System.out.println(uuid);
  4. }

UUID的生成简单到只有一行代码,输出结果 c2b8c2b9e46c47e3b30dca3b0d447718,但UUID却并不适用于实际的业务需求。像用作订单号UUID这样的字符串没有丝毫的意义,看不出和订单相关的有用信息;而对于数据库来说用作业务主键ID,它不仅是太长还是字符串,存储性能差查询也很耗时,所以不推荐用作分布式ID。 

优点:

  • 生成足够简单,本地生成无网络消耗,具有唯一性
  • 不依赖第三方组件
  • 数据量不大可以使用uuid

缺点:

  • 无序的字符串,不具备趋势自增特性 
  • 没有具体的业务含义
  • 长度过长16 字节128位,36位长度的字符串,存储以及查询对MySQL的性能消耗较大,MySQL官方明确建议主键要尽量越短越好,作为数据库主键 UUID 的无序性会导致数据位置频繁变动,严重影响性能。

2.2 基于数据库自增ID

基于数据库的auto_increment自增ID完全可以充当分布式ID,具体实现:需要一个单独的MySQL实例用来生成ID,建表结构如下: 

  1. CREATE DATABASE `SEQ_ID`;
  2. CREATE TABLE SEQID.SEQUENCE_ID (
  3. id bigint(20) unsigned NOT NULL auto_increment,
  4. value char(10) NOT NULL default '',
  5. PRIMARY KEY (id),
  6. ) ENGINE=MyISAM;
  7. insert into SEQUENCE_ID(value) VALUES ('values');

当我们需要一个ID的时候,向表中插入一条记录返回主键ID,但这种方式有一个比较致命的缺点,访问量激增时MySQL本身就是系统的瓶颈,用它来实现分布式服务风险比较大,不推荐!

高并发就满足不了了,你频繁向数据库插入数据,数据库本身就抗不了高并发 

优点:

  • 实现简单,ID单调自增,数值类型查询速度快

缺点:

  • DB单点存在宕机风险,无法扛住高并发场景
  • 如果做分库分表,主键会重复
  • ID 没有具体业务含义

如果分库分表用主键id来做分布式id的话,可以维护一张表,通过这张表里面的数据来获取id,例如下面sql语句:

  1. begin;
  2. Replace into test_order_id (stub) values('b');
  3. select last_insert_id();
  4. commit;

过程大概说一下:通过test这张表里面对stub这个字段进行替换,如果有值了会对主键进行自增+1,我们再去获取上一次插入的值,相当于获取这个表的自增id也是唯一的 

重复问题是解决了,但是依然扛不住高并发,一般数据库只能支撑每秒几千的并发,高可用倒是可以主从,也没有办法扩展

2.3 基于数据库集群模式

前边说了单点数据库方式不可取,那对上边的方式做一些高可用优化,换成主从模式集群。害怕一个主节点挂掉没法用,那就做双主模式集群,也就是两个Mysql实例都能单独的生产自增ID。 (我的理解就是两个数据库去抗)

那这样还会有个问题,两个MySQL实例的自增ID都从1开始,会生成重复的ID怎么办?

解决方案:设置起始值自增步长 

MySQL_1 配置: 

  1. set @@auto_increment_offset = 1; -- 起始值
  2. set @@auto_increment_increment = 2; -- 步长

MySQL_2 配置:

  1. set @@auto_increment_offset = 2; -- 起始值
  2. set @@auto_increment_increment = 2; -- 步长

这样两个MySQL实例的自增ID分别就是:

1、3、5、7、9 
2、4、6、8、10 

那如果集群后的性能还是扛不住高并发咋办?就要进行MySQL扩容增加节点,这是一个比较麻烦的事。

从上图可以看出,水平扩展的数据库集群,有利于解决数据库单点压力的问题,同时为了ID生成特性,将自增步长按照机器数量来设置。

增加第三台MySQL实例需要人工修改一、二两台MySQL实例的起始值和步长,把第三台机器的ID起始生成位置设定在比现有最大自增ID的位置远一些,但必须在一、二两台MySQL实例ID还没有增长到第三台MySQL实例起始ID值的时候,否则自增ID就要出现重复了,必要时可能还需要停机修改。 

优点:

  • 解决DB单点问题

缺点:

  • 如果想要抗住高并发,那就需要建立很多数据库
  • 不利于后续扩容,而且实际上单个数据库自身压力还是大,依旧无法满足高并发场景。
  • 是这样,如果前期机器少一点,你扩容还算方便,可以再起一台机子,id取值要比现在最大值要大很多,才能保证你方案时候,那段时间不会激增超过你第三台设置的值;如果你本身并发量就大,肯定机子要上百台,你用这种方式维护如果出问题,错误数据会有一大堆,所以这个方案几乎用的很少

有人说,水平扩展性不好,就是你先弄两台,这两台扛不住了 

2.4 基于数据库的号段模式

号段模式是当下分布式ID生成器的主流实现方式之一,号段模式可以理解为从数据库批量的获取自增ID,每次从数据库取出一个号段范围,例如 (1,1000] 代表1000个ID,具体的业务服务将本号段,生成1~1000的自增ID并加载到内存。表结构如下: 

  1. CREATE TABLE id_generator (
  2. id int(10) NOT NULL,
  3. max_id bigint(20) NOT NULL COMMENT '当前最大id',
  4. step int(20) NOT NULL COMMENT '号段的布长',
  5. biz_type int(20) NOT NULL COMMENT '业务类型',
  6. version int(20) NOT NULL COMMENT '版本号',
  7. PRIMARY KEY (`id`)
  8. )

  • biz_type :代表不同业务类型
  • max_id :当前最大的可用id
  • step :代表号段的长度
  • version :是一个乐观锁,每次都更新version,保证并发时数据的正确性

id

biz_typemax_idstepversion
1101100020000

等这批号段ID用完,再次向数据库申请新号段,对max_id字段做一次update操作,update max_id= max_id + step,update成功则说明新号段获取成功,新的号段范围是(max_id ,max_id +step]。 

update id_generator set max_id = #{max_id+step}, version = version + 1 where version = # {version} and biz_type = XXX

由于多业务端可能同时操作,所以采用版本号version乐观锁方式更新,这种分布式ID生成方式不强依赖于数据库,不会频繁的访问数据库(相当于对数据库请求稀释了),对数据库的压力小很多。 

2.5 基于Redis模式

Redis也同样可以实现,原理就是利用redis的 incr命令实现ID的原子性自增。

  1. 127.0.0.1:6379> set seq_id 1     // 初始化自增ID为1
  2. OK
  3. 127.0.0.1:6379> incr seq_id      // 增加1,并返回递增后的数值
  4. (integer2

用redis实现需要注意一点,要考虑到redis持久化的问题。redis有两种持久化方式RDB和AOF

  • RDB会定时打一个快照进行持久化,假如连续自增但redis没及时持久化,而这会Redis挂掉了,重启Redis后会出现ID重复的情况。(就是你自增完,没持久化挂了,但是这个值已经给出去了,下次redis重启后,去拿分布式id的话,就可能重复了)
  • AOF会对每条写命令进行持久化,即使Redis挂掉了也不会出现ID重复的情况,但由于incr命令的特殊性,会导致Redis重启恢复的数据时间过长。 

2.6 基于雪花算法(Snowflake)模式

雪花算法(Snowflake)是twitter公司内部分布式项目采用的ID生成算法,开源后广受国内大厂的好评,在该算法影响下各大公司相继开发出各具特色的分布式生成器。 

Snowflake生成的是Long类型的ID,一个Long类型占8个字节,每个字节占8比特,也就是说一个Long类型占64个比特。

Snowflake ID组成结构:正数位(占1比特)+ 时间戳(占41比特)+ 机器ID(占5比特)+ 数据中心(占5比特)+ 自增值(占12比特),总共64比特组成的一个Long类型。

  • 第一个bit位(1bit):Java中long的最高位是符号位代表正负,正数是0,负数是1,一般生成ID都为正数,所以默认为0。
  • 时间戳部分(41bit):毫秒级的时间,不建议存当前时间戳,而是用(当前时间戳 - 固定开始时间戳)的差值,可以使产生的ID从更小的值开始;41位的时间戳可以使用69年,(1L << 41) / (1000L * 60 * 60 * 24 * 365) = 69年
  • 工作机器id(10bit):也被叫做workId,这个可以灵活配置,机房或者机器号组合都可以。
  • 序列号部分(12bit),自增值支持同一毫秒内同一个节点可以生成4096个ID 

根据这个算法的逻辑,只需要将这个算法用Java语言实现出来,封装为一个工具方法,那么各个业务应用可以直接使用该工具方法来获取分布式ID,只需保证每个业务应用有自己的工作机器id即可,而不需要单独去搭建一个获取分布式ID的应用。

优点:雪花算法提供了一个很好的设计思想,雪花算法生成的ID是趋势递增,不依赖数据库等第三方系统,生成ID的性能也是非常高的,而且可以根据自身业务特性分配bit位,非常灵活。
缺点:雪花算法强依赖机器时钟,如果机器上时钟回拨,会导致发号重复。如果恰巧回退前生成过一些ID,而时间回退后,生成的ID就有可能重复

时钟回拨:主要解决思路,如果时间在100ms以内,直接线程滞留一段时间即可,如果大于100ms到1s之内,那么我们对某一个ms内获取最大的id值,然后在这个值的基础上面进行+1操作,如果在1s到10s以内,可以进行重试,去请求其他服务器执行,等到回来再次请求这个服务器的时候,时间也差不多正常了,如果一直不行,时间怎么都不对,那么只能人工运维了

Java版本的Snowflake算法实现:

  1. /**
  2. * Twitter的SnowFlake算法,使用SnowFlake算法生成一个整数,然后转化为62进制变成一个短地址URL
  3. *
  4. * https://github.com/beyondfengyu/SnowFlake
  5. */
  6. public class SnowFlakeShortUrl {
  7. /**
  8. * 起始的时间戳
  9. */
  10. private final static long START_TIMESTAMP = 1480166465631L;
  11. /**
  12. * 每一部分占用的位数
  13. */
  14. private final static long SEQUENCE_BIT = 12; //序列号占用的位数
  15. private final static long MACHINE_BIT = 5; //机器标识占用的位数
  16. private final static long DATA_CENTER_BIT = 5; //数据中心占用的位数
  17. /**
  18. * 每一部分的最大值
  19. */
  20. private final static long MAX_SEQUENCE = -1L ^ (-1L << SEQUENCE_BIT);
  21. private final static long MAX_MACHINE_NUM = -1L ^ (-1L << MACHINE_BIT);
  22. private final static long MAX_DATA_CENTER_NUM = -1L ^ (-1L << DATA_CENTER_BIT);
  23. /**
  24. * 每一部分向左的位移
  25. */
  26. private final static long MACHINE_LEFT = SEQUENCE_BIT;
  27. private final static long DATA_CENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT;
  28. private final static long TIMESTAMP_LEFT = DATA_CENTER_LEFT + DATA_CENTER_BIT;
  29. private long dataCenterId; //数据中心
  30. private long machineId; //机器标识
  31. private long sequence = 0L; //序列号
  32. private long lastTimeStamp = -1L; //上一次时间戳
  33. private long getNextMill() {
  34. long mill = getNewTimeStamp();
  35. while (mill <= lastTimeStamp) {
  36. mill = getNewTimeStamp();
  37. }
  38. return mill;
  39. }
  40. private long getNewTimeStamp() {
  41. return System.currentTimeMillis();
  42. }
  43. /**
  44. * 根据指定的数据中心ID和机器标志ID生成指定的序列号
  45. *
  46. * @param dataCenterId 数据中心ID
  47. * @param machineId 机器标志ID
  48. */
  49. public SnowFlakeShortUrl(long dataCenterId, long machineId) {
  50. if (dataCenterId > MAX_DATA_CENTER_NUM || dataCenterId < 0) {
  51. throw new IllegalArgumentException("DtaCenterId can't be greater than MAX_DATA_CENTER_NUM or less than 0!");
  52. }
  53. if (machineId > MAX_MACHINE_NUM || machineId < 0) {
  54. throw new IllegalArgumentException("MachineId can't be greater than MAX_MACHINE_NUM or less than 0!");
  55. }
  56. this.dataCenterId = dataCenterId;
  57. this.machineId = machineId;
  58. }
  59. /**
  60. * 产生下一个ID
  61. *
  62. * @return
  63. */
  64. public synchronized long nextId() {
  65. long currTimeStamp = getNewTimeStamp();
  66. if (currTimeStamp < lastTimeStamp) {
  67. throw new RuntimeException("Clock moved backwards. Refusing to generate id");
  68. }
  69. if (currTimeStamp == lastTimeStamp) {
  70. //相同毫秒内,序列号自增
  71. sequence = (sequence + 1) & MAX_SEQUENCE;
  72. //同一毫秒的序列数已经达到最大
  73. if (sequence == 0L) {
  74. currTimeStamp = getNextMill();
  75. }
  76. } else {
  77. //不同毫秒内,序列号置为0
  78. sequence = 0L;
  79. }
  80. lastTimeStamp = currTimeStamp;
  81. return (currTimeStamp - START_TIMESTAMP) << TIMESTAMP_LEFT //时间戳部分
  82. | dataCenterId << DATA_CENTER_LEFT //数据中心部分
  83. | machineId << MACHINE_LEFT //机器标识部分
  84. | sequence; //序列号部分
  85. }
  86. public static void main(String[] args) {
  87. SnowFlakeShortUrl snowFlake = new SnowFlakeShortUrl(2, 3);
  88. for (int i = 0; i < (1 << 4); i++) {
  89. //10进制
  90. System.out.println(snowFlake.nextId());
  91. }
  92. }
  93. }

2.7 百度(uid-generator) 

uid-generator是由百度技术部开发,项目GitHub地址 https://github.com/baidu/uid-generator

uid-generator是基于Snowflake算法实现的,与原始的snowflake算法不同在于,uid-generator支持自定义时间戳工作机器ID和 序列号 等各部分的位数,而且uid-generator中采用用户自定义workId的生成策略。

uid-generator需要与数据库配合使用,需要新增一个WORKER_NODE表。当应用启动时会向数据库表中去插入一条数据,插入成功后返回的自增ID就是该机器的workId数据由host,port组成。

对于uid-generator ID组成结构

workId,占用了22个bit位,时间占用了28个bit位,序列化占用了13个bit位,需要注意的是,和原始的snowflake不太一样,时间的单位是秒,而不是毫秒,workId也不一样,而且同一应用每次重启就会消费一个workId

参考文献
https://github.com/baidu/uid-generator/blob/master/README.zh_cn.md

2.8 美团(Leaf) 

Leaf由美团开发,github地址:https://github.com/Meituan-Dianping/Leaf

Leaf同时支持号段模式和snowflake算法模式,可以切换使用。

号段模式

先导入源码 https://github.com/Meituan-Dianping/Leaf ,在建一张表leaf_alloc

  1. DROP TABLE IF EXISTS `leaf_alloc`;
  2. CREATE TABLE `leaf_alloc` (
  3. `biz_tag` varchar(128) NOT NULL DEFAULT '' COMMENT '业务key',
  4. `max_id` bigint(20) NOT NULL DEFAULT '1' COMMENT '当前已经分配了的最大id',
  5. `step` int(11) NOT NULL COMMENT '初始步长,也是动态调整的最小步长',
  6. `description` varchar(256) DEFAULT NULL COMMENT '业务key的描述',
  7. `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '数据库维护的更新时间',
  8. PRIMARY KEY (`biz_tag`)
  9. ) ENGINE=InnoDB;

然后在项目中开启号段模式,配置对应的数据库信息,并关闭snowflake模式

  1. leaf.name=com.sankuai.leaf.opensource.test
  2. leaf.segment.enable=true
  3. leaf.jdbc.url=jdbc:mysql://localhost:3306/leaf_test?useUnicode=true&characterEncoding=utf8&characterSetResults=utf8
  4. leaf.jdbc.username=root
  5. leaf.jdbc.password=root
  6. leaf.snowflake.enable=false
  7. #leaf.snowflake.zk.address=
  8. #leaf.snowflake.port=

启动leaf-server 模块的 LeafServerApplication项目就跑起来了
号段模式获取分布式自增ID的测试url :http://localhost:8080/api/segment/get/leaf-segment-test
监控号段模式:http://localhost:8080/cache 

具体过程:

原来获取ID每次都需要写数据库,现在只需要把step设置得足够大,比如1000。那么只有当1000个号被消耗完了之后才会去重新读写一次数据库。读写数据库的频率从1减小到了1/step,大致架构如下图所示:

这个leaf是Java语言开发的,生成主键id的web应用,这个压力就不会落在数据库上,而是在web服务上,web服务是可以很方便水平扩容的

test_tag在第一台Leaf机器上是1~1000的号段,当这个号段用完时,会去加载另一个长度为step=1000的号段,假设另外两台号段都没有更新,这个时候第一台机器新加载的号段就应该是3001~4000。同时数据库对应的biz_tag这条数据的max_id会从3000被更新成4000,更新号段的SQL语句如下:

  1. Begin
  2. UPDATE table SET max_id=max_id+step WHERE biz_tag=xxx
  3. SELECT tag, max_id, step FROM table WHERE biz_tag=xxx
  4. Commit

优点:

  • Leaf服务可以很方便的线性扩展,性能完全能够支撑大多数业务场景。
  • ID号码是趋势递增的8byte的64位数字,满足上述数据库存储的主键要求。
  • 容灾性高:Leaf服务内部有号段缓存,即使DB宕机,短时间内Leaf仍能正常对外提供服务。 
  • 可以自定义max_id的大小,非常方便业务从原有的ID方式上迁移过来。

 缺点:

  • ID号码不够随机,能够泄露发号数量的信息,不太安全。
  • TP999数据波动大,当号段使用完之后还是会hang在更新数据库的I/O上,tg999数据会出现偶尔的尖刺。就像上面那个图里面那样,三个leaf应用属于同一个业务里面,每个应用id都已经用完去更新数据,因为改的是同一条数据,肯定会出现行锁,这样的话就容易出现尖刺
  • DB宕机会造成整个系统不可用。

双buffer优化

对于第二个缺点,Leaf-segment做了一些优化,简单的说就是:

Leaf 取号段的时机是在号段消耗完的时候进行的,也就意味着号段临界点的ID下发时间取决于下一次从DB取回号段的时间,并且在这期间进来的请求也会因为DB号段没有取回来,导致线程阻塞。如果请求DB的网络和DB的性能稳定,这种情况对系统的影响是不大的,但是假如取DB的时候网络发生抖动,或者DB发生慢查询就会导致整个系统的响应时间变慢。 

为此,我们希望DB取号段的过程能够做到无阻塞,不需要在DB取号段的时候阻塞请求线程,即当号段消费到某个点时就异步的把下一个号段加载到内存中。而不需要等到号段用尽的时候才去更新号段。这样做就可以很大程度上的降低系统的TP999指标。详细实现如下图所示:

采用双buffer的方式,Leaf服务内部有两个号段缓存区segment。当前号段已下发10%时,如果下一个号段未更新,则另启一个更新线程去更新下一个号段。当前号段全部下发完后,如果下个号段准备好了则切换到下个号段为当前segment接着下发,循环往复。 

建议:

  • 每个biz-tag都有消费速度监控,通常推荐segment长度设置为服务高峰期发号QPS的600倍(10分钟),这样即使DB宕机,Leaf仍能持续发号10-20分钟不受影响。
  • 每次请求来临时都会判断下个号段的状态,从而更新此号段,所以偶尔的网络抖动不会影响下个号段的更新 

Leaf高可用容灾 

对于第三点“DB可用性”问题,我们目前采用一主两从的方式,同时分机房部署,Master和Slave之间采用半同步方式[5]同步数据。同时使用公司Atlas数据库中间件(已开源,改名为DBProxy)做主从切换。当然这种方案在一些情况会退化成异步模式,甚至在非常极端情况下仍然会造成数据不一致的情况,但是出现的概率非常小。如果你的系统要保证100%的数据强一致,可以选择使用“类Paxos算法”实现的强一致MySQL方案,如MySQL 5.7前段时间刚刚GA的MySQL Group Replication。但是运维成本和精力都会相应的增加,根据实际情况选型即可。

同时Leaf服务分IDC部署,内部的服务化框架是“MTthrift RPC”。服务调用的时候,根据负载均衡算法会优先调用同机房的Leaf服务。在该IDC内Leaf服务不可用的时候才会选择其他机房的Leaf服务。同时服务治理平台OCTO还提供了针对服务的过载保护、一键截流、动态流量分配等对服务的保护措施。

snowflake模式 

Leaf的snowflake模式依赖于ZooKeeper,不同于原始snowflake算法也主要是在workId的生成上,LeafworkId是基于ZooKeeper的顺序Id来生成的,每个应用在使用Leaf-snowflake时,启动时都会都在Zookeeper中生成一个顺序Id,相当于一台机器对应一个顺序节点,也就是一个workId。 

leaf.snowflake.enable=true
leaf.snowflake.zk.address=127.0.0.1
leaf.snowflake.port=2181 

snowflake模式获取分布式自增ID的测试url:http://localhost:8080/api/snowflake/get/test 

Leaf-segment方案可以生成趋势递增的ID,同时ID号是可计算的,不适用于订单ID生成场景,比如竞对在两天中午12点分别下单,通过订单id号相减就能大致计算出公司一天的订单量,这个是不能忍受的。面对这一问题,美团提供了 Leaf-snowflake方案。

Leaf-snowflake方案完全沿用snowflake方案的bit位设计,即是“1+41+10+12”的方式组装ID号。对于workerID的分配,当服务集群数量较小的情况下,完全可以手动配置。Leaf服务规模较大,动手配置成本太高。所以使用Zookeeper持久顺序节点的特性自动对snowflake节点配置wokerID。Leaf-snowflake是按照下面几个步骤启动的:

启动Leaf-snowflake服务,连接Zookeeper,在leaf_forever父节点下检查自己是否已经注册过(是否有该顺序子节点)。

如果有注册过直接取回自己的workerID(zk顺序节点生成的int类型ID号),启动服务。

如果没有注册过,就在该父节点下面创建一个持久顺序节点,创建成功后取回顺序号当做自己的workerID号,启动服务。

解决时钟问题 

因为这种方案依赖时间,如果机器的时钟发生了回拨,那么就会有可能生成重复的ID号,需要解决时钟回退的问题。

首先在启动时,服务会进行检查:

1、新节点通过检查综合对比其余Leaf节点的系统时间来判断自身系统时间是否准确,具体做法是取所有运行中的Leaf-snowflake节点的服务IP:Port,然后通过RPC请求得到所有节点的系统时间,计算sum(time)/nodeSize,然后看本机时间与这个平均值是否在阈值之内来确定当前系统时间是否准确,准确正常启动服务,不准确认为本机系统时间发生大步长偏移,启动失败并报警。

2、在ZooKeeper 中登记过的老节点,同样会比较自身系统时间和ZooKeeper 上本节点曾经的记录时间以及所有运行中的Leaf-snowflake节点的时间,不准确同样启动失败并报警。

另外,在运行过程中,每隔一段时间节点都会上报自身系统时间写入ZooKeeper 。 

在服务运行过程中,机器的NTP同步也会造成秒级别的回退,由于强依赖时钟,对时间的要求比较敏感,美团建议有三种解决方案,一是可以直接关闭NTP同步;二是在时钟回拨的时候直接不提供服务直接返回ERROR_CODE,等时钟追上即可,三是做一层重试,然后上报报警系统,更或者是发现有时钟回拨之后自动摘除本身节点并报警,代码如下:

从美团的实际运行情况来看,在2017年闰秒出现那一次出现过部分机器回拨,由于Leaf-snowflake的策略保证,成功避免了对业务造成的影响。

2.9 滴滴(Tinyid) 

Tinyid由滴滴开发,Github地址:https://github.com/didi/tinyid。

Tinyid是基于号段模式原理实现的与Leaf如出一辙,每个服务获取一个号段(1000,2000]、(2000,3000]、(3000,4000]

Tinyid由滴滴开发,Github地址:https://github.com/didi/tinyid。

Tinyid是基于号段模式原理实现的与Leaf如出一辙,每个服务获取一个号段(1000,2000]、(2000,3000]、(3000,4000]

Tinyid提供httptinyid-client两种方式接入

Http方式接入

(1)导入Tinyid源码:
git clone https://github.com/didi/tinyid.git

(2)创建数据表:

  1. CREATE TABLE `tiny_id_info` (
  2. `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
  3. `biz_type` varchar(63) NOT NULL DEFAULT '' COMMENT '业务类型,唯一',
  4. `begin_id` bigint(20) NOT NULL DEFAULT '0' COMMENT '开始id,仅记录初始值,无其他含义。初始化时begin_id和max_id应相同',
  5. `max_id` bigint(20) NOT NULL DEFAULT '0' COMMENT '当前最大id',
  6. `step` int(11) DEFAULT '0' COMMENT '步长',
  7. `delta` int(11) NOT NULL DEFAULT '1' COMMENT '每次id增量',
  8. `remainder` int(11) NOT NULL DEFAULT '0' COMMENT '余数',
  9. `create_time` timestamp NOT NULL DEFAULT '2010-01-01 00:00:00' COMMENT '创建时间',
  10. `update_time` timestamp NOT NULL DEFAULT '2010-01-01 00:00:00' COMMENT '更新时间',
  11. `version` bigint(20) NOT NULL DEFAULT '0' COMMENT '版本号',
  12. PRIMARY KEY (`id`),
  13. UNIQUE KEY `uniq_biz_type` (`biz_type`)
  14. ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT 'id信息表';
  15. CREATE TABLE `tiny_id_token` (
  16. `id` int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增id',
  17. `token` varchar(255) NOT NULL DEFAULT '' COMMENT 'token',
  18. `biz_type` varchar(63) NOT NULL DEFAULT '' COMMENT '此token可访问的业务类型标识',
  19. `remark` varchar(255) NOT NULL DEFAULT '' COMMENT '备注',
  20. `create_time` timestamp NOT NULL DEFAULT '2010-01-01 00:00:00' COMMENT '创建时间',
  21. `update_time` timestamp NOT NULL DEFAULT '2010-01-01 00:00:00' COMMENT '更新时间',
  22. PRIMARY KEY (`id`)
  23. ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT 'token信息表';
  24. INSERT INTO `tiny_id_info` (`id`, `biz_type`, `begin_id`, `max_id`, `step`, `delta`, `remainder`, `create_time`, `update_time`, `version`)
  25. VALUES
  26. (1, 'test', 1, 1, 100000, 1, 0, '2018-07-21 23:52:58', '2018-07-22 23:19:27', 1);
  27. INSERT INTO `tiny_id_info` (`id`, `biz_type`, `begin_id`, `max_id`, `step`, `delta`, `remainder`, `create_time`, `update_time`, `version`)
  28. VALUES
  29. (2, 'test_odd', 1, 1, 100000, 2, 1, '2018-07-21 23:52:58', '2018-07-23 00:39:24', 3);
  30. INSERT INTO `tiny_id_token` (`id`, `token`, `biz_type`, `remark`, `create_time`, `update_time`)
  31. VALUES
  32. (1, '0f673adf80504e2eaa552f5d791b644c', 'test', '1', '2017-12-14 16:36:46', '2017-12-14 16:36:48');
  33. INSERT INTO `tiny_id_token` (`id`, `token`, `biz_type`, `remark`, `create_time`, `update_time`)
  34. VALUES
  35. (2, '0f673adf80504e2eaa552f5d791b644c', 'test_odd', '1', '2017-12-14 16:36:46', '2017-12-14 16:36:48');

(3)配置数据库: 

  1. datasource.tinyid.names=primary
  2. datasource.tinyid.primary.driver-class-name=com.mysql.jdbc.Driver
  3. datasource.tinyid.primary.url=jdbc:mysql://ip:port/databaseName?autoReconnect=true&useUnicode=true&characterEncoding=UTF-8
  4. datasource.tinyid.primary.username=root
  5. datasource.tinyid.primary.password=123456

 (4)启动tinyid-server后测试

  1. 获取分布式自增ID: http://localhost:9999/tinyid/id/nextIdSimple?bizType=test&token=0f673adf80504e2eaa552f5d791b644c'
  2. 返回结果: 3
  3. 批量获取分布式自增ID:
  4. http://localhost:9999/tinyid/id/nextIdSimple?bizType=test&token=0f673adf80504e2eaa552f5d791b644c&batchSize=10'
  5. 返回结果: 4,5,6,7,8,9,10,11,12,13

Java客户端方式接入

重复Http方式的(2)(3)操作

引入依赖

  1. <dependency>
  2. <groupId>com.xiaoju.uemc.tinyid</groupId>
  3. <artifactId>tinyid-client</artifactId>
  4. <version>${tinyid.version}</version>
  5. </dependency>

 配置文件

tinyid.server =localhost:9999
tinyid.token =0f673adf80504e2eaa552f5d791b644c

test 、tinyid.token是在数据库表中预先插入的数据,test 是具体业务类型,tinyid.token表示可访问的业务类型 

  1. // 获取单个分布式自增ID
  2. Long id = TinyId . nextId( " test " );
  3. // 按需批量分布式自增ID
  4. List< Long > ids = TinyId . nextId( " test " , 10 );

总结

本文只是简单介绍一下每种分布式ID生成器,旨在给大家一个详细学习的方向,每种生成方式都有它自己的优缺点,具体如何使用还要看具体的业务需求。 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/202731
推荐阅读
相关标签
  

闽ICP备14008679号