赞
踩
在微服务架构中最核心的部分是服务治理,服务治理最基础的组件是注册中心。Spring Cloud支持Zookeeper,Consul和Euraka,官方推荐用Eureka做为注册中心。
Eureka采用纯Java实现,除了实现注册中心基本的服务注册和发现之外,极大满足注册中心的可用性,即使只有一台服务器可用,也可以保证注册中心的可用性。
Eureka的设计原则是AP,即可用性和分区容错性。它保证了注册中心的可用性,但舍弃了数据的强一致性,各节点上数据有可能不一致(支持最终一致性)。
下图是Eureka注册中心部署在多个机房的架构图,这里体现了高可用性的优势
从组件功能看
从机房分布看
a)服务消费者(北京)会从服务注册信息中选择同机房的服务提供者(北京),发起远程调用,只有同机房的服务提供者挂了才会选择其它机房的服务提供者(青岛)。
b)服务消费者(天津)因为同机房内没有服务提供者,则会按负载均衡算法选择北京或者青岛的服务提供者,发起远程调用。
上图是Eureka的数据存储结构。Eureka的数据存储分为两层:数据存储层和缓存层。Eureka Client在拉取服务信息时,先从缓存层获取,如果获取不到,先把数据存储层的数据加载到缓存中,再从缓存中获取。值得注意的是,数据存储层的数据结构是服务信息,而缓存中保存的是经过处理加工过的、可直接传输到Eureka Client的数据结构。
数据存储层的registry是一个双层的ConcurrentHashMap,数据存储在内存中。
根据这个存储结构我们可以发现,Eureka Server 第一层都是存储着所有的服务名,以及服务名对应的实例信息。第二层是根据实例的唯一 ID 来存储的
数据存储层数据结构如下图所示:
Eureka实现了二级缓存来保存对外传输的服务信息。
一级缓存(readOnlyCacheMap):
ConcurrentHashMap<Key, Value> readOnlyCacheMap,无过期时间,保存服务信息的对外输出数据结构。依赖定时从 readWriteCacheMap 同步数据,默认时间为 30 秒。
二级缓存(readWriteCacheMap):
Loading<Key, Value> readWriteCacheMap,本质上是Google的guava缓存,包含失效机制,保存服务信息的对外输出数据结构。当获取缓存时判断缓存中是否没有数据,如果不存在此数据,则通过 CacheLoader 的 load 方法去加载,加载成功之后将数据放入缓存,同时返回数据。readWriteCacheMap 缓存过期时间,默认为 180 秒,当服务下线、过期、注册、状态变更,都会来清除此缓存中的数据。
Eureka Client 获取全量或者增量的数据时,会先从一级缓存中获取;如果一级缓存中不存在,再从二级缓存中获取;如果二级缓存也不存在,这时候先将存储层的数据同步到缓存中,再从缓存中获取。
通过 Eureka Server 的二层缓存机制,可以非常有效地提升 Eureka Server 的响应时间,通过数据存储层和缓存层的数据切割,根据使用场景来提供不同的数据支持。
既然是缓存,那必然要有更新机制,来保证数据的一致性。下面是缓存的更新机制。更新机制包含删除和加载两个部分,黑色箭头表示删除缓存的动作,绿色表示加载或触发加载的动作。:
删除二级缓存:
Eureka Client发送register、renew和cancel请求并更新registry注册表之后,删除二级缓存;
Eureka Server自身的Evict Task剔除服务后,删除二级缓存;
二级缓存本身设置了guava的失效机制,隔一段时间后自己自动失效;
加载二级缓存:
Eureka Client发送getRegistry请求后,如果二级缓存中没有,就触发guava的load,即从registry中获取原始服务信息后进行处理加工,再加载到二级缓存中。
Eureka Server更新一级缓存的时候,如果二级缓存没有数据,也会触发guava的load。
更新一级缓存:
服务提供者、服务消费者、以及服务注册中心自己,启动后都会向注册中心注册服务。下图是介绍如何完成服务注册的:
注册中心服务接收到register请求后:
保存服务信息,将服务信息保存到registry中;
更新队列,将此事件添加到更新队列中,供Eureka Client增量同步服务信息使用。
清空二级缓存,即readWriteCacheMap,用于保证数据的一致性。
更新阈值,供剔除服务使用。
同步服务信息,将此事件同步至其他的Eureka Server节点。
服务注册后,要定时(默认30S,可自己配置)向注册中心发送续约请求,告诉注册中心“我还活着”。
注册中心收到续约请求后:
注:剔除服务之前会先判断服务是否已经过期,判断服务是否过期的条件之一是续约时间和当前时间的差值是不是大于阈值。
服务正常停止之前会向注册中心发送注销请求,告诉注册中心“我要下线了”。
注册中心服务接收到cancel请求后:
注:服务正常停止才会发送Cancel,如果是非正常停止,则不会发送,此服务由Eureka Server主动剔除。
Eureka Server提供了服务剔除的机制,用于剔除没有正常下线的服务。
服务的剔除包括三个步骤,首先判断是否满足服务剔除的条件,然后找出过期的服务,最后执行剔除。
有两种情况可以满足服务剔除的条件:
这里比较核心的条件是自我保护机制,Eureka自我保护机制是为了防止误杀服务而提供的一个机制。Eureka的自我保护机制“谦虚”的认为如果大量服务都续约失败,则认为是自己出问题了(如自己断网了),也就不剔除了;反之,则是Eureka Client的问题,需要进行剔除。而自我保护阈值是区分Eureka Client还是Eureka Server出问题的临界值:如果超出阈值就表示大量服务可用,少量服务不可用,则判定是Eureka Client出了问题。如果未超出阈值就表示大量服务不可用,则判定是Eureka Server出了问题。
条件1中如果关闭了自我保护,则统统认为是Eureka Client的问题,把没按时续约的服务都剔除掉(这里有剔除的最大值限制)。
自我保护阈值是区分Eureka Client还是Eureka Server出问题的临界值:如果超出阈值就表示大量服务可用,少量服务不可用,则判定是Eureka Client出了问题。如果未超出阈值就表示大量服务不可用,则判定是Eureka Server出了问题。
阈值的计算公式如下:
举例:
如果有100个服务,续约间隔是30S,自我保护阈值0.85。
自我保护阈值=100 * 60 / 30 * 0.85 = 170。
如果上一分钟的续约数=180>170,则说明大量服务可用,是服务问题,进入剔除流程;
如果上一分钟的续约数=150<170,则说明大量服务不可用,是注册中心自己的问题,进入自我保护模式,不进入剔除流程。
遍历所有的服务,判断上次续约时间距离当前时间大于阈值就标记为过期。并将这些过期的服务保存到集合中。
在剔除服务之前先计算剔除的数量,然后遍历过期服务,通过洗牌算法确保每次都公平的选择出要剔除的任务,最后进行剔除。
执行剔除服务后:
Eureka Client获取服务有两种方式,全量同步和增量同步。获取流程是根据Eureka Server的多层数据结构进行的:
无论是全量同步还是增量同步,都是先从缓存中获取,如果缓存中没有,则先加载到缓存中,再从缓存中获取。(registry只保存数据结构,缓存中保存ready的服务信息。)
服务同步机制是用来同步Eureka Server节点之间服务信息的。它包括Eureka Server启动时的同步,和运行过程中的同步。
Eureka Server启动后,遍历eurekaClient.getApplications获取服务信息,并将服务信息注册到自己的registry中。
注:这里是两层循环,第一层循环是为了保证已经拉取到服务信息,第二层循环是遍历拉取到的服务信息。
当Eureka Server节点有register、renew、cancel请求进来时,会将这个请求封装成TaskHolder放到acceptorQueue队列中,然后经过一系列的处理,放到batchWorkQueue中。
TaskExecutor.BatchWorkerRunnable是个线程池,不断的从batchWorkQueue队列中poll出TaskHolder,然后向其他Eureka Server节点发送同步请求。
这里省略了两个部分:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。