赞
踩
分布式系统的CAP理论首先把分布式系统中的三个特性进行了如下归纳:
电商领域是典型的要在CAP做出权衡的业务领域。从参与者来区分有用户、商户、平台运营人员;从基础领域模型来看有商品、订单、库存、库房、营销、物流、干系人等。
基于以上三方的诉求,那么电商平台会面临及时响应性的用户需求(我购买成功,还是失败);数据准确性需求(我的钱有没有多扣);平台海量请求的诉求(营销活动、秒杀、大促等);高可用的诉求(每一秒都是钱,每一笔成交背后都是收入,如果平台不可用,对应可以直接换算成资金损失)。
传统的金融行业比如银行可能半年才发布一次版本,现在已与时俱进到月度了,越少变更、越少发布,自然是越稳定。这个道理不难理解,我们可以把所有的应用系统当成一个“黑匣子”,如果外部因素没有变化,内部构成没有变化,那么黑匣子就不会有变化。也就是说对于若干年前的银行而言,如果机房、专线网络、运维没有变更,基本上不会出问题。但是对于不断试错以及营销驱动的电商业务而言,三天两头搞活动、上新产品是司空见惯的事情。规模小一点还好,骂你的人少,对于大电商而言则无异于是高速公路上换轮胎,或者叫做给飞行中的飞机换引擎,可见风险非同一般。
电商类应用具有如下特点:
Scale Out:横向扩展,增加处理节点提高整体处理能力,俗称加机器。
Scale Up:纵向扩展,通过提升单个节点的处理能力达到提升整体处理能力的目的。
在互联网架构中,采用廉价的服务器做Scale Out已经是非常通用的手段了,但是不是所有场景扛不住都可以加机器?比如秒杀场景,除了高流量以外,压力在于秒杀商品的高并发,那么热点商品拆分,上缓存、队列等技术自然就很重要了。
业务发展性能也得发展:举一个例子,有一个系统做支付链路的规则决策,起初可能就4万行代码;后来增加到8万,现在又增加到10万。代码行增加了,该应用的职责增加了,也可能调用逻辑的运算复杂度也增加了。那么如何保持对外API的TPS不降低,RT不降低?每次release不仅要完成功能用例的构建,亦要完成性能的测试。
产品快速试错:多年前,就有人想把软件从业者变成像制造工人一样,不断流水线工作。但是这几乎没什么可能,因为要解决的问题域太复杂。虽然业界有很多规范、标准、套装软件,但是仍然未解决问题之万一。我们来看一下是如何复杂的。
以我们的一个团队为例,7个人1年做了400多个需求。大家都知道满足需求,实现业务价值是软件的天职,无论是为了更好适应未来发展的平台化能力也好、新特性也好,这些只能在业务发展的过程中做。在做这么多需求的过程中,除了技术以外,对于业务包括规则要有深度把握,包括上下游的一些问题。如有评估不到位,问题就大了。若分析到设计阶段出现缺失,到代码、测试、发布这些阶段则必然会出现缺失。早些年,某些系统已经复杂到只有1~2个人能搞懂部分了,幸好这些系统今天都完成了拆分和治理。
在电商网站中,单页Web是非常常见的一种形式,比如首页、频道页、广告页等都属于单页应用。这种页面是由模板+数据组成,传统的构建方式一般通过静态化实现。而这种方式的灵活性并不是很好,比如页面模板部分变更了需要重新全部生成。因此最好能有一种实现方式是可以实时动态渲染,以支持模板的多变性。另外也要考虑好如下几个问题:
静态化单页Web应用方案如下图所示。
如上图所示,直接将生成的静态页推送到相关服务器即可。使用这种方式要考虑文件操作的原子性问题,即从老版本切换到新版本如何做到文件操作原子化。
而动态方案的整体架构如下图所示,分为三大系统:CMS系统、控制系统和前端展示系统。
下面就详细介绍这三大系统。
在CMS系统中可以配置页面的模板和数据。模板动态在CMS系统中维护,即模板不是一个静态文件,而是存储在CMS中的一条数据,最终发布到“发布数据存储Redis”中,前端展示系统从Redis中获取该模板进行渲染,从而前端展示系统更换了模板也不需要重启,纯动态维护模板数据。
原始数据存储到“元数据存储MySQL”中即可,比如频道页一般需要前端访问的URL、分类、轮播图、商品楼层等,这些数据按照相应的维度存储在CMS系统中。
CMS系统提供发布到“发布数据存储Redis”的控制。将CMS系统中的原始数据和模板数据组装成聚合数据(JSON存储)同步到“发布数据存储Redis”,以便前端展示系统获取进行展示。此外提供三个发布按钮:正式版本、灰度版本和预发布版本。
CMS系统目前存在如下几个问题:
前端展示系统可获取当前URL,使用URL作为KEY首先从本机“发布数据存储Redis”获取数据。如果没有数据或者异常则从主“发布数据存储Redis”获取。如果主“发布数据存储Redis”也发生了异常,那么会直接调用CMS系统暴露的API直接从元数据存储MySQL中获取数据进行处理。
前端展示系统的伪代码(Java代码)如下:
- --1、加载Lua模块库
- local template = require("resty.template")
- template.load = function(s) return s end
-
- --2、动态获取模板
- local myTemplate = "<html>{* title *}</html>"
- --3、动态获取数据
- local data = {title = "iphone6s"}
-
- --4、渲染模板
- local func = template.compile(myTemplate)
- local content = func(data)
-
- --5、通过ngx API输出内容
- ngx.say(content)
由上述代码可知,模板和数据都是动态获取的,然后使用动态获取的模板和数据进行渲染。
由此假设最新版本的模板或数据有问题怎么办?这个可以从流程上避免:
控制系统是用于版本降级和灰度发布的,当然也可以把这个功能放在CMS系统中实现。
我们将数据和模板都进行动态化存储,这样可以在CMS进行数据和模板的变更;实现了前端和后端开发人员的分离;前端开发人员进行CMS数据配置和模板开发,而后端开发人员只进行系统的维护。另外,因为模板的动态化存储,每次发布新的模板不需要重启前端展示系统,后端开发人员更好的得到了解放。
模板和数据可以是一对多的关系,即一个模板可以被多个数据使用。假设模板发生变更后,我们可以批量推送模板关联的数据,首先进行预发布版本的发布,由测试人员进行验证,验证没问题即可发布正式版本。
我们将数据和模板分为多版本后,可以实现:
本节不涉及缓存数据结构优化、缓存空间利用率跟业务数据相关的细节问题,主要从架构和提升命中率等层面来探讨缓存方案;本节也不讨论写服务,而是聚焦在读服务。这里将基于多级缓存模式来介绍应用缓存时需要注意的问题和一些解决方案,其中一些方案已经在业务中实施。
所谓多级缓存,即在整个系统架构的不同系统层级进行数据缓存,以提升访问效率,这也是应用最广的方案之一。我们应用的整体架构如下图所示。
整体流程分析如下:
应用整体分了三部分缓存:应用Nginx本地缓存、分布式缓存、Tomcat堆缓存,每一层缓存都用来解决相关的问题,如应用Nginx本地缓存用来解决热点缓存问题,分布式缓存用来减少访问回源率、Tomcat堆缓存用于防止相关缓存失效/崩溃之后的冲击。
虽然都是加缓存,但是怎么加、怎么用,细想下来还是有很多问题需要权衡和考量的,接下来我们就详细来讨论一些缓存相关的问题。
下面将从缓存过期、维度化缓存、增量缓存、大Value缓存、热点缓存几个方面来详细介绍如何缓存数据。
对于缓存的数据我们可以考虑不过期缓存和带过期时间缓存,什么场景应该选择哪种模式则需要根据业务和数据量等因素来决定。
使用Cache-Aside模式,首先写数据库,如果成功,则写缓存。这种场景下存在事务成功、缓存写失败但无法回滚事务的情况。另外,不要把写缓存放在事务中,尤其写分布式缓存,因为网络抖动可能导致写缓存响应时间很慢,引起数据库事务阻塞。如果对缓存数据一致性要求不是那么高,数据量也不是很大,则可以考虑定期全量同步缓存。
也有提到如下思路:先删缓存,然后执行数据库事务;不过这种操作对于如商品这种查询非常频繁的业务不适用,因为在你删除缓存的同时,已经有另一个系统来读缓存了,此时事务还没有提交。当然对于如用户维度的业务是可以考虑的。
不过为了更好的解决以上多个事务的问题,可以考虑使用订阅数据库日志的架构,如使用canal订阅MySQL的binlog实现缓存同步。
对于长尾访问的数据,大多数数据访问频率都很高的场景,若缓存空间足够则可以考虑不过期缓存,比如用户、分类、商品、价格、订单等,当缓存满了可以考虑LRU机制驱逐老的缓存数据。
对于电商系统,一个商品可能拆成如基础属性、图片列表、上下架、规格参数、商品介绍等;如果商品变更了,要把这些数据都更新一边,那么整个更新成本(接口调用量和带宽)很高。因此最好将数据进行维度化并增量更新(只更新变更的部分)。尤其如上下架这种只是一个状态变更,但是每天频繁调用的,维度化后能减少服务很大的压力。维度化缓存方案如下图所示。
按照不同维度接收MQ进行更新。
要警惕缓存中的大Value,尤其是使用Redis时。遇到这种情况时可以考虑使用多线程实现的缓存(如Memcached)来缓存大Value;或者对Value进行压缩;或者将Value拆分为多个小Value,客户端再进行查询、聚合。
对于那些访问非常频繁的热点缓存,如果每次都去远程缓存系统中获取,可能会因为访问量太大导致远程缓存系统请求过多、负载过高或者带宽过高等问题,最终可能导致缓存响应慢,使客户端请求超时。一种解决方案是通过挂更多的从缓存,客户端通过负载均衡机制读取从缓存系统数据。不过也可以在客户端所在的应用/代理层本地存储一份,从而避免访问远程缓存,即使像库存这种数据,在有些应用系统中也可以进行几秒钟的本地缓存,从而降低远程系统的压力。
此处说的分布式缓存一般采用分片实现,即将数据分散到多个实例或多台服务器。算法一般采用取模和一致性哈希。如之前说的做不过期缓存机制可以考虑取模机制,扩容时一般是新建一个集群;而对于可以丢失的缓存数据可以考虑一致性哈希,即使其中一个实例出问题只是丢一小部分,对于分片实现可以考虑客户端实现,或者使用如Twemproxy中间件进行代理(分片对客户端是透明的)。如果使用Redis可以考虑使用redis-cluster分布式集群方案。
应用负载均衡一般采用轮询和一致性哈希,一致性哈希可以根据应用请求的URL或者URL参数将相同的请求转发到同一个节点;而轮询即将请求均匀的转发到每个服务器,如下图所示。
整体流程如下:
轮询的优点:应用Nginx的请求更加均匀,使得每个服务器的负载基本均衡,不会因为热点问题导致其中某一台服务器负载过重。
轮询的缺点:随着应用Nginx服务器的增加,缓存的命中率会下降,比如原来10台服务器命中率为90%,再加10台服务器将可能降低到45%。
一致性哈希的优点:相同请求都会转发到同一台服务器,命中率不会因为增加服务器而降低。
一致性哈希的缺点:因为相同的请求会转发到同一台服务器,因此可能造成某台服务器负载过重,甚至因为请求太多导致服务出现问题。
那么到底选择哪种算法呢?答案就是根据实际情况动态选择:
当然,某些场景是将热点数据推送到接入层Nginx,直接响应给用户,比如秒杀商品的访问。
热点数据会造成服务器压力过大,导致服务器性能、吞吐量、带宽达到极限,出现响应慢或者拒绝服务的情况,这肯定是不允许的。可以用如下几个方案去解决。
如下图所示,所有缓存都存储在应用本机,回源之后会把数据更新到主Redis集群,然后通过主从复制到其他从Redis集群。缓存的更新可以采用懒加载或者订阅消息进行同步。
对于分布式缓存,我们需要在Nginx+Lua应用中进行应用缓存来减少Redis集群的访问冲击,即首先查询应用本地缓存,如果命中则直接缓存,如果没有命中则接着查询Redis集群、回源到Tomcat,然后将数据缓存到应用本地,如下图所示。
此处到应用Nginx的负载机制采用:正常情况采用一致性哈希,如果某个请求类型访问量突破了一定的阈值,则自动降级为轮询机制。另外对于一些秒杀活动之类的热点我们是可以提前知道的,可以把相关数据预先推送到接入层Nginx并将负载均衡机制降级为轮询。
另外可以考虑建立实时热点发现系统来发现热点,如下图所示。
因为做了本地缓存,因此对于数据一致性需要我们去考虑,即何时失效或更新缓存:
正如之前说的,如果多个应用同时操作一份数据很可能造成缓存数据是脏数据,解决办法有:
当我们使用分布式缓存时,应该考虑如何应对其中一部分缓存实现宕机的情况。接下来介绍分布式缓存的常用算法。当缓存数据是可丢失的情况时,我们可以选择一致性哈希算法。
对于取模机制如果其中一个实例故障,如果摘除此实例将导致大量缓存不明中,瞬间大流量可能导致后端DB/服务出现问题。对于这种情况可以采用主从机制来避免实例故障的问题,即其中一个实例故障可以用从/主顶上来。但是取模机制下如果增加了一个节点将导致大量缓存不命中,所以一般是建立另一个集群,然后把数据迁移到新集群,然后把流量迁移过去。
对于一致性哈希机制如果其中一个实例故障,摘除此实例将只影响一致性哈希环上的部分缓存不命中,不会导致瞬间大量回源到后端DB/服务,但是也会产生一些影响。
另外也可能因为一些误操作导致整个缓存集群出现问题,如何快速恢复呢?
如果出现之前说到的一些问题,可以考虑如下方案:
也就是如果整个缓存集群故障,而且没有备份,那么只能去慢慢将缓存重建。为了让部分用户还是可用的,可以根据系统承受能力,通过降级方案让一部分用户先用起来,将这些用户相关的缓存重建。另外通过后台Worker进行缓存数据的预热。
商品详情页是展示商品详细信息的一个页面,承载着网站的大部分流量和订单的入口。京东商城目前有通用版、全球购、闪购、易车、惠买车、服装、拼购、今日抄底等许多套模板。各套模板的元数据是一样的,只是展示方式不一样。目前商品详情页个性化需求非常多,数据来源也是非常多的,而且许多基础服务做不了的都放我们这,因此我们需要一种架构能快速响应和优雅的解决这些需求问题。因此我们重新设计了商品详情页的架构,主要包括三部分:商品详情页系统、商品详情页统一服务系统和商品详情页动态服务系统;商品详情页系统负责静态部分,而统一服务负责动态部分,而动态服务负责给内网其他系统提供一些数据服务。
前端展示可以分为这么几个维度:商品维度(标题、图片、属性等)、主商品维度(商品介绍、规格参数)、分类维度、商家维度、店铺维度等,另外还有一些实时促销、广告词、配送至、预售等是通过异步加载。
京东商城还有一些特殊维度数据,比如套装、手机合约机等,这些数据是主商品数据外挂的。
如下图所示,单品页技术架构发展经历了如下4个时期。下面会依然介绍这4个时期的技术方案。
ISS+C#+SQL Server,最原始的架构,直接调用商品库获取相应的数据,扛不住时加了一层Memcached来缓存数据,如下图所示。这种方式经常受到依赖的服务不稳定而导致的性能抖动。
如下图所示,该方案使用了静态化技术,按照商品维度生成静态化HTML。
主要思路:
该方案的主要缺点:
随着商品数量的增加,这种架构的存储容量达到了瓶颈,而且按照商品维度生成整个页面会存在如分类维度变更就要全部刷一遍这个分类下所有信息的问题,因此我们又改造了一版按照尾号路由到多台机器,如下图所示。
主要思路:
该方案主要缺点:
我们的痛点:
方案如下图所示。
主要思路是:
另外我们目前架构的目标不仅仅是为商品详情页提供数据,只要是Key-Value结构获取而非关系结构的我们都可以提供服务,我们叫做动态服务系统,如下图所示。
该动态服务分为前端和后端,即公网还是内网,如目前该动态服务为列表页、商品对比页、微信单品页、总代等提供相应的数据来满足和支持其特务。
总体来说,详情页架构设计要遵从如下原则:数据闭环、数据维度化、拆分系统、Worker无状态化+任务化、异步化+并发化、多级缓存化、动态化、弹性化、降级开关、多机房多活、多种压测方案。下面就详细介绍这几大原则。
数据闭环即数据的自我管理,或者说是数据都在自己系统里维护,不依赖于任何其他系统,去依赖化。这样得到的好处就是别人抖动跟我没关系,如下图所示。
我们目前的异构数据是键制结构的,用于按照商品维度查询,还有一套异构是关系结构的,用于关系查询使用。
对于数据应该按照维度和作用进行维度化,这样可以分离存储,进行更有效的存储和使用。我们数据的维度比较简单:
将系统拆分为多个子系统虽然增加了复杂性,但是可以得到更多的好处,比如数据异构系统存储的数据是原子化数据,这样可以按照一些维度对外提供服务;而数据同步系统存储的是聚合数据,可以为前端展示提供高性能的读取。前端展示系统分离为商品详情页和商品介绍,可以减少相互影响;目前商品介绍系统还提供其他的一些服务,比如全站异步页脚本,如下图所示。
Worker无状态化+任务化,可以帮助系统做水平扩展,如下图所示。
我们系统大量使用异步化,通过异步化机制提升并发能力。首先我们使用了消息异步化进行系统解耦合,通过消息通知变更,然后再调用相应接口获取相关数据;之前老系统使用同步推送机制,这种方式系统是紧耦合的,出问题需要联系各个负责人重新推送还要考虑重试机制。数据更新异步化,更新缓存时同步调用服务,然后异步更新缓存。可并行任务并发化,商品数据系统来源有多处,但是可以并发调用聚合,经过这种方式我们可以把原先串行需要1s的时间提升到300ms之内。异步请求合并,异步请求做合并,一次请求调用就能拿到所有数据。前端服务异步化/聚合,实时价格、实时库存异步化,使用如线程或协程机制将多个可并发的服务聚合。异步化还有一个好处就是可以对异步请求做合并,原来N次调用可以合并为一次,还可以做请求的排重。
另外我们还可以使用一致性哈希(如商品编号/分类)做负载均衡内部对URL重新提升命中率。
我们对mget做了优化,如取商品其他维度数据,分类、面包屑、商家等差不多8个维度数据,如果每次mget获取性能差而且数据量很大,30KB以上;而这些数据缓存半小时也是没有问题,那么我们可以设计为先读local cache,然后把不命中的再回源到remote cache获取,这个优化减少了一半以上的remote cache流量。
数据获取动态化,商品详情页:按维度获取数据,如商品基本数据、其他数据(分类、商家信息等);而且可以根据数据属性,按需做逻辑,比如虚拟商品需要自己定制的详情页,那么我们就可以跳转走,比如全球购的需要走jd,hk域名,那么也是没有问题的;
我们所有应用业务都接入了Docker容器,存储还是物理机。我们会制作一些基础镜像,把需要的软件打成镜像,这样不用每次去运维那安装部署软件了。未来可以支持自动扩容,比如按照CPU或带宽自动扩容机器,目前京东一些业务支持一分钟自动扩容。
推送服务器推送降级开关,开关集中化维护,然后通过推送机制推送到各个服务器。可降级的多级读服务为:前端数据集群→数据异构集群→动态服务(调用依赖系统),这样可以保证服务质量,假设前端数据集群坏了一个磁盘,还可以回源到数据异构集群获取数据。开关前置化,如Nginx→Tomcat,在Nginx上做开关,请求就到不了后端,减少后端压力。
将可降级的业务线程池隔离,从Servlet3开始支持异步模型,Tomcat7/Jetty8开始支持,相同的概念是Jetty6的Continuations。我们可以把处理过程分解为一个个的事件。通过这种将请求划分为事件的方式我们可以进行更多的控制。如,我们可以为不同的业务再建立不同的线程池进行控制:即我们只依赖Tomcat线程池进行请求的解析,对于请求的处理可以交给我们自己的线程池去完成,如下图所示。这样Tomcat线程池就不是我们的瓶颈,造成现在无法优化的情况。通过使用这种异步化事件模型,我们可以提高整体的吞吐量,不让慢速的A业务处理影响到其他业务处理。慢的还是慢,但是不影响其他的业务。我们通过这种机制还可以把Tomat线程池的监控拿出来,出问题时可以直接清空业务线程池,另外还可以自定义任务队列来支持一些特殊的业务。
应用无状态,通过在配置文件中配置各自机房的数据集群来完成数据读取,如下图所示。
数据集群采用一主三从结构,防止当一个机房挂了,另一个机房压力大产生抖动,如下图所示。
线下压测使用Apache ab、Apache Jmeter,这种方式是固定url压测,一般通过访问日志收集一些url进行压测,可以简单压测单机峰值吞吐量,但是不能作为最终的压测结果,因为这种压测会存在热点问题。
线上压测,可以使用Tcpcopy直接把线上流量导入到压测服务器,这种方式可以压测出机器的性能,而且可以把流量放大,也可以使用Nginx+Lua协程机制把流量分发到多台压测服务器,或者直接在页面埋点,让用户压测,此种压测方式可以不给用户返回内容。
使用SSD做KY存储时发现磁盘IO非常低。配置成RAID10的性能只有3~6MB/s;配置成RAID0的性能有约130MB/s,系统中没有发现CPU、MEM、中断等瓶颈。一台服务器从RAID1改成RAID0后,性能只有约60MB/s。这说明我们用的SSD盘性能不稳定。
根据以上现象,初步怀疑以下几点:SSD盘,线上系统用的三星840Pro是消费级硬盘。RAID卡设置,Write back和Write through策略。后来测试验证,有影响,但不是关键。RAID卡类型,线上系统用的是LSI 2008,比较陈旧。压测数据如下图所示。
本实验使用dd顺序写操作简单压测,严格测试需要用FIO等工具。
对于存储选型,我们尝试过LevelDB、RocksDB、BeansDB、LMDB、Riak等,最终根据需求选择了LMDB。
LevelDB压测时,随机读+随机写会产生抖动(我们的数据出自自己的监控平台,分钟级采样),如下图所示。
RocksDB是改造自LevelDB,对SSD做了优化,我们压测时单独写或读,性能非常好,但是读写混合时就会因为归并产生抖动,如下图所示。
LMDB引擎没有大的抖动,基本满足我们的需求,如下图所示。
我们目前一些线上服务器使用的是LMDB,其他一些正在尝试公司自主研发的CycleDB引擎。
Jimdb数据同步时要dump数据,SSD盘容量用了50%以上,dump到同一块磁盘容量不足。解决方案是:
之前存储架构是一主二从(主机房一主一从,备机房一从)切换到备机房时,只有一个主服务,读写压力大时有抖动,因此我们改造为之前架构图中的一主三从。
之前的架构是分片逻辑分散到多个子系统的配置文件中,切换时需要操作很多系统,解决方案:
起初不确定Lua做逻辑和渲染模板性能如何,就尽量减少for、if/else之类的逻辑;通过Java Worker组装HTML片段存储到jimdb,HTML片段会存储诸多问题,假设未来变了也是需要全量刷出的,因此存储的内存最好就是元数据。因此通过线上不断压测,最终jimdb只存储元数据,Lua做逻辑和渲染,逻辑代码在3000行以上,模板代码1500行以上,其中包含大量for、if/else语句,目前渲染性能也可以接受。
线上真实流量,整体TP99性能从53ms降到32ms,如下图所示。
绑定8CPU测试的结果如下图所示,渲染模板的性能可以接受。
商品详情页库存接口2014年被恶意刷,每分钟超过600万访问量,Tomcat机器只能定时重启;因为是详情页展示的数据,缓存几秒钟是可以接受的,因此开启Nginx Proxy Cache来解决该问题,开启后降到正常水平。我们目前正在使用Nginx+Lua架构改造服务,数据过滤、URL重写等在Nginx层完成,通过URL重写+一致性哈希负载均衡,不怕随机URL,一些服务提升了10%以上的缓存命中率。
通过访问日志发现某IP频繁抓取,而且按照商品编号遍历,但是会有一些不存在的编号,解决方案是:
开启Nginx Proxy Cache后,性能下降,而且过一段时间内存使用率到达98%,解决方案是:
- sysctl -w vm.extra_free_kbytes=6436787
-
- sysctl -w vm.vfs_cache_pressure=10000
“配送至”服务每天有数十亿调用量,响应时间偏慢。解决方案是:
假设一个读服务需要如下数据,如下表所示。
目标数据 | 数据A | 数据B | 数据C | 数据D | 数据E |
---|---|---|---|---|---|
获取时间 | 10ms | 15ms | 10ms | 20ms | 5ms |
如果串行获取,那么需要60ms。
而如果数据C依赖数据A和数据B、数据D谁也不依赖、数据E依赖数据C,那么我们可以这样来获取数据,如下图所示。
如果并发获取,则需要30ms,能提升一倍的性能。
假设数据C还依赖数据F(5ms),而数据F是在数据C服务中获取的,此时,就可以考虑在取A/B/D服务数据时,并发预取书v就F,那么整体性能就变为25ms。
商品详情页通过这种优化,我们的服务提升了差不多10ms性能,如下图所示。
如下图所示的服务,他在抖动时的性能:老服务TP99是211ms,优化后的新服务是118ms,此处我们主要就是并发调用+超时时间限制,超时直接降级。
Twemproxy配置的timeout时间太长,之前设置为5s,而且没有分别针对连接、读、写设置超时。后来我们减少超时时间,内网设置在150ms以内,当超时时访问动态服务。
2014年双11期间,服务器网卡流量到了400Mbps,CPU30%左右。原因是我们所有压缩都在接入层完成,因此接入层不再传入相关请求头到应用 ,随着流量的增大,接入层压力过大,因此我们把压缩下放到各个业务应用,添加了相应的请求头,Nginx GZIP压缩级别在2~4吞吐量最高,应用服务器流量降了差不多5倍,目前正常情况CPU在4%以下,如下图所示。
综上所述,在电商应用中,随着业务规模的发展,应用的和缓存相关的技术有数据静态化架构、多级缓存模式、队列异步化、并行化等。可以把电商应用架构定义为高流量、高并发、高可用类应用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。