赞
踩
Doris(原百度Palo)是一款基于大规模并行处理技术的分布式SQL数据库。基于MPP的交互式SQL数据库,可以用于OLAP。MPP是将任务并行的分散到多个服务器和节点上,在每个节点上结算完后,将各个部分的结果汇总在一起得到最终的结果。
StarRocks
SelectDB Cloud 介绍 | SelectDBhttps://docs.selectdb.com/docs/cloud/overview
性能卓越:TPC-H/TPC-DS性能领先,性价比高,高并发查询,100台集群可达10W QPS,流式导入单点50MB/s,小批量导入毫秒延迟
简单易用:高度兼容Mysql协议;支持在线表结构变更、高度集中,不依赖于外部存储系统,通过了权威第三方产品能力测评验证;
扩展性强:架构优雅,单集群可水平扩展200台以上
高可用性:多副本,元数据高可用
Doris主要整合了Google Mesa(数据模型)、Apache Impala(MPP Query Engine)和ORCFile(存储格式,编码和压缩)的技术。
Doris的架构只设FE(Frontend)、BE(Backend)两种角色、两个进程,不依赖于外部组件,方便部署和运营。
数据可靠性:
元数据使用Memory+CheckPoint+Journal,使用BTBJE协议实现高可用和高可靠性
Doris内部自行管理数据的多副本和自动修复。保证数据的高可用、高可靠。再服务器宕机的情况下,服务依然可用,数据也不会丢失。
容易运营:
没有外部依赖:Doris部署无外部依赖,只需要部署BE和FE即可搭建起一个集群;支持Online Schema Change;支持在线更改表模式(加减列,创建rollUp),不会影响当前服务,不会堵塞读、写操作;执行是异步的
数据同步操作和异步操作:
同步:是所有的操作都完成,才返回给用户结果;即写完数据库之后,再响应用户,用户体验不好;
异步:不用等所有的操作做完,就响应用户请求;即先响应用户请求,然后再慢慢的写数据库,用户体验好。缓存机制(也就是消息队列),就是异步操作的一个典型应用。
副本自动均衡
内置监控
MySql兼容:兼容Mysql的网络协议;兼容Mysql的语法
支持MPP:即支持Massively Parallel Processing,大规模并行处理,即海量数据并发查询。
SELECT k1,SUM(v1) FROM A,B WHERE A.k2=B.k2 GROUP BY k1 ORDER BY SUM(v1)
该语句包含了合并、聚合计算、排序等多种操作;在执行计划的时候,MPP将其拆解成多份,分布到每台机器上执行,最后再将结果汇总。假设有10台机器,在大数据量下,这种查询执行方式可以使得查询性能达到10倍的提升。
Aggregate模型可以通过预聚合,极大的降低聚合查询时所需要扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。但是该模型对count(*)查询很不友好。同时因为固定了value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语意正确性。
维度列key:没设置aggregationtype
指标列value:设置了aggregationtype
当我们导入数据的时候,对于key列相同的行会聚合成一行,而value列会按照设置的aggregationtype进行聚合。aggregationtype目前的四种聚合方式:
优点:我们会按照维度列区聚合数据,如果维度列数据相同我们会把这些数据合并(compaction)起来。也就是相当于在数据库里面存储的其实是一个合并之后的结果,这个结果对于统计分析来说是很有效果的。因为广告报表只关心这种统计之后的数据,现在我们把大量的数据聚合,比如一天的数据可能有一千条,我们聚合成一条,相当于整个IO节省了一千倍,效果非常明显。
缺点:有些业务场景分析的时候,是需要明细数据的,它不太关心统计的结果,而是更关心流程分析,更关心的是我要拿着历史的全量数据跟现在的数据做对比。
我们提供一个唯一Key模型,在整个历史数据导入的时候,我们保证key的唯一,不聚合。
Unique Key的模型主要面向留存分析或者订单分析的场景,他们需要一个Unique Key的约束去保证整个数据不丢不重。
Uniq模型针对需要唯一主键约束的场景,可以保证主键唯一性约束。但是无法利用RollUp等预聚合带来的查询优势(因为本质是replace,没有sum这种聚合方式,rollup只是用来调准列顺序命中前缀索引)
数据完全按照导入文件中的数据进行存储,不会有任何聚合。即使两行数据完全相同,也会保留。而在建表语句中制定的Duplicate key,只是用来指明底层数据按照那些列进行排序。
数据可能重复,对于有些日志分析它不太在意数据多几条或者少几条,可能只关心排序,这个时候可能重复key的模型会更加有效果。这种数据模型适用于既没有聚合需求,有没有主键唯一性约束的原始数据的存储。
Duplicate模型适用任意维度的ad-hoc查询。虽然同样无法利用预聚合的特性,但是不受聚合模型的约束,可以发挥列存模型的优势(只读取相关列,而不需要读取所有key列)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。