赞
踩
MPP(Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。
简单来说,MPP 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与 Hadoop 相似)。
在中国市值或估值排行前 50 的互联网公司中,有以下公司长期在使用Doris。
面向分析师的自助分析,查询模式不固定,要求较高的吞吐。
小米公司基于 Doris 构建了增长分析平台(Growing Analytics,GA),利用用户行为数据对业务进行增长分析,平均查询延时 10s,95 分位的查询延时 30s 以内,每天的 SQL 查询量为数万条。
一个平台满足统一的数据仓库建设需求,简化繁琐的大数据软件栈。
海底捞基于 Doris 构建的统一数仓,替换了原来由 Spark、Hive、Kudu、Hbase、Phoenix 组成的旧架构,架构大大简化。
通过外表的方式联邦分析位于 Hive、Iceberg、Hudi 中的数据,在避免数据拷贝的前提下,查询性能大幅提升。
采用列式存储,按列进行数据的编码压缩和读取,能够实现极高的压缩比,同时减少大量非相关数据的扫描,从而更加有效利用 IO 和 CPU 资源。
可以最多指定三个列组成复合排序键,通过该索引,能够有效进行数据裁剪,从而能够更好支持高并发的报表场景
使用 Z-order 索引,可以高效对数据模型中的任意字段组合进行范围查询
有效过滤数值类型的等值和范围查询
对高基数列的等值过滤裁剪非常有效
能够对任意字段实现快速检索
相同 Key 的 Value 列合并,通过提前聚合大幅提升性能
Key 唯一,相同 Key 的数据覆盖,实现行级别数据更新
明细数据模型,满足事实表的明细存储
Doris 采用了 Adaptive Query Execution 技术, 可以根据 Runtime Statistics 来动态调整执行计划,比如通过 Runtime Filter 技术能够在运行时生成生成 Filter 推到 Probe 侧,并且能够将 Filter 自动穿透到 Probe 侧最底层的 Scan 节点,从而大幅减少 Probe 的数据量,加速 Join 性能。
Doris 的 Runtime Filter 支持 In/Min/Max/Bloom Filter。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。