赞
踩
Apache Doris 同时支持批量导入和流式写入。可以与 Apache Spark、Apache Hive、Apache Flink、Airbyte、DBT 和 Fivetran 很好地集成。还可以连接到 Apache Hive、Apache Hudi、Apache Iceberg、Delta Lake 和 Apache Paimon 等数据湖。
Heterogeneous Data 异构数据
Application 应用程序
RDBMS
MySQL PostgreSQL SQL Server Oracle
Apache Doris Reporting Ad-hoc Analysis Federated Queries Apache Doris报告特别分析联邦查询
Dashboarding 仪表盘
Self-Service BI 自助式BI
Data Integration /ETL 数据集成/ETL
Sales Analysis 销售分析
Log Processing 日志处理
CDC
ETLELT
User Behavior Analysis 用户行为分析
log
Batch Processing (Spark, Hive) 批处理(Spark, Hive)
High-Concurrency Data Services 高并发数据服务
A/B Testing Log Analysis A/B测试日志分析
IOT 物联网
time series data 时间序列数据
Stream Processing (Flink) 流处理(Flink)
User Profiling 用户分析
Offline Data Lake 离线数据湖
Tools (Airbyte, DBT, Fivtn) 工具(Airbyte, DBT, Fivtn)
Hive
Time Series Data Analysis 时间序列数据分析
Apache Doris 提供了一系列数据摄取方法。
1.实时流写入:
Stream Load:可以应用此方法通过 HTTP 写入本地文件或数据流。具有线性可扩展性,在某些用例中可以达到每秒 1000 万条记录的吞吐量。
Flink-Doris-Connector:通过内置的 Flink CDC,该连接器将 OLTP 数据库中的数据提取到 Doris。至此,我们已经实现了MySQL、Oracle的数据自动同步到Doris。
例程加载:这是从 Kafka 消息队列订阅数据。
Insert Into:当您尝试在 Doris 内部进行 ETL 时(例如将数据从一个 Doris 表写入另一个 Doris 表)尤其有用。
2.批量写入:
Spark Load:通过这种方法,您可以在写入 Doris 之前利用 Spark 资源对来自 HDFS 和对象存储的数据进行预处理。
Broker Load:支持 HDFS 和 S3 协议。
insert into select from :这个简单的语句允许您将 Doris 连接到各种存储系统、数据湖和数据库。
生态丰富:提供丰富的数据同步方式,支持快速加载来自本地、Hadoop、Flink、Spark、Kafka、SeaTunnel等系统中的数据,也可以直接访问MySQL、PostgreSQL、Oracle、S3、Hive、Iceberg、Elasticsearch等系统中的数据而无需数据复制。同时存储在Doris中的数据也可以被 Spark、Flink 读取,并且可以输出给上游数据应用进行展示分析。
半结构化数据的常见示例包括日志、可观测性数据和时间序列数据。这些案例需要无模式支持、较低的成本以及多维分析和全文搜索的能力。
在文本分析中,人们大多使用 LIKE 算子,因此我们花了很多精力来提高它的性能,包括将 LIKE 算子下推到存储层(以减少数据扫描),并引入 NGram Bloomfilter, Hyperscan 正则表达式匹配库和 Volnitsky 算法(用于子字符串匹配)。
我们还引入了用于文本标记化的倒排索引。它是模糊关键字搜索、全文搜索、等价查询和范围查询的强大工具。
为了让用户构建高性能的数据湖和统一的查询网关,Doris 可以映射、缓存和自动刷新来自外部源的元数据。它支持 Hive Metastore 和几乎所有开放数据 Lakehouse 格式。您可以将其连接到关系数据库、Elasticsearch 和许多其他来源。它允许您在外部表上重用自己的身份验证系统,例如 Kerberos 和 Apache Ranger。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。