我家小花儿

这个屌丝很懒，什么也没留下！

热门标签

数据仓库、数据湖、湖仓一体傻傻分不清楚？_数据湖和数据仓库

作者：我家小花儿 | 2024-08-03 03:44:12

踩

数据湖和数据仓库

数据仓库

“数据仓库”一词最早是在1990年，由数据仓库之父比尔·恩门在1990年提出，其描述如下：数据仓库是为支持企业决策而特别设计和建立的数据集合。数据仓库，英文名称为Data Warehouse，可简写为DW或DWH，是一个集成了多维度的数据，具备主题性、集成性、稳定性和动态性等特点的系统，它通过集成和分析数据来帮助企业和组织做出更好的决策。

优缺点分析

优势：

（1）提高数据标准化、质量和一致性：组织从各种来源生成数据，包括销售、用户和交易数据。数据仓库将企业数据整合为一致的标准化格式，可以作为数据真实性的单一来源，使组织有信心依靠数据来满足业务需求。（2）提供增强的商业智能：数据仓库弥合了大量原始数据（通常作为实践自动收集）与提供洞察力的精选数据之间的差距。它们充当组织的数据存储骨干，使他们能够回答有关其数据的复杂问题，并使用这些答案做出明智的业务决策。（3）提高数据分析和商业智能工作负载的能力和速度：数据仓库加快了准备和分析数据所需的时间。由于数据仓库的数据一致且准确，因此它们可以毫不费力地连接到数据分析和商业智能工具。数据仓库还减少了收集数据所需的时间，并使团队能够利用数据来满足报告、仪表板和其他分析需求。（4）改进整体决策过程：数据仓库通过提供当前和历史数据的单一存储库来改进决策。决策者可以通过转换数据仓库中的数据以获得准确的洞察力来评估风险、了解客户的需求并改进产品和服务。

缺点：

数据仓库为企业提供了高性能和可扩展的分析能力。然而，它们带来了具体的挑战，其中包括：1）缺少数据灵活性。尽管数据仓库在处理结构化数据时表现良好，但在处理半结构化和非结构化的数据格式时，如日志分析、流媒体和社交媒体数据时，它们会遇到困难。这使得我们很难推荐数据仓库用于机器学习和人工智能的场景。2）实施和维护成本高。数据仓库的实施和维护成本很高。数据仓库通常不是静态的；它变得过时，需要定期维护，这可能是昂贵的。

数据仓库与数据库的区别

1、出发点不同：数据库是面向事务的设计；数据仓库是面向主题设计的。

2、设计规则不同：数据库设计是尽量避免冗余，一般采用符合范式的规则来设计；数据仓库在设计是有意引入冗余，采用反范式的方式来设计。

3、提供的功能不同：数据库是为捕获数据而设计，数据仓库是为分析数据而设计

4、基本元素不同：数据库的基本元素是事实表，数据仓库的基本元素是维度表。

5、容量不同：数据库在基本容量上要比数据仓库小的多。

6、服务对象不同：数据库是为了高效的事务处理而设计的，服务对象为企业业务处理方面的工作人员；数据仓库是为了分析数据进行决策而设计的，服务对象为企业高层决策人员。

如何分层

数据引入层ODS（Operation Data Store）：存放未经过处理的原始数据至数据仓库系统，结构上与源系统保持一致，是数据仓库的数据准备区。
数据公共层CDM（Common Data Model，又称通用数据模型层），包括DIM维度表、DWD和DWS，由ODS层数据加工而成。主要完成数据加工与整合，建立一致性的维度，构建可复用的面向分析和统计的明细事实表，以及汇总公共粒度的指标。
- 公共维度层（DIM）：基于维度建模理念思想，建立整个企业的一致性维度。降低数据计算口径和算法不统一风险。公共维度层的表通常也被称为逻辑维度表，维度和维度逻辑表通常一一对应。
- 公共汇总粒度事实层（DWS）：以分析的主题对象作为建模驱动，基于上层的应用和产品的指标需求，构建公共粒度的汇总指标事实表，以宽表化手段物理化模型。构建命名规范、口径一致的统计指标，为上层提供公共指标，建立汇总宽表、明细事实表。公共汇总粒度事实层的表通常也被称为汇总逻辑表，用于存放派生指标数据。
- 明细粒度事实层（DWD）：以业务过程作为建模驱动，基于每个具体的业务过程特点，构建最细粒度的明细层事实表。可以结合企业的数据使用特点，将明细事实表的某些重要维度属性字段做适当冗余，即宽表化处理。明细粒度事实层的表通常也被称为逻辑事实表。
数据应用层ADS（Application Data Service）：存放数据产品个性化的统计指标数据。根据CDM与ODS层加工生成。

如何构建数据仓库

1）调研：业务调研、需求调研、数据调研2）划分主题域：通过业务调研、需求调研、数据调研最终确定主题域3）构建总线矩阵、维度建模总线矩阵：把总线架构列表形成矩阵形式，行表示业务处理过程，即事实，列表示一致性的维度，在交叉点上打上标记表示该业务处理过程与该维度相关（交叉探查）4）设计数仓分层架构5）模型落地6）数据治理数据仓库模型的选择是灵活的，不局限与某种模型方法；数据是灵活的，以实际需求场景为导向；设计要兼顾灵活性、可扩展性、要考虑技术可靠性和实现成本。

实施数据仓库的最佳实践

拟定一个测试数据一致性、准确性和完整性的方案。
在设计数据仓库时，确保你使用正确的工具
不要在提取、清洗和加载数据上花费太多时间。
确保所有利益相关者包括业务人员都参与到数据仓库的实施过程中。
确保数据仓库是一个联合/团队项目，你不希望创建一个对终端用户无用的数据仓库。
为终端用户准备一个培训计划。

OLTP与OLAP

数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。

OLAP与数据仓库的联系

OLAP和数仓的关系是依赖互补的，一般以数据仓库作为基础，既从数据仓库中抽取出详细数据的一个子集并经过必要的聚集存储到OLAP存储中供数据分析工具读取。

什么是数据平台

大数据时代，数据平台一般被称之为大数据平台。提供易于部署和管理的泛Hadoop生态及其他存储计算引擎的PaaS平台，助力企业构建企业级数据湖技术架构。以处理海量数据存储、计算及不间断流数据实时计算、离线计算、智能推荐、交互式查询、数据湖构建等场景为主的一套基础设施。典型的包括基于Hadoop 生态构建的大数据平台。提供易于部署及管理的 Hive、Spark、HBase、Flink、StarRocks、Iceberg、Alluxio 等开源大数据计算和存储引擎。

什么是数据中台？

数据中台是一种企业级的技术解决方案。旨在为企业提供稳定、高效、安全的数据支持和服务。它的核心思想是将所有的数据资源和服务整合到一个统一的平台上，实现数据的集中管理和服务，数据中台更加侧重于“复用”和“业务”。

什么是数据湖？(Data Lake)

数据湖是统一存储池，可对接多种数据输入方式，您可以存储任意规模的结构化、半结构化、非结构化数据。数据湖可无缝对接多种计算分析平台，根据业务场景不同，可以选择相应的计算引擎对数据湖中存储的数据进行数据处理与分析，从而打破孤岛，挖掘业务价值。

数据湖的优势

因为数据湖可以存储结构化和非结构化的数据，所以有如下好处1）数据整合：数据湖可以同时存储结构化和非结构化的数据，以消除在不同环境中存储两种数据格式的需要。它们提供了一个中央存储库来存储所有类型的组织数据。2）数据的灵活性：数据湖的一个重要好处是其灵活性；你可以以任何格式或介质存储数据，而不需要有预定义的模式。允许数据保持其原始格式，可以为分析提供更多的数据，并迎合未来的数据使用情况。3）节省成本：数据湖比传统的数据仓库更便宜；它们被设计为存储在低成本的商品硬件上，如对象存储，通常被优化为每GB存储成本更低。例如，Amazon S3标准对象存储提供了令人难以置信的低价，前50TB/月每GB为0.023美元。4）支持各种各样的数据科学和机器学习用例：数据湖中的数据以开放的原始格式存储，使其更容易应用各种机器和深度学习算法来处理数据，以产生有意义的洞察力。

数据湖的缺点

1）商业智能和数据分析用例的性能不佳：如果管理不善，数据湖会变得杂乱无章，难以与商业智能和分析工具连接。另外，如果缺乏一致的数据结构和ACID（原子性、一致性、隔离性和持久性）交易支持，在报告和分析用例需要时，会导致查询性能不理想。2）缺少数据的可靠性和安全性：数据湖缺乏数据的一致性，因此很难执行数据的可靠性和安全性。由于数据湖可以容纳所有的数据格式，实施适当的数据安全和治理政策以满足敏感数据类型可能是一个挑战。

数据仓库 VS 数据中台 VS 数据湖

什么是湖仓一体(Data Lakehouse)？一个合并的方案

数据湖仓是一种新的大数据存储架构，它结合了数据仓库和数据湖的最佳功能。数据湖库可以为你的所有数据（结构化、半结构化和非结构化）提供一个单一的存储库，同时实现一流的机器学习、商业智能和流媒体能力。

数据湖仓通常以包含所有数据类型的数据湖开始；然后将数据转换为Delta湖格式（一种开源的存储层，为数据湖带来可靠性）。Delta湖实现了传统数据仓库在数据湖上的ACID交易过程。

湖仓一体的优势

数据湖仓架构将数据仓库的数据结构和管理功能与数据湖的低成本存储和灵活性相结合。这种实施的好处是巨大的，包括。1）减少了数据的冗余：数据湖库通过提供一个单一的多用途数据存储平台来满足所有业务数据的需求，从而减少数据的重复性。由于数据仓库和数据湖的优势，大多数公司选择了混合解决方案。然而，这种方法可能会导致数据的重复，这可能是昂贵的。

2）成本效益：数据湖库通过利用低成本的对象存储选项来实现数据湖的成本效益的存储功能。此外，数据湖馆通过提供一个单一的解决方案，消除了维护多个数据存储系统的成本和时间。

3）支持更多种类的工作负载：数据湖库提供对一些最广泛使用的商业智能工具（Tableau、PowerBI）的直接访问，以实现高级分析。此外，数据湖库使用开放的数据格式（如Parquet）与API和机器学习库，包括Python/R，使得数据科学家和机器学习工程师能够直接利用数据。

4）易于数据版本管理、治理和安全：数据湖库架构强制执行模式和数据完整性，使其更容易实施强大的数据安全和治理机制。

湖仓一体的缺点

它仍然是一个相对较新和不成熟的技术。因此，目前还不清楚它是否能实现其承诺的功能。在数据湖仓能够与成熟的大数据存储解决方案竞争之前，可能还需要几年时间。但以目前现代创新的速度，很难预测新的数据存储解决方案是否能最终取代它。

	数据仓库	数据湖	数据湖仓
存储数据类型	结构化数据	半结构化，非结构化	结构化，半结构化，非结构化
用途	最适合数据分析和商业智能（BI）的使用情况	适用于机器学习（ML）和人工智能（AI）	适用于数据分析和机器学习
消耗	储存成本高，耗时长	存储具有成本效益，快速和灵活	存储具有成本效益，快速和灵活
ACID兼容性	以符合ACID标准的方式记录数据，以确保最高水平的完整性	不符合ACID标准：更新和删除是复杂的操作	符合ACID标准，在多方同时读取或写入数据时确保一致性
Sample	Sample	Sample	Sample

如何选择：数据仓库 vs 数据湖 vs 数据湖仓

从头开始建立Data Lakehouse可能很复杂。而且你很可能会使用一个为支持开放Data Lakehouse架构而建立的平台。因此，确保你在购买之前研究每个平台的不同能力和实施工作。

对于寻求成熟的、结构化的数据解决方案的公司来说，数据仓库是一个不错的选择，它侧重于商业智能和数据分析用例。然而，数据湖适用于寻求灵活、低成本的大数据解决方案的组织，以驱动非结构化数据的机器学习和数据科学的场景。

假设数据仓库和数据湖的方法不能满足你公司的数据需求，或者你正在寻找在数据上同时实施高级分析和机器学习工作场景的方法。在这种情况下，Data Lakehouse是一个合理的选择。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/921265

数据仓库、数据湖、湖仓一体 傻傻分不清楚？_数据湖和数据仓库