当前位置:   article > 正文

数据仓库与数据湖的区别_数据湖和数据仓库的区别

数据湖和数据仓库的区别

数据湖通常包含用于高级分析应用程序的各种大数据集,而数据仓库则存储用于基本 BI、分析和报告用途的传统事务数据。下面,让我们更仔细地看一下这两个数据存储以及它们之间的差异。

1.什么是数据湖?

数据湖通常是一个庞大的存储库,以本机格式存储原始数据。数据湖的一个好处是它
可以存储不同结构的数据,而不仅仅是传统的结构化数据。每个存储的数据元素都有
一个唯一的标识符和元数据标记,因此在需要时可以更容易地查询。但是,当数据被
提取时,数据湖不需要预定义的模式。相反,数据科学家和其他分析师可以将架构应
用于数据集,并在提取过程完成后根据特定的分析需求对其进行筛选。

当数据湖首次出现时,它们通常与Hadoop分布式处理框架相关联,但随着企业中数
据的不断涌入,架构选项已经增加到包括其他大数据平台。许多T供应商现在还支持
云中的数据湖,通常将Spak处理引擎和云对象存储服务结合起来。

2.什么是数据仓库

数据仓库是由业务应用程序生成或收集的数据的存储库,然后存储用于预定的分析目
的。大多数数据仓库都建立在关系数据库上,因此,它们确实对数据应用了预定义的
架构。此外,在加载数据之前,通常必须按照预期用途对数据进行清理、整合和组
织。

由于数据仓库中的数据已经被处理,因此进行高级分析相对容易。业务经理和其他不
熟练的数据或分析专业人员可以使用自助BI工具(比如FineBl)自行访问和分析数
据。企业数据仓库为整个组织提供集中的数据存储库,同时可以为各个部门设置较小
的数据集市。与数据湖一样,云数据仓库越来越多地被部署为本地数据仓库的替代方

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/375147
推荐阅读
  

闽ICP备14008679号