赞
踩
今天去Teradata的网站学习了它的产品体系,大概弄明白了前几天所听到的“数据湖”的概念,以及它所应用的场景。
Data lakes and data warehouses are both design patterns, but they are actually polar opposites. Data warehouses are an approach based on structuring and packaging data for the sake of quality, consistency, reuse, ease of use, and performance with high concurrency levels. Data lakes go the other direction, complementing data warehouses with a design pattern that focuses on original raw data fidelity and long-term storage at a low cost while providing a new form of analytical agility.
上面是从它的产品白皮书中摘录出来的,比较清楚地解释了数据仓库和数据湖的区别。可以简单理解为,数据仓库是面向分析的设计,侧重于易用和执行效率;而数据湖则注重数据保留,保证数据的长期低成本存储,以应对未知形式的分析。这也让我理解了前几天听到的一个大数据架构:即ODS层、数据湖、数据仓库、集市层,在这个架构下,数据仓库可以不必将所有的数据都保存下来,只需要将明确了分析需求的数据建模即可,暂时用不到的数据和过久的历史数据可以保存到数据湖中,从而可以降低数据仓库建设的复杂度,避免为了应对未知分析而做出的“过度”设计。
虽然四达经分的数据复杂度、分析需求还不需要建设专门的数据湖,但从层次上划分出数据湖层还是可以的,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。