当前位置:   article > 正文

数据湖介绍

数据湖

介绍

数据湖概念是2011年提出来的,最初数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发、维护成本,细节数据丢失等问题出现的。
数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前后,也就是数据湖概念出现的时候,很多数据仓库逐渐迁移到以Hadoop为基础的技术栈上,而且除了结构化数据,半结构化、非结构数据也逐渐的存储到数据仓库中,并提供此类服务。这样的数据仓库,已经具有了数据湖的部分功能。

什么是数据湖

关于数据湖的定义,及与数据仓库的区别,目前业内还没有达成一致的认识,下面是几种定义

  • 数据湖是指一个大型的基于对象的存储库,以数据的原始格式保存数据,直到它需要被使用时
  • A data lake is a storage repository that holds a vast amount of raw data in its native format, including structured, semi-structured, and unstructured data. The data structure and requirements are not defined until the data is needed.
  • If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.

能干什么

  • Capture data from wide range of traditional (operational, transactional) and new sources (structured and unstructured) as-is
  • Store all your data in one environment for cross-functional business analysis
  • Support the analytics and data science to uncover new customer, product, and operational insights
  • Empower front-line employees and managers, and drive a more profitable customer engagement leveraging customer, product and operational insights
  • Integrate analytic insights into operational (Finance, Manufacturing, Marketing, Sales Force, Procurement, Logistics) and management systems (Business Intelligence reports and dashboards)

与数据仓库的区别

这里写图片描述

实施步骤

理解数据环境的变化

认识到数据湖的好处

  • The Active Archive
  • Self-Service Exploratory Business Intelligence
  • Advanced Analytics
  • Workload Optimization & Transition Management

做好从Schema-on-write到Schema-on-read的准备

整合数据湖基础设施

数据湖建设的四个阶段

  • Scalable data handling and ingestion
  • Analytical ability enhancement
  • EDW and Data Lake collaboration
  • End-to-end adoption and maturity acquisition

技术架构

这里写图片描述
Hadoop不一定是数据湖的组成部分,只是它是目前最理想的选择。

#数据池通用结构
数据湖由多个数据池构成,而进到数据池的数据,虽不像数据仓库那样多的数据处理,但是如果不做任何处理,有什么样的数据,数据之间的关系,能做什么等等,都无法或者很难实现,所以数据还是需要做些处理。

数据池描述

  • 更新频率
  • 来源描述
  • 数据量
  • 选择标准
  • 摘要标准
  • 规划标准
  • 数据关系

数据池目标

  • 用于调整数据模型基础

数据池数据

数据池元数据

  • 数据块
  • 数据记录
  • 索引

数据池元过程

  • 选择标准
  • 频度
  • 转换标准

数据池转换标准

数据转换

数据经过转换,才能供用户使用。不同类别的数据,转换的重点也不同。

模拟信号数据

  • 消重
  • 切除
  • 压缩
  • 平滑
  • 插值
  • 采样
  • 舍入
  • 编码
  • 标记
  • 阈值
  • 聚类

应用程序数据

  • 重点在整合

文本数据

  • 内在语境判断
  • 拼写转换
  • 同形词辨认
  • 缩写辨认
  • 自定义变量识别
  • 类别的辨认
  • 日期标准化

最佳实践

一些人总结的最佳实践,有利于我们在实施数据湖时,别做成数据垃圾湖。另一方面,能够大大减少我们实施数据湖所走的弯路。
这里写图片描述

业务优先级列表

数据湖需要为业务带来企业级数据仓库无法提供的价值

建筑监督

基础技术栈的短期及长期规划

安全策略

一个共享平台,由多个业务线或者内部和外部利益相关者共同使用

I/O和内存模型

数据湖的扩展功能

员工技能评估

应该具备构建数据平台实践经验,有丰富的数据管理和数据治理经验

行动计划

从服务提供、几乎零停机时间、可重复读取、处理、改变数据的角度,制定适当的服务水平协议

沟通计划

找到不同的感兴趣的业务涉众,为其展示数据湖的成功示例

灾备计划

五年愿景

数据湖将会成为下一代企业级数据技术的关键基础平台,企业需要提前计划如何将数据湖纳入长期策略

参考

数据湖架构
Big Data Requires a Big, New Architecture
The Data Lake Dream
Data Lake vs Data Warehouse: Key Differences
数据湖的最佳实践
Dear CIO, what you have is NOT a Data Lake
Data Lake Plumbers: Operationalizing the Data Lake

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/375154
推荐阅读
相关标签
  

闽ICP备14008679号