赞
踩
目录
传统的商务智能(BI)提供“后视镜”式的报告,通过分析结构化的数据展示过去的趋势。
信息收敛三角:
数据科学将数据挖掘、统计分析、机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。因为数据分析师或数据科学家会使用一些科学的方法来开发和评估模型,所有开发预测模型有时被称为数据科学。
数据仓库/传统商务智能 | 数据科学 | |
---|---|---|
描述性分析 | 预测性分析 | 规范性分析 |
事后结论 | 洞察 | 预见 |
基于历史: 过去发生了什么? 为什么发生? | 基于预测模型: 未来可能会发生什么? | 基于场景: 我们该做什么才能保证事情发生? |
早期通过3V来定义大数据的特征:数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)。
后来V列表有了更多的扩展:
来源于结构化数据和非结构化数据。
从上图其实我们能看出来:
数据仓库是面向BI的;
数据科学是面向AI的。
数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。例如,它可以提供:
数据湖的风险在于,它可能很快会变成数据沼泽一一杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。
预测分析是有监督学习的子领域,规范分析比预测分析更进一步。
基于通用规则,例如将SPAM邮件与非SPAM邮件区分开,这种结果是有限制的,刚刚那个例子,结果就是“是”或“否”。
基于找到的哪些隐藏的规律(数据挖掘),结果是无限的,例如让他去预测明年的销售业绩是多少这种。
基于目标的实现,例如让他在国际象棋中击败对手。
我们凑这篇文章,介绍下数据仓库、大数据平台、数据湖、数据中台、数据底座、湖仓一体化大数据平台的差异。
听过很多次了,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,能容纳更加庞大的数据集。
数据湖是将来自不同数据源、不同数据类型(结构化、半结构化、非结构化)的数据,以原始格式存储进行存储的系统,并按原样存储数据,而无需事先对数据进行结构化处理。是各种原始数据的集合(不产生数据),原则上不对数据进行清洗、整合(不能对业务数据进行修改),入湖数据需要进行注册(经过流程制度的处理,如确定数据Owner,满足要求)。
个性化、多样化数据,以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,以 Hadoop、Spark、Hive 等作为大数据基础能力层,在大数据组件上搭建包括数据分析、机器学习程序等 ETL 流水线,另外可以包括数据仓库系统等核心功能。
阿里提出的中国本地的一个概念,数据中台是企业级数据能力共享平台,提供企业级数据服务,实现数据共享。数据通过分层与水平解耦,经过汇聚、存储、整合、分析、加工,沉淀公共的数据能力,再经过服务封装,形成通用的调用接口,为前端应用提供数据服务调用,支撑前端应用敏捷迭代和快速构建。数据直接用于业务链路和交易场景, 服务更多业务。数据中台不是一个标准化的产品,是一整套策略和解决方案的集合。
数据底座是企业统一的数据平台,是数据的逻辑集合,由数据湖和数据主题联接两层构成,集成公司内部各个业务系统数据及外部数据,为业务可视、分析、决策等数据消费提供数据服务。数据底座由数据湖和数据主题联接构成。
是新兴起的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。就是把面向企业的数据仓库技术与数据湖存储技术相结合,为企业提供一个统一的、可共享的数据底座。
大数据平台1.0+数据中台的功能+数据运营的功能=大数据平台2.0=湖仓一体化大数据平台(简称大数据平台)。
数据仓库、数据湖和湖仓一体之间的差异主要体现在以下几点。
数据类型 | 采集过程 | 访问方式 | 可靠性和安全性 | 使用场景 | |
---|---|---|---|---|---|
数据仓库 | 结构化、已处理数据 | 写时模式 | SQL为主,支持API | 数据质量高、安全性高 | BI |
数据湖 | 结构化、半结构化、非结构化原始数据 | 读时模式 | 开放API | 数据质量低、安全性低、易形成数据沼泽 | AI |
数仓一体 | 结构化、半结构化、非结构化原始数据 | 写时模式、读时模式 | 开放API | 数据质量高、安全性高 | 丰富场景 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。