赞
踩
大数据概述第1部分
大数据概念:
1. Volume 大量化
2. VELOCITY 快速化
3. VARIETY 多样化
4. VALUE 价值化
数据量大
大数据摩尔定律:根据IDC估测,数据一直都在以每年50%的速度增长,也就是说每两年就增加一倍。
人类在最近两年产生的数据量相当于之前产生的全部数据量。
预计到2020年全球总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍。
1Z = 1000E
1E = 1000P
1p = 1000T
1t = 1000G
数据类型繁多
大数据由结构化数据和非结构化数据组成
1. 10%的结构化数据,存储在数据库中
2. 90%的非结构化数据,它们与人类信息密切相关
处理速度快
从数据到生成的消耗,时间窗口非常小,可用于生成决策的时间非常少
1秒定律:只一点也是和传统的数据挖掘技术有着本质的不同
1分钟:新浪可以发送2万条微博
苹果可以下载4.1万次应用
价值密度低,商业价值高
大数据的影响
图灵获奖者,著名数据库专家Jim Gray博士观察并总结人类自古以来,在科学研究上先后经历了实验,理论,计算和数据四种范式。
大数据颠覆传统的思维方式:
—全样而非抽样
—效率而非精确
—相关而非因果
大数据概述第2部分
大数据应用
大数据无处不在,包括金融,汽车,零售,餐饮,电信,能源,政务,医疗,体育,娱乐等在内的社会各行各业都已经融入大数据的印记。
大数据的关键技术
技术层面 | 功能 |
数据采集 | 利用ETL工具将分布的,异构数据源中的数据如关系数据,平面数据文件等,抽取到临时中间层后进行清洗,转换,集成,最后加载到数据仓率或数据集市中,成为联机分析处理,数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析 |
数据存储和管理 | 利用分布式文件系统,数据仓库,关系数据库,NoSQL数据库,云数据库等,实现对结构化,半结构化和非结构化海量数据的存储管理 |
数据处理与分析 | 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据处理和分析:对分析结果进行可视化呈现,帮助人们更好地理解数据,分析数据 |
数据隐私和安全 | 在从大数据挖掘中挖掘潜在的巨大商业价值和学术价值的同事,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全 |
两大核心技术:分布式存储,分布式处理
GFS/HDFS
BigTable\HBase
NoSQL
NewSQL
大数据计算模式
大数据计算模式 | 解决问题 | 代表产品 |
批处理计算 | 针对大规模数据的批量处理 | MapReduce ,Spark |
流计算 | 针对流数据的实时计算 | Strom,S4,Flume,Streams,Puma |
图计算 | 针对大规模图机构数据处理 | Pregel,GraphX,Giaph,Hama |
查询分析计算 | 大规模数据的存储管理和插叙 | Dremel Hive,Cassandra, Impala |
大数据与云计算,物联网的关系
SaaS 从一个集中的系统部署软件,使之在一台本地计算机上运行的一个模型。由于是计量服务,SaaS允许出租一个应用程序,并计时收费
PaaS包括操作系统和围绕特定应用的必须的服务(开发云计算应用的基础)
Iaas 将基础设施计算资源和存储作为服务出租
云计算的关键计算:虚拟化,分布式存储,分布式计算,多租户
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。