赞
踩
大数据问题
大数据特征
定义 大数据是新兴的,能够高速捕获、分析、处理大容量多种类数据,并从中得到相应价值的技术和架构。
大数据处理流程
数据采集
{
二
维
码
扫
描
技
术
传
感
器
互
联
网
数据预处理
{
数
据
抽
取
(
找
出
需
要
的
部
分
)
数
据
清
洗
(
缺
省
值
处
理
、
噪
声
数
据
处
理
、
数
据
不
一
致
问
题
)
数
据
集
成
(
将
多
个
数
据
合
并
到
一
致
的
内
存
存
储
)
数
据
转
换
(
将
原
始
数
据
转
换
为
适
合
于
数
据
挖
掘
的
数
据
形
式
)
数
据
泛
化
、
数
据
规
范
化
、
新
属
性
构
造
数
据
归
约
(
最
大
限
度
精
简
数
据
量
)
:
属
性
归
约
、
数
据
采
样
数据存储
R
D
B
M
S
N
o
S
Q
L
H
T
F
S
RDBMS\\ NoSQL\\ HTFS\\
RDBMSNoSQLHTFS
分析和挖掘
{
数
据
分
析
:
预
测
性
分
析
、
关
联
分
析
、
可
视
化
分
析
数
学
模
型
统
计
学
方
法
数
据
挖
掘
机
器
学
习
人
工
智
能
应用
按数据结构化分类
{
结
构
化
数
据
半
结
构
化
数
据
非
结
构
化
数
据
其
他
分
类
方
式
下
的
数
据
类
型
结构化数据 基于关系型数据库的数据
半结构化数据 介于完全结构化数据和完全无结构化数据之间
邮件、HTML、报表、XML、json
文档
非结构化数据 非纯文本数据,没有标准格式
Web 网页、即时消息、富文本、富媒体、实时多媒体
按生产主体分类
{
少
量
企
业
产
生
的
数
据
大
量
用
户
产
生
的
数
据
巨
型
机
器
产
生
的
数
据
按作用方式分类
{
交
互
数
据
,
人
与
机
器
交
互
交
易
数
据
,
电
子
商
务
和
企
业
应
用
to C 单价金额小、复购相对高、决策流程短、冲动消费多
to B 单价金额大、复购相对低、决策流程长、冲动消费少
p2p 互联网金融点对点借贷平台
应用
挑战
大数据的来源
大数据采集设备
科研大数据采集: 高精密设备
网络大数据采集: 数据中心和服务器 爬虫技术
系统日志采集方法
{
S
c
r
i
b
e
从
各
种
日
志
源
收
集
日
志
,
存
储
到
中
央
存
储
系
统
C
h
u
k
w
a
开
源
的
用
于
监
控
大
型
分
布
式
系
统
的
数
据
收
集
系
统
大数据预处理技术包括数据清洗、数据集成、数据规约、数据变换、数据离散化。
数据清洗—缺失值
数据清洗-噪声数据
数据光滑的分箱方法
分箱方法通过考察数据的“近邻”来光滑有序数据值,将有序的值被分布到一些箱中,由于分箱法考虑临近的值,因此它进行局部光滑。
回归
使用函数拟合数据来光滑数据成为回归
离群点分析
可以通过聚类将类似的值组织成群或者“簇”,落在“簇”集合之外的值被视为离群点,将离群点拉倒簇之内,用临近簇的均值或者中位数来平滑
数据清洗的主要过程
数据集成-实体识别
在集成期间,**当一个数据库的属性与另一个数据库的属性匹配时,必须注意数据结构。**旨在确保原系统中的函数依赖和参照约束与目标系统中的匹配。比如如何确定在一个关系中的customer_id和另外一个关系中的cust
_number指的是相同属性。
数据集成-冗余和相关分析
一个属性如果能由另一个属性导出,则这个属性可能是冗余的。属性或者维名的不一致也可能导致结果数据集中的数据冗余。有些冗余可以被相关分析检测到。一般用相关系数 或者协方差
数据集成-数据冲突的检测与处理方法
对于来自同一世界的某一实体,在不同数据库中可能有不同的属性值,比如单位不同。可以根据需要修改某一数据库的属性值以使来自不同数据库但为同一实体的属性值统一起来。
数据规约
维规约
减少所考虑的随机变量或者属性的个数
方法 小波变换或者主成分分析,把原数据变换或者投影到较小的空间
属性子集选择,数据中不相关、弱相关或冗余的属性或者维被检测和删除
数量规约
数量归约的回归和对数线性模型
数据变换与数据离散化
X
=
[
x
11
⋯
x
1
n
⋯
⋯
⋯
x
n
1
⋯
x
n
n
]
X=
中心化变换
是一种坐标轴平移的处理方法
x i j ∗ = x i j − x ‾ j ( i = 1 , 2 , ⋯ , n ; j = 1 , 2 , ⋯ , n ) x_{ij}^* =x_{ij}-\overline x_j(i=1,2,\cdots,n;j=1,2,\cdots,n) xij∗=xij−xj(i=1,2,⋯,n;j=1,2,⋯,n)
极差规格化变换
x i j ′ = x i j − m i n ( x i j ) m a x ( x i j ) − m i n ( x i j ) \displaystyle x_{ij}\prime=\frac{x_{ij}-min(x_{ij})}{max(x_{ij})-min(x_{ij})} xij′=max(xij)−min(xij)xij−min(xij)
标准化变换
S j = 1 n − 1 ∑ i = 1 n ( x i j − X ‾ j ) 2 S_j=\displaystyle \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_{ij}-\overline X_j)^2} Sj=n−11i=1∑n(xij−Xj)2
x i j ∗ = x i j − x ‾ j S j \displaystyle x_{ij}^*=\frac{x_{ij}-\overline x_j}{S_j} xij∗=Sjxij−xj
经过标准化处理之后,每个变量中每列数据均值为0,方差为1
对数变换
将各个原始数据取对数,将原始数据的对数值作为变换后的新值
作用 是服从对数正态分布的资料正态化;使方差不齐且各族的接近的资料达到方差齐的效果;使曲线直线化,常用于曲线拟合
连续数据离散化
数据离散化的规则
物理模式数据存储的发展历史
打孔纸卡 → \rightarrow → 穿孔纸带 → \rightarrow → 计数电子管 → \rightarrow → 盘式磁带 → \rightarrow → 盒式磁带 → \rightarrow → 磁鼓 → \rightarrow → 软磁盘 → \rightarrow → 光盘 → \rightarrow → 硬盘机 → \rightarrow → 硬盘 → \rightarrow → 磁盘阵列 R A I D RAID RAID
逻辑模式 传统关系型数据库
云存储通过集群应用、网络技术或者分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。
云存储的特点
云存储的架构
云存储的技术
大数据存储的特点与挑战
存储系统架构
DAS
Direct Attached Storage 直连式存储
NAS
Network Attached Storage 网络附加存储
IP
网络与存储设备连接SAN
Storage Area Network 存储区域网络
{
接
口
(
光
纤
)
连
接
设
备
(
交
换
设
备
)
通
信
控
制
协
议
(
I
P
和
S
C
S
I
)
{
F
C
S
A
N
I
P
S
A
N
FC SAN 应用服务器通过光纤通道和ISCSI协议与SAN相连
IP SAN 通过高速以太网连接服务器和后端存储系统
新兴数据库技术
NoSQL
Not Only SQL
泛指非关系型数据库
New SQL
提供SQL
数据库的质量保证也能提供NoSQL
数据库的可扩展性
数据中心 Data Center 具有大规模的软件基础设施、数据存储资源和硬件平台
数据中心特点
数据中心体系结构
计
算
机
中
心
体
系
结
构
{
存
储
网
络
结
构
数
据
层
次
能
源
利
用
故
障
处
理
计算机中心体系结构
数据仓库 Data Warehouse 数据仓库作为一种信息管理技术,能够将分布在企业的各种数据进行再加工,从而形成一个综合的、面向分析的环境,以更好为决策者提供各种有效的数据分析,起到决策支持的作用。并减轻系统负担,简化日常维护和管理,改进数据的完整性,还为用户提供了简单统一的查询和报表机制。
基本特性
数据仓库中数据分为四个级别
元数据 主要记录程序员所熟知的数据结构、决策支持系统分析员所熟知的数据结构、数据仓库的数据源、数据加入数据仓库时的转换、数据模型、数据模型和数据仓库的关系、抽取数据的历史记录。
云计算(Cloud Computing) 是一种分布在大规模数据中心、能动态的提供各种服务器资源以满足科研、电子商务等领域需求的计算平台。云计算是分布式计算、并行计算和网络计算的发展,是虚拟化、效用计算、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。
云计算特点
云计算体系架构
云计算核心服务
{
基
础
设
施
即
服
务
I
a
a
S
平
台
即
服
务
P
a
a
S
软
件
即
服
务
S
a
a
S
基础设施即服务 IaaS
消费者通过Internet
可从完善计算机基础设施获得服务
如HDFS,cStor
平台即服务 PaaS
将软件研发平台作为一种服务
MapReduce,JobKeeper,HBase,数据立方
软件即服务 SaaS
租用基于Web的软件
例如 Mahout
服务管理层
用户访问接口
云计算及相关计算形式
云计算是分布式计算、网格计算、并行计算的最新发展。
云计算的机遇与挑战
云计算平台的起源
MapReduce
分布式计算框架GFS
分布式文件系统BigTable
基于GFS
的数据存储系统主流分布式平台
Hadoop
离线复杂大数据处理MapReduce
平台除了少量负责特定管理功能的结点,所有结点都是同构的,即同时运行BigTable Server
、GFS chunkserver
、MapReduce Job
等核心功能模块,与之对应的则是数据存储、数据管理、编程模型等3项技术。
GFS
分布式文件系统
基于以下假设开发的GFS
Google开发了弱一致性要求的大规模数据库系统big table。采用基于列存储的分布式数据管理模式提高数据读取效率。big table基本元素是行、列、记录板和时间戳。
Map先进行排序,然后将中间所有具有相同key值的value集合在一起传递给reduce函数,使用用户自定义的reduce函数合并所有具有相同key值的value形成一个较小的value值集合。
Hadoop
平台Hadoop
框架中最核心设计是MapReduce
和HDFS
Hadoop
的3个主要功能模块
模块 | 管理功能 |
---|---|
job tracker | job管理和操作 |
task tracker | task的管理和操作 |
application | 应用程序接口 |
Hadoop
分布式文件系统HDFS
HDFS
设计是基于以下前提和目标
HDFS
集群是由一个名字结点和一定数目的数据结点组成,名字结点是一个中心服务器,负责管理文件系统的名字空间以及客户端对文件的访问Hadoop中的MapReduce
由一个单独的master JobTracker和每个集群结点一个slave Tasktracker共同组成
Spark
平台广义的Spark平台的架构
狭义的spark是指数据处理层的计算框架
核心思想与编程模型
利用内存承载工作集
Spark有两个抽象
{
弹
性
分
布
式
数
据
集
R
D
D
共
享
变
量
RDD
弹性分布式数据
一种自定义的可并行数据容器,可存放任意数据类型的数据
S
p
a
r
k
数
据
空
间
{
存
储
系
统
原
生
数
据
空
间
R
D
D
空
间
Spark数据空间
共享变量
工作原理
Spark的每个application都有一套自己的运行时环境,避免了应用程序之间的相互影响。Spark的运行时环境有四种过程,初始化、转换、调度执行、终止。
平台优势
目的是挖掘数据中潜在的价值以提供相应的建议或决策
使用适当的统计方法来分析大量的原始数据和经过初步处理的数据
目的
通过少数几个因子,来描述大量指标或元素之间的关系。
因子分解模型
用于确定观测现象之间的相关规律,从而进行预测和控制的分析方法。相关分析就是利用现有数据研究关系的强度的过程。比如软件开发者收入和教育程度相关性分析。
揭示一个变量和其他几个变量之间的相关性,识别随机隐藏的变量之间的依赖关系。
通过比较测试组,指定能改善目标变量的计划。在软件快速上线的过程中,A/B测试能帮我们快速试错,并进行针对性修改;能够帮我们了解对产品的改动。
基于复杂多变量统计分析的数据分析技术,如回归分析、因子分析、聚类分析和识别分析。
从大量不完全、杂乱、模糊和随机的数据中,提取隐藏的、未知的、但可能有用的信息和知识的过程。数据挖掘也通常称为数据分析、数据融合和决策支持。
主要作用
挖掘方法一般分为
布隆过滤器由一个位数组和一系列的哈希函数组成
布隆过滤器的原理是通过利用位数组来存储数据本身之外的数据的哈希值。
位数组本质是使用哈希函数来进行数据的有损压缩,从而存储其位图索引。
核心思想是利用多个不同的哈希函数来解决冲突。
将数据变换为较短的固定长度数值或索引值。
冲突主要取决于
解决冲突的办法
减少磁盘读取和写入成本的有效方法,提高插入、删除、修改、查询速度。
索引一般分为两类:聚集索引和非聚集索引
聚集的作用就是将某一列或者多列的物理顺序改变为和逻辑顺序一致
聚集索引 B树的叶子直接存储聚集索引的数据
非聚集索引 额外生成一个聚集索引的B树结构
单词查找树,用于快速检索和字频统计。
主要思想 利用字符串的常见前缀最大限度的减少字符串的比较,提高查询效率。
字典树可以利用字符串的公共前缀来节约存储空间
字典树的基本性质
简单应用
基本思想 分解一个问题并将其分配给几个独立的进程,以便独立完成,实现协同处理。
对于适合于并行处理的应用或者易并行问题计算可以分解成完全独立的部分,改造出分布式算法,比如大规模人脸识别,图形渲染等。目前MapReduce目前最擅长的计算领域有流量统计、推荐引擎、趋势分析、用户行为分析、数据挖掘分类器、分布式索引等。
大规模数据集
特征选择主要有两个功能
特征选择方法
去掉取值变化小的特征。可以作为特征选择的预处理,先去掉那些取值变化小的特征。
单变量特征选择,衡量特征和响应变量之间的关系,扔掉得分不高的特征
pearson
相关系数衡量变量之间的线性相关性
[
−
1
,
1
]
[-1,1]
[−1,1]线性模型和正则化
L1
正则化Lasso。L1正则化使弱特征所对应的系数变为0,因此L1正则化学习到的模型很稀疏。使L1正则化称为一种很好的特征选择方法。L2
正则化Ridge regression。L2正则化会使系数的取值变得平均,表示能力强的特征对应的系数非零,对于特征的理解更加有用。随机森林
平均不纯度减少,利用不纯度确定节点,每个特征减少了多少树的不纯度,对于具有多种类别的变量会更有利,一旦某个特征被选择之后,其他特征的额重要度就会急剧下降;实际特征重要度高的特征可能计算的很低,偏向具有更多类别的变量
平均精度率减少,直接度量每个特征对模型精确率的影响
顶层特征选择算法
在不同子集上建立模型,然后汇总最终确定特征得分
决策树分类
每个非叶结点表示一个特征属性的测试,每个分支代表特征属性在值域上的输出,每个叶结点存放一个类别。
ID3
选择分裂后信息增益最大的属性进行分裂C4.5
朴素贝叶斯分类
当特征为X时,计算所有类别的条件概率,选取条件概率最大的类别作为待分类的类别,分类假设是条件独立性
贝叶斯网络
概率图模型
支持向量机SVM
首先将数据预处理。如果线性可分,那么直接找到超平面;否则将数据映射到n+1维然后继续找超平面
最近邻分类器
KNN
a r g m a x x f ( x ) = { x ∣ x ∈ X a n d f ( x ) m a x } argmax_x\ f(x)=\{x|x\in X\ and\ f(x)_{max}\} argmaxx f(x)={x∣x∈X and f(x)max}
K-MEANS算法
基于距离的聚类算法,认为两个对象距离越近,相似度越大。认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为终极目标,普适性好,只能发现球形的簇。
质心,样本点
距离,相似性度量。设 X = { x 1 , x 2 , ⋯ , x n } , Y = { y 1 , y 2 , ⋯ , y n } X=\{x_1,x_2,\cdots,x_n\},Y=\{y_1,y_2,\cdots,y_n\} X={x1,x2,⋯,xn},Y={y1,y2,⋯,yn}
欧式距离 d ( X , Y ) = ∑ i = 1 n ( x i − y i ) 2 d(X,Y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} d(X,Y)=∑i=1n(xi−yi)2
曼哈顿距离 d ( X , Y ) = ∑ i = 1 n ∣ x i − y i ∣ \displaystyle d(X,Y)=\sum_{i=1}^n\vert x_i-y_i\vert d(X,Y)=i=1∑n∣xi−yi∣
明科夫斯基距离
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oIiuVLq8-1599993768432)(C:\Users\Chaoxu Lv\AppData\Roaming\Typora\typora-user-images\image-20200903094246593.png)]
DBSCAN
算法
具有噪声的基于密度的聚类算法
对于一类中的每个对象,在其给定半径的领域包含的对象不能少于某一个给定的最小数目,能较好的处理高维数据,能够发现任意形状的簇
层次聚类算法
聚类评估与应用
在大规模数据集中寻找物品间的隐含关系被称作关联分析
有趣的关系
度量有趣关系标准
关联分析算法
Apriori
算法,每次增加频繁项集的大小都会重新扫描整个数据集FP-growth
算法,只需对数据库扫描两遍数据集基于MapReduce
的并行算法
超越MapReduce
的并行算法
计算图
数据可视化基本概念
可视化技术
数据可视化表现格式
数据可视化必须具有以下特征
可视化工具
D3
基于JavaScriptGoolge
chartBPizza
Pie Charts 饼图图标 动态分层图表Gephi
visual.ly
允许从Twitter,Facebook
,Google plus采取数据波士顿地铁数据可视化
实时风场可视化
Gap Minder
死亡率与税收
My Map
挑战
发展方向
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。