赞
踩
笔记仅自用,杠勿cue我
4V特征:Volume(规模大),Variety(种类杂),Velocity(变化快),Value(价值密度小)
从抽样到全样,从精确到非精确,从因果到关联
大数据的计算允许解在一定范围区间近似,由于数据异构多源多噪声,目标是寻找关联趋势的宏观特征
需要有:数据采集,管理,分析,可视化。
云计算的七个特点:超大规模,虚拟化,可靠,通用,伸缩,按需服务,廉价
云计算服务的分类:
【1】将软件作为服务:(针对应用的某些功能进行封装服务)Saas
【2】将平台作为服务(对资源抽象层次更进一步)Paas
【3】将基础设施作为服务(将硬件设施资源封装作为服务)Iaas
虚拟化技术:
服务器虚拟化,存储虚拟化,网络虚拟化
【1】服务器虚拟化:将多个物理机虚拟成逻辑上的服务器。比如:网格技术
【2】存储虚拟化:分布的异构存储设备统一成一个或者多个存储池
【3】在底层物理网络和网络用户之间增加一个抽象层
(安全)
半虚拟化技术可以弥补虚拟化带来的性能损失
数据获取,数据集成,数据预处理
多源数据采集:有价值的数据最大化,无价值的数据最小化,和现实对象的偏差最小化,也需要做到:可靠性,时效性
数据预处理:
清理:缺失值处理,清理噪声
集成:传统集成和跨界集成
变换:规范化,平滑,概化
归约:降维
数据质量:准确,完整,一致
Pull-Base的意思是由集中式或者分布式的代理主动获取,Push-Based由源或者第三方推向数据汇聚点
数据收集:物理信息传感器,数据设备的日志文件,网络上的爬虫,众包和群智感知(所谓众包的意思是:每个人贡献一点,比如我们的报百科,wiki之类的),指导和协调群体的行为
数据离散化技术:我们希望处理的数据是离散化的,离散化的数据便于分析,因此,我们需要使用:等距,等频,优化离散的方法来对数据进行离散化。
等距:连续数据的取值范围分为n等分,等频:将观察点数量分为n等分。优化离散的意思是自变量和因变量一起观察,比如某个切分点导致连续数据发生突变的点则取样
数据集成:把不同源的信息集成,分为传统数据集成和跨界数据集成
数据集成就是将不同的数据源存放到同一个数据储存中(如数据仓库),从而方便后续的数据挖掘工作。比如我们有多个数据源,有文本文件,Excel文件,mysql数据表,为了方便数据的统计分析,我们需要把他们存放到同一个容器中,可以是数据库也可以是文本文件,这样一个过程我们就叫数据集成。传统数据集成和跨界数据集成的区别在于跨界数据集成是知识抽取而不是模式映射
<GSM>
,G是全局模式,S是数据源模式,M是全局模式和数据源模式之间的映射。特性 | HDFS | Ceph | GlusterFS |
---|---|---|---|
元数据服务器 | 单个 | 多个 | 无 |
POSXI可移植操作系统接口 | 不完全 | 兼容 | 兼容 |
文件分割 | 64MB块 | RAID0 | 不支持分块 |
网络 | TCP/IP | ALL | ALL |
元数据 | 元数据服务器管理全部元数据 | 元数据服务器管理少量元数据 | 客户端管理全部元数据 |
NoSQL数据库:Not only SQL,针对管理KV,文档,图等类型数据上的针对多种类型数据类型存储和访问特点而专门设计的数据库管理系统。KV数据库:Redis,Oracle,列族数据库HBase,文档数据库MongoDb,图数据库:Neo4J。
KV数据适用于内容缓存,用于高访问负载,查找速度飞快,数据无结构化,列族数据库做分布式的文件系统,查找速度也很快,文档数据库要求不严格表结构可以改变。
Mongodb是一款分布式的文档数据库,针对弱一致性要求的应用设计。
6. 列族数据库:
描述性分析:均值,中位数,方差,标准差,偏度,峰度。
方差和标准差都是表示数据的波动程度,肯定是越小越好咯
回归分析(探究多个变量之间的线性相关性)
基于机器学习的数据分析(非监督和监督学习)
【1】聚类就是非监督(Kmeans)
【2】分类监督(决策树,KNN)
特征规约:数据和特征,模型和算法,最大程度从原始数据当中提取特征以供算法和模型使用。比如网页文本,通过特征选择之后,变成关键词向量。图像像素进行特征提取之后,数据变得更加简单化。(区分选择和提取的差别)
数据规约的原因:
- 分析过程中数据的维度和样本规模对复杂度影响严重,进行特征规约可以减少存储量和处理效率
- 维度小,可以对数据进行画像,分析他的结构,找出他的异常
- 对未来进行知识提取有帮助
互信息量:计算两个对象的相互性
卡方检验,用来检验两个变量独立性(出分析计算)
一个卡方检验的例子:我们需要统计顾客化妆和性别之间的关系。
男 | 女 | 总数 | |
---|---|---|---|
化妆 | 15 | 95 | 110 |
不化妆 | 85 | 5 | 90 |
总数 | 100 | 100 |
我们先计算期望值:
男 | 女 | 总数 | |
---|---|---|---|
化妆 | 15(期望:55) | 95(期望:55) | 110 |
不化妆 | 85(期望:45) | 5(期望:45) | 90 |
总数 | 100 | 100 |
计算:
x
2
=
(
95
−
55
)
2
55
+
(
15
−
55
)
2
55
+
(
85
−
45
)
2
45
+
(
5
−
45
)
2
45
=
129.3
x^2 = \frac{(95-55)^2}{55}+\frac{(15-55)^2}{55}+\frac{(85-45)^2}{45}+\frac{(5-45)^2}{45}=129.3
x2=55(95−55)2+55(15−55)2+45(85−45)2+45(5−45)2=129.3
然后计算自由度: V = ( R O W S − 1 ) ∗ ( C O L S − 1 ) = 1 V=(ROWS-1)*(COLS-1)=1 V=(ROWS−1)∗(COLS−1)=1,然后去查表
卡方统计和计算互信息量是两种特征选择的办法,但无论是卡方校验还是互信息量都是属于贪心方法,没有考虑到被选择的特征和待选特征的之间相关性
例题:假设有以下二维数据: 行代表了样例,列代表特征,这里有10个样例,每个样例两个特征。可以这样认为,有10篇文档,x是10篇文档中“learn”出现的TF-IDF,y是10篇文档中“study”出现的TF-IDF。
解题步骤:首先分别去求x和y的平均值,然后将所有的样例都进去平均值,得到这样一个表:
然后,求特征协方差矩阵
然后求协方差的特征值和特征向量,然后将特征值按照从大到小的顺序排序,然后选择其中最大的k个作为列向量组成特征向量矩阵。
然后得到的特征值有两个,选择最大的那个,对应的特征向量是[-.677,-.735]
信息增益表示的是得知特征X使得Y不确定性减少的程度,信息增益: g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)−H(D∣A)
假设
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。