当前位置:   article > 正文

云计算期末速成大法_的方法是指数据由集中式

的方法是指数据由集中式

笔记仅自用,杠勿cue我


1. 绪论

  1. 4V特征:Volume(规模大),Variety(种类杂),Velocity(变化快),Value(价值密度小)

  2. 从抽样到全样,从精确到非精确,从因果到关联

    大数据的计算允许解在一定范围区间近似,由于数据异构多源多噪声,目标是寻找关联趋势的宏观特征

    需要有:数据采集,管理,分析,可视化。

  3. 云计算的七个特点:超大规模,虚拟化,可靠,通用,伸缩,按需服务,廉价

  4. 云计算服务的分类:
    【1】将软件作为服务:(针对应用的某些功能进行封装服务)Saas
    【2】将平台作为服务(对资源抽象层次更进一步)Paas
    【3】将基础设施作为服务(将硬件设施资源封装作为服务)Iaas

  5. 虚拟化技术:
    服务器虚拟化,存储虚拟化,网络虚拟化
    【1】服务器虚拟化:将多个物理机虚拟成逻辑上的服务器。比如:网格技术
    【2】存储虚拟化:分布的异构存储设备统一成一个或者多个存储池
    【3】在底层物理网络和网络用户之间增加一个抽象层
    (安全)

半虚拟化技术可以弥补虚拟化带来的性能损失

2. 数据采集

  1. 数据获取,数据集成,数据预处理

  2. 多源数据采集有价值的数据最大化,无价值的数据最小化,和现实对象的偏差最小化,也需要做到:可靠性,时效性

  3. 数据预处理:

    清理:缺失值处理,清理噪声
    集成:传统集成和跨界集成
    变换:规范化,平滑,概化
    归约:降维
    数据质量:准确,完整,一致

  4. Pull-Base的意思是由集中式或者分布式的代理主动获取,Push-Based由源或者第三方推向数据汇聚点

  5. 数据收集物理信息传感器,数据设备的日志文件,网络上的爬虫,众包和群智感知(所谓众包的意思是:每个人贡献一点,比如我们的报百科,wiki之类的),指导和协调群体的行为

  6. 数据离散化技术:我们希望处理的数据是离散化的,离散化的数据便于分析,因此,我们需要使用:等距,等频,优化离散的方法来对数据进行离散化。

    等距:连续数据的取值范围分为n等分,等频:将观察点数量分为n等分。优化离散的意思是自变量和因变量一起观察,比如某个切分点导致连续数据发生突变的点则取样

  7. 数据集成:把不同源的信息集成,分为传统数据集成跨界数据集成

    数据集成就是将不同的数据源存放到同一个数据储存中(如数据仓库),从而方便后续的数据挖掘工作。比如我们有多个数据源,有文本文件,Excel文件,mysql数据表,为了方便数据的统计分析,我们需要把他们存放到同一个容器中,可以是数据库也可以是文本文件,这样一个过程我们就叫数据集成。传统数据集成和跨界数据集成的区别在于跨界数据集成是知识抽取而不是模式映射

在这里插入图片描述

  1. 传统数据集成的主要目的是数据共享,定义为一个三元组<GSM>,G是全局模式,S是数据源模式,M是全局模式和数据源模式之间的映射。
  2. 模式匹配:是标识两个数据对象是语义相关的过程
  3. 数据映射:是两个不同的数据模型之间的转换过程。
  4. 语义翻译:使用语义信息将一个数据模型的数据转换成另外一个数据模型
  5. 跨界数据集成的方法:基于阶段,基于特征(关联),基于语义的数据融合(相似性,概率,迁移学习)
  6. 数据变换
    • 标准化(0-1标准化,Z-Score标准化)
    • 归一化
    • 数据平滑(分箱回归,聚类)

3. 数据管理

  1. 分布式文件系统:两类,一类是面向以大文件,块数据读写为特点的数据分析业务,HDFS。一类是主要服务于通用文件系统需求并支持标准的可移植操作系统接口,GlusterFs。因此Gluster存储节点对等,无数据中心,HDFS是有元数据中心的。
  2. HDFS不适合 低延迟的数据访问,无法高效存储大量小文件,不支持多用户写入和任意修改文件。适合大文件,集群动态扩展,能有效保证数据一致性,数据吞吐量大。遵循主从架构,HDFS的块默认64MB,文件被分成多个块,按照块作为存储单位,NameNode存储元数据,元数据存储保存到内存中,保存文件,block,daatanode之间的映射关系。DataNode存储文件内容,文件内容保存在磁盘中,维护Block id 和datanode本地文件的映射关系。FSimage用于维护文件系统树以及文件树中所有文件和文件夹的元数据;Edit Log记录的是针对文件的创建删除重命名等操作信息。NameNode在启动的时候,会把FsImage中的内容加载到内存中,再执行EditLog中的各项操作,完成内存中的元数据和实际的同步,一旦内存完成文件系统元数据的映射就会创建一个新的Fsimage和空的EditLog文件。为什么我们需要EditLog,因为我们的FsImage往往都是非常大的,如果我们所有的更新操作都要对FsImage进行操作的化就会导致系统运行非常缓慢,可以理解为EditLog相当于FsImage的一个操作预备缓冲区。但是当EditLog变的非常大的时候,我们就需要启动安全模式,此时就不同对EditLog进行写操作了,因此我们有SecondaryNameNode,他就是HDFS元数据的备份,SecondaryNameNode相当于维护一个元数据的备份。SecondaryNameNode会定期和NameNode进行通信,所以,我们通常说他完成的任务是对FsImage和EditLog进行合并,完成合并之后SNN就会把新的FsImage发送到PrimaryNN上,用新的edit.new 替换掉EditLog。
  3. 分布式文件系统的对比:
特性HDFSCephGlusterFS
元数据服务器单个多个
POSXI可移植操作系统接口不完全兼容兼容
文件分割64MB块RAID0不支持分块
网络TCP/IPALLALL
元数据元数据服务器管理全部元数据元数据服务器管理少量元数据客户端管理全部元数据
  1. NoSQL数据库:Not only SQL,针对管理KV,文档,图等类型数据上的针对多种类型数据类型存储和访问特点而专门设计的数据库管理系统。KV数据库:Redis,Oracle,列族数据库HBase,文档数据库MongoDb,图数据库:Neo4J。

    KV数据适用于内容缓存,用于高访问负载,查找速度飞快,数据无结构化,列族数据库做分布式的文件系统,查找速度也很快,文档数据库要求不严格表结构可以改变。

  2. Mongodb是一款分布式的文档数据库,针对弱一致性要求的应用设计。

在这里插入图片描述
6. 列族数据库:

在这里插入图片描述


4. 数据分析

  1. 描述性分析:均值,中位数,方差,标准差,偏度,峰度。

    方差和标准差都是表示数据的波动程度,肯定是越小越好咯

  2. 回归分析(探究多个变量之间的线性相关性)

  3. 基于机器学习的数据分析(非监督和监督学习)
    【1】聚类就是非监督(Kmeans)
    【2】分类监督(决策树,KNN)

  4. 特征规约:数据和特征,模型和算法,最大程度从原始数据当中提取特征以供算法和模型使用。比如网页文本,通过特征选择之后,变成关键词向量。图像像素进行特征提取之后,数据变得更加简单化。(区分选择和提取的差别)

    数据规约的原因:
    - 分析过程中数据的维度和样本规模对复杂度影响严重,进行特征规约可以减少存储量和处理效率
    - 维度小,可以对数据进行画像,分析他的结构,找出他的异常
    - 对未来进行知识提取有帮助

  5. 互信息量:计算两个对象的相互性
    在这里插入图片描述

  6. 卡方检验,用来检验两个变量独立性(出分析计算)

在这里插入图片描述
一个卡方检验的例子:我们需要统计顾客化妆和性别之间的关系。

总数
化妆1595110
不化妆85590
总数100100

我们先计算期望值:

总数
化妆15(期望:55)95(期望:55)110
不化妆85(期望:45)5(期望:45)90
总数100100

计算:
x 2 = ( 95 − 55 ) 2 55 + ( 15 − 55 ) 2 55 + ( 85 − 45 ) 2 45 + ( 5 − 45 ) 2 45 = 129.3 x^2 = \frac{(95-55)^2}{55}+\frac{(15-55)^2}{55}+\frac{(85-45)^2}{45}+\frac{(5-45)^2}{45}=129.3 x2=55(9555)2+55(1555)2+45(8545)2+45(545)2=129.3

然后计算自由度: V = ( R O W S − 1 ) ∗ ( C O L S − 1 ) = 1 V=(ROWS-1)*(COLS-1)=1 V=(ROWS1)(COLS1)=1,然后去查表

卡方统计和计算互信息量是两种特征选择的办法,但无论是卡方校验还是互信息量都是属于贪心方法,没有考虑到被选择的特征和待选特征的之间相关性

  1. 特征提取:主成分分析
    我们需要使用正交变换将一组可能存在相关性的变量转换成一组线性不相关的变量(这组变量叫做主成分)(可能出计算题)

例题:假设有以下二维数据: 行代表了样例,列代表特征,这里有10个样例,每个样例两个特征。可以这样认为,有10篇文档,x是10篇文档中“learn”出现的TF-IDF,y是10篇文档中“study”出现的TF-IDF。

在这里插入图片描述
解题步骤:首先分别去求x和y的平均值,然后将所有的样例都进去平均值,得到这样一个表:
在这里插入图片描述
然后,求特征协方差矩阵

然后求协方差的特征值和特征向量,然后将特征值按照从大到小的顺序排序,然后选择其中最大的k个作为列向量组成特征向量矩阵。

在这里插入图片描述
然后得到的特征值有两个,选择最大的那个,对应的特征向量是[-.677,-.735]

  1. 信息增益和信息增益比

信息增益表示的是得知特征X使得Y不确定性减少的程度,信息增益: g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)H(DA)

假设

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/441849
推荐阅读
相关标签