当前位置:   article > 正文

数据科学导论重点(一)_非结构化数据科学数据

非结构化数据科学数据

大数据导论

数据大小

KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB

1 ZB = 2^10 EB = 2^20 PB = 2^30 TB = 2^40 GB

PB是大数据层次的临界

大数据的三大特点:

数据量大、多样性、高时性

大数据的价值

健康医疗方面 :病人数据资料推动个性化药物治疗
教育方面: “因材施教”,“优化教师教学”
社会科学 :社交媒体比问卷调查提供了更有代表性的结果 ,智能引导社会成员的行为,自动写稿、评论
影视娱乐: 纸牌屋效应
电子商务方面:计算广告,精准搜索、个性化消费推荐
城市交通方面:打车快捷,导航
司法管理方面:智慧司法
公司管理方面:大数据智能化人力资源管理
智能助手、艺术创作方面:流行音乐的旋律与编曲生成,机器作诗
科学技术研究方面:大数据推动科学新技术发现

大数据发展的趋势

数字痕迹

数据比以往任何时候更容易产生与获取

数据驱动

人们的决定比以往任何时候都更基于数据驱动

数据可视化

人们处理数据的能力比以往任何时候都强大

数据存储平台

大数据与人工智能

 现阶段,人工智能的核心是对大数据进行的特征抽取与机器学习算法

大数据的未来

数据科学导言

数据科学

概念

基于传统的数学、统计学的理论和方法,运用计算机技术进行大规模数据运算、分析和应用的一门学科

范围

数据分析(统计学和机器学习)、计算机科学以及领域知识

数据挖掘

概念

从大量的、不完全的、有噪声的、模糊的、随机的数据中,提出隐含在其中、人们事先不知道的、但又是潜在有用的信息和知识

数据科学与数据挖掘的区别

数据挖掘是数据科学的组成部分,用来挖掘潜在的信息

数据科学得出的结论是人的智力活动的结果,而数据挖掘得出的结论是从学习集(或训练集、样本集)发现的知识规则

数据科学处理流程

识别问题——数据准备——模型规划——模型建立——得到结果——评估结果

数据采集

数据分类

结构化数据

数据之间满足某种关系,写成表格的形式

半结构化数据

介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,例如HTML文档

非结构化数据

没有固定模式的数据,数据之间没有什么关系,例如文本数据

以关系数据为代表的结构化数据
数据量占比低于20%
数据价值相对高
以文本、图数据为代表的非结构化数据
数据量占比高于80%
数据价值相对低
需要融合结构化数据和非结构化数据
信息抽取
实体链接与数据融合

数据采集方法

数据检索

最简单、最灵活的数据获取方式:依靠检索

公开数据

国内常见公开数据渠道
代表性公开数据集

批量数据获取

网络爬虫(网页蜘蛛、网页机器人、网页追逐者)

自动在网上抓取数据的程序

本质:下载特定网站网页的HTML/JSON/XML数据,对数据进行解析、提取与存储

概念:按照一定规则,自动抓取万维网信息的程序或者脚本

行为划分:载入(最复杂)、解析、存储

载入:

网站常用 网络协议 :http ,https
数据常用 请求方式 :get ,post
• get:参数常放置在URL中
        • http://www.adc.com? p=1&q=2&r=3
        • 问号后为 参数
post:参数常放置在一个表单中(报文头(header))
        • 在向目标URL发送请求时, 将参数放置在一个网络请求的报文头
        • 更安全

 Ajax异步请求

反爬

解析:

概念:在载入的结果中抽取特定的数据,载入的结果主要有三类:html、json、xml

JSON与XML对比

 JSON和XML

爬虫推荐使用Scrapy

WEB API(外部数据)

数据筛选

ETL

extract——transform——load

数据科学的工作流程

三个基本任务

数据采集、数据准备、数据分析

数据的种类

数组、矩阵

键值对

实体——关系表

时序数据、流数据

图数据

文本数据

多媒体数据

关系数据

文本数据

关系数据库里数据模型三要素

数据结构

数据操作

数据完整性约束条件

XML和DOM

XML 是一种对 DOM(文档对象模型)进行编码的文本格式的数据结构,常用于
网页。

DOM树状结构:

数据预处理

数据质量的含义

正确性
一致性
完整性
可靠性

预处理的基本方法

数据清洗——数据集成——数据变换——数据规约

如何做数据清洗

检查数据值是否有 错误
有无 缺失值
有无 重复属性
检查数据值是否有 异常值
值和属性本身的含义是否符合

数据缺失的处理办法

忽略 :确认缺失数据的影响
        • 把整行记录删除,保留那些完整的记录
        • 把整个属性忽略掉,保留那些完整的属性
弥补(填充):
        • 特殊值填充:
                • 全局值代替,例如-1, unknown
                • 样本/属性的均值、中位数、众数填充
        • 使用最可能的数据填充
                • 热卡填充(就近补齐)
                • K最近距离法(KNN)
                • 利用回归、贝叶斯或决策树等估计方法
                • 期望值最大化方法(EM算法)

异常值的处理方法:对数据进行平滑

分箱:利用近邻数据进行数据平滑

回归:让数据适应回归函数来平滑数据

数据集成

概念

整合多源数据,形成统一的数据视图

基本任务

模式映射(Schema Mapping)
        • 创建一个全局模式:将不同数据源的局部模式映射到全局模式
        • 例子: (First Name, Last Name) Name
实体匹配(Entity Resolution)
        • 数据集成的 核心问题
        • 将表征现实世界中 同一实体 不同数据记录 匹配起来

实体识别步骤

        • 提取匹配特征

给定一对待匹配的记录,我们计算出他们的特征向量,其中每 一维是某个特征上的相似性,相似度可以是布尔值(匹配/不匹配),也可以是实数(基于某种相似度度量方法)

        • 计算匹配特征的相似度

                布尔属性:直接判断相等/不相等

                数值属性:比较数字之间的差值

                文本属性:引入 相似度函数 进行度量
        •记录对判别
        
给定记录 x y 的特征向量(每一维是某个特征上的相似性),输出匹配/不匹配
的结果

相似度函数

编辑距离:数据源在录入时存在错误,中文录入中,有时会受口音影响

Edit Distance度量相似性

相似度函数

 

 

 

 

 

 

数据转换

目的

在不改变原始数据的规律的条件下,将数据转换成适合分析建模的形式

三个步骤

数据编码转换
数据规范化
数据离散化

数据编码

对数据(一般是Categorical variables)进行适当编码
ID属性:比如用户ID
        • 一般保持不变
多值属性处理
        • 颜色、国家、省/州等有限数值,可以用 数值编号字典化 处理数据
        • 比如把性别的男/女编码为1/0,年龄编码为老中青(2/1/0)等
属性值分组
        • 比如全国省份,按区域转换为东部、西部、北部、南部、中部等分
排序型转换为数值型
        • ABCDE,按照该规则转换A 4.0, B 3.3, C 2.9, D 2.1, E 1.7

数据规范化

将不同数据(属性)按一定规则进行缩放,使它们具有 可比性

• 最小-最大规范化,又称归一化

对原始数据进行线性变换。把数据A的观察值v从原始的 区间 [minA ,max A ]映射到新区间 [new_min A ,new_max A ]

z-score规范化
最大最小值未知,或者离群点影响较大时,假设数据服从正态分布

 

小数定标规范化

通过移动小数点的位置来进行规范化。小数点移动多少位取决于取值中的最大绝对值。

数据规范化总结

数据离散化

连续数据过于细致,数据之间的关系难以分析
划分为离散化的区间,发现数据之间的关联,便于算法处理

非监督离散化(无类别信息)
数值型变量分箱 Binning
可以减少数据量、压缩数据、去除异常值
等宽划分离散化 Equal-Width Binning
优点:简单、易懂
缺点:分成多少个箱合适?受噪音影响大

等高划分离散化 Equal-Depth Binning

 等频分箱使用、等距分箱使用

聚类:监测并且去除噪声数据
  将类似的数据聚成簇

• 每个簇计算一个值用以将该簇的数据离散化

有监督离散化(有类别信息)—基于熵的离散化
熵用来度量系统的不确定程度

熵与数据离散化有什么关系?——不确定程度

确定程度较高,对应的信息熵也较小。
目标:对数据进行离散化后, 每个区间的数据的确定性(又称 “纯度”)更高,因此用熵来对数据进行离散化
—计算不确定性以及不纯性

结论

区间里面不同类别的样本均匀分布时,熵值最大(最不确定、最不 纯),熵值为:logC
区间里面只有一类样本时,熵值最小(最确定、最纯)
熵的取值范围:[0, logC]

根据Entropy进行二分离散化
先找到一个分隔点(属性值),把所有数据分到两个区间
分别对两个子区间的数据进行二分隔
重复以上步骤
如何确定分隔点?--计算分隔后的信息增益
        信息增益(Information Gain)
                • 表示在某个条件下,信息不确定性减少的程度

 

数据规约

数据清理、数据集成、数据变换之后,获得多源且质量完好的数据集,但数据规模很大,使得在整个数据集上进行复杂的数据分析与 建模需要 很多计算资源和很长的时间
目标: 缩小 数据挖掘所需的数据集规模
常用 数据规约方法
维度归约
减少所考虑的随机变量或属性的个数
数据降维:删除不相关的属性,并保证信息的损失最小
        维度规约方法

                主成分分析

                特征子集选择

        主成分分析(principal component analysis, PCA)
                目的:数据降维、数据去噪、数据压缩
                思想:将原高维(如维度为N)数据向一个较低维度(如维度为K) 的空间投影,同时使得数据之间的区分度变大。这K维空间的每一个维度的基向量(坐标)就是一个主成分
                问题:如何找到这K个主成分
                        • 消除原始数据不同属性间的相关性 ,要求:K个维度间相互独立
                        • 最大化保留K维度上的数据多样性 ,要求:最大化每个维度内的样本方差。使用方差信息,若在一个方向上发现数据分布的方差 越大,则说明该投影 方向越能体现数据中的主要信息。该投影方向即应当是一个主成分

数值归约
用较小的数据表示形式替换原始数据
e.g. 使用模型来表示数据
通过选择替代的、较小的数据表示形式来减少数据量
        • 参数化方法
                • 使用一个参数模型估计数据,最后只要存储参数即可,不用存储数据(除了可能的离群点)
                • 常用方法
                         线性回归方法;多元回归;对数线性模型;
        • 非参数化方法
                • 不使用模型的方法存储数据
                • 常用方法:直方图,聚类,抽样

探索式数据分析

单变量分析

目标是 发现数据中的模式 ,从而更好地理解数据

线状图

一个变量:数值型

直方图

表示了数据在各组的 频数 分布情况

箱线图

通过图形的方式表示数据的范围

柱状图

一个变量为离散型(Categorical)、一个变量为数值型

散点图

两个变量均为数值型

多变量分析

热力图

两个变量均为离散型,计算相关性

大于两个变量

平行座标图 Parallel coordinate plot: 显示多变量的数值数据,最适合用来同一时间比较许多变量,并表示它们之间的关系。举个例子: 比较具有相同属性的一系列产品(比较不同型号的计机或汽车规格)

雷达图Radar Chart: 用来比较多个定量变量的方法,可用于查看哪些变量具有相似数值,或者每个变量中有没有任何异常值。此外,雷达图也可用于查看数据集中哪些变量得分较高/低,是显示性能表现的理想之选。

EDA

互联网数据分析师

案例分析

提出问题——收集数据——分析数据——原因分析——形成报告
粗粒度 的数据(如对比 IOS Android 总体情况)往往没有多大参考意义
要细分 到具体设备、获取渠道等再进行比对才有价值

监督学习

概念

建模数据中输入特征与目标类别之间的联系

目标

在未知数据上进行精确预测

类型

分类 Classification : y is discrete (class labels).
回归 Regression(或者叫数值预测) : y is continuous, e.g. linear regression.

分类

预测类别,如 数字 是/否为垃圾邮件
二值分类或者多类别分类

回归

估计回归的参数,如权重

分类和回归的区别

步骤

提出问题(Question)
准备数据(Input data)
选择特征(Features)
标注数据(Labels)
学习算法(Algorithm)
评价模型(Evaluation)

支持向量机(Support Vector Machine, SVM)技术

寻找最大间隔
         优化目标:间隔最大化
        VM算法认为,靠近决策边界的 正样本点负样本点到直线的 距离最大的时候,这样的分类边界(直线)是最好的
        边距是从分类面到最近的训练样本的距离
         位于分类边距上的数据点称为 支持向量
         中间那条直线就是符合间隔最大化的 分类边界(直线)

 一般地,对于更高维空间,决策边界是一个超平面

 SVM优化的目标,也就是

SVM问题,分为如下几种情况:
(1) 线性可分情况下的线性分类器 (硬间隔Hard Margin)
(2) 线性不可分情况下(基本上是线性可分,但是有一些离群值)的线性分类器 (软间隔Soft Margin)(扩展学习)
(3) 线性不可分情况下(不是线性可分的)的非线性分类器 (需要使用核(Kernel)函数)(扩展学习)

有监督学习:分类与预测

常用方法

规则方法
支持向量机(SVM)
决策树
最近邻方法(KNN)
神经网络
集成方法

KNN(K近邻方法)

算法原理(很简单)

对每个测试样本x,在训练集中找到离x 最近 K个训练样本
根据这K个样本多类别标签投票, 多数标签 作为x的预测标签

分类——K近邻方法

K近邻思想:用K个最相似样本的类别来预测未知样本的类别(投票方法)
核心问题:距离度量、 K 的取值
基本思想:将K个邻居节点的信息传播到当前节点
距离度量:基于注意力机制计算(GAT模型)
K近邻分类的效果严重依赖于 距离度量
对于高维空间而言,最基本的度量方式为 欧式距离
离散0/1向量,则可使用 汉明距离(Hamming) 代替
除此之外,对于文本而言(如采用TF-IDF),可使用 余弦相似度
其他可采用的度量如 马氏距离
K近邻分类的效果同样严重依赖于 K 的取值 (即邻居的数量)
K太小,容易受噪声干扰;
K太大,可能导致错误涵盖其他类别样本
K是参数,K的选择可以用 交叉验证 的办法
根据 验证集的损失误差,选择优化的 K
UCF: 基于K个相似用户对物品的评分
ICF: 基于用户对K个相似物品的评分
特点
K近邻方法是一种典型的 基于实例 的学习
        • 使用具体实例进行预测,而不需要对数据进行抽象(如提取特征)
K近邻方法是一种 消极学习 ,不需要模型,但分类过程开销很大
        • 相比之下,积极学习方法训练模型较为费时费力,但基于模型分类很快
K近邻方法基于局部信息进行判别,受 噪声 影响很大
K近邻方法需要 慎重选择度量并预处理数据 ,否则可能被误导

决策树——分类问题中最常用的模型之一

对数据进行处理,利用归纳算法生成可读的规则
        • 能够接受 类别型 的特征
        • 分类效果与其它分类算法相当
        • 训练 / 测试效率高
中间节点:决策步骤
叶子节点:决策结果/类别标签
规则:从根节点到叶节点的一条属性取值路径
选择
        • 小(简单)的树
        • 拟合精度高的树
决策树学习过程
        • 全局最优:NP-hard
        • 需要利用 启发式规则 建立 次优决策树
决策树训练算法

 

选择决策特征
        核心步骤:选择 合适 的特征进行决策,划分数据,生成子节点
        何为合适:尽量大的减少划分后子数据集的 混杂度
                • 即提高子数据集的纯度

 

 分类模型的评价

 

 

F1 Score - F值:准确率和召回率的调和平均值

邮件分类:宁愿放过一些垃圾邮件,也不能错杀正常邮件
        • 牺牲召回率,保证较高准确率
智慧医疗:宁愿多判断一些疑似患者,不能漏掉一个病人
        • 牺牲准确率,保证较高召回率
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/233143
推荐阅读
相关标签
  

闽ICP备14008679号