赞
踩
KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB
1 ZB = 2^10 EB = 2^20 PB = 2^30 TB = 2^40 GB
PB是大数据层次的临界点
数据量大、多样性、高时性
数据比以往任何时候更容易产生与获取
人们的决定比以往任何时候都更基于数据驱动
人们处理数据的能力比以往任何时候都强大
数据存储平台
现阶段,人工智能的核心是对大数据进行的特征抽取与机器学习算法
基于传统的数学、统计学的理论和方法,运用计算机技术进行大规模数据运算、分析和应用的一门学科
数据分析(统计学和机器学习)、计算机科学以及领域知识
从大量的、不完全的、有噪声的、模糊的、随机的数据中,提出隐含在其中、人们事先不知道的、但又是潜在有用的信息和知识
数据挖掘是数据科学的组成部分,用来挖掘潜在的信息
数据科学得出的结论是人的智力活动的结果,而数据挖掘得出的结论是从学习集(或训练集、样本集)发现的知识规则
识别问题——数据准备——模型规划——模型建立——得到结果——评估结果
数据之间满足某种关系,写成表格的形式
介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,例如HTML文档
没有固定模式的数据,数据之间没有什么关系,例如文本数据
最简单、最灵活的数据获取方式:依靠检索
自动在网上抓取数据的程序
本质:下载特定网站网页的HTML/JSON/XML数据,对数据进行解析、提取与存储
概念:按照一定规则,自动抓取万维网信息的程序或者脚本
行为划分:载入(最复杂)、解析、存储
载入:
Ajax异步请求
反爬
解析:
概念:在载入的结果中抽取特定的数据,载入的结果主要有三类:html、json、xml
JSON与XML对比
JSON和XML
爬虫推荐使用Scrapy
extract——transform——load
数据采集、数据准备、数据分析
数组、矩阵
键值对
实体——关系表
时序数据、流数据
图数据
文本数据
多媒体数据
关系数据
文本数据
数据结构
数据操作
数据完整性约束条件
数据清洗——数据集成——数据变换——数据规约
分箱:利用近邻数据进行数据平滑
回归:让数据适应回归函数来平滑数据
• 提取匹配特征
给定一对待匹配的记录,我们计算出他们的特征向量,其中每 一维是某个特征上的相似性,相似度可以是布尔值(匹配/不匹配),也可以是实数(基于某种相似度度量方法)
• 计算匹配特征的相似度
布尔属性:直接判断相等/不相等
数值属性:比较数字之间的差值
相似度函数
编辑距离:数据源在录入时存在错误,中文录入中,有时会受口音影响
Edit Distance度量相似性
• 最小-最大规范化,又称归一化
• 小数定标规范化
• 等高划分离散化 Equal-Depth Binning
等频分箱使用、等距分箱使用
• 每个簇计算一个值用以将该簇的数据离散化
熵与数据离散化有什么关系?——不确定程度
结论
主成分分析
特征子集选择
一个变量为离散型(Categorical)、一个变量为数值型
一般地,对于更高维空间,决策边界是一个超平面
SVM优化的目标,也就是
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。