赞
踩
目录
1.1 Data &its Characteristics数据及其特征
Data Objects and Attribute Types测量数据相似性和不相似性
Basic Statistical Descriptions of Data数据的基本统计描述
Measuring Data Similarity and Dissimilarity测量数据的相似性和差异性
Why Preprocess the Data?为什么要预处理数据?
Major Tasks in Data Preprocessing数据预处理中的主要任务
接下来要讲的
右上角是text documents类型。三个文档就有三个向量
右下角是transaction data,一种交易类型的数据结构,每一行是一条交易记录
左边没有图示的直接看文字
属性就是数据库中的列,这块有点像数据库
这几种type后面会介绍
数字属性类型:前者代表“日期”(没有绝对零点),后者代表“温度”
了解数据的集合的一些特征
翻译不太对,应该是:平均值、中值(公式是中值的估算方法)、众数
由最高点开始到缓坡,众中均
四分位数:Q1 Q3 IQR
五值:Q1Q3和中众均
这里的5值就是上面的5值
这图不是很懂,箱线图的理解
小卖铺的资料显示这里有个“测量数据的分散性”是重点,但老师好像没讲
相似度和相异度正相反
右下角是两个点在左图的距离,欧式距离,就是最常见的简单距离,比如x1和x3之间的欧式距离就是√(1^2+2^2)
接下来就是d的各种算法
p-m就是没匹配上的数量(吧)
只有一个nominal,就是只有一个变量(我的理解是只有一个属性)所以p值是1
至于m的值,1号和2号的code分别是A和B,它俩没匹配上,所以是0,根据公式得d值为1
前一张图是一维,上面这张讲的是二维,就是两个属性的时候该怎么算
有t的公式是对称性的,没有的是非对称的。T的含义是对于非对称都是0 的数去掉,因为不重要的值为0
两个对比是这样的,左边的分母p就是右边q+r+s+t,意思是左p-m=右q+t=右两个属性一样
这个计算过程看如下草稿1,很简单的跳转草稿
这个d是刚刚的d吗?不太像,刚刚是相似度的d,这个是闵可夫斯基的d
注意这3个闵可夫斯基的d的属性
闵可夫斯基的d的计算方法由h不同可以有不同算法/叫法
曼哈顿距离、欧式距离,最后一个:切比雪夫距离
曼哈顿距离->欧式距离->切比雪夫距离
这个计算过程看草稿2,跳转草稿
看不懂,看下面的例子
就是算出矩阵后,让最大数乘以k得1,其它所有数也乘以k
欧几里得距离,好像就是欧式距离
这就是个总结
数据减少,不是数据整理,翻译有误
这个排版有点问题,因为数据预处理的主要任务就是:数据清理、数据集成、数据减少、数据转换
最后那个1月1的意思是,如果你的生日是1月1,那么可能你只是选择了默认值而不是真正的在这天生日
有的数据不重要就不用浪费时间处理
如何处理缺失数据:丢掉、手动填补(直觉填)、自动填补(公式填)
例子如下
看PPT里的数字就能看懂,这里三个模块,顺序是:一-》二或者一->三
那个一->三的4 8 9 15 换成4 4 4 15,就是把数字换成距离更近的最值,9离4比9离15近,9就变4
“对于同一个现实世界的实体,不同来源的属性值是不同的”的意思是同样是描述速度,可能因为用的单位不同,所以数据差别大
派生数据那个例子,意思是年收入可以通过月收入累加得到,不需要重新统计
翻译的问题,是数据减少,不是数据整理,也可以翻译为数据简化
数据简化,是为了提高数据挖掘的效率
第一个是数据降维
还有一个是去掉对任务没帮助的数据
我没搞懂这三个数据简化方法的区别,问问ChatGPT
问了也不懂
启发式属性选择方法
就是选属性,由最好最相关的属性开始选
信息融合
降低数据体积
翻译的内容和排版都怪怪的,non-parametric是无参数方法
参数方法就是用数据做出公式,做完了就丢掉数据,只留下公式
无参数方法就是都记下来,但是会做成表格图表
分组后,用每组的中心值代表这组数据
随机采样、分层采样(就是高中遇到的周期采样)
Without就是取完样之后还把抽到的数据放回去了
分层可以是随机打乱后分组,从每组选一个
这些例子看左边英文版的比较好理解
分别是均值、方差
第三个转换数据的方法是要用数据集里的max算出满足条件的j值,然后根据j值改变其余数据
这个计算方法不在上面三个数据转换方法里,只是上面三个数据转换方法中的第二个方法Z-score的延申计算方法,有点像计算平均值,但是把数值加在一起后不除以数据的数量,而是随机选一个n来除以
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。