赞
踩
1.Kaggle:https://www.kaggle.com
2.天池:https://tianchi.aliyun.com/dataset
3.DataFountain:https://www.datafountain.cn/datasets
1.感知数据
----初步了解数据
----记录和特征的数量特征的名称
----抽样了解记录中的数值特点描述性统计结果
----特征类型
----与相关知识领域数据结合,特征融合
2.数据清理
----转换数据类型
----处理缺失数据
----处理离群数据
3.特征变换
----特征数值化
----特征二值化
----OneHot编码
----特征离散化特征
----规范化
区间变换
标准化
归一化
4.特征选择
----封装器法
循序特征选择
穷举特征选择
递归特征选择
----过滤器法
----嵌入法
5.特征抽取
----无监督特征抽取
主成分分析
因子分析
----有监督特征抽取
为什么要做这些数据增强?
是因为很多深度学习的模型复杂度太高了,且在数据量少的情况下,比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了),表现为的这个模型呢受到了很多无关因素的影响。
所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。
特点
由像素点定义一放大会糊
文件体积较大
色彩表现丰富逼真
特点
超矢量定义
放太不模糊
文件体积较小
表现力差
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。