当前位置:   article > 正文

数据建模之查文献找数据以及数据预处理_文献信息数据预处理

文献信息数据预处理

1. 查文献

  1. 知网:先看硕博士论文
  2. 谷歌学术镜像:http://scholar.scqylaw.com/
  3. Open Access Library:https://www.oalib.com/

2. 找数据

  1. 优先:知网,谷歌学术
  2. 国家统计局:https://data.stats.gov.cn/
  3. Github:包含经济、地理、能源、教育等数据。https://github.com/awesomedata/awesome-public-datasets
  4. EPSDATA 平台:EPSDATA平台有丰富的数据资源和大量分析处理过的数据结果,是收费的,不过可以申请7天的试用。https://www.epsnet.com.cn/index.html#/Index
  5. 其它:国家信息中心,kaggle,和鲸社区。

2. 数据预处理

2.1 缺失值

比赛提供的数据发现有些单元格是 null 或者是空的。

  • 缺失太多:例如调查人口信息,发现 “年龄” 这一项缺失了 40%,就直接把该项指标删除。

  • 均值、众数插补 (最简单的处理)

    • 定量数据:例如关于一群人的身高、年龄等数据,用整体的均值来补缺失。
    • 定性数据:例如关于一群人的性别、文化程度;某些事件调查的满意度,用出现次数最多的值补缺失。
    • 适用赛题:人口的数量年龄、经济产业情况等统计数据,对个体精度要求不大的数据。
  • Newton 插值法

    • 根据固定公式,构造近似函数,补上缺失值,普遍适用性强。
    • 缺点:区间边缘处的不稳定振荡,即龙格现象。不适合对导数有要求的题目。
    • 适用赛题:热力学温度、地形测量、定位等只追求函数值精确而不关心变化的数据。
  • 样条插值法

    • 用分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率。
    • 适用赛题:零件加工,水库水流量,图像“基线漂移”,机器人轨迹等精度要求高,没有突变的数据。

2.2 异常值

样本中明显和其他数值差异很大的数据,例如一群人的身高数据中有个3米2的。

找异常值:

  • 正态分布 3 σ \sigma σ 原则

    • 数值分布在 ( μ − 3 σ \mu-3\sigma μ3σ, μ + 3 σ \mu+3\sigma μ+3σ) 中的概率为 99.76%,其中 μ \mu μ 为平均值, σ \sigma σ 为标准差。
    • 求解步骤:1. 计算均值和标准差;2. 判断每个数据值是都在 ( μ − 3 σ \mu-3\sigma μ3σ, μ + 3 σ \mu+3\sigma μ+3σ) 内,不在则为异常值。
    • 适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等。
    • 不适用题目:总体符合其它分别,例如公交站人数排队论符合泊松分布。
  • 画箱型图

    • 箱型图中,把数据从小到大排序。下四分位数 Q 1 Q_1 Q1 是排第 25% 的数值,上四分位数 Q 3 Q_3 Q3 是排第 75% 的数值。
    • 四分位距 I Q R = Q 3 − Q 1 IQR = Q_3 - Q_1 IQR=Q3Q1, 也就是排名第75%的减去第 25%的数值。
    • 一般设 [ Q 1 − 1.5 × I Q R , Q 3 + 1.5 × I Q R ] [Q_1 - 1.5 \times IQR, Q_3 + 1.5 \times IQR] [Q11.5×IQR,Q3+1.5×IQR] 内为正常值。
    • 适用题目:普遍使用。
    • 在这里插入图片描述
  1. 灰色预测模型https://www.bilibili.com/read/cv14816370/
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/369094
推荐阅读
相关标签
  

闽ICP备14008679号