当前位置:   article > 正文

数学建模论文分析_数据预处理数学建模论文

数据预处理数学建模论文

文章内容部分引用自:数学建模--数据预处理_派大星先生c的博客-CSDN博客_数学建模比赛的数据怎么预处理

数学建模笔记(三):数据预处理_Yangtze20的博客-CSDN博客_数学建模数据预处理

一、“假设”的作用

合理的模型假设,抛开了一些次要的因素(一些人为不可控因素),抓出主要因素,使用精确的语言对问题进行分析,做出假设

二、数据预处理

数据预处理主要有四个任务: 数据清洗、数据集成、数据变换及数据规约
常用的是 数据清洗与数据变换,其中数据清洗包括异常值与缺失值的处理;数据变换指将一种格式的数据转换为另一格式的数据。
    • 数据残缺

缺失值的处理方法主要有三种:删除记录、数据插补和不处理

  1. 删除记录,顾名思义,指当该组数据某一个案的数据缺省时,删除这组个案的数据,这种方法的优点是处理方便,但在数据较少时要慎重使用。

  1. 数据插补,使用不同的插补方法将缺省的数据补齐。主要插补方法有:均值/中位数/众数插补;使用固定值插补;最近邻插补;回归方法插补;插值法插补。

  • 最近邻插补:即在记录中找到与缺失样本最接近的样本的该属性插补,可以通过计算对象间的欧式距离衡量。

  • 回归方法插补:根据已有数据和与其有关的其他变量的数据建立拟合模型来预测缺失值。

  • 插值法:常用的插值方法有很多,下面我列出一些。

  1. 不处理,有时我们可以将所有缺省数据的样本划分为另一组,进行特殊处理。

①插值

对于一维曲线的插值,一般用到的函数yi=interp1(X,Y,xi,method) ,其中method包括nearst,linear,spline,cubic。
  1. ‘nearest’——最邻近插值:插入与其距离最近的值
  2. ‘linear’——线性插值:构造线性函数进行插值
  3. ‘spline’——三次样条插值:将定义域分成若干个区间,在每个区间内构造三次多项式进行插值
  4. ‘cubic’——立方插值:构造立方函数进行插值
  5. ps:‘method’缺省时默认为线性插值
对于二维曲面的插值,一般用到的函数zi=interp2(X,Y,Z,xi,yi,method),其中method也和上面一样,常用的是cubic。
  1. %产生原始数据
  2. x=0:0.1:1;
  3. y=(x.^2-3*x+7).*exp(-4*x).*sin(2*x);
  4. subplot(2,2,1);
  5. plot(x,y);
  6. title('原始数据');
  7. %线性插值
  8. xx=0:0.01:1;
  9. y1=interp1(x,y,xx,'linear');
  10. %subplot(2,2,1)
  11. %plot(x,y,'o',xx,y1);
  12. %title('线性插值');
  13. %最邻近点插值
  14. y2=interp1(x,y,xx,'nearest');
  15. subplot(2,2,2)
  16. plot(x,y,'o',xx,y2);
  17. title('最邻近点插值');
  18. %三次插值
  19. y3=interp1(x,y,xx,'pchip');
  20. subplot(2,2,3)
  21. plot(x,y,'o',xx,y3);
  22. title('三次插值');
  23. %三次样条插值
  24. y4=interp1(x,y,xx,'spline');
  25. subplot(2,2,4)
  26. plot(x,y,'o',xx,y4);
  27. title('三次样条插值');

利用给定的高度补充地图

  1. %插值基点为网格节点
  2. clear all
  3. y=20:-1:0;
  4. x=0:20;
  5. z=[0.2 0.2 0.2 0.2 0.2 0.2 0.4 0.4 0.3 0.2 0.3 0.2 0.1 0.2 0.2 0.4 0.3 0.2 0.2 0.2 0.2;
  6. 0.3 0.2 0.2 0.2 0.2 0.4 0.3 0.3 0.3 0.3 0.4 0.2 0.2 0.2 0.2 0.4 0.4 0.4 0.3 0.2 0.2;
  7. 0.2 0.3 0.3 0.2 0.3 1 0.4 0.5 0.3 0.3 0.3 0.3 0.2 0.2 0.2 0.6 0.5 0.4 0.4 0.2 0.2;
  8. 0.2 0.2 0.4 0.2 1 1.1 0.9 0.4 0.3 0.3 0.5 0.3 0.2 0.2 0.2 0.7 0.3 0.6 0.6 0.3 0.4;
  9. 0.2 0.2 0.9 0.7 1 1 1 0.7 0.5 0.3 0.2 0.2 0.2 0.6 0.2 0.8 0.7 0.9 0.5 0.5 0.4;
  10. 0.2 0.3 1 1 1 1.2 1 1.1 0.8 0.3 0.2 0.2 0.2 0.5 0.3 0.6 0.6 0.8 0.7 0.6 0.5;
  11. 0.2 0.4 1 1 1.1 1.1 1.1 1.1 0.6 0.3 0.4 0.4 0.2 0.7 0.5 0.9 0.7 0.4 0.9 0.8 0.3;
  12. 0.2 0.2 0.9 1.1 1.2 1.2 1.1 1.1 0.6 0.3 0.5 0.3 0.2 0.4 0.3 0.7 1 0.7 1.2 0.8 0.4;
  13. 0.2 0.3 0.4 0.9 1.1 1 1.1 1.1 0.7 0.4 0.4 0.4 0.3 0.5 0.5 0.8 1.1 0.8 1.1 0.9 0.3;
  14. 0.3 0.3 0.5 1.2 1.2 1.1 1 1.2 0.9 0.5 0.6 0.4 0.6 0.6 0.3 0.6 1.2 0.8 1 0.8 0.5;
  15. 0.3 0.5 0.9 1.1 1.1 1 1.2 1 0.8 0.7 0.5 0.6 0.4 0.5 0.4 1 1.3 0.9 0.9 1 0.8;
  16. 0.3 0.5 0.6 1.1 1.2 1 1 1.1 0.9 0.4 0.4 0.5 0.5 0.8 0.6 0.9 1 0.5 0.8 0.8 0.9;
  17. 0.4 0.5 0.4 1 1.1 1.2 1 0.9 0.7 0.5 0.6 0.3 0.6 0.4 0.6 1 1 0.6 0.9 1 0.7;
  18. 0.3 0.5 0.8 1.1 1.1 1 0.8 0.7 0.7 0.4 0.5 0.4 0.4 0.5 0.4 1.1 1.3 0.7 1 0.7 0.6;
  19. 0.3 0.5 0.9 1.1 1 0.7 0.7 0.4 0.6 0.4 0.4 0.3 0.5 0.5 0.3 0.9 1.2 0.8 1 0.8 0.4;
  20. 0.2 0.3 0.6 0.9 0.8 0.8 0.6 0.3 0.4 0.5 0.4 0.5 0.4 0.2 0.5 0.5 1.3 0.6 1 0.9 0.3;
  21. 0.2 0.3 0.3 0.7 0.6 0.6 0.4 0.2 0.3 0.5 0.8 0.8 0.3 0.2 0.2 0.8 1.3 0.9 0.8 0.8 0.4;
  22. 0.2 0.3 0.3 0.6 0.3 0.4 0.3 0.2 0.2 0.3 0.6 0.4 0.3 0.2 0.4 0.3 0.8 0.6 0.7 0.4 0.4;
  23. 0.2 0.3 0.4 0.4 0.2 0.2 0.2 0.3 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.5 0.7 0.4 0.4 0.3 0.3;
  24. 0.2 0.2 0.3 0.2 0.2 0.3 0.2 0.2 0.2 0.2 0.2 0.1 0.2 0.4 0.3 0.6 0.5 0.3 0.3 0.3 0.2;
  25. 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.4 0.7 0.4 0.2 0.4 0.5 0.5];
  26. %未插值直接画图
  27. figure(1) %创建图形窗口1,并激活
  28. surf(x,y,z);
  29. shading flat %用shading flat命令,使曲面变的光滑
  30. title('未插值地形图')
  31. xlabel('横坐标')
  32. ylabel('纵坐标')
  33. zlabel('高度')
  34. %三次插值后画图
  35. %画地形图
  36. figure(2)
  37. xi=0:0.05:20;
  38. yi=20:-0.05:0;
  39. zi=interp2(x,y,z,xi',yi,'cubic'); %'cubic'三次插值
  40. surfc(xi,yi,zi); %底面带等高线
  41. shading flat
  42. title('插值后地形图')
  43. xlabel('横坐标')
  44. ylabel('纵坐标')
  45. zlabel('高度')
  46. %画立体等高线图
  47. figure(3)
  48. contour3(xi,yi,zi);
  49. title('立体等高线图')
  50. xlabel('横坐标')
  51. ylabel('纵坐标')
  52. zlabel('高度')
  53. %画等高线图
  54. figure(4)
  55. [c,h]=contour(xi,yi,zi);
  56. clabel(c,h); %用于为2维等高线添加标签
  57. colormap cool %冷色调
  58. title('平面等高线图')
  59. xlabel('横坐标')
  60. ylabel('纵坐标')

散乱点插值

当插值点(x,y)为散乱点,不再是网格上的点时,可以使用griddata命令进行二维插值:
griddata(x,y,z,xi,yi,'method')%'method'用法同上

②拟合

对于一维曲线的拟合,一般用到的函数p=polyfit(x,y,n)和yi=polyval(p,xi),这个是最常用的最小二乘法的拟合方法。
对于二维曲面的拟合,有很多方法可以实现,这里运用Spline Toolbox里面的函数功能。
  1. x = 0:0.1:1;
  2. y = [-0.447 1.9783.28 6.16 7.08 7.34 7.66 9.56 9.48 9.30 11.2];
  3. A = polyfit(x,y,2) %A为拟合出来的函数
  4. z =polyval(A,x); %求多项式在x处的值z
  5. plot(x,y,'k+',x,z,'r')

③邻近替换

  1. 前/后一个非缺失值将其替换
  2. 最近的非缺失值替换
  3. 相邻的非离群值线性插值填充
  1. test_data1=fillmissing(test_data,'previous');
  2. test_data1=fillmissing(test_data,'next');
  3. test_data1=fillmissing(test_data,'nearest');
  4. test_data1=fillmissing(test_data,'linear');

2、异常值处理

异常值的处理方法较为简单,主要方法有: 删除记录、视为缺失值、平均值修正和不处理。由于处理异常值的方法简单,在此不作解释。
发现异常值是处理异常值的难点,发现异常值主要有两个方法:3σ 原则(拉依达方法就是3σ原则)和画箱型图。

拉依达准则

拉依达准则是用来发现数据异常值
  1. x=[1, 1.1, 1.2, 1.3,1.4, 2, 1.2, 1.3, 1.5, 0.9, 0.8, 1.1, 11];
  2. inlier = [];outlier= [];
  3. len = length(x);
  4. average1 =mean(x); % x中所有元素的均值
  5. standard1 =std(x); % x的标准差
  6. for i = 1:len % 遍历x向量,判断是否为偏离点,不是偏离点则存入inline
  7. if abs(x(i)-average1)<standard1*3
  8. inlier = [inlier x(i)];
  9. end
  10. end
  11. average2 =mean(inlier);
  12. standard2 =std(inlier);
  13. for i = 1:len % 遍历x向量,判断是否为偏离点,不是偏离点则存入outline
  14. if abs(x(i)-average2) >= standard2*3
  15. outlier = [outlier x(i)];
  16. end
  17. end

关于异常值剔除,这篇文章写的很详细:菜鸟进阶系列·MATLAB数学建模·数据预处理(一)剔除异常值及平滑处理 - 哔哩哔哩(bilibili.com)

3、数据变换

这部分内容摘自:数学建模笔记(三):数据预处理_Yangtze20的博客-CSDN博客_数学建模数据预处理

    • 线性变换

  1. a = [0.1 50004.7;0.2 6000 5.6;0.4 7000 6.7;0.9 10000 2.3;1.2 400 1.8];
  2. [m,n]=size(a)
  3. for j=1:n
  4. b(:,j)=a(:,j)/sum(a(:,j));
  5. end
  6. b(:,3)=1-b(:,3);%成本型指标正向化

2. 向量规范化

无论xj为效益型指标或成本型指标,均进行如下变换

这种变换也是线性的,但它无法分辨属性值的优劣。它的最大特点是,规范化后各方案的同一指标的平方和为1,因此常用于计算各方案与某种虚拟方案(如理想点或负理想点)的欧氏距离的场合。经过向量规范化处理后的数据在[-1,1]区间内。

  1. a = [0.1 5 50004.7;0.2 6 6000 5.6;0.4 7 7000 6.7;0.9 10 10000 2.3;1.2 2 400 1.8];
  2. [m,n]=size(a)
  3. for j=1:n
  4. b(:,j)=a(:,j)/norm(a(:,j));
  5. end

3.min-max归一化

在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应,使每个变量都具有同等的表现力,通常可以通过这种方式对数据去量纲化。

若xj为效益型指标,令

  1. a = [0.1 5 50004.7;0.2 6 6000 5.6;0.4 7 7000 6.7;0.9 10 10000 2.3;1.2 2 400 1.8];
  2. [m,n]=size(a)
  3. x2=@(qujian,lb,ub,x)(1-(qujian(1)-x)./(qujian(1)-lb)).*(x>=lb&x<qujian(1))+...
  4. (x>=qujian(1)&x<=qujian(2))+(1-(x-qujian(2))./(ub-qujian(2))).*...
  5. (x>qujian(2)&x<=ub);%利用函数句柄转换区间型变量
  6. qujian=[5,6];lb=2;ub=12;
  7. a(:,2)=x2(qujian,lb,ub,a(:,2));
  8. A=[a(:,1) a(:,3)a(:,4)];
  9. A=maxmin(A);%maxmin为自定义的归一化函数
  10. b=[A(:,1) a(:,2)A(:,2) A(:,3)];
  11. %{
  12. %对数据进行归一化函数
  13. functionnew=maxmin(old)
  14. %找出每列的最大最小值
  15. maxold=max(old);
  16. minold=min(old);
  17. %张成与old一样大小,主要对行进行复制,列不用变
  18. m=size(old,1);
  19. maxnew=repmat(maxold,m,1);
  20. minnew=repmat(minold,m,1);
  21. new=(old-minnew)./(maxnew-minnew);
  22. end
  23. %}

4.z-score标准化

这也是另一种较为常用的数据去量纲化的处理方式,将原始数据作如下变换

  1. a = [0.1 5 5000 4.7;0.2 6 6000 5.6;0.4 7 7000 6.7;0.9 10 10000 2.3;1.2 2 400 1.8];
  2. b=zscore(a);%将每组数据按列标准化

三、模型建立与求解(以ARIMA模型为例)

1、模型的描述(列公式)(写原理)

2、模型参数的确定(matlab/SPSS)

p,d,q值的确定

3、结果分析,进行预测

四、模型分析

五、模型结果检验

六、模型评估

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/585782
推荐阅读
相关标签
  

闽ICP备14008679号