样本集划分与预处理的必要性_建模前样本划分有什么用处

作者：你好赵伟 | 2024-04-14 21:22:12

踩

建模前样本划分有什么用处

人工智能在工业和科研方面应用很广泛了，尤其在今天的高校，本科生的毕业论文都在使用PLS、SVM等模型了，然而对于一些初学者还是有一些困惑，我把一些心得体会和自己的理解分享给大家。

1、什么是人工智能？

其实人工智能并没有大家想象的那么高深，因为它包含了很多内容，有些理论并不是今天才诞生的。像贝叶斯分类器、偏最小二乘法、K邻近聚类分析，毫不夸张的讲，这些理论中学生都可以理解，至少我可以给一个中学生讲清楚。贝叶斯分类器不就是条件概率的推导吗。然而一但给它们包装上华丽的外表-“人工智能、机器学习”之后，便会使大家感到高深叵测、晦涩难懂。这只不过是那些搞科研的在故弄玄虚罢了。当然，像深度学习，多层神经网络，还是需要一定的数学基础才可以掌握的，像涉及到的一些概率论和高等数学的知识还是有必要了解一下的。

下面谈一下在论文中应用的情况。像上面提到的一些建模方法，在论文中用起来是否很难？换句话说，写论文的人都很牛吗？答案是否定的，我敢说多数论文中尽管用到了这些模型，但是真正理解它的人却寥寥无几，能够在Matlab中调用几个函数，调一下参数谈不上精通和理解，充其量只是会照搬别人的东西。很多论文只是使用模型建模，分析结果，比较模型性能，是的，就是这样，仅此而已。真正原创性的研究不是这样子的，如果机理方面不做阐释，模型方面不会开发新的算法，那么这样的研究只能像旧报纸一样随时间推进被扔进废纸堆，继而消失湮灭，这样的研究永远是低层次的研究。

2、为什么要划分样本集和校正集？

首先要明白一个问题，建模是为了帮我们预测（也可以说是划分）未知的样本。比如用机器视觉识别不同的植物，那么，我们需要先采集各种标本，例如木兰科、禾本科、十字花科、大戟科、芸香科等等，对它们分类，采集它们的照片。如果一共有100幅照片，那么可以全部用来训练模型吗？肯定是不可以的，因为我们需要留出来一部分用于检测模型精度，留出来的称之为“验证集”或者是“校正集”。一般情况下可以按照3:1划分，预测集要占多数。关于样本的划分，也是有规则的，这里不再展开叙述了。总之，可以把预测集比作高考模拟试卷，高考那天的试题就是校正集，而我们自己，就是一个模型，做模拟试卷就是一个模型不断学习的过程。

3、为什么要做预处理？

预处理有很多方法，比如平滑滤波，一阶微分滤波，它们的主要目的就是消除噪声影响，试想一下，我们上高中做的模拟试卷是不是经常写着“精选试卷”，这个精选就是为了让我们做一些“有价值”的题，好与高考对接。当然还有一些别的预处理方法,比如主成分分析，这样是为了减少数据的维度，说白了就是压缩数据，因为模型的在学习的过程中就是程序的运行，降低数据维度可以减小算法的计算复杂度，降低计算的开销，同时也可以剔除“无贡献”的数据（常常是一些无效的属性值），这样反而提高了模型的精度。

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】