赞
踩
若考虑所有潜在的问题,则所有学习算法都一样好.要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用.
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。机器学习所研究的主要内容是关于在计算机上从数据中产生“模型 " (model)的算法,即 “学习算法”
(learning algorithm)。可以说机器学习是研究关于 “学习算法”的学问。
用“模型”泛指从数据中学得的结果。
标记
/标签/标记空间/输出空间
想象一下,我们站在一个充满各种西瓜的市场中:有的西瓜青绿色,有的乌黑;有的根蒂蜷缩,有的稍显蜷曲;敲击时,有的响声浑厚,有的则显得沉闷。如果我们将每一个西瓜的这些特征,连同我们对它是否为好瓜的评价或者价格,记录下来,那么这些记录的集合就构成了我们的数据集。在这个数据集中,每一条记录描述了一个西瓜的独特特征,称为一个样本。样本中关于是否是好瓜的判断,则是我们所说的标签,而所有可能的标签(如好瓜与不好瓜)构成了标签空间。
当我们把这些样本用来训练机器学习模型时,这些数据就被称为训练数据,而单个样本则成为一个训练样本。所有这些训练样本共同组成了我们的训练集。
在描述西瓜时,我们提到了“色泽”、“根蒂”和“敲声”。这些用来反映西瓜在某方面表现或性质的事项,就是所谓的特征。特征是我们用来描绘和区分每一个西瓜的工具,而特征的数量,即我们用来描述西瓜的属性数量,被称为样本(或特征向量)的维数。
如果我们将每个特征视为一维空间,那么所有的特征共同构成的空间,就是我们的样本空间。比方说,以“色泽”、“根蒂”和“敲声”为三个坐标轴,我们可以将它们想象成构建了一个三维空间,用以描述西瓜的世界。在这个空间中,每个西瓜都可以找到一个唯一的坐标位置,这个位置由其特征值组成的向量确定,我们称之为特征向量。
特征向量实际上就是将特征概念包含进去的样本,即样本实际上就是特征向量。
预测的是离散值
的学习任务。
如果只涉及到两个类别,则称为二分类
任务。两类一个称为正类,另一个称为负类(反类)。
如果涉及到多个类别,则称为多分类
任务。
预测的是连续值
的学习任务。分类和回归的区别仅在此。
根据是否有标记,机器学习大致划分为两大类:监督学习和无监督学习。
机器学习的目标是使学得的模型能很好地适用于新样本而不是仅仅在训练样本上工作得很好。 机器学习需要有从已有样本中归纳学习的能力,以此来适用于没有见过的样本。学习的目的是泛化。
学得模型适用于新样本的能力
,称为泛化能力。
泛化(Generalization)是指模型对未见过的新数据的处理能力
,即模型学习到的规律在新数据上的适用性。一个好的机器学习模型不仅能够在训练数据上表现良好,更重要的是能够在新的、未见过的数据上也能保持这种良好表现。泛化能力强的模型能够从训练数据中学习到普遍适用的规律,而不是仅仅记住训练数据的特点和噪声,后者的现象被称为过拟合(Overfitting)。
为了理解3.3,我们需要先理解假设,假设空间,版本空间的概念。
既然同一个训练集可能有多种规律和它匹配,那我们该怎么做呢?
对于一个具体的学习算法而言,它必须要产生一个模型.这时,学习算法本身的“偏好”就会起到关键的作用。 机器学习算法在学习过程中对某种类型假设的偏好,称为 “归纳偏好”(inductive bias),或简称为“偏好”。(之前说过归纳 即学习规律)。并且我们的学习算法必须有某种偏好,才能产出它认为“正确”的模型.
归纳偏好(Inductive Bias)是机器学习算法在面对同一个训练集时倾向于选择某种特定假设的倾向性或偏好。由于训练数据通常无法完全确定目标函数,所以机器学习算法必须利用归纳偏好来做出选择,决定它认为最可能的假设是什么。这种偏好影响着模型的泛化能力,即模型对未见过数据的预测能力。
为什么存在归纳偏好? 因为在实践中,对于给定的训练数据集,可能有多个或者无数个假设与训练数据一致,但这些假设对于未见过的数据的预测可能完全不同。归纳偏好帮助算法在这些可能的假设中做出选择。
归纳偏好的例子:假设我们有两种算法,一种是梯度提升树(Gradient Boosting),另一种是随机森林(Random Forest)。尽管两者都是决策树的集成方法,但它们的归纳偏好不同。梯度提升树通过逐步减少模型误差的方式构建树,倾向于更加关注错误分类的样本;而随机森林通过构建多个独立的树并对它们的结果进行平均或多数投票来工作,倾向于提高整体的稳定性和减少过拟合。这两种方法因其不同的偏好,在不同的数据集和问题上表现出不同的效果。
归纳偏好的重要性:选择哪种机器学习算法,并不仅仅是技术上的选择,实际上也是基于对问题本身先验知识的一种假设。因为不同的算法由于其内在的归纳偏好,可能在某些类型的数据上表现更好,在其他数据上则不然。因此,理解并选择与你面对的问题相匹配的算法的归纳偏好,是提高模型性能的关键。
在机器学习领域,泛化(Generalization) 是指模型对未见过的新数据的处理能力,即模型学习到的规律在新数据上的适用性。一个好的机器学习模型不仅能够在训练数据上表现良好,更重要的是能够在新的、未见过的数据上也能保持这种良好表现。泛化能力强的模型能够从训练数据中学习到普遍适用的规律,而不是仅仅记住训练数据的特点和噪声,后者的现象被称为过拟合(Overfitting)。
为了提高模型的泛化能力,研究人员和工程师可能会采用以下一些策略:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。