DataWhale机器学习——第一章、第二章笔记

作者：你好赵伟 | 2024-06-26 13:42:44

踩

1、绪论

1.1 机器学习的定义

机器学习正是这样一门学科，它致力于研究如何通过计算的手段，利用经验来玫善系统自身的性能在计算机系统中，"经验"通常以"数据"形式存在，因此?机器学习所研究的主要内容，是关于在计算机上从数据中产生"模型" (model) 的算法，即"学习算法" (learning algorithm). 有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜)，模型会给我们提供相应的判断(例如好瓜) .如果说计算机科学是研究关于"算法"的学问，那么类似的，可以说机器学习是研究关于"学习算法"的学问.

本书用"模型"泛指从数据中学得的结果有文献用"模型"指全局性结果(例如一棵决策树)，而用"模式"指局部性结呆(例如条规则).

1.2 基本术语

数据集：样本sample/示例instance的集合 D={x1,x2,...xm}
样本sample/示例instance:包含研究对象在某方面的表现，即属性attribute(或特征feature)/属性值attribute value，是样本空间中的一个向量 Xi=(Xi1;Xi2;...Xid)
属性空间attribute space/样本空间sample space：把属性作为坐标轴构造的n维空间
特征向量feature vector：一个样本在样本空间中的坐标表示。
用于训练过程中的数据称为训练数据，训练样本组成的集合称为训练集。模型有时也称为学习器，可看作学习算法在给定数据和参数空间上的实例化，学习过程是为了找出或逼近真相（ground-truth）。
除了有示例数据之外，还需要示例结果——“好瓜”与“坏瓜”，即标记（label）。拥有label的称为样例，表示第i个样例，其中是示例的label，是所有标记的集合，称为“标记空间”或“输出空间”。
若预测的是连续值，则称此类学习任务为“回归”；
若预测的是离散值，则称此类学习任务为“分类”，分类可分为二分类和多分类。
预测任务旨在通过训练集进行学习，建立一个从输入空间X到输出空间Y的映射。
被预测的样本为测试样本，其集合称为测试集。
根据标记信息（label）的有无，学习任务大致可分为两大类：监督学习和无监督学习。回归与分类属于前者，聚类（将训练集按照某种标准划分为若干组，每组都有某种相似特性）属于后者。
模型适用于新样本的能力称为“泛化能力”。一般来说，训练集越大，模型学习的关于未知分布D（假设样本空间全体样本服从该分布）的信息越多，其泛化能力强的可能性越大。

1.3 假设空间

在学习过程中，我们面对的可能是一个庞大的假设空间。有效的学习策略需要在这个空间中找到合适的假设。归纳偏好是学习算法在众多等效假设中进行选择的一种“价值观”，它决定了算法在遇到新样本时的行为。

归纳学习: 从样例中学习概念或规律。
版本空间: 与训练集一致的假设集合。

1.4 归纳偏好

归纳偏好体现了学习算法在选择假设时的倾向性，例如是否倾向于选择简单或者复杂的模型。奥卡姆剃刀原则（Occam's razor）是选择简单假设的一种常用方法，但并非唯一可行的原则。一个有效的学习方法应该基于具体问题的特点来决定其归纳偏好。

简单性原则: Occam's Razor，选择最简单的假设。
归纳偏好的作用: 指导搜索假设空间，避免等效假设迷惑。

1.5 发展历程

机器学习作为人工智能的一个分支，其发展历史可以追溯到20世纪中叶。以下是机器学习发展历史的简要概述：

起源阶段：20世纪40年代至50年代，随着计算机技术的诞生和发展，科学家们开始探索如何让计算机自主学习和决策。1943年，McCulloch和Pitts提出了神经网络的计算模型理论，为机器学习奠定了基础。
初步发展阶段：1950年，图灵提出了著名的“图灵测试”，人工智能成为科学领域的重要课题。1957年，Rosenblatt提出了感知机(Perceptron)模型，这是神经网络模型的开山鼻祖。
冷静时期：20世纪60年代中叶至70年代中叶，由于感知机的局限性，机器学习的发展几乎停滞。主要原因包括理论匮乏、计算机硬件的限制以及对感知机效果的质疑。
复兴时期：20世纪70年代中叶至80年代末，机器学习开始复兴。1980年，卡内基梅隆大学举办了首届机器学习国际研讨会。1986年，《Machine Learning》期刊的创刊标志着机器学习再次成为研究焦点。
深度学习兴起：1986年，Rumelhart等人提出了反向传播算法(BP)。2006年，Hinton等人提出了深度学习模型，开启了深度网络机器学习的新篇章。
深度学习快速发展：2012年，Hinton团队使用深度学习模型赢得ImageNet比赛，标志着深度学习进入快速发展阶段。近年来，深度学习在多个领域取得了显著成果，如谷歌翻译、苹果Siri等。
当前发展：随着大数据时代的到来，机器学习在金融、医疗、自动驾驶等领域得到广泛应用。同时，机器学习也在不断发展新的算法和理论，如集成学习、强化学习等。

1.6 应用现状

图像识别、自然语言处理、推荐系统等。

2. 模型评估与选择

2.1 经验误差与过拟合

经验误差（Empirical Error）

经验误差，也称为训练误差或训练误差率，是指模型在训练数据集上的表现。它是通过比较模型预测的结果与训练集中的真实标签来计算的。经验误差可以给我们一个模型在训练数据上的性能指标，但它并不总是一个好的泛化能力的指标。如果模型过于复杂，它可能会在训练数据上表现得很好，但在未见过的数据上表现不佳，这种情况称为过拟合。

过拟合（Overfitting）

过拟合是指模型在训练数据上表现得非常好，但在新的、未见过的数据上表现不佳的现象。这通常发生在模型过于复杂，以至于它学习了训练数据中的噪声和细节，而不是潜在的数据分布。过拟合的模型缺乏泛化能力，即它们不能很好地推广到新数据。

2.2 评估方法

为了准确评估模型的性能，我们通常需要使用测试集来进行评估，这要求测试集与训练集相互独立且分布相似。留出法、交叉验证法和自助法都是常用的评估方法，它们各有优缺点并适用于不同的场景。调参是模型评估过程中不可忽视的一部分，适当的参数设置可以显著提升模型性能。最终提交给用户的模型应该是基于完整数据集重新训练得到的。

留出法: 将数据集分为训练集和测试集进行评估。
交叉验证法: 也称k折交叉验证，通过多次划分来估计泛化误差。将数据集分割成多个子集，轮流使用其中一个作为测试集，其余作为训练集，这样可以更全面地评估模型的泛化能力。
自助法: 通过自助采样生成多个训练集进行评估，减少偏差。
调参: 根据参数设置的不同，可能会影响模型性能。
最终模型选择: 根据完整的数据集重新训练选定的模型参数配置。

2.3 性能度量

在机器学习中，性能度量是用来评估模型好坏的关键指标。以下是一些常见的性能度量方法：

错误率与精度

错误率（Error Rate）：模型预测错误的样本占总样本的比例。它是1减去准确率（Accuracy）。
精度（Accuracy）：正确预测的样本占总样本的比例。在问题类别平衡时，精度是一个有用的指标。

查准率、查全率与F1分数

查准率（Precision）：在所有被模型预测为正类的样本中，实际为正类的比例。高查准率意味着较少的假正例。 Precision=声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】