当前位置:   article > 正文

AI-ML基础

AI-ML基础
  1. 监督学习、 无监督学习

(1)监督学习(Supervised Learning)是机器学习中的一种常见的学习方法,其任务是从有标注数据(即已知答案)中学习出一个模型,该模型可以对新的输入数据进行预测或分类。

在监督学习中,有一组输入数据(也称为特征或属性),每个输入数据都有一个对应的已知输出值(也称为标签或类别)。监督学习的目标是学习一个映射函数,可以将输入数据映射到对应的输出值。这个映射函数被称为模型,通常是由一个算法来生成。

举个例子,假设我们要建立一个垃圾邮件过滤器。我们可以将垃圾邮件和正常邮件都作为输入数据,它们的特征可以包括邮件的主题、发送者、内容等。对于每封邮件,我们都有一个已知的标签,即它是垃圾邮件还是正常邮件。通过监督学习算法,我们可以训练一个模型,来自动地识别垃圾邮件和正常邮件,并将它们分类到不同的类别中。

监督学习算法通常包括线性回归、逻辑回归、决策树、支持向量机、神经网络等等,这些算法都可以用来解决不同的问题。

(2)非监督学习(Unsupervised Learning)是机器学习中的一种学习方法,与监督学习相比,它不需要有标注数据(即没有已知的输出值),而是从未标注的数据中自动学习数据之间的结构、模式或规律。

在非监督学习中,我们通常只有输入数据(也称为特征或属性),没有相应的标签或类别。因此,非监督学习的目标是发现输入数据中的内在结构,例如数据之间的相似性、聚类、异常点检测等。

举个例子,假设我们有一些照片,我们不知道它们的主题,也没有对照片进行标注。通过非监督学习算法,我们可以自动将这些照片分成几组,每组中的照片具有相似的特征,例如颜色、构图等。这种算法被称为聚类算法。

非监督学习算法通常包括聚类、降维、密度估计等。其中,聚类算法可以将相似的数据点归为一类,降维算法可以减少数据的维度,从而简化数据的表示和处理,密度估计可以用来检测数据中的异常点。

  1. 分类、 回归

(1)分类是一种机器学习技术,旨在将数据集中的观测值(离散数据)划分为不同的类别或标签。分类算法基于已有的数据样本和其标签,通过学习特征和模式来构建分类模型,然后将新的未知数据样本输入到模型中进行预测,以确定其所属的类别或标签。

分类问题可以用于许多应用场景,例如文本分类、图像分类、语音识别和股票市场预测等。在现实生活中,分类技术的应用非常广泛,例如垃圾邮件过滤、疾病诊断、金融欺诈检测等。

(2)回归是一种统计分析方法,用于探索两个或多个变量之间的关系。它可以帮助我们预测一个变量(称为响应变量或因变量)如何随着另一个或多个变量(称为自变量)的变化而变化(连续数据)。

回归分析的目标是使用已知的数据建立一个数学模型来描述响应变量与自变量之间的关系,然后使用该模型进行预测。回归分析可以用于许多不同的问题,如预测销售量、探索变量之间的关系、研究影响某个变量的因素等。

常见的回归方法包括线性回归、多元回归、逻辑回归、岭回归等。这些方法使用不同的数学技术来建立模型和进行预测,选择正确的方法取决于问题的特点和数据的性质。

  1. 聚类、 降维

(1)聚类是一种无监督学习方法,用于将一组数据点分成不同的组或簇,使得在同一组中的数据点具有相似的特征或属性,并且在不同组之间的数据点具有明显的不同之处

聚类算法的目标是在不知道数据点所属类别的情况下,发现数据之间的内在关系和结构,它可以帮助我们发现数据的潜在模式,以便更好地理解数据和从中获取信息。在聚类过程中,我们可以使用各种相似度度量方法,例如欧几里得距离、余弦相似度等来衡量数据点之间的相似性,并使用不同的聚类算法来分配数据点到不同的簇。

常见的聚类算法包括K-Means聚类、层次聚类、DBSCAN聚类等。聚类应用广泛,如数据挖掘、图像分割、推荐系统等领域。

(2)降维是一种数据处理技术,用于将高维数据转换为低维数据,同时尽可能地保留原始数据的重要信息。在现实生活中,许多数据都具有高维度的特征,例如图像、音频和自然语言文本等,而这些高维数据在处理和可视化方面存在很多问题。降维技术可以通过减少数据的维度来解决这些问题,从而更好地理解和处理数据。

降维技术的主要目标是找到一种低维表示,可以最大限度地保留数据的重要特征,以便更好地可视化和分析数据。在降维过程中,我们可以使用各种方法来选择最佳的特征子集,例如主成分分析(PCA)、独立成分分析(ICA)、线性判别分析(LDA)等方法。

降维技术的应用广泛,例如在图像和音频处理中,通过降维可以减少噪声和冗余,从而更好地进行数据分析和处理。在自然语言处理中,通过降维可以提高文本分类和信息检索的效率。

  1. 损失函数

损失函数是在机器学习和统计建模中常用的一个概念,用于衡量模型的预测值与真实值之间的差异,即模型的误差大小。损失函数的定义通常包括两个参数,一个是模型的预测值,另一个是真实值,通常用来表示模型对于给定样本的预测精度

损失函数是模型优化的关键因素之一,因为模型的目标是尽可能地减小损失函数的值,从而提高模型的预测准确率。根据不同的模型和任务,损失函数的选择也会有所不同。例如,对于回归问题,常见的损失函数包括均方误差(MSE)、平均绝对误差(MAE)等;对于分类问题,常见的损失函数包括交叉熵损失函数、对数损失函数等

损失函数的选择通常需要结合具体问题的特点和数据集的性质进行考虑。在优化模型时,常常使用梯度下降等优化算法来最小化损失函数,从而达到模型最优化的目的。

  1. 训练集、测试集、验证集

(1)在机器学习中,训练集是用于训练和构建机器学习模型的数据集合。它是指已知输入和对应的输出标签(或目标变量)的数据集,用于训练机器学习模型,以便模型可以根据这些已知的输入和输出关系来预测新的未知数据点的输出。

通常,训练集由多个样本组成,每个样本都由输入特征和相应的输出标签组成。例如,在图像识别任务中,训练集可能包含多个图像样本,每个图像样本由像素值组成的输入特征和标识该图像类别的输出标签组成。在训练过程中,模型将根据这些样本的输入和输出关系进行学习,并尝试从输入数据中提取特征,以便能够准确地预测输出。

训练集的质量和数量对机器学习模型的性能和准确性非常重要。通常,我们需要保证训练集足够大和多样化,以覆盖模型可能遇到的不同情况和变化。同时,我们需要确保训练集的标签和特征都是正确的,以便模型可以从正确的数据中进行学习和泛化。

(2)测试集是机器学习中用于评估模型性能的数据集。

测试集通常是从原始数据集中随机抽取一部分数据,与训练集互斥(即测试集中的样本不在训练集中出现),并且测试集的数据应该与实际应用场景中的数据具有相似的分布和特征。

将数据集分成训练集和测试集的主要目的是评估模型的泛化能力,即在新数据上的表现能力。因为模型可能会在训练集上过度拟合,导致在测试集上的表现不如预期,所以需要使用测试集来验证模型的泛化能力。如果模型在测试集上表现良好,则说明模型具有较强的泛化能力,可以应用到新数据上;反之,则需要对模型进行调整或改进。

在机器学习中,常常会使用交叉验证等技术来进一步评估模型性能,从而更加准确地估计模型的泛化能力。

(3)验证集是用于评估模型性能的一部分数据集。验证集通常用于在模型训练期间进行模型选择和调整超参数,以提高模型的性能。在模型训练过程中,模型在训练集上训练,并在验证集上进行评估。通过这个过程,我们可以确定哪些模型和超参数组合最适合我们的问题。

在模型选择和调整超参数之后,我们会使用测试集来最终评估模型的性能,以验证模型是否真正具有泛化能力。

因此,验证集是机器学习中非常重要的一部分,它可以帮助我们选择最好的模型和超参数,并帮助我们评估模型性能。

  1. 过拟合、欠拟合

(1)过拟合(overfitting)是指机器学习中的一个问题,即在训练集上的表现很好,但在测试集上的表现不佳,也就是说,模型过度适应了训练数据,学习到了数据中的噪声和异常值,而不是普遍的规律。过拟合是机器学习中常见的问题之一,因为过于复杂的模型容易对训练数据进行过拟合。

过拟合的表现形式通常是训练误差很低,但测试误差很高。过拟合的原因通常是模型过于复杂或训练数据太少,这导致模型在学习训练数据时过度适应了数据的特点,无法泛化到新数据上。

解决过拟合的方法包括以下几种:

增加数据量:通过增加训练数据量,可以减少模型对数据的过度依赖,从而提高模型的泛化能力。

减少模型复杂度:通过减少模型的参数或使用正则化等方法,可以减少模型的复杂度,从而避免过度拟合。

使用 Dropout 和 Batch Normalization 等技术:这些技术可以在训练过程中随机丢弃一部分神经元或标准化输入,从而减少过拟合的风险。

提前停止训练:当模型在测试集上的性能不再提高时,可以提前停止训练,避免过度拟合。

交叉验证:通过交叉验证等技术,可以更准确地评估模型的性能,从而更好地发现和解决过拟合问题。

(2)欠拟合(underfitting)是指模型无法充分学习训练数据中的规律,导致模型在训练集上的表现很差,也无法很好地泛化到新数据上。与过拟合相反,欠拟合通常是由于模型过于简单、特征不足或数据量太少等因素导致的。

欠拟合的表现通常是训练误差和测试误差都很高,说明模型无法很好地学习数据中的规律。解决欠拟合的方法包括:

增加模型复杂度:如果模型过于简单,可以尝试增加模型的复杂度,例如增加网络的深度、增加神经元的数量等。

增加特征数量:如果特征不足,可以尝试增加特征数量,例如增加特征的组合、添加新的特征等。

减少正则化强度:如果正则化强度太大,可以尝试减少正则化的强度,让模型更容易拟合训练数据。

增加数据量:如果数据量太少,可以尝试增加数据量,从而让模型更好地学习数据中的规律。

更换模型或算法:如果以上方法都无法解决欠拟合问题,可以考虑更换更适合数据的模型或算法。

  1. 经验风险、期望风险

(1)经验风险是机器学习中的一个概念,通常用于衡量模型在训练集上的拟合程度。经验风险是指模型在训练集上的平均误差,也可以看作是模型的训练误差

在监督学习中,经验风险通常用损失函数来度量。损失函数是用来衡量模型预测值与实际值之间的差异的函数,它通常是一个非负函数,当预测值与实际值完全一致时,损失函数的取值为0。训练过程中,模型的目标是最小化经验风险(即最小化损失函数),从而使模型在训练集上的拟合效果尽可能好。

经验风险可以帮助我们评估模型在训练集上的表现,但并不能准确地预测模型在新数据上的表现。这是因为模型在训练集上的表现可能只是局部的、过度拟合的,而不能代表模型的真实能力。因此,在模型选择和评估过程中,通常还需要考虑模型的泛化能力、验证误差等因素。

(2)期望风险是指在所有可能的情况下,对某个随机变量的风险或损失进行平均后得到的值。在统计学和风险管理领域中,期望风险通常用来衡量某个决策或投资的潜在风险水平。

具体来说,假设有一个随机变量 X,表示某个风险或损失的可能取值。每个取值都有一个概率与之对应,表示该取值发生的可能性。期望风险 E(X) 就是将所有可能取值与其对应的概率相乘后求和得到的结果,即:

E(X) = Σ p(x) * x

其中,p(x) 表示随机变量 X 取值为 x 的概率,x 表示随机变量 X 取的值。

期望风险是一个重要的概念,它可以帮助人们对各种决策和风险进行评估,并选择最优的方案。在金融领域中,期望风险是衡量资产风险水平的重要指标之一。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/763851
推荐阅读
相关标签
  

闽ICP备14008679号