赞
踩
深度学习基于机器学习,是人工智能的一部分,而LM又是深度学习的一部分。
机器学习模拟人的学习过程,通过历史数据进行训练,然后利用积累的经验解决新的问题。
模型:一个包含大量未知参数的函数,所谓训练,就是通过大量的数据去迭代逼近这些未知参数的最优解
机器学习:是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。简单说,就是“从样本中学习的智能程序”。
深度学习:深度学习的概念源于人工神经网络的研究,是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
不论是机器学习还是深度学习,都是通过对大量数据的学习,掌握数据背后的分布规律,进而对符合该分布的其他数据进行准确预测
机器学习中的典型任务类型可以分为分类任务(Classification)和回归任务(Regression)
分类任务是对离散值进行预测,根据每个样本的值/特征预测该样本属于类型A、类型B 还是类型C,相当于学习一个分类边界(决策边界),用分类边界把不同类别的数据区分开来。
回归任务是对连续值进行预测,根据每个样本的值/特征预测该样本的具体数值,例如房价预测,股票预测等,相当于学习这组数据背后的分布,能够根据数据的输入预测该数据的取值。
分类与回归的根本区别在于输出空间是否为一个度量空间。
f
(
x
)
→
y
,
x
∈
A
,
y
∈
B
f(x) \rightarrow y,x \in A,y \in B
f(x)→y,x∈A,y∈B
对于分类问题,目的是寻找决策边界,其输出空间B不是度量空间,即“定性”。也就是说,在分类问题中,只有分类“正确”与“错误”之分,至于分类到类别A还是类别B,没有分别,都是错误数量+1。
**对于回归问题,目的是寻找最优拟合,其输出空间B是一个度量空间,即“定量”,通过度量空间衡量预测值与真实值之间的“误差大小”。**当真实值为10,预测值为5时,误差为5,预测值为8时,误差为2
- 每条数据都有正确答案,通过模型预测结果与正确答案的误差不断优化模型参数
- 只有数据没有答案,常见的是聚类算法,通过衡量样本之间的距离来划分类别
有监督和无监督最主要的区别在于模型在训练时是否需要人工标注的标签信息。
半监督学习:利用有标签数据和无标签数据来训练模型。一般假设无标签数据远多于有标签数据。例如使用有标签数据训练模型,然后对无标签数据进行分类,再使用正确分类的无标签数据训练模型
- 利用大量的无标注数据和少量有标注数据进行模型训练
- 通过对数据进行处理,让数据的一部分成为标签,由此构成大规模数据进行模型训练
- 基于现有的三元组收集训练数据,进行有监督学习
- 以获取更高的环境奖励为目标优化模型
在合理范围内,更大的 Batch size 能够:
【二分类】
【多分类】
假设有一个二分类任务,正类为1,负类为0,存在一个正样本A,当模型输出其为正类的概率为0.8时,交叉熵损失为:
l
o
s
s
=
−
(
1
×
l
o
g
(
0.8
)
+
0
×
l
o
g
(
0.2
)
)
=
−
l
o
g
(
0.8
)
=
0.0969
loss=-(1\times log(0.8)+0 \times log(0.2))=-log(0.8)=0.0969
loss=−(1×log(0.8)+0×log(0.2))=−log(0.8)=0.0969
当模型输出其为正类的概率为0.5时,交叉熵损失为:
l
o
s
s
=
−
(
1
×
l
o
g
(
0.5
)
+
0
×
l
o
g
(
0.5
)
)
=
−
l
o
g
(
0.5
)
=
0.3010
loss=-(1\times log(0.5)+0 \times log(0.5))=-log(0.5)=0.3010
loss=−(1×log(0.5)+0×log(0.5))=−log(0.5)=0.3010
由此可见,当模型预测的误差越大时,交叉熵损失函数计算得到的损失越大
假设分类任务有3种类别A,B,C,有三个样本,其中 sample 1类型为C,smaple 2类型为B,sample 3类型为A,对于 sample 1,当模型预测概率不同时:
假设模型对这三个样本的预测概率为:
样本名称 | 类别A概率 | 类别B概率 | 类别C概率 |
---|---|---|---|
sample 1 | 0.3 | 0.3 | 0.4 |
sample 2 | 0.3 | 0.4 | 0.3 |
sample 3 | 0.1 | 0.2 | 0.7 |
对于不同的分类任务,交叉熵损失函数使用不同的激活函数(sigmoid/softmax)获得概率输出:
BGD:批量梯度下降法在全部训练集上计算精确的梯度。
SGD:随机梯度下降法则采样单个样本来估计的当前梯度。
mini-batch GD:mini-batch梯度下降法使用batch的一个子集来计算梯度。
为获取准确的梯度,批量梯度下降法的每一步都把整个训练集载入进来进行计算,时间花费和内存开销都非常大,无法应用于大数据集、大模型的场景。
随机梯度下降法则放弃了对梯度准确性的追求,每步仅仅随机采样一个样本来估计当前梯度,计算速度快,内存开销小。但由于每步接受的信息量有限,随机梯度下降法对梯度的估计常常出现偏差,造成目标函数曲线收敛得很不稳定,伴有剧烈波动,有时甚至出现不收敛的情况。
v
t
vt
vt 由两部分组成:一是学习速率
η
η
η 乘以当前估计的梯度
g
t
g_t
gt ;二是带衰减的前一次步伐
v
t
−
1
v_{t−1}
vt−1 和
g
t
g_t
gt, 而不仅仅是
g
t
g_t
gt。另外,衰减系数
γ
γ
γ 扮演了阻力的作用
MSE:均方误差,
y
i
−
y
i
^
y_i - \hat{y_i}
yi−yi^ 为真实值-预测值。MSE中有平方计算,会导致量纲与数据不一致
RMSE:均方根误差,
y
i
−
y
i
^
y_i - \hat{y_i}
yi−yi^ 为真实值-预测值。解决量纲不一致的问题。
MAE:平均绝对误差,
y
i
−
y
i
^
y_i - \hat{y_i}
yi−yi^ 为真实值-预测值。
RMSE 与 MAE 的量纲相同,但求出结果后我们会发现RMSE比MAE的要大一些。
这是因为RMSE是先对误差进行平方的累加后再开方,它其实是放大较大误差之间的差距。而MAE反应的是真实误差。因此在衡量中使RMSE的值越小其意义越大,因为它的值能反映其最大误差也是比较小的。
R
2
R^2
R2
决定系数,分子部分表示真实值与预测值的平方差之和,类似于均方差 MSE;分母部分表示真实值与均值的平方差之和,类似于方差 Var。
根据 R 2 R^2 R2 的取值,来判断模型的好坏,其取值范围为 [ 0 , 1 ] [0,1] [0,1]:
R 2 R^2 R2 越大,表示模型拟合效果越好。 R 2 R^2 R2 反映的是大概的准确性,因为随着样本数量的增加, R 2 R^2 R2 必然增加,无法真正定量说明准确程度,只能大概定量。
GSB:通常用于两个模型之间的对比, 而非单个模型的评测,可以用GSB指标评估两个模型在某类数据中的性能差异
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。