赞
踩
答:(a)区别:
标准梯度下降算法又叫批量梯度下降算法,在更新一次权重的时候需要计算所有的样本数据,而随机梯度下降算法在更新权重的时候,只是随机选择一个样本进行更新计算。
或者如下回答:
两种算法都是通过对数据进行参数评估,然后进行调整,找到一组最小化损失函数的参数的方法。
在标准梯度下降中,您将评估每组参数的所有训练样本。这类似于为解决这个问题而采取了大而缓慢的步骤。
在随机梯度下降中,在更新参数集之前,您只需评估1个训练样本。这类似于向解决方案迈出的小步骤。
(b)
伪代码:
(c)
GD理论上最大限度地减少误差函数比SGD更好。然而,一旦数据集变大,SGD就会收敛得更快。
这意味着GD对于小数据集是优选的,而SGD对于较大的数据是优选的。
然而,实际上,SGD用于大多数应用程序,因为它可以将误差函数最小化,同时为大型数据集提供更快的速度和更高的内存效率。
或者:
当训练数据过大时,用GD可能造成内存不够用,那么就可以用SGD了,SGD其实可以算作是一种online-learning。另外SGD收敛会比GD快,但是对于代价函数求最小值还是GD做的比较好,不过SGD也够用了。
2、对于线性可分的数据集感知机学习算法是收敛的吗?如果是收敛的,请用自己的语言来解释,在这里收敛的意思是指什么?
答:是收敛的。
意思是经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。
3、(a.)为什么朴素贝叶斯是“朴素”的?
(b.)这样的假设会有什么问题,如何避免?
(c.)请写一下朴素贝叶斯公式
(a)
Answer:“朴素”是因为它假设了数据集中的所有特征是同等重要的并且是条件独立的。然而,这是一个很强的假设,在实际情况中,这个假设通常很难严格成立。
(b)
对于P(X=x|Y=ci)
. 如果中的某一项为0,则其联合概率的乘积也可能为0,即2中公式的分子为0,为了避免这种现象出现,一般情况下会将这一项初始化为1,当然为了保证概率相等,分母应对应初始化为2(这里因为是2类,所以加2,如果是k类就需要加k,术语上叫做laplace光滑, 分母加k的原因是使之满足全概率公式)。
(c)
4。假设有一个癌症检测的数据集。你建立了一个分类模型,并且得到了96%的精度。你觉得这个模型的效果好吗?如果不好,你觉得应该用什么方法来评估这个分类模型的好坏?
答:癌症检测数据是一种不平衡的数据(imbanlance data)。在一个不平衡的数据集中,不应该把精度作为衡量性能好坏的指标,因为96%的精度意味着正确预测多数类别,但是我们感兴趣的类别是少数类别(4%),这代表了实际被检测为患有癌症的人群。因此,为了评估模型的性能,我们应该使用TP(True Positive Rate)、TN(True Negative Rate)和F等指标衡量模型分类精度。如果少数类别分类性能表现的很差,可以采取以下措施:
1、使用欠采样、过采样和SMOTE算法是数据平衡化;
2、通过Probability Calibration方法选择合适的预测阈值,并且使用AUC-ROC曲线寻找最优阈值;
3、对类别添加权重,以保证少数类别具有更大的权重;
4、也可以使用异常检测方法。
①余弦相似性(Cosine)
②修正的余弦相似性 (AdjustedCosine)
③相关相似性(Correlation)此方法是采用皮尔森(Pearson)相关系数性为:
希望好的答案或者建议,留言相互学习与讨论~~~~
人生如棋,落子无悔!
----------By Ada
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。