当前位置:   article > 正文

人工智能-机器学习课程作业分享_人工智能easy课作业

人工智能easy课作业

作业1-2

1.什么是连续(什么是连续数据问题)

在统计学中,连续数据又称连续变量,指的是变量值连续可分的变量,与之相对的是离散变量。

在一定区间内可以任意取值的数据叫连续数据,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如:生产零件的规格尺寸、人体测量的身高、体重、胸围等为连续数据,其数值只能用测量或计量的方法取得。

2.文本实体标注的方法or软件

‌rasa-nlu-trainer、EasyData实体标注工具、YEDDA/SUTDAnnotator、使用-NASICON文献实体标注、Chinese-Annotator、Brat、Doccano、Marktool等

3.以下损失函数中,哪些适用于分类,哪些适用于回归?为什么?这些函数的优缺点各是什么?(01,平方,绝对,交叉熵(对数))

1、0-1损失函数。(适用于分类问题)

优点: 对离群点(Outliers)或者异常值更具有鲁棒性。

缺点: 由图可知其在0点处的导数不连续,使得求解效率低下,导致收敛速度慢;而对于较小的损失值,其梯度也同其他区间损失值的梯度一样大,所以不利于网络的学习。

2、平方损失函数。(适用于回归问题)

MAE 和 MSE 作为损失函数的主要区别是:MSE 损失相比 MAE 通常可以更快地收敛,但 MAE 损失对于 outlier 更加健壮,即更加不易受到 outlier 影响。

MSE 通常比 MAE 可以更快地收敛。

MAE 对于 outlier 更加 robust。

3、绝对损失函数。(适用于回归问题

绝对值损失函数是计算预测值与目标值的差的绝对值。

4、交叉熵损失函数。(适用于分类问题)

交叉熵损失函数刻画了实际输出概率与期望输出概率之间的相似度,也就是交叉熵的值越小,两个概率分布就越接近,特别是在正负样本不均衡的分类问题中,常用交叉熵作为损失函数。目前,交叉熵损失函数是卷积神经网络中最常使用的分类损失函数,它可以有效避免梯度消散。在二分类情况下也叫做对数损失函数。

4.特征选择中,过滤法(Filter)的发散性指什么?

过滤法的发散性指的是使用方差作为特征评分标准。如果一个特征不发散,则其方差接近于 0,说明样本在该特征上基本没有差异,因此在构造特征过程中需要计算各个特征的方差,去掉方差小于阈值的特征,或者指定待选择的特征数 k,然后选择 k 个最大方差的特征。

这个方法只适用于离散型特征,连续型特征需要须离散化后使用。

5.语义编码的方法有哪些?类型有哪些?

语义编码的方法:

1、标签编码(Label Encoding)

2、独热编码(One-Hot Encoding)

3、序号编码(Ordinal Encoding)

4、二进制编码(Binary Encoding)

5、频率编码(Frequency Encoding)

6、平均编码(Mean Encoding)

7、Helmert编码

语义编码的类型:

1、短时记忆中以视觉编码和听觉编码为主。
2、在长时记忆中,语义编码占主导地位。

6.特征规范化过程中,应该对一列特征还是组合编码的特征矩阵进行规范化?

应该对组合编码的特征矩阵进行规范化,这样可以保存特征本身的间距等特征。

作业3-4

1.现实生活中线性回归问题举例、非线性回归举例:

1、线性回归问题距举例:SIM手机的用户满意度与相关变量的线性回归分析。手机的用户满意度应该与产品的质量、价格和形象有关,因此以“用户满意度”为因变量,“质量”、“形象”和“价格”为自变量,作线性回归分析,用户满意度=0.008×形象+0.645×质量+0.221×价格。

2、非线性回归举例:血中药物浓度和时间曲线呈非线性关系。因为药物不可能马上见效,也许在血液中逐步或者突然见效的。

2.AdaBoost算法的缺陷与它的改进算法

缺陷:

1、AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定。

2、数据不平衡导致分类精度下降。

3、训练比较耗时,每次重新选择当前分类器最好切分点。

4、对异常样本敏感,异常样本在迭代中可能会获得较高的权重,影响最终的强学习器的预测准确性。

改进算法:

NAdaBoost算法、RADA算法、SEAdaBoost算法、FloatBoost算法、P-AdaBoost算法、Vector Boosting算法等。

3.弱分类器集成方式的改进方法:

1、平均法。对于数值类的回归预测问题,通常使用的结合策略是平均,也就是说,对若干个弱分类器的输出进行平均得到最终的输出。

2、投票法。最简单的投票法是相对多数投票法,即少数服从多数;如果不止一个类别获得最高票,则随机选择一个做最终类别。稍微复杂的投票法是绝对多数投票法,在相对多数投票法的基础上,不仅要求票数最高,而且最高的票数要过半,否则拒绝预测;更加复杂一点的是加权投票法,和加权平均法类似,每个弱学习器的分类票数要乘以一个权重,最终将各个类别的加权票数求和,最大的值对应的类别为最终类别。

3、学习法。不是对弱学习器的结果做简单逻辑处理,而是再加上一层学习器,即把训练弱学习器的结果作为输入,重新训练一个学习器得到最终结果。在这种情况下,我们将弱学习器称为初级学习器,将用于结合的学习器称为次级学习器。对于测试集,首先用初级学习器预测一次,得到次级学习器的输入样本,再用次级学习器预测一次,得到最终的预测结果。

4.常用的距离有哪些?

欧氏距离、曼哈顿距离、切比雪夫距离、闵氏距离、标准化欧氏距离、余弦相似度、马氏距离、汉明距离、巴氏距离、杰卡德相似系数(Jaccard similarity coefficient)、相关系数 ( Correlation coefficient )与相关距离(Correlation distance)、信息熵(Information Entropy)等。

5.pearson系数与协方差的区别是什么?

1、协方差是一个反映两个随机变量相关程度的指标,比如,一个人的身高和体重是否存在一些联系。如果协方差系数为正值,则说明两者是正相关的;如果是负数,就说明两者是负相关;如果为0,则两者之间没有关系。

2、Pearson相关系数是协方差除以两个变量的标准差。pearson是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;当相关系数为0时,X和Y两变量无关系;当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间;当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。

6.有偏估计与无偏估计的区别(1/n与1/1-n的区别)是什么?

有偏估计(biased estimate)是指由与之间有系统误差,其期望值不是待估参数的真值。

在统计学中,估计量的偏差(或偏差函数)是此估计量的期望值与估计参数的真值之差。偏差为零的估计量或决策规则称为无偏的。否则该估计量是有偏的。在统计学中,“偏差”是一个函数的客观陈述。

无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。

有偏估计的分母项变成n-1就成了无偏估计。

7.像素点的语义特征?

语义一般指的是图像每个像素点的类别归属,语义信息可以理解为与类别划分有关的信息。在语义分割中,每一个像素都有明确的语义标签,因此我们可以通过神经网络去学习每个像素具体的语义信息。

8.线性数据与非线性数据的区别是什么?

一组数据由多个特征和标签组成,特征为自变量,标签为因变量:

当这些特征分别与标签存在线性关系的时候,我们就说这一组数据是“线性数据”。

当特征矩阵中任意一个特征与标签之间的关系需要使用三角函数,指数函数等函数来定义,则我们就说这种数据叫做“非线性数据”。

9.机器学习模型的评价指标(重点区分precision/accuracy)?

在机器学习建模过程中,针对不同的问题,需采用不同的模型评估指标。

1、分类任务的评价指标:混淆矩阵、准确率(Accuracy)、错误率(Error rate)、精确率(Precision)、召回率(Recall)、F1 score、ROC曲线、AUC、PR曲线、对数损失(log_loss)、分类指标的文本报告(classification_report)等。

其中,准确率(Accuracy)= (TP+TN)/(TP+FN+FP+TN),即正确预测的正反例数 /总数,反映的是预测结果的准确程度;精确率(Precision)= TP/(TP+FP),即正确预测的正例数 /实际正例总数,只针对预测正确的正样本,表现为预测为正的里面有多少真正是正的,可理解为查准率。

2、回归任务的评价指标:平均绝对误差(MAE)、均方误差(MSE、)均方根误差(RMSE)、归一化均方根误差(NRMSE)、决定系数(R2)等。

10.什么是鲁棒性?什么是泛化能力?

1、在机器学习,训练模型时,工程师可能会向算法内添加噪声(如对抗训练),以便测试算法的「鲁棒性(Robust)」。可以将此处的鲁棒性理解述算法对数据变化的容忍度有多高。

鲁棒性并不同于稳定性,稳定性通常意味着「特性随时间不变化的能力」,鲁棒性则常被用来描述可以面对复杂适应系统的能力,需要更全面的对系统进行考虑。

2、泛化能力指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力 。

11.图像分割中Dice损失函数的特性是什么?

1、Dice loss 是应用于语义分割而不是分类任务,并且是一个区域相关的loss,因此更适合针对多点的情况进行分析。Dice loss 更具有指向性,更加偏向于正样本,保证有较低的FN。

极端情况下,网络预测接近0或1时,对应点梯度值极小,dice loss 存在梯度饱和现象,此时预测失败(FN,FP)的情况很难扭转回来,不过该情况出现的概率较低。

2、Dice loss能够解决正负样本不平衡问题,因为dice loss是区域相关的,当前像素的loss不光和当前像素的预测值相关,和其他点的值也相关。Dice loss的求交的形式可以理解为mask掩码操作,因此不管图片有多大,固定大小的正样本的区域计算的loss是一样的,对网络起到的监督贡献不会随着图片的大小而变化。

3、在使用dice loss时,一般正样本为小目标时会产生严重的震荡。因为在只有前景和背景的情况下,小目标一旦有部分像素预测错误,那么就会导致loss值大幅度的变动,从而导致梯度变化剧烈。可以假设极端情况,只有一个像素为正样本,如果该像素预测正确了,不管其他像素预测如何,loss 就接近0,预测错误了,loss 接近1。

12.向量相似性的计算方法。

两个向量相似度:可以计算余弦相似性(Cosine Similarity)、Jaccard相似性(Jaccard Similarity)、欧几里德距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)。

对于由三个或三个以上向量组成的向量组的“聚合程度”:

1、方差(Variance),方差衡量向量组中每个向量与向量组平均向量之间的差异程度。计算步骤如下:

计算向量组的平均向量(即将向量组中每个向量的对应维度相加并除以向量组的大小)。

对于向量组中的每个向量,计算其与平均向量之间的欧几里德距离。

对这些距离进行平方求和,然后除以向量组的大小,得到方差。

方差较小表示向量组中的向量更接近平均向量,即聚合程度较高。

2、轮廓系数(Silhouette Coefficient)

轮廓系数度量向量组中每个向量与其所属簇之间的紧密程度。该度量方法结合了簇内的紧密度和簇间的分离度。计算步骤如下:

对于向量组中的每个向量,计算它与同一簇中其他向量之间的平均距离,得到簇内距离(a)。

对于向量组中的每个向量,计算它与最近的其他簇之间的平均距离,得到簇间距离(b)。

对于每个向量,计算轮廓系数(s):s = (b - a) / max(a, b)。

对所有向量的轮廓系数取平均,得到向量组的平均轮廓系数。

轮廓系数的取值范围在[-1,1]之间,越接近1表示向量组的聚合程度较高,簇内距离较小,簇间距离较大。

补充:

以上是我的作业内容,答案不一定对,但是也是我查阅资料和文献做完的,如果有不对的地方,欢迎评论指出,我们一起探讨

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/933890
推荐阅读
相关标签
  

闽ICP备14008679号