赞
踩
在统计学中,连续数据又称连续变量,指的是变量值连续可分的变量,与之相对的是离散变量。
在一定区间内可以任意取值的数据叫连续数据,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如:生产零件的规格尺寸、人体测量的身高、体重、胸围等为连续数据,其数值只能用测量或计量的方法取得。
rasa-nlu-trainer、EasyData实体标注工具、YEDDA/SUTDAnnotator、使用-NASICON文献实体标注、Chinese-Annotator、Brat、Doccano、Marktool等
1、0-1损失函数。(适用于分类问题)
优点: 对离群点(Outliers)或者异常值更具有鲁棒性。
缺点: 由图可知其在0点处的导数不连续,使得求解效率低下,导致收敛速度慢;而对于较小的损失值,其梯度也同其他区间损失值的梯度一样大,所以不利于网络的学习。
2、平方损失函数。(适用于回归问题)
MAE 和 MSE 作为损失函数的主要区别是:MSE 损失相比 MAE 通常可以更快地收敛,但 MAE 损失对于 outlier 更加健壮,即更加不易受到 outlier 影响。
MSE 通常比 MAE 可以更快地收敛。
MAE 对于 outlier 更加 robust。
3、绝对损失函数。(适用于回归问题)
绝对值损失函数是计算预测值与目标值的差的绝对值。
4、交叉熵损失函数。(适用于分类问题)
交叉熵损失函数刻画了实际输出概率与期望输出概率之间的相似度,也就是交叉熵的值越小,两个概率分布就越接近,特别是在正负样本不均衡的分类问题中,常用交叉熵作为损失函数。目前,交叉熵损失函数是卷积神经网络中最常使用的分类损失函数,它可以有效避免梯度消散。在二分类情况下也叫做对数损失函数。
过滤法的发散性指的是使用方差作为特征评分标准。如果一个特征不发散,则其方差接近于 0,说明样本在该特征上基本没有差异,因此在构造特征过程中需要计算各个特征的方差,去掉方差小于阈值的特征,或者指定待选择的特征数 k,然后选择 k 个最大方差的特征。
这个方法只适用于离散型特征,连续型特征需要须离散化后使用。
语义编码的方法:
1、标签编码(Label Encoding)
2、独热编码(One-Hot Encoding)
3、序号编码(Ordinal Encoding)
4、二进制编码(Binary Encoding)
5、频率编码(Frequency Encoding)
6、平均编码(Mean Encoding)
7、Helmert编码
语义编码的类型:
1、短时记忆中以视觉编码和听觉编码为主。
2、在长时记忆中,语义编码占主导地位。
应该对组合编码的特征矩阵进行规范化,这样可以保存特征本身的间距等特征。
1、线性回归问题距举例:SIM手机的用户满意度与相关变量的线性回归分析。手机的用户满意度应该与产品的质量、价格和形象有关,因此以“用户满意度”为因变量,“质量”、“形象”和“价格”为自变量,作线性回归分析,用户满意度=0.008×形象+0.645×质量+0.221×价格。
2、非线性回归举例:血中药物浓度和时间曲线呈非线性关系。因为药物不可能马上见效,也许在血液中逐步或者突然见效的。
缺陷:
1、AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定。
2、数据不平衡导致分类精度下降。
3、训练比较耗时,每次重新选择当前分类器最好切分点。
4、对异常样本敏感,异常样本在迭代中可能会获得较高的权重,影响最终的强学习器的预测准确性。
改进算法:
NAdaBoost算法、RADA算法、SEAdaBoost算法、FloatBoost算法、P-AdaBoost算法、Vector Boosting算法等。
1、平均法。对于数值类的回归预测问题,通常使用的结合策略是平均,也就是说,对若干个弱分类器的输出进行平均得到最终的输出。
2、投票法。最简单的投票法是相对多数投票法,即少数服从多数;如果不止一个类别获得最高票,则随机选择一个做最终类别。稍微复杂的投票法是绝对多数投票法,在相对多数投票法的基础上,不仅要求票数最高,而且最高的票数要过半,否则拒绝预测;更加复杂一点的是加权投票法,和加权平均法类似,每个弱学习器的分类票数要乘以一个权重,最终将各个类别的加权票数求和,最大的值对应的类别为最终类别。
3、学习法。不是对弱学习器的结果做简单逻辑处理,而是再加上一层学习器,即把训练弱学习器的结果作为输入,重新训练一个学习器得到最终结果。在这种情况下,我们将弱学习器称为初级学习器,将用于结合的学习器称为次级学习器。对于测试集,首先用初级学习器预测一次,得到次级学习器的输入样本,再用次级学习器预测一次,得到最终的预测结果。
欧氏距离、曼哈顿距离、切比雪夫距离、闵氏距离、标准化欧氏距离、余弦相似度、马氏距离、汉明距离、巴氏距离、杰卡德相似系数(Jaccard similarity coefficient)、相关系数 ( Correlation coefficient )与相关距离(Correlation distance)、信息熵(Information Entropy)等。
1、协方差是一个反映两个随机变量相关程度的指标,比如,一个人的身高和体重是否存在一些联系。如果协方差系数为正值,则说明两者是正相关的;如果是负数,就说明两者是负相关;如果为0,则两者之间没有关系。
2、Pearson相关系数是协方差除以两个变量的标准差。pearson是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;当相关系数为0时,X和Y两变量无关系;当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间;当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。
有偏估计(biased estimate)是指由与之间有系统误差,其期望值不是待估参数的真值。
在统计学中,估计量的偏差(或偏差函数)是此估计量的期望值与估计参数的真值之差。偏差为零的估计量或决策规则称为无偏的。否则该估计量是有偏的。在统计学中,“偏差”是一个函数的客观陈述。
无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。
有偏估计的分母项变成n-1就成了无偏估计。
语义一般指的是图像每个像素点的类别归属,语义信息可以理解为与类别划分有关的信息。在语义分割中,每一个像素都有明确的语义标签,因此我们可以通过神经网络去学习每个像素具体的语义信息。
一组数据由多个特征和标签组成,特征为自变量,标签为因变量:
当这些特征分别与标签存在线性关系的时候,我们就说这一组数据是“线性数据”。
当特征矩阵中任意一个特征与标签之间的关系需要使用三角函数,指数函数等函数来定义,则我们就说这种数据叫做“非线性数据”。
在机器学习建模过程中,针对不同的问题,需采用不同的模型评估指标。
1、分类任务的评价指标:混淆矩阵、准确率(Accuracy)、错误率(Error rate)、精确率(Precision)、召回率(Recall)、F1 score、ROC曲线、AUC、PR曲线、对数损失(log_loss)、分类指标的文本报告(classification_report)等。
其中,准确率(Accuracy)= (TP+TN)/(TP+FN+FP+TN),即正确预测的正反例数 /总数,反映的是预测结果的准确程度;精确率(Precision)= TP/(TP+FP),即正确预测的正例数 /实际正例总数,只针对预测正确的正样本,表现为预测为正的里面有多少真正是正的,可理解为查准率。
2、回归任务的评价指标:平均绝对误差(MAE)、均方误差(MSE、)均方根误差(RMSE)、归一化均方根误差(NRMSE)、决定系数(R2)等。
1、在机器学习,训练模型时,工程师可能会向算法内添加噪声(如对抗训练),以便测试算法的「鲁棒性(Robust)」。可以将此处的鲁棒性理解述算法对数据变化的容忍度有多高。
鲁棒性并不同于稳定性,稳定性通常意味着「特性随时间不变化的能力」,鲁棒性则常被用来描述可以面对复杂适应系统的能力,需要更全面的对系统进行考虑。
2、泛化能力指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力 。
1、Dice loss 是应用于语义分割而不是分类任务,并且是一个区域相关的loss,因此更适合针对多点的情况进行分析。Dice loss 更具有指向性,更加偏向于正样本,保证有较低的FN。
极端情况下,网络预测接近0或1时,对应点梯度值极小,dice loss 存在梯度饱和现象,此时预测失败(FN,FP)的情况很难扭转回来,不过该情况出现的概率较低。
2、Dice loss能够解决正负样本不平衡问题,因为dice loss是区域相关的,当前像素的loss不光和当前像素的预测值相关,和其他点的值也相关。Dice loss的求交的形式可以理解为mask掩码操作,因此不管图片有多大,固定大小的正样本的区域计算的loss是一样的,对网络起到的监督贡献不会随着图片的大小而变化。
3、在使用dice loss时,一般正样本为小目标时会产生严重的震荡。因为在只有前景和背景的情况下,小目标一旦有部分像素预测错误,那么就会导致loss值大幅度的变动,从而导致梯度变化剧烈。可以假设极端情况,只有一个像素为正样本,如果该像素预测正确了,不管其他像素预测如何,loss 就接近0,预测错误了,loss 接近1。
两个向量相似度:可以计算余弦相似性(Cosine Similarity)、Jaccard相似性(Jaccard Similarity)、欧几里德距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)。
对于由三个或三个以上向量组成的向量组的“聚合程度”:
1、方差(Variance),方差衡量向量组中每个向量与向量组平均向量之间的差异程度。计算步骤如下:
计算向量组的平均向量(即将向量组中每个向量的对应维度相加并除以向量组的大小)。
对于向量组中的每个向量,计算其与平均向量之间的欧几里德距离。
对这些距离进行平方求和,然后除以向量组的大小,得到方差。
方差较小表示向量组中的向量更接近平均向量,即聚合程度较高。
2、轮廓系数(Silhouette Coefficient)
轮廓系数度量向量组中每个向量与其所属簇之间的紧密程度。该度量方法结合了簇内的紧密度和簇间的分离度。计算步骤如下:
对于向量组中的每个向量,计算它与同一簇中其他向量之间的平均距离,得到簇内距离(a)。
对于向量组中的每个向量,计算它与最近的其他簇之间的平均距离,得到簇间距离(b)。
对于每个向量,计算轮廓系数(s):s = (b - a) / max(a, b)。
对所有向量的轮廓系数取平均,得到向量组的平均轮廓系数。
轮廓系数的取值范围在[-1,1]之间,越接近1表示向量组的聚合程度较高,簇内距离较小,簇间距离较大。
以上是我的作业内容,答案不一定对,但是也是我查阅资料和文献做完的,如果有不对的地方,欢迎评论指出,我们一起探讨
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。