赞
踩
正则化 Dropout Batch_Normalization 提前终止训练
Dropout作用于每份小批量训练数据,由于其随机丢弃部分神经元的机制,相当于每次迭代都在训练不同结构的神经网络。
添加新特征 减少正则化系数
(×)正则化方法 (×)集成学习方法:处理过拟合
控制网络深度 预训练+微调 使用ReLU激活函数 采用Batch_Normalization 使用残差结构 使用LSTM
从计算的角度,Sigmoid 和 tanh 激活函数均需要计算指数,复杂度高,而Relu 只需要一个阈值就可得到激活值。
Relu 的非饱和性可以有效的解决梯度消失问题,提供相对宽的激活边界
Relu 的单侧抑制提供了网络的稀疏表达能力
不能自动识别类的个数,随机挑选初始点为中心点计算。
EM是一种迭代算法,用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。最大优点是简单和稳定,但与梯度下降一样,容易陷入局部最优。
EM算法
SVM对缺失数据敏感,所以噪声鲁棒性不是很好。噪声鲁棒性好要数神经网络。
最大信息增益 最大信息增益率 最大基尼系数
决策树都有哪些算法?
LSTM的遗忘门使用的是什么激活函数? Sigmoid
【译】理解LSTM(通俗易懂版)
严格意义上来讲,Word2Vec并不是无监督学习。应该叫半监督学习(semi-supervised),因为虽然人类不用手工标注,但是本质上模型还是有类别学习,有反向传播的过程的。
无监督与监督学习的区别在于一个无教学值,一个有教学值。但是,有人认为他们的区别在于一般是采用聚簇等算法来分类不同样本。而监督学习一般是利用教学值与实际输出值产生的误差,进行误差反向传播修改权值来完成网络修正的。
1、CBOW 2、Skig-gram 每种都有两种策略(加速优化策略):1、负采样 2、层级softmax。
层级softmax,使用了哈夫曼树,优化计算概率效率。
负采样不使用哈夫曼树,而是利用简单的随机采样,这种用少量噪声词汇来估计的方法,类似蒙特卡洛方法。这使得不需要计算完整的概率模型,只需要训练一个二元分类模型,用来区分真实的目标词汇和采样的噪声词汇。提高训练速度,改善所得词向量的质量。
在统计语言模型中,通常以概率的形式描述任意语句的可能性,利用最大相似度估计进行度量,对于一些低频词,无论如何扩大训练数据,出现的频度仍然很低,数据平滑可以解决这一问题。
自然语言处理:盘点一下数据平滑算法
大数据处理平滑算法:Good-Turing估计
因为文本数据在可用的数据中是非常无结构的,它内部会包含很多不同类型的噪点,所以要做数据预处理。以下不是自然语言数据预处理过程的是:
词汇规范化 对象标准化 噪声移除 (×)词汇关系统一化
自然语言处理时,通常的文本清理流程是什么?
中文文本挖掘预处理流程总结
词语消歧 未登录词识别 词性标注
(×)关系识别 (×)句法分析 (×)意图识别 (×)槽位填充
在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。
互信息 卡方检验 最大似然比 (×)最大熵
最大熵原理是一种选择随机变量统计特性最符合客观情况的准则,也称为最大信息原理。随机量的概率分布是很难测定,一般只能测得其各种均值(如数学期望、方差等)或已知某些限定条件下的值(如峰值、取值个数等),符合测得这些值的分布可有多种、以至无穷多种,通常,其中有一种分布的熵最大。选用这种具有最大熵的分布作为该随机变量的分布,是一种有效的处理方法和准则。这种方法虽有一定的主观性,但可以认为是最符合客观情况的一种选择。在投资时常常讲不要把所有的鸡蛋放在一个敏感词里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理。
最大熵代表了整体分布的信息,通常具有最大熵的分布作为该随机变量的分布, 不能体现两个词的相关性,但是卡方是检验两类事物发生的相关性。
可以从新闻文本数据中分析出名词短语,动词短语,主语的技术是? 依存分析和句法分析
1.命名实体识别是指出文本中的人名、地名等专有名词和时间等,其中有有监督的命名实体识别和无监督的命名实体识别,下列选项哪些是属于有监督的学习方法:
决策树 隐马尔可夫模型 支持向量机 (×)字典法
知识图谱中的三元组遵从一种三阶谓词逻辑的表达形式。(×)
命题逻辑和谓词逻辑是人工智能领域使用最早的知识表示方法,命题逻辑定义了具有真假值的原子命题,并通过 或 且 非 蕴含 当且仅当 等逻辑连接符将多个原子命题组合成复合命题;
一阶谓词逻辑在命题逻辑的基础上引入了 全称量词 :任何 ,和存在量词 ,使得一阶谓词逻辑可以量化实体概念,比如 对于所有的海豚 都有背鳍 ,这个 所有的 就是全称量词;
二阶谓词逻辑可以量化集合,
三阶谓词逻辑可以量化集合的集合,高阶谓词逻辑 依此类推 。 —参考 赵军《知识图谱》高等教育出版社
一阶谓词逻辑优点:
结构性,能把事物的属性以及事物的各种语义联想显式的表达出来。
严密性,有形式化的语法和语义,以及相关的逻辑推理。
可实现性,可以转化为计算机内部形式,以便使用算法实现。
一阶谓词缺点:
有限的可用性,一阶逻辑的逻辑归结只是半可判定性的。
无法表示不确定性知识。
文本信息检索的一个核心问题是文本相似度计算,将查询条件和文本之间的相似程度数值化,从而方便比较。当文档和查询都表示成向量时,可以利用向量的内积的大小近似地表示两个向量之间的相关程度。
设有两个文档和查询抽取特征和去除停用词后分别是:
文档d1: a、b、c、a、f、b、a、f、h
文档d2: a、c
查询q: a、c、a
特征项集合为 {a、b、c、d、e、f、g、h}
如果采用二值向量表示,那么利用内积法计算出q和d1、d2的相似度分别是( 2,2)
https://blog.csdn.net/jasminexjf/article/details/98632271
解释: 主要计算是否出现,并不涉及出现几次。
考察的是文本的词集表示,注意与词袋表示区别。把特征项看作字典,如果文档中的词在特征项中出现则为1,否则为0.以题目为例,将文档和查询都表示成8维的向量。具体来说,d1的表示为[1,1,1,0,0,1,0,1],也就是对应于特征项中的每一项,分别在文档1中查询,如果文档1中出现,那么该位置1,否则为0.同理,文档2的向量表示为[1,0,1,0,0,0,0,0],查询项的表示为[1,0,1,0,0,0,0,0],然后分别做内积即可。注意词集模型并不考虑词在文本中出现的频率。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。