赞
踩
Self-Attention 的核心是用文本中的其它词来增强目标词的语义表示,从而更好的利用上下文的信息。self-attention 中,sequence 中的每个词都会和 sequence 中的每个词做点积去计算相似度,也包括这个词本身。如果不乘 QKV 参数矩阵,那这个词对应的 q,k,v 就是完全一样的。在相同量级的情况下,qi 与 ki 点积的值会是最大的(可以从 “两数和相同的情况下,两数相等对应的积最大” 类比过来)。那在 softmax 后的加权平均中,该词本身所占的比重将会是最大的,使得其他词的比重很少,无法有效利用上下文信息来增强当前词的语义表示。而乘以 QKV 参数矩阵,会使得每个词的 q,k,v 都不一样,能很大程度上减轻上述的影响。
相同点:CBOW 的核心思想是,给定上下文,根据它的上文 context-before 和下文 context-after 去预测 input word。Bert 本质上也是如此。
不同点:首先,在 CBOW 中,每个单词会称为 input word,而 Bert 中只有 15% 的词会称为 input word。其次,对于数据输入部分,CBOW 中的输入数据只有待预测单词的上下文,而 Bert 的输入是带有 [MASK] token 的 “完整” 句子,也就是说 Bert 在输入端将待预测的 input word 用 [MASK] token 代替了。
另外,通过 CBOW 模型训练后,每个单词的 word embedding 是唯一的,因此并不能很好的处理一词多异的问题;而 Bert 模型得到的 word embedding (token embedding)融合了上下文信息,就算是同一个单词,在不同的上下文环境下,得到的 word embedding 是不一样的。
BERT为什么用字粒度而不是用词粒度?因为在做MLM预训练任务时,最后预测单词是用softmax进行预测。使用字粒度的话,总字数大概在2w左右,而使用词粒度的话,则有十几万个词,在训练时显存会爆炸。
BERT不同层针对NLP的什么任务? POS、成分分析、DEPS、Entities、SRL、COREF、关系分类,从上到下,越往下这个任务越需要偏向高层语义的知识才能解决好。POS 词性标注是简单任务,偏向表层特征,关系分类则是纯语义的任务,不理解语义便无法很好的解决任务,从上到下逐渐趋向语义任务。张俊林:BERT和Transformer到底学到了什么 | AI ProCon 2019 - 云+社区 - 腾讯云
1.HMM 是生成模型,CRF 是判别模型
2.HMM 是概率有向图,CRF 是概率无向图
3.HMM 求解过程可能是局部最优,CRF 可以全局最优
4.HMM是做的马尔科夫假设,而CRF是马尔科夫性,因为马尔科夫性是是保证或者判断概率图是否为概率无向图的条件 、
HMM原理:三个问题:1、概率计算问题:前向—后向算法 给定模型 λ=(A,B,π) 和观测序列 Q={q1,q2,...,qT},计算模型 λ 下观测到序列 Q 出现的概率 P (Q|λ);2、学习问题:Baum-Welch 算法 (状态未知) 已知观测序列 Q={q1,q2,...,qT},估计模型 λ=(A,B,π) 的参数,使得在该模型下观测序列 P (Q|λ) 最大 3、预测问题:Viterbi 算法 给定模型 λ=(A,B,π) 和观测序列 Q={q1,q2,...,qT},求给定观测序列条件概率 P (I|Q,λ) 最大的状态序列 I。
BiLSTM+CRF模型中,CRF层的作用?1、CRF 层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中,这些约束可以通过 CRF 层自动学习到的。2、CRF 中有转移特征,即它会考虑输出标签之间的顺序性,也会学习一些约束规则 BiLSTM-CRF中CRF层的作用 - 程序员大本营
ALBERT 认为,NSP (下一个句子预测) 将话题预测和连贯预测混为一谈。作为参考,NSP 使用了两个句子 —— 正样本匹配是第二个句子来自同一个文档,负样本匹配是第二个句子来自另一个文档。相比之下,ALBERT 的作者认为句子间的连贯是真正需要关注的任务 / 损失,而不是主题预测,因此 SOP 是这样做的:
使用了两个句子,都来自同一个文档。正样本测试用例是这两句话的顺序是正确的。负样本是两个句子的顺序颠倒。
参数少
模型复杂度跟 CNN、RNN 相比,复杂度更小,参数也更少。所以对算力的要求也就更小。
速度快
Attention 解决了 RNN 不能并行计算的问题。Attention 机制每一步计算不依赖于上一步的计算结果,因此可以和 CNN 一样并行处理。
效果好
在 Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。
缺点:没法捕捉位置信息,即没法学习序列中的顺序关系。这点可以通过加入位置信息,如通过位置向量来改善Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。