赞
踩
面经来源:https://zhuanlan.zhihu.com/p/87147047
BERT的transform结构来源于下面的公式:
其中
BiLSTM即双向的LSTM结构,LSTM的结构如下:
计算过程:
遗忘门:
记忆门:
临时细胞状态:
当前细胞状态:
输出门(当前时刻隐层状态):
从上面的两种模型的结构就可以看出二者的区别,Bert的双向模型会计算当前token和句子中所有token的相互联系的得分,而BiLSTM的当前token会计算出前向和后向token经过长短期记忆传递后的综合得分。
梯度消失和梯度弥散的本质是网络反向传播时,接近模型输入层的网络权重更新过大和过小问题,二者产生的原因都是由于反向传播的连乘机制。梯度消失则是由于
决方法可以选择更合适的激活函数,比如Relu。
梯度爆炸则是由于权重初始化时不合理,导致从后向前传播时,梯度越来越大,而权重更新时抖动会特别厉害。解决方法是在模型初始化权重时控制大小,也可以采用梯度裁剪、权重正则化和批规范化等。
激活函数选择不合理,导致从后向前传播时,梯度越来越小,而权重只有几乎不变的细微更新。解
详细请参考:https://blog.csdn.net/weixin_41171061/article/details/106264239
word embeding基于的假设是上下文相似的词的语义大致相同,并且用高维高稠密度的情况下其距离也相近。目前作word embeding的方法大致有word2vec、Glove、ELMO、GPT、Bert、Xlnet等几种。
两种训练方式:分别为连续词袋模型(CBOW)和跳字模型(Skip-gram),连续词袋模型采用周围的词来预测中间词,跳字模型则是采用利用当前词预测周围词。
两种训练方法:负采样和层级softmax。
此流程二面面经:https://blog.csdn.net/qq_33331424/article/details/109625995
详细请转步:https://www.biaodianfu.com/google-word2vec.html
欢迎关注微信公众号,文章会同步更新在公众号,如需转载请标注来源。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。