赞
踩
01简述bidaf
bidaf主要是通过encoding中的charembeding和word embeding 通过lstm构建出contextual embedding部分,然后contextual embedding构建context-to-query和query-to-context的注意力方式,融合query和context的信息,然后将它们之间融合,再通过lstm得到对应的output结果。
参考文章链接:https://towardsdatascience.com/the-definitive-guide-to-bi-directional-attention-flow-d0e96e9e666b
02 bert
bert的encoding部分采用mask方式将部分信息遮挡,借用transformer的encoding部分,得到词与词之间不同位置的相互信息,在pre-train的时候引入了两项任务,mlm的任务,就是预测mask的部分,还有nsp任务,nsp是将encoding部分的2组句子拼接在一起,在pre-train的时候预测后一个句子是否为衔接着前一个句子。然后在fine-tuning引入其它模型做别的任务,比如文本分类,翻译,机器阅读理解,实体识别等等。
参考文章链接:
http://jalammar.github.io/illustrated-bert/
http://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。