赞
踩
问答系统通常要求给定一段文字context,给定一个问题question,从context中寻找一段连续的文字text span作为问题的答案。对于问答系统的实验,有一个来自斯坦福的数据集比较受欢迎,名为The Stanford Question Answering Dataset,即SQuAD:SQuAD官方链接
SQuAD现在已经发展到2.0版本;
在最初的版本中,比如有以下简单的问答组合:
较早并有一定效果解决问答系统的模型是2017年在ICLR上的BiDAF(Bidirectional Attention Flow),模型没有大规模的预训练就在SQuAD上获得70%的 F1-score;
模型的架构如下:
模型计算大致过程如下:
文本摘要,其目的是给定一段长的原文,生成一段较短的摘要,比如有原文:
生成摘要:
以上摘要是由模型Summarization with Pointer-Generator Networks生成的,文本摘要的常用解决方法分两种,一种是抽取式:
另一种是生成式:
Summarization with Pointer-Generator Networks结合了抽取与生成的方法,让模型在原文上获得更好的摘要;模型架构如下:
网络和普通的Seq2Seq结合Attention结构一致,额外增加了一个分支用于从输入文本中抽取分词,普通的Seq2Seq结合Attention直接从词汇表中选择分词(即生成式),Summarization with Pointer-Generator Networks则会设置从词汇表中抽取分词的概率为
P
g
e
n
P_{gen}
Pgen,从输入文本中抽取分词的概率为
(
1
−
P
g
e
n
)
(1-P_{gen})
(1−Pgen),通过这一设计达到了抽取与生成混合的效果;
在计算损失时,纳入了新成分,该成分主要是沿着当前摘要分词积累source text中各分词的重要程度,即确保摘要不会过度关注source text的某些分词(注意力过度放在某些分词上会导致摘要不能概括全文,只得到一部分见解);
ELMo实际上是从一个预训练的两层双向LSTM语言模型得来:
模型的训练即语言模型的训练,根据句子的前部分词,预测下一个词;
经过预训练后,对于输入数据的各个分词,计算其在双层双向LSTM中的输出(intermediate word vectors),以及原始的one-hot编码raw word vectors,将每个分词对应的这些向量进行加权求和,所有词加权后的向量即组成词向量ELMo;
可见,ELMo的基本输入单元为句子,每个词没有固定的词向量,是根据词的上下文环境来动态产生当前词的词向量,可以较好解决一词多义的问题,这与word2vec以及glove等通用词向量模型是不同的;
众多实验表明,模型在使用ELMo词向量后,在各种数据集上均获得了良好的效果提升;ELMo的效果比word2vec,glove好得多
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。