赞
踩
Introduction
本次作业的任务是故事生成,即给定一个故事标题,要求输出5个句子的短故事。我们力图复现一下论文(Seq2Seq,静态两步式生成),并尝试加了一些模块(Self-Attention),以期在本任务上达到较好效果。
Related Work
本次作业本质上是文本生成的任务,序列到序列[1]模型是文本生成领域比较常用的一个算法,也是课程提供的参考文献[2]中使用的方法,采取了编码器-解码器的架构,用编码器编码输入,解码器则用来产生输出,两个模块之间采用注意力模块相连。
参考文献[2]中提出了两步式的故事生成方法,即先对给定的标题生成一个简短的storyline,再通过storyline生成具体的故事。文中提出了两种故事生成的模型,即静态生成模型和动态生成模型。前者先使用序列到序列模型根据标题生成完整的storyline,再用storyline生成故事;后者则是交替式地动态生成storyline和故事。在此基础上我们做了一些调研。
Ammanabrolu等人采用了一个级联的模型来完成给定故事开头续写故事的任务[3]。他们使用了Martin等人提出的event抽象结构[4]来表示句子,并将其进一步扩展。他们将故事生成的任务分成了生成event和生成故事两个步骤,与文献[2]采用中间结构storyline的思路相似。Yang等人提出了根据若干个主题生成文章的方法[5]。他们在decode生成文本的时候引入了外部知识,并且借用了seqGAN的训练方法增强模型表现。这些工作和本次作业一样,需要根据比较短的输入生成较长的文本。
本次作业采用的评测指标bleu值,全称bilingual evaluation understudy,由Papineni等人于2002年提出[6],是一种常用于机器翻译等领域的自动评价指标,现也多用于各种文本生成任务的评价。
对于测试集中的每组数据,模型对于输入序列产生一个输出序列,这个输入序列对应一个或多个标准输出(因为机器翻译的任务并不是一对一的,一个句子可以有多种翻译方式,所以可以有多个标准输出)。其基本原则是希望机器翻译得到的译文与人工译文重合度尽可能高。具体评测时,会比较机器译文和参考译文之间的n-gram的重合度,即机器翻译中的n-gram在参考译文中的最大命中次数。n一般取1、2、3、4。但是这样会倾向于给较短的序列更高的分数,因此引入了长度惩罚因数BP。若机器译文长度小于参考译文,则令BP<1,会导致最终bleu评分降低。其余情况BP=1。最终计算公式可以表示为:
b
l
e
u
=
B
P
˙
e
x
p
(
∑
n
=
1
N
w
n
l
o
g
(
p
n
)
)
bleu = BP\dot{}exp(\sum_{n=1}^N{w_nlog(p_n)})
bleu=BP˙exp(n=1∑Nwnlog(pn)) 其中w表示各个n-gram的权重,一般都取为1/N,p表示各n-gram的命中率。N一般取为4,即bleu值最多只看机器译文和参考译文4-gram的重合程度。BP可以用以下公式表示:
B
P
=
{
1
c
>
r
e
1
−
r
/
c
c
≤
r
BP =
因为n-gram的命中率p可能为0,导致对0取对数,因此在实际中会使用光滑函数[^7]进行特殊处理,保证对数中的自变量大于0。
bleu评分综合权衡了序列间的n-gram重合度和长度等因素,是一个被广泛使用的指标。但是它的一个比较明显的缺点是只会机械地比较模型输出和标准输出之间的n-gram重合度,无法正确比较两者在语义、情感等方面的相似性。不过这也是几乎所有自动评测指标共有的缺点。
Data Analysis
本次作业采用ROCstories数据,共有98161组数据,其中前90000组用于训练,后8161组数据用于测试。我们对训练集中数据进行了分析。
1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!
2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。
3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。
下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
添加作者公众号咨询即可
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。