赞
踩
原文链接:https://pdfs.semanticscholar.org/79dd/2ee41e4a7de3b3142fea43b8c48d20224ef2.pdf
Data2Text Studio是一个从结构化数据生成自动文本的平台。 它配备了Semi-HMMs模型,可以自动从并行数据中提取高质量的模板和相应的触发条件,从而提高生成文本的交互性和可解释性。 此外,还为开发人员提供了几种易于使用的工具来编辑预先训练的模型模板,并且发布API以供开发人员调用预先训练的模型以在第三方应用程序中生成文本。 我们在ROTOWIRE数据集上进行实验,以进行模板提取和文本生成。 结果表明,我们的模型在两个任务上都实现了改进。
数据到文本生成是一种将结构化数据作为输入并生成充分和流利地描述该数据的文本作为输出的技术,在生成体育新闻(Chen and Mooney, 2008; Kim and Mooney, 2010; Mei et al., 2016; Wiseman et al., 2017), 产品说明 (Wang et al., 2017), 天气报告(Liang et al., 2009; Angeli et al., 2010; Mei et al., 2016) 和短传记 (Lebret et al., 2016; Chisholm et al., 2017)等方面具有各种应用。在另一种情况下,像Microsoft Cortana这样的虚拟助手在回复用户查询时显示出结构化数据可能有点尴尬。 虚拟助手以自然语言识别和显示出结构化数据的基本部分,使其更易于理解,这对用户更友好。 在这些情况下,使用人类作者生成文本是低效且昂贵的,而自动文本生成系统将是有帮助的。
数据到文本生成系统存在两个主要挑战:1)交互性:对于开发人员,它应该能够自定义文本生成模型并控制生成的文本。 2)可解释性:生成的文本应与结构化数据一致。例如,对于笔记本电脑,我们可以说“带有8GB的大容量内存”,而“2GB的大容量”是不合适的。基于规则的方法(Moore和Paris,1993; Hovy,1993; Reiter and Dale,2000; Belz,2007; Bouayad-Agha等,2011)将领域知识编码到生成系统中,然后生成高质量的文本,同时系统的构建是昂贵的,并且在很大程度上取决于领域专家。统计方法通过从历史数据中学习规则来采用来减少大规模的开发时间(Langkilde and Knight,1998; Liang等,2009; Duboue和McKeown,2003; Howald等,2013)。但是,统计方法容易产生错误的文本,因为他们不知道如何在各种应
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。