赞
踩
/* 版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/
文本摘要技术调研
CopyMiddle: 张俊林
TimeStamp:2010 年9 月
一.文本摘要值得关注的几个方面
1.主题覆盖率
一篇新闻或者文摘往往会包含若干子主题,摘要应该能够覆盖所有这些子主题,至少应该包含主要的子主题;
2.冗余尽可能少
摘要因为是要利用较少的句子来尽可能体现文章主旨信息,所以摘要句子之间的信息冗余应该尽可能小,这样可以满足用尽可能少的信息表达尽可能丰富的文章主旨信息;
3.摘要流畅性强
句子之间往往因为会包含代词等指代信息,所以应该避免阅读起来不流畅的问题。
二.不同的摘要任务类型
1. 抽取式VS合成式
抽取式文摘:摘要的句子完全从文章正文中进行抽取而成 。基本思路是:按照一定因素给每个句子打分,然后根据句子得分排序,按比例输出得分高的句子作为摘要内容;常见做法是线性组合各种特征,各种特征的权值设定手工指定;
合成式文摘:不是纯粹从文章中抽取句子,而是对文中的句子片段进行改写,然后进行拼接生成句子集合作为文摘结果;
从目前研究看,绝大多数实际系统是抽取方式,合成方式目前还是不够成熟,只有少量研究型系统采取这种方法;
2. 单文档VS多文档[1,9]
多文档摘要指的是给定主题相关的K篇文档,通过摘要能够体现这K篇文档的主题信息;
多文档摘要与单文档摘要相比,有些需要特殊考虑之处,比如:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。