当前位置:   article > 正文

文本摘要技术调研_单文档和多文档抽取式摘要区别

单文档和多文档抽取式摘要区别

  /* 版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 


                    文本摘要技术调研

                          

                        CopyMiddle: 张俊林

                         TimeStamp:2010 年9 月  


一.文本摘要值得关注的几个方面

   1.主题覆盖率

        一篇新闻或者文摘往往会包含若干子主题,摘要应该能够覆盖所有这些子主题,至少应该包含主要的子主题; 

   2.冗余尽可能少

        摘要因为是要利用较少的句子来尽可能体现文章主旨信息,所以摘要句子之间的信息冗余应该尽可能小,这样可以满足用尽可能少的信息表达尽可能丰富的文章主旨信息;

   3.摘要流畅性强

       句子之间往往因为会包含代词等指代信息,所以应该避免阅读起来不流畅的问题。  

 

二.不同的摘要任务类型

   1. 抽取式VS合成式

       抽取式文摘:摘要的句子完全从文章正文中进行抽取而成 。基本思路是:按照一定因素给每个句子打分,然后根据句子得分排序,按比例输出得分高的句子作为摘要内容;常见做法是线性组合各种特征,各种特征的权值设定手工指定;

       合成式文摘:不是纯粹从文章中抽取句子,而是对文中的句子片段进行改写,然后进行拼接生成句子集合作为文摘结果;

      从目前研究看,绝大多数实际系统是抽取方式,合成方式目前还是不够成熟,只有少量研究型系统采取这种方法;

 

2. 单文档VS多文档[1,9]

    多文档摘要指的是给定主题相关的K篇文档,通过摘要能够体现这K篇文档的主题信息;

    多文档摘要与单文档摘要相比,有些需要特殊考虑之处,比如:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/632688
推荐阅读
相关标签
  

闽ICP备14008679号