当前位置:   article > 正文

文本自动摘要概述_自动摘要句子重要性

自动摘要句子重要性

一,文本摘要概述

文本自动摘要是利用计算机按照某类应用自动地将文本或文本集合转换成简短摘要的一种信息压缩技术。

代表系统有:

  • 密歇根大学的NewsInEssence。
  • 哥伦比亚大学的NewsBlaster。

二,文本摘要分类

自动摘要

三,文本摘要方法

三种摘要方法

  • 抽取式摘要:直接从原文中抽取已有的句子组成摘要。
  • 压缩式摘要:抽取并简化原文中的重要句子构成文摘。
  • 理解式摘要:改写或重新组织原文内容形成最终文摘。
1,抽取式摘要

三个模块

  • 句子重要性评估
  • 信息冗余句子去重
  • 根据长度、字数等约束生成最终摘要。

(1)句子重要性评估的方法

  • 启发式规则:例如考虑句子的位子、词频、与比标题的相似度等。
  • 机器学习方法:句子分类、最优化方法。
  • 图模型方法:TextRank(PageRank的无向图模型)、HITS算法。

下图为用机器学习的方法来对句子的重要性进行分类的图解。

机器学习句子分类

TextRank方法如下:

TextRank

(2)冗余句子消除

  • CSIS
  • MMR
2,压缩式摘要

核心模块:句子压缩

  • 可视为树的精简问题。
  • 可视为01序列标注问题。
3,理解式摘要

(1)改写或重新组织原文内容形成文摘

例如AMR方法

(2)基于谓词论元结构的理解式摘要

核心思想:选择并重组概念与行为。

(3)端到端的摘要方法

seq2seq1

seq2seq2

代表系统有:

  • 哈佛大学的OpenNMT
  • 斯坦福大学的Seq2Seq摘要模型,包含了copy机制和coverage机制。

四,文本摘要评价

自动评价

  • ROUGE
  • BE

人工评价

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/281718
推荐阅读
相关标签
  

闽ICP备14008679号