NLG任务—摘要生成综述_生成式摘要模型

作者：天景科技苑 | 2024-07-15 09:04:54

踩

生成式摘要模型

文章目录

一、NN之前的摘要生成技术简述

1.1 抽取式模型

从原始文本中提取单词和单词短语来创建摘要。

1.1.1 pyTeaser

pyTeaser 是Scala项目TextTeaser的Python实现，它是一种用于提取文本摘要的启发式方法。

把句子进行排序，然后选择和文档最相关的Top5句子作为摘要。句子排序规则包括如下四个方面：

文档和句子标题共有的单词数。
关键词：文本进行预处理之后，按照词频统计出排名前10的关键词，通过比较句子中包含关键词的情况，以及关键词分布的情况来打分。
句子在文中的位置：比如每段的第一句是核心句的比例大概是70%
句子长度:定义理想句子长度，然后给每个句子按照离这个长度的远近打分。

1.1.2 LatentSemanticAnalysis

这篇论文我专门写了一篇博客，请移步论文阅读-基于LSA的摘要生成

1.1.3 TextRank

TextRank 算法是一种用于文本的基于图的排序算法，通过把文本分割成若干组成单元（句子），构建节点连接图，用句子之间的相似度作为边的权重，通过循环迭代计算句子的TextRank值，最后抽取排名高的句子组合成文本摘要。本文介绍了抽取型文本摘要算法TextRank，并使用Python实现TextRank算法在多篇单领域文本数据中抽取句子组成摘要的应用。

python3实现

算法解读

计算句子向量之间相似矩阵，再转为图结构，其中节点是句子，边是句子之间的相似性得分。