文本自动摘要_new methods in automatic extracting.

作者：人工智能uu | 2024-08-12 18:22:05

踩

new methods in automatic extracting.

文本自动摘要（自动文摘）Text Summarization 指自动地从原始文档中提取摘要，摘要是全面准确地反映该文档中心内容的简单连贯的短文。

学术文献、会议记录、电影剧本、学生反馈、软件代码、直播文字

时间成本太高，效率太低

给定参考摘要作为标准答案，通过制定一些规则来给生产的摘要打分。

ROUGE 系统（Recall-Oriented Understudy for Gisting Evaluation）：将待审的摘要和参考摘要的 n 元组共现统计量作为评价依据，通过一系列标准进行打分。

包括 ROUGE-N (ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4), ROUGE-L, ROUGE-W，ROUGE-S, ROUGE-SU

从原文中找到一些关键的句子，组合成一篇摘要。

理解原文并用简洁文本表达。

方法：

Encoder-Decoder 框架

Encoder 是将输入序列表示成一个带有语义的向量，通常使用 LSTM、GRU 等 RNN 模型，复杂的也有 BiRNN、BiRNN with LSTM、BiRNN with GRU、多层RNN等模型。

Decoder 是以 Encoder 输出的向量作为输入，并输出目标文本序列，本质上是一个语言模型，通常使用 Recurrent Neural Network Language Model (RNNLM)，同样也会用 LSTM、GRU 等模型。
Attention Mechanism

Encoder 输出的向量更多地表示输入序列中最后一个单词的意思，因此加入注意力机制有助于该向量更多地关注其中重要的单词。
整体思路
1. 将自动文摘问题构造成 seq2seq 问题，一种做法是将某段文本的第一个句子作为输入，headlines 作为输出，变成 headlines generative 问题。
2. 选择大规模语料库作为数据集。
3. 选择合适的 Encoder。
4. 选择合适的 Decoder。
5. 设计合适的 attention model。
6. 设计 copy net。由于测试时部分词汇可能不在训练的单词表里，因此需要用 copy net 将输入的词 copy 到最终输出。

论文：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/人工智能uu/article/detail/970941