赞
踩
本文主要记录本人在AI领域遇到的一些问题以及解决思路做的一些记录,笔记由摘抄+自我理解组成
–padding操作只有在传入多个句子才能激活
padding (bool, str or PaddingStrategy, optional, defaults to False) –
Activates and controls padding. Accepts the following values:
True or 'longest': Pad to the longest sequence in the batch (or no padding if only a single sequence if provided).
–max_length: Pad to a maximum length specified with the argument max_length or to the maximum acceptable input length for the model if that argument is not provided.
False or 'do_not_pad' (default): No padding (i.e., can output a batch with sequences of different lengths).
论文地址 https://arxiv.org/pdf/1903.10318.pdf Fine-tune BERT for Extractive Summarization
code github https://github.com/nlpyang/BertSum
知乎论文解读 https://zhuanlan.zhihu.com/p/112282988
本文介绍了BERTSUM,是 BERT的简单变体 用于抽取式文本摘要,主要是选择性抽取文本中的句子作为最后的摘要。这个任务最大的问题是如何获得每个句子向量,然后把向量用于二分类,判断去留。而 BERT 原模型只能生成单句的句子向量,或者句子对的。
输入的每个句子用cls和sep包裹,在Segment Embeddings 中采取间隔向量标记,例如[sent1, sent2, sent3, sent4, sent5] -> [EA, EB, EA, EB, EA]。经过bert模型后,取出各个句子的cls向量作为Summarization Layers层的输入,最终输出每个句子的一个预测值。
在论文中,对Summarization Layers层三种类型的实验,Classifier,Transformer,LSTM,最后得出BERTSUM+Transformer的效果最佳。
这里的transformer层由一下代码构成
https://blog.csdn.net/qq_25222361/article/details/78694617
Rouge(Recall-Oriented
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。