赞
踩
从文档中抽取已有句子形成摘要
实现简单,能保证句子的可读性
可看作一个组合优化问题
可与语句压缩一并进行(可看作混合式方法)
重要信息评估、冗余信息的过滤、碎片化信息的聚合、多源信息的篇章组织
其中单文档摘要主要集中于重要信息评估
多文档摘要则集中于四个方面
关键问题
如何衡量句子重要性?
影响句子重要性的因素
句子长度
句子位置
句子中词语的TFIDF
(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆向文件频率(Inverse Document Frequency)。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
句子是否包括线索词
句子是否与标题相似
只考虑句子位置
Lead Baseline
抽取一篇文档中前几句话形成摘要
是单文档摘要的强基准方法
Coverage Baseline
轮流从不同文档中抽取第一、第二、…, 第K句话形成摘要
基于经验性公式综合考虑少数几个因素
例如: centroid-based method
考虑了句子包含词语权重、句子位置、句子与首句相似度
如LexRank,TextRank
只依赖于句子相似度
基于PageRank算法或相似算法
步骤:
1、构建图G=(V,E),句子作为顶点,句子之间有关系则构建边
2、应用PageRank算法或相似算法获得每个顶点的权重
3、基于句子权重选择句子形成摘要
如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:
PR(T)/L(T)
其中PR(T)为T的PageRank值,L(T)为T的出链数
则A的PageRank值为一系列类似于T的页面重要性得分值的累加。
即一个页面的得票数由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的PageRank是由所有链向它的页面(链入页面)的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。
PageRank简单计算:
假设一个由只有4个页面组成的集合:A,B,C和D。如果所有页面都链向A,那么A的PR(PageRank)值将是B,C及D的和。
继续假设B也有链接到C,并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。
换句话说,根据链出总数平分一个页面的PR值。
由于存在一些出链为0,也就是那些不链接任何其他网页的网, 也称为孤立网页,使得很多网页能被访问到。因此需要对 PageRank公式进行修正,即在简单公式的基础上增加了阻尼系数(dampingfactor)q, q一般取值q=0.85。
其意义是,在任意时刻,用户到达某页面后并继续向后浏览的概率。 1-q= 0.15就是用户停止点击,随机跳到新URL的概率)的算法被用到了所有页面上,估算页面可能被上网者放入书签的概率。
等式左边表示一个句子的权重(WS是weight_sum的缩写),右侧的求和表示每个相邻句子对本句子的贡献程度。与提取关键字的时候不同,一般认为全部句子都是相邻的,不再提取窗口。求和的分母wji表示两个句子的相似程度,分母又是一个weight_sum,而WS(Vj)代表上次迭代j的权重。整个公式是一个迭代的过程。
基于TextRank的自动文摘属于自动摘录,通过选取文本中重要度较高的句子形成文摘,其主要步骤如下:
(1)预处理:将输入的文本或文本集的内容分割成句子这里写图片描述,构建图G =(V,E),其中V为句子集,对句子进行分词、去除停止词,得这里写图片描述,其中这里写图片描述是保留后的候选关键词。
(2)句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子si,sj,采用如下公式进行计算:
若两个句子之间的相似度大于给定的阈值,就认为这两个句子语义相关并将它们连接起来,即边的权值这里写图片描述
(3)句子权重计算:根据公式,迭代传播权重计算各句子的得分;
(4)抽取文摘句:将(3)得到的句子得分进行倒序排序,抽取重要度最高的T个句子作为候选文摘句。
(5)形成文摘:根据字数或句子数要求,从候选文摘句中抽取句子组成文摘。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。