当前位置:   article > 正文

文本摘要(text summarization)三: 图模型(textrank,graph-base)_textsum 和textrank

textsum 和textrank

一、文本摘要(textrank)

        文本摘要,如今,应用最广泛、速度与准确率平衡得最好的,无疑还是textrank。上世纪90年代末互联网技术突飞猛进,各种网页网站爆炸式增长,无论是雅虎式门户网站,抑或是Infoseek类搜索引擎,急需一种相对比较准确的网页重要性计算方法,给网页网站排序,使得人们能够从海量互联网世界中找出自己需要的信息。

        PageRank(The PageRank Citation Ranking: Bringing Order to the Web)应运而生,pagerank,至今,我们无法忘怀这一算法的伟大,因为,伴随这一算法但是的,是一家伟大的互联网公司,google。

        2004年,仿照 PageRank,推出了TextRank 算法。TextRank将句子作为节点,使用句子间相似度,构造无向有权边。使用边上的权值迭代更新节点值,最后选取 N 个得分最高的节点,作为摘要。在工业界,至今仍然发挥着巨大作用。

        github地址: https://github.com/yongzhuo/nlg-yongzhuo/tree/master/nlg_yongzhuo

三、TextRank原理(同NLG文本生成算法一TextRank

        虽然之前对比过,但还是温习一下。

        提起凝结着pagerank思想的textrank,不得不说的是原始论文的PageRank的公式,d是阻力系数,取0.85;In(Vi)是链入Vi页面的网页集合, Out(Vj)是链出Vi页面的网页集合:

                   

       而TextRank的公式是这样的,Wji表示两节点边的重要程度,入度和初度的意思同PageRank:

                                

        当然,虽然TextRank和PageRank的思想相近,但是它们还是有不同点的。一是边权重的构建不同,PageRank利用的是网页的连接关系,而TextRank利用的是词的共现信息(或者是两两句子的文本相似度);二是边关系的不同,PageRank是有向无权边,而TextRank的是无向有权边。

        代码实现:https://github.com/yongzhuo/nlg-yongzhuo/tree/master/nlg_yongzhuo/text_summarization/extractive_sum/graph_base/textrank

 

三、其他graph-base模型

        类似textrank的其他图模型还有lexrank等。

       

 

希望对你有所帮助!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/479912
推荐阅读
相关标签
  

闽ICP备14008679号