赞
踩
一、文本摘要(textrank)
文本摘要,如今,应用最广泛、速度与准确率平衡得最好的,无疑还是textrank。上世纪90年代末互联网技术突飞猛进,各种网页网站爆炸式增长,无论是雅虎式门户网站,抑或是Infoseek类搜索引擎,急需一种相对比较准确的网页重要性计算方法,给网页网站排序,使得人们能够从海量互联网世界中找出自己需要的信息。
PageRank(The PageRank Citation Ranking: Bringing Order to the Web)应运而生,pagerank,至今,我们无法忘怀这一算法的伟大,因为,伴随这一算法但是的,是一家伟大的互联网公司,google。
2004年,仿照 PageRank,推出了TextRank 算法。TextRank将句子作为节点,使用句子间相似度,构造无向有权边。使用边上的权值迭代更新节点值,最后选取 N 个得分最高的节点,作为摘要。在工业界,至今仍然发挥着巨大作用。
github地址: https://github.com/yongzhuo/nlg-yongzhuo/tree/master/nlg_yongzhuo
三、TextRank原理(同NLG文本生成算法一TextRank)
虽然之前对比过,但还是温习一下。
提起凝结着pagerank思想的textrank,不得不说的是原始论文的PageRank的公式,d是阻力系数,取0.85;In(Vi)是链入Vi页面的网页集合, Out(Vj)是链出Vi页面的网页集合:
而TextRank的公式是这样的,Wji表示两节点边的重要程度,入度和初度的意思同PageRank:
当然,虽然TextRank和PageRank的思想相近,但是它们还是有不同点的。一是边权重的构建不同,PageRank利用的是网页的连接关系,而TextRank利用的是词的共现信息(或者是两两句子的文本相似度);二是边关系的不同,PageRank是有向无权边,而TextRank的是无向有权边。
三、其他graph-base模型
类似textrank的其他图模型还有lexrank等。
希望对你有所帮助!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。