赞
踩
简介
PageRank算法由Google创始人提出,用来给互联上的网页进行重要性打分。
细说
PageRank算法对人们在网页间跳转的行为进行建模并根据人们最终停留在某一个网页的概率来对这个网页的重要性进行打分:人们在上网的时候,在任何一个网页上,可能通过点击网页上的超链接跳转到下一个页面,也可能在浏览器地址栏输入其它网页的地址跳转到下一个页面,在若干次跳转之后,人们停留在某个网页的概率作为这个网页的重要性分值。接下来,我们推导出这个模型的数学公式。
人们,在一个有出链(指向其它网页的链接)的网页i上,点击网页i上的超链接跳转到下一个页面的概率是d,在浏览器地址栏输入网页地址跳转到下一个页面的概率为1 - d,在一个没有出链的网页i上,点击网页i上的超链接跳转到下一个页面的概率是0,在浏览器地址栏输入网页地址跳转到下一个页面的概率为1;网页i上的超链接数(出链数)定义为Oi,则从网页i,通过点击超链接方式,跳转到到它指向的某个网页的概率为
为什么PageRank算法可行
其实,也就是问,为什么可以把人们最终停留在某个网页的概率值作为这个网页的重要性评分?根据计算网页间的转移概率和计算n步转移概率的公式可知,一个网页的分值之所以和另一个网页不同,是因为这个网页被别的网页指向的次数以及指向这个网页的的网页自身的重要性(活着说被人们停留的概率),这符合了人们认为一个人重要的事实:被越多重要的人推荐的人越重要,网页通过链接指向来表示推荐。其实,还是有一种人也很重要,就是能向你推荐很多重要的人的人,这种人就像武侠电视剧里面的包打听。接下来介绍的HITS算法就采用了这两种方式来衡量图中节点的两种重要性。
参考资料:
《概率导论》第2版,(美)伯特瑟卡斯,(美)齐齐克利斯 著,郑忠国,童行伟 译
《Web数据挖掘》第2版,Bing Liu 著, 俞勇 译
《线性代数及其应用》第3版,(美)莱(Lay,D.C.) 著,刘深泉 等译
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。