赞
踩
本课程以前是考试课,在我们这一届变成了考察课。2020秋季学期情况比较特殊,由于疫情原因提前放假,所以期末考试也相应提前,最后因为时间太紧,老师取消了这门课的期末考试,采取阅读论文提交报告的形式,占期末分数的100%。正常情况下大作业40%,期末考试60%。本人期末得分95,教学班排名第三。
放出当时的大作业要求:
教师收作业后会有查重,请勿抄袭。
Effective and Efficient Community Search over Large Heterogeneous Information Networks
Yixiang Fang, Yixing Yang, Wenjie Zhang, Xuemin Lin, Xin Cao University of New South Wales, Australia
yixiang.fang@unsw.edu.au, yixing.yang@unsw.edu.au
wenjie.zhang@unsw.edu.au, lxue@cse.unsw.edu.au, xin.cao@unsw.edu.au
2020年2月VLDB(第13卷,第6期)
http://dl-acm-org-s.ivpn.hit.edu.cn:1080/doi/10.14778/3380750.3380756
最近,社区搜索(CS)相关的话题得到了广泛的关注。给定查询顶点,CS将搜索包含该值的密集子图。现有的研究主要侧重于搜索同一类型的同质图形,不能直接应用于由多图形、互联对象(如书目网络和知识图)组成的异构信息网络(HIN)。本文对大型HIN的社区搜索问题进行研究;也就是说,给定一个查询顶点q,从包含q的HIN中查找一个社区,其中所有顶点都具有相同类型的q并且具有密切的联系。
为了对同一类型的两个顶点之间的关系进行建模,我们采用众所周知的元路径概念,它是在不同类型顶点之间定义的一系列关系。然后,我们使用元路径扩展经典的最低度量值,从而衡量社区的凝聚力。我们还提出了使用这些凝聚力指标查找社区的高效查询算法。我们对五个真正的大型HIN进行了广泛的实验,结果表明,我们提出的解决方案对搜索社区是有效的。此外,它们比基线解决方案快得多。
在这一节中,我们将为CSH问题开发有效的算法。特别地,对于每个核心模型,我们开发了一个基本算法和一个高级算法。虽然基本算法简单明了,但正如我们的实验所示,它们不如高级算法有效。我们在表4中总结了所有高级算法,其中越多意味着更高的内聚性,ni是P中第i个顶点类型的顶点数,di,i+1是与P中第i个顶点类型的顶点相连的(i+1)个顶点类型的最大顶点数,σ2<n1^2,c≤4。显然,查询Bk所花费的时间最少,而计算Vk所花费的时间最多。另一方面,Ek往往比Bk更具内聚性,因为在Ek中,移除任何(k–1)边后,每个顶点仍然参与到社区中。另外,Vk比Ek更具内聚性,因为边不相交路径可能共享相同的顶点,而顶点不相交路径既不共享边也不共享顶点。总之,在结果的内聚性和查询效率之间存在一种折衷,即在大多数情况下,更内聚的核心需要更高的时间和计算成本。我们注意到,在某些极端情况下(例如酵母PPI网络),HIN只是由大星星组成,每个顶点都是相连的。对于只有一条或两条边和顶点不相交的路径,边和顶点不相交的核心模型可能无法实现更高的内聚性。
我们后来的实验还表明,对于中等和较大的图,最好采用Ek或Vk,因为计算它们在合理的时间开销内获得了很好的质量;而如果目标类型的顶点数非常大,Bk应该是一个更好的选择,因为它的计算速度比其他方法快。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。