当前位置:   article > 正文

异质信息网络学习笔记

异质信息网络

同质性息网络:会造成数据不完整或信息损失

异质信息网络:包含全面的结构信息和丰富的语义信息

异质信息网络被定义为一个有向图,它包含多种类型的对象或者关系,每个对象属于一个特定的对象类型,每个关系属于一个特定的关系类型

元路径:定义在网络模式上的链接两类对象的一条路径

image-20230719161550317

image-20230719161731256

典型示例:
image-20230717151250985

(c)表示两条不同的元路径

元路径“作者 - 论文 - 作者”,表示两个作者合作撰写了同一篇论文

元路径“作 者 - 论文 - 会议 - 论文 - 作者”,表示两个作者在同一会议上发表了论文。链接两类对象的不同元路径,表示了不同的语义关系

和链接网络,这也造成了不同的分析结果和特征表示

首先,异质信息网络分析是数据挖掘的新发展,其次,异质信息网络是融合更多信息的有效工具,此外,异质信息网络包含丰富的语义。

image-20230718142324807

image-20230719161943707

image-20230719163759780

image-20230719164120271

image-20230719164215455

基于异质信息网络的语义推荐:面对推荐任务中常见的数据稀疏性问题,融合更多信息进行混合推荐是 一种有效的解决方法。

image-20230718154132363

冷启动:推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就称为推荐系统的重要组成部分和先决条件。很多在开始阶段就希望有个性化推荐应用的网站来说,如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题

冷启动问题主要分为3类:

  • 用户冷启动:用户冷启动主要解决如何给新用户做个性化推荐的问题。当新用户到来时,没有他的行为数据,所以无法根据他的历史行为预测其兴趣,从而无法借此给他做个性化推荐。
  • 物品冷启动:物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题。
  • 系统冷启动:系统冷启动主要解决如何在一个新开发的网站上(没有用户,也没有用户行为,只有一些物品的信息)设计个性化推荐系统,从而在网站刚发布时就让用户体验到个性化推荐服务这一问题。

异质信息网络的好处:

异质网络是融合信息的有效工具,不仅可以自然融合不同类型对象及其交互,而且可以融合异构数据源的信息

异质网络中多类型对象和关系共存,包含丰富的结构和语义信息,从而为发现隐含模式提供了精准可解释的新途径

网络模式
image-20230719155128747

网络模式强调关于对象和关系集合的类型约束,这些约束使得异质网络半结构化,从而便于语义探索和模式挖掘.实际生活中,遵循某种网络模式的信息网络被称为该网络模式的网络实例.

相似度度量

相似性度量用于评估对象的相似性,是许多数据挖掘任务的基础,如 Web 搜索和聚类等.关于相似性度量的研究已有较长历史,这些研究方法可大致分为两类:基于特征和基于链接.前者利用对象特征来度量相似性,如计算余弦相似性和欧几里德距离等.后者基于图中对象的链接结构来度量相似性,如Personalized PageRank .最近,许多研究者开始关注异质网络中的相似性度量问题

推荐

推荐系统帮助消费者搜寻可能感兴趣的物品,如书籍、电影和餐馆等,往往基于信息检索、统计和机器学习的各种技术计算物品和用户偏好间的相似性.传统的推荐仅利用用户-物品评分反馈信息.随着社交媒体的普及,越来越多的研究者利用用户的社交关系 研究社交推荐系统

异质网络全面的信息和丰富的语义使其有望产生更好的推荐结果

image-20230719165515903

分类是一种基本的数据分析任务,可以通过构建模型或分类器来预测类标签。传统机器学习的分类任务主要针对满足独立同分布的相同类型对象.与传统的分类不同,异质网络研究的分类问题具有一些新的特点

聚类是将数据对象划分为一组簇的过程,簇中对象彼此相似,不同簇中对象彼此不同。基于网络化数据的聚类方法通常将数据建模为同质网络,并使用给定度量(如标准化切割 和模块度等)将网络划分为一系列子图.

链接预测是链接挖掘中的基本问题,即基于观测链接和节点属性来估计两节点间存在链接的可能性。链接预测通常被视为简单的二分类问题:对于任何两个可能连接的对象,预测链接存在或不存在

元路径选择

自动生成元路径:基于网络模式搜寻可能连接实例对的元路径集合

不利用元路径进行数据挖掘:一些工作不采用元路径,而是以关系为出发点进行数据挖掘

异质网络的表示学习

异质网络的特殊性,同质网络的表示学习方法并不能直接应用于异质网络,主要存在两点挑战:

• 节点和边的异质性.不同类型的节点和边代表不同的语义,因此异质网络的表示学习需要将不同类型的对象映射到不同的空间中.此外,如何保存每个节点的异质邻居及如何处理异质的节点序列也是值 得探究的问题.

• 异质网络中丰富信息所带来的表示融合.异质网络从多个维度刻画节点的语义,如何有效抽取和利用多维度信息并融合得到全面的节点表示也是巨大的挑战

浅层模型:

为应对网络异质性带来的挑战,部分浅层模型将其分解为较简单的网络,分别对这些网络进行表示学习,然 后再将信息融合起来达到“分而治之”的效果

多基于随机游走的方法,以更好地刻画异质网络中的丰富语义.随机游走作为一种经典的图分析模型,常用于刻画网络中节点间的可达性,因此也被广泛用于网络表示学习中采样节点的邻居关系.

深层模型:

相对于浅层模型,深度模型可以更好地捕捉非线性关系,从而抽取节点所蕴含的复杂语义信息.我们将深层模型大致分为四类:基于自动编码器、基于生成对抗网络、基于强化学习和基于图神经网络的方法

实际应用

异质网络在商业、安全和医学等领域有许多实际的应用场景

image-20230720094130658

在商业领域,存在大量的关联数据,因而可以构建异质网络.与以往的网络分析相比,利用异质网络建模可以涵盖多类型节点及其之间的交互,整合丰富甚至异构的信息源,从而更全面地刻画节点特征.其中,最广泛的应用之一是推荐,传统的推荐算法基于协同过滤,仅考虑用户和物品的交互信息.然而,实际的推荐系统中用户与商品、店铺和朋友等存在大量的交互,利用异质网络建模这些信息,能够更精确地形成用户画像来提升推荐性能

未来发展方向

面向多模态数据的异质网络构建与分析方法:异质网络可以通过融合丰富信息解决大数据的“多样性”挑 战.现有工作主要致力于对关系数据库类的结构化数据建模,而文本、图像和多媒体等模态数据也可以采用异质网络建模与分析

面向复杂网络数据的异质网络分析方法:实际应用中的异质网络具有动态变化、规模巨大、模式丰富等特 点,需要研究真实复杂网络数据的异质网络分析方法

(1)实际网络往往是动态异质的

(2)实际网络是规模巨大的

(3)实际网络是模式丰富的

(4)实际网络中的链接通常包含丰富信息.社交异质网络中的关注、转发等是有向的交互关系,这种有向性对于影响力分析极为重要

面向深度计算的异质网络表示学习

网络表示学习已成为当今热点,而图神经网络作为优美有效的表示学习算法,可以扩展至异质网络中

(1)异质图神经网络的内部机制.现有异质图神经网络方法的聚合方式

(2)异 质图神经网络的鲁棒性,设计相应防御机制

(3)异质网络表示学习的可解释性

(4)异质网络与知识的融合

个性化语义推荐方法 SemRec

推荐系统作为一项重要的数据挖掘任务,包含了大量的对象类型(如电影推荐中的用户、电影、演员、兴趣群体等)以及对象类型之间丰富的关系,自然构成了一个HIN。

通过设置元路径,SemRec不仅可以灵活地集成异构信息,还可以获得代表用户在路径上偏好的优先级和个性化权重。在两个真实数据集上的实验表明,SemRec通过加权元路径灵活地整合信息,获得了更好的推荐性能。

image-20230718225241021

图1就是这样一个例子。HIN不仅包含了电影推荐中不同类型的对象(如用户和电影),还说明了对象之间的各种关系,如观看信息、社会关系、属性信息等。

传统的HIN和元路径不能直接应用于推荐系统,因为传统的HIN和元路径不考虑链接上的属性值。

不同类型的相似用户会通过不同的元路径产生,这些不同类型的相似用户会推荐不同的商品。可以设计一个权重学习方法来结合这些建议,并且可以为每个路径分配一个学习到的权重偏好。一个好的权重学习方法应该获得优先的和个性化的权重。也就是说,学习到的权重可以表示路径的重要性,每个用户都应该有个性化的权重来体现他对路径的偏好。

基于语义路径的个性化推荐方法SemRec,通过设置元路径灵活集成异构信息。在SemRec中,设计了一种新的权重正则化项来获得路径上的个性化权重偏好,并通过使用相似用户的权重偏好一致性规则来缓解评级稀疏性。

加权HIN:传统HIN是一种未加权的HIN,其中关系上没有属性值或我们不考虑它们。对于WHIN,在某些关系类型上存在属性值,这些属性值可以是离散值,也可以是连续值。

加权元路径:扩展元路径是基于关系上某一属性值约束的元路径,属性值函数上的约束C是属性值函数之间的一组相关约束。如果元路径中的所有属性值函数都是空集(对应的约束C也是空集),则该路径称为未加权元路径,否则称为加权元路径。注意,传统的元路径是一个未加权的元路径,可以被认为是加权元路径的特殊情况。

image-20230719141524717

基于路径的相似性:在HIN中,基于路径的两个对象的相似度是基于连接这两个对象的给定元路径的相似度评估。

基于路径的相似度度量的本质是评估连接两个对象的路径数量在元路径上所有可能路径上的比例

原子元路径:如果加权元路径中所有属性值函数δ®取一个特定值,则该路径称为原子元路径。加权元路径是一组原子元路径,其中包含满足约束C的所有原子元路径

image-20230719141656925

image-20230719143912002

我们可以将加权元路径分解为一组具有固定属性值约束的原子元路径。对于原子元路径,可以直接使用现有的基于路径的相似性度量由于加权元路径是一组相应的原子元路径,因此基于加权元路径的相似度度量可以认为是基于相应原子元路径的相似度度量的和。因此,基于加权元路径的相似度度量可以通过以下两个步骤进行评估:(1)将基于每个原子元路径的相似度与现有的基于路径的度量进行评估;(2)总结加权元路径中各原子元路径的相似度。

基本思想是,使用带权或不带权元路径计算用户间的相似度,然后根据相似用户的评分预测目标用户对物品的评分。

不同的元路径会得到不同的推荐结果(评分),如何有效地整合这些推荐结果是一个挑战。我们需要为每条元路径分配一个偏好权重(preference weight)。在学习这些权重时有两个方面的困难:
(1)优先级权重(Prioritized weights)
不同元路径得到的相似度可能存在很大的偏差(bias),所以很难反映出路径的重要程度。比如,由基于稠密的关系构成的元路径得到的相似度可能普遍偏高,而由基于稀疏的关系构成的元路径得到的相似度可能普遍偏低。为此,SemRec设计了一个归一化评分强度运算(normalized rating intensity operation)消除相似度偏差,使偏好权重更好地反映元路径的重要性。

(2)个性化权重(Personalized weights)
即为每个用户学习权重。但存在数据稀疏性问题。为此,SemRec提出“相似用户的权重偏好一致性原则”,即假设两个相似的用户对元路径有相同的权重。两个用户基于一条路径是相似的,表明这条路径对这两个用户有相似的影响,也就是说这些用户对这条路径有一致的偏好。根据这个理论,设计了一个新颖的权重正则化项,有效缓解了权重学习过程中评分稀疏问题。

作者首先设计了基于一条元路径的推荐方法,然后提出三个级别的基于多条元路径的推荐方法:

image-20230719150540022

image-20230719150556470

image-20230719150607674

SemRec在训练集较少的情况下具有更明显的优势,这意味着SemRec具有缓解冷启动问题的潜力。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/352422
推荐阅读
相关标签
  

闽ICP备14008679号