当前位置:   article > 正文

综述 | GNN金融风控领域业界进展调研

financial risk analysis for smes with graph-based supply chain mining

每天给你送来NLP技术干货!


来自:程序媛驿站

前言:

本文重点:

  • 工业界 金融欺诈风控领域上 GNN的应用及进展

注:

  • 本文仅针对 可用「深度图神经网络解决」的 - 「金融风控」相关的任务论文

  • 「除深度图神经网络之外,业界常用经典图算法」 & 「除金融欺诈风控领域之外,常见推荐等任务」 & 「图数据库存储方式」会顺带提及,但本文不会详细讲解

前置知识:

目录

  • 前言

  • 1⃣️WHY GNN

    • GNN 的核心

    • 未来的研究方向

    • 图神经网络框架

    • GNN相关的一些开源平台

  • 2⃣️图数据集选取条件

    • 现有开源数据集

    • 金融风控类 - 数据集现状

  • 3⃣️金融风控方向GNN进展

    • 阿里蚂蚁

      • 【网络结构设计】自动选择邻居的GNN

      • 【淘宝】运费险诈骗识别「反欺诈」

        • 运费骗保

        • GeniePath算法

      • 【支付宝】恶意账户识别 / 高危账户识别

        • 欺诈/恶意账户检测

        • GEM算法,世界上已知的首个利用图卷积进行恶意账户识别

      • 【蚂蚁金服信贷】贷款违约预测

      • 【GNN框架】

    • IBM

      • 【比特币洗钱识别】

    • 北航

      • 【互联网评论欺诈】

    • GNN业界进展

  • 4⃣️其他方向进展

    • 阿里

      • 【广告推荐】

      • 【淘宝推荐】

      • 【推荐系统】

    • Uber Eats

      • 【餐厅推荐】

    • 网易音乐

      • 【音乐推荐】

    • 滴滴

      • 【车辆调控管理】

    • Fabula AI

      • 【假新闻检测】

    • Comodo 科摩多

      • 【恶意应用识别】

  • 5⃣️其他相关&参考资料

1⃣️WHY GNN

非欧空间需要GNN来解决:

  • 当前,深度学习技术已经在语音识别、机器翻译、图像分析和计算机视觉等方向取得了重要成果

  • ✅ 欧氏空间:音频 / 自然语言(1D)、图像(2D)、视频(3D)

  • ❌ 非欧空间:社交网络数据、生物化学图结构、引文网络等

“图结构”的分类

  • 有向 / 无向(边)

  • 有权 / 无权(边)

  • 有特征 / 无特征(节点 / 边)

  • 同构 / 异购(节点 / 边)

  • 51d25accf574045c89d33d3824ed1983.png

  • Attributed:考虑节点性质,如用户性别、年龄、购买力等

  • Multiplex:多重边,节点之间可能有多种关系,比如说两个用户之间可能为好友、同学、交易关系等;用户和item之间可以浏览、点击、添加到购物车、购买等

  • Heterogeneous:异构,节点和边有多种类型,节点类型+边类型>2

  • -- Representation Learning for Attributed Multiplex Heterogeneous Network  阿里异构Embedding GATNE

GNN 的核心

  • 就是 information diffusion mechanism / message passing。

  • 其核心就是要在相互连接的节点之间交换信息,即需要迭代地更新节点的表示,每一次更新,每个节点上的信息都和相邻节点做一定的交互。

  • 这两类都通过一个参数化表示的深度学习模块来做这样的信息交换:在 RecGNN 中, 每一步信息交换的变换函数都是一样的,并且目标是做很多次这样的信息交换直到每个节点上的特征都达到稳态;在 ConvGNN 中,每一步信息交换的函数都不一样,并且只经过有限步的信息交换。这一点区别如下图所示。

  • 对于 graph-level 的任务来说,还需要从图上每个节点把信息聚合起来,这就涉及到很多 pooling 的技术。

  • 8140d49ee362158d87a5cfdceae48deb.png

图神经网络的基本思想:

  • 图神经网络的基本思想,就是基于节点的局部邻居信息对节点进行embedding。

  • 直观来讲,就是通过神经网络来聚合每个节点及其周围节点的信息。

  • 算法思想是基于节点的局部邻居及其自身特征信息对节点进行表示学习(Node Representation Learning)。

  • 本质上是通过神经网络对聚合节点及其邻居节点的特征信息做非线性变换。

  • 图神经网络有很多变种,可以从图的类型、训练方法和传播步骤等多方面进行变种分类。

图上的学习任务

  • 1、图节点分类任务:图中每个节点都有对应的特征,当我们已知一些节点的类别的时候,可以设计分类任务针对未知节点进行分类

  • 2、图边结构预测任务:图中的节点和节点之间的边关系可能在输入数据中能够采集到,而有些隐藏的边需要我们挖掘出来。就是对边的预测任务,节点和节点之间关系的预测。

  • 3、图的分类:对于整个图来说,我们也可以对图分类。基本思路是将图中节点的特征聚合起来作为图的特征,再进行分类。

另:

  • 一般在图中寻找子团的任务为社群检测(Community Detection)或者叫作高密子图挖掘(Dense Subgraph Mining)

  • 算法不断删除节点使得剩下的节点构成的社区可疑度最大,然后记录整个删除过程中社区可疑度最大的那一轮,那么该轮的剩余节点构成的子图就是最可疑的。

  • 针对固定问题使用固定算法,如FRAUDAR 算法自动化地挖掘出二部图里的高密子图,较少用GNN解决

  • https://zhuanlan.zhihu.com/p/45625323

学习任务的应用

  • 图神经网络在文本分类(Text classification)

  • 序列标注(Sequence labeling)

  • 神经机器翻译(Neural machine translation)

  • 关系抽取(Relation extraction)

  • 事件抽取(Event extraction)

  • 图像分类(Image Classification)

  • 视觉推理(Visual Reasoning)

  • 语义分割(Semantic Segmentation)

  • 等等

领域应用:

  • 风控领域、推荐系统(社交网络 / 电商推荐)、生物医疗等等

未来的研究方向

  • 如何有效地提升模型复杂度:因为 convolution 层变多时,各个节点的特征将会变得越来越接近,加多层数最后会使得所有的点上的特征都变成一样的,因此不能单独靠把模型做深来提高模型复杂度。

  • 如何提高模型的拓展性:当图的规模变得特别大时,就需要考虑如何来对图进行聚合并且尽量不要丢失图上的信息。有两种思路:sampling 可能会使得节点丢失一些很关键的邻居;clustering 可能会使得图丢失一些比较特别的结构模式。

  • 如何融合异源数据:真实应用场景中,图可能会有不同类型的节点、连边,如何处理这些数据也将成为一个研究方向。

  • 如何处理动态的图:就像 STGNN 中所做的事情一样。

图神经网络框架

几种当下最为广泛的图神经网络框架

1、Deep Graph Library(DGL)

  • DGL采用了基于「消息传递」的编程模型

  • 消息传递是图计算的经典编程模型。

  • DGL已经支持PyTorch、MXNet和TensorFlow作为其后端。

2、PyTorch Geometric(PyG)

  • PyG目前支持大量常见基准数据集

  • 基于PyTorch的几何深度学习扩展库

3、Ant Graph machine Learning system(AGL)

  • 由阿里的蚂蚁金服团队推出的大规模图机器学习系统

4、tf_geometric

        同时支持TensorFlow 1.x和2.x的图神经网络框架

5、PGL

        由百度的paddle一个基于 PaddlePaddle 的高效易用的图学习框架

GNN相关的一些开源平台

1、Deep Graph Library(DGL)

  • DGL由纽约大学、纽约大学上海分校、AWS上海研究所和AWS MXNet科学小组开发和维护GNN平台。开始时间: 2018.

  • 地址:https://www.dgl.ai/,

  • github地址: https://github.com/jermainewang/dgl

2、NGra

  • NGra是由北京大学和微软亚洲研究院开发和维护一款GNN平台。开始时间:2018。

  • 地址:https://arxiv.org/pdf/1810.08403.pdf

3、Graph_nets

  • Graph_nets是由DeepMind, Google Corp开发和维护的。开始时间:2018

  • 地址: https://github.com/deepmind/graph_nets

4、Euler

  • Euler是一款由阿里巴巴旗下的阿里妈妈开源的GNN平台。开始时间:2019

  • 地址: https://github.com/alibaba/euler

5、PyTorch Geometric

  • PyTorch Geometric由德国杜特蒙德大学开发和维护的GNN平台。开始时间:2019

  • 地址:https://github.com/rusty1s/pytorch_geometric

  • 论文:https://arxiv.org/abs/1903.02428?context=cs.LG

6、PyTorch-BigGraph(PBG)

  • PBG是由Facebook人工智能研究开发和维护的GNN平台。

  • 开始时间:2019

  • 地址: https://github.com/facebookresearch/PyTorch-BigGraph

  • 论文:https://arxiv.org/abs/1903.12287

2⃣️图数据集选取条件

图数据集的选择:

  • 关系型数据,复杂网络

  • 图(graph)是一种数据结构,常见的图结构由节点(node)和边(edge)构成,节点包含了实体(entity)信息,边包含实体间的关系(relation)信息。

  • 「节点」和「边」必需,节点属性/类别 & 边权重/类别 可选(异构)

本次调研要求领域:

  • 金融风控 > 电商网络 > 社交网络

现有开源数据集

已有大规模公开数据集

  • 斯坦福大学:

  • https://snap.stanford.edu/data/(大型社交、信息网络。包括:图分类数据库、社交网络、引用网络、亚马逊网络等

    • 可用:社交网络 / 亚马逊电商数据

  • https://ogb.stanford.edu/(三种图任务上的真实基准数据集,同时提供数据加载器和评估器(PyTorch)

    • 可用:亚马逊电商数据 

    • -- – https://blog.csdn.net/lj2048/article/details/106575412/

  • --  – https://www.pianshen.com/article/71231875410/

亚马逊电商网络

  • 常用任务:节点分类,预测产品的类别

  • 数据集特点:无权重无向图

  • 节点为售卖的商品,边表示两个商品被一同购买

社交网络(FaceBook、Twitter等)

  • 常用任务:推荐算法,解决冷启问题

  • 数据集特点:无权重(FaceBook无向/Twitter有向)

  • 节点表示用户,边表示朋友关系

知识图谱

  • Freebase

    • 采用结构化数据的形式,如,已故美国总统肯尼迪的条目。类似履历表,包括出生时间、死亡时间、性别、职业、国籍、配偶等等

    • 这一套格式是固定的,所有人物条目都包含同样的字段。这样一来,数据之间就可以很容易地联系在一起,为信息的查询和处理提供了巨大的方便

  • WordNet

    • 按照单词的意义组成一个“单词的网络”。WordNet是一个覆盖范围宽广的英语词汇语义网

金融风控类 - 数据集现状

总述:

  • 图深度学习技术应用在风控领域已经证明是有效且必要的,但发展时间较短,整体进程还处在发展初期阶段。

  • 挑战:

    • 模型开发者需要面对的挑战:

    • 数据来源狭窄、数据格式不统一

    • 算法验证标准尚未统一

    • 应用场景多样

    • 具体业务上模型定制化程度较高

    • 缺少公开数据

1、数据:

  • 数据隔阂 & 缺少统一数据

  • 当前很少有公开的风控领域的图数据能够直接用于风控场景的图深度学习算法,虽然算法研究者多拥有自己的数据源,但外人几乎接触不到:

  • 有的互联网公司,由于业务的特点,能够很方便接触到海量的用户数据(交易数据、APP下载数据、登录/注册数据、浏览/购买数据等),其中蚂蚁金服较为突出。这些公司或者组织能够很方便的基于自己现实业务,利用现有数据进行模型的构建。

  • 但由于这些用户数据的私密性,这些数据仅在其所有者内部使用,外人接触不到。这也造成业内没有统一的标准进行模型的对比验证。各家目前还是各自为营,自产自销。 

  •  –  https://bbs.huaweicloud.com/blogs/184712

2、模型算法:

  • 当前风控领域的图深度学习算法在不同场景下还没有很好的统一性。换句话说,现在单个算法主要还是聚焦在较为单一的风控场景。

  • 比如首个利用图卷积进行恶意账户识别的GEM算法主要使用于账户登录/注册场景-- Heterogeneous Graph Neural Networks for Malicious Account Detection 蚂蚁金服

  • GraphConsis算法主要聚焦在账户的恶意/欺诈评论识别。-- Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud 北航

  • 数据的隔阂,统一数据的缺少以及业务的针对性是造成模型针对面较窄的一些原因。

  • (都和我们预期的银行金融数据不同,且蚂蚁金服数据未开源)

3⃣️金融风控方向GNN业界进展

3.1 阿里蚂蚁

由于蚂蚁金服为上亿级的个人用户提供服务,产生的金融数据从一开始就是海量且极其复杂的。即便是此前最先进的Graph Embedding 技术,处理金融级的图结构仍有压力。

自研的图结构处理Graph Embedding 技术 ICML 2018

【网络结构设计】自动选择邻居的GNN
  • 具有自适应接收路径的图神经网络,自动学习对目标节点贡献大的邻居进行传播

  • 规避恶意账户

  • GeniePath通过定义两个parametric函数:自适应广度函数、和自适应深度函数,共同对子图进行广度、深度搜索。其中自适应广度函数限定朝哪个方向搜索重要节点,自适应深度函数限定搜索的深度,即是1跳邻居信息就足够了,还是需要多跳邻居信息。

  • -- GeniePath: Graph Neural Networks with Adaptive Receptive Paths 蚂蚁金服  CIKM, 2018

  • -- https://zhuanlan.zhihu.com/p/61134212

  • -- https://export.arxiv.org/pdf/1802.00910

【淘宝】运费险诈骗识别【反欺诈】
1 什么是运费骗保
2 GeniePath算法
  • 运费骗保识别问题

  • 传统的运费险风控,主要通过一组策略,在线对单个账户的风险等级进行评估。基于策略、着眼单个账户,往往不能覆盖所有的骗保活动;

  • 本文将重点放在了构建账户关系网络(即关系图),用神经网络的方法,挖掘关系图中的信息。

  • 本文将骗保识别问题,定义为一个账户的二分类问题,二分类的标注来自运费险风控的策略。

  • 在解决这个问题的过程中,我们发现,行为特征(购物行为、浏览行为等)不能有效地区分“正常账户”和“骗保账户”。这主要是因为骗保的手段是专业的、变化的、有意遮掩的。然而,账户之间的关系,往往更加稳定,更加难以隐藏。但是如何构建账户之间的关系,让“正常账户”和“骗保账户”的区分度更高呢?

  • 构建设备共用图:包括账户和设备两种节点,如果一个账户曾在某设备上登录,则这个账户和设备之间就有一条边。

  • 设备共用图中“正常用户”和“骗保团伙”的关系模式区别较大。我们最终选择了设备共用图作为构图对象。

  • -- https://zhuanlan.zhihu.com/p/50531764

  • -- Who-Stole-the-Postage?Fraud Detection in Return-Freight Insurance Claims 蚂蚁金服 KDD, 2018

【支付宝】恶意账户识别 / 高危账户识别
1 欺诈/恶意账户检测

1) 什么是恶意账户

  • 恶意账户针对在线账户提出,如:Gmail 提供的邮件服务,微博/Twitter 提供的短消息分享服务,支付宝提供的支付服务等。

  • 恶意用户可能迅速大量地扩散垃圾广告等信息;催生微博僵尸账户达到某种非法营销、传播目的;在金融服务领域,注册大量新账户达到薅羊毛、洗钱、欺诈等目的。

  • 恶意账户具有强烈获取利益倾向和团伙性质,往往是通过批量、低成本注册的账户。

2) 恶意账户的特点

1.设备聚集性:见下图所示。两张图分别展示了用户(纵轴)过去是否在设备(横轴)有过登录行为。蓝色点代表该用户过去有在某设备上登录过。从图中可以看出,左图 pattern 较为均匀,右图则完全不同,可以看到极为有规律和稠密的 pattern。这说明,黑产账户更倾向于在设备(媒介)的联通上有着高聚集性。

d66e3d3a4c3a65416fc0e67fd8c94527.png左图是正常账户特征,右图是恶意账户特征

2.时间聚集性:见下图所示。两张图分别展示了账户(纵轴)在时间(横轴)上的行为序列。其中蓝点代表登录行为。从左图可以看出,正常账户在注册之后,每天会有均匀的登录 pattern,右图中的黑产账户则只在某个时间段内集中达成某种行为,这种 pattern 我们称之为时间聚集性。

23b45d3a9ef1025061b6e276147e5c1b.png左图是正常账户特征,右图是恶意账户特征

  • 小结:这两种特征是黑产账户所固有形成的。即,这些黑产受利益所驱动而无法绕开这些模式(只要能准确捕获黑产账户之间共享的设备信息,这里的设备不限于某一个手机、某一个IP地址,可以认为是一种媒介)。

  • 因此,我们针对这些数据特点设计了基于图的神经网络算法识别黑产账户。

2 GEM算法,世界上已知的首个利用图卷积进行恶意账户识别
  • 基于异构图神经网络的恶意账户识别方法,主要使用于账户登录/注册场景

  • 在线账户伴随着(移动)互联网的诞生而产生,在金融服务领域,这种通过批量、低成本注册的恶意账户的存在是十分危险的。

  • 该方法是支付宝为保障体系内账户安全,降低恶意账户带来的资损,保障支付体系健康,在人工智能领域所做的努力和尝试。

  • 传统联通子图方法:

    • 建立多个账户-设备二部图,由于设备聚集性,我们可以计算每个联通子图的节点数目,每个账户的危害程度取决于该节点所在联通子图的节点数目。

    • 该方法可以准确识别那些设备聚集度特别高的黑产账户。但是对于设备聚集程度一般或较低的账户,很难做出准确区分。

  • 图神经网络方法:

    • 构建异构图,包括账户类节点,以及多种类型的设备信息,如:电话、MAC、IMSI 以及其他 ID。

    • 为每个账户加入时间上的行为特征 X ∈ RN,P。其中每行 Xi 表示节点(账户或设备)在时间上的行为特征。我们希望构建的神经网络模型可以学习到通过设备聚集在一起的账户在行为特征上的模式,从而更准确的做出判别。

  • 模型设计

    • 模型认为是GCN的变体,在于:1.扩展到异构网络; 2.由于聚集性模式,对不同类型的图 outside_default.png 使用“sum”算子进行聚合操作,同时对不同设备图平均操作。

    • 相比GCN只能处理同质网络,GEM 处理原始的异构网络,信息会有所保留, 另外对每种类型节点使用“聚合”运算操作,而不是normalized 操作。

    • GEM-attention 因为考虑不同设备的权重,而不是等同对待。

  • https://zhuanlan.zhihu.com/p/48243724

  • https://zhuanlan.zhihu.com/p/59666737

  • -- Heterogeneous Graph Neural Networks for Malicious Account Detection 蚂蚁金服 CIKM, 2018

【蚂蚁金服信贷】贷款违约预测
  • ST-GNN(Spatial-Temporal aware Graph Neural Network)的图神经网络对这个集合进行建模,从而获取到图中每个节点的embedding用于下游任务

  • 贷款违约预测和链接预测(预测两个节点之间是否存在边)

  • 利用供应链网络预测金融风险,利用图神经网络建模供应链网络预测贷款违约

  • 本文针对中小企业财务风险分析中数据不足的问题,提出了一种基于图的供应链挖掘的财务风险分析框架。

  • 具体来说,为了获取中小企业信用相关的拓扑结构和时间变化信息,我们设计并使用一种新的时空感知图神经网络,在中小企业图上挖掘供应链关系,然后基于挖掘的供应链图分析信用风险。在真实金融数据集上的实验结果证明了我们提出的中小企业金融风险分析方案的有效性。

  • (如图:服装工厂的供应链 | 供应链网络是随时间变化的,所以可以表示成 T 个时刻的快照集合)

  • f002576dd8b1825ab3608c8c8a749579.png

  • 模型设计:

    • 对于时刻outside_default.png的快照outside_default.png,用类似图注意力网络的方法聚合节点outside_default.png的周围节点和边的信息,不同之处在于这里因为多了边的信息。重复outside_default.png次,每个时刻outside_default.png快照上的节点都会获得一个聚合了图结构信息的新表示outside_default.png

    • 有了每个时刻图上节点的表示outside_default.png,文章利用类似LSTM的方式来获取这些节点的时序信息。可以获得每一个节点在每个时刻融合了时序信息的节点表示outside_default.png, 结合上面获得outside_default.png,文章最后使用了一个注意力机制综合这两种表示,获得每个节点的最终表示。

  • 之后文章在蚂蚁金服的信贷数据上做了贷款违约预测(链接预测:预测两个节点之间是否存在边)的任务,证实了模型的有效性。

  • -- https://zhuanlan.zhihu.com/p/348060075

  • -- Financial Risk Analysis for SMEs with Graph-based Supply Chain Mining 蚂蚁金服 IJCAI, 2020

【GNN框架】
  • 在包含数十亿用户和产品的网络上。支持高效的分布式图存储,对采样过程进行了优化,同时内部集成了很多GNN模型。该框架已成功用于公司的多种产品推荐和个性化搜索任务。

  • -- AliGraph: A Comprehensive Graph Neural Network Platform

  • https://arxiv.org/abs/1902.08730

3.2 IBM【比特币洗钱识别】

  • 使用GCN算法识别比特币反洗钱

  • 节点表示交易的实体,边表示比特币的交易流,其数据共计203,769笔节点交易以及234,355条边。

  • 使用模型

    • 基于GCN的半监督学习

    • Skip-GCN:多了一个“skip”变量,即将节点输入特征X和网络embedding特征共同进行学习,其好处是相当于在GCN中增加了一个LR的结构。

    • EvolveGCN:GCN的时间模型是EvolveGCN,详见《EvolveGCN: Evolving Graph Convolutional Networks for Dynamic Graphs》,捕捉图的动态变化

  • https://zhuanlan.zhihu.com/p/85348013

  • -- Anti-Money Laundering in Bitcoin: Experimenting with Graph Convolutional Networks for Financial Forensics, 2019

3.3 北航【互联网评论欺诈】

  • GraphConsis算法

  • 账户的恶意/欺诈评论识别

  • 本文主要通过邻居节点距离进行均衡采样优化,来针对风控场景的一些Inconsistency问题。

  • 1. Inconsistency 定义

    • Context Inconsistency:a. frauder 会通过建立正常连接来伪装 b. 正样本数量少

    • Feature Inconsistency: 节点特征差异性可能很大

    • Relation Inconsistency: 存在不同类型的边会造成影响

  • 2. 解决方案

    • 通过引入可训练的Context Embedding,补充节点特征, 解决Context Inconsistency

    • 通过节点特征相似度,过滤低相似度节点,提高采样样本中的节点特征一致性

    • 通过Attention,对不同边类型的邻居节点增加权重影响

  • https://zhuanlan.zhihu.com/p/385173898

  • -- Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud 北航

4⃣️其他方向进展

4.1 Uber Eats【餐厅推荐】

  • 使用图神经网络进行产品推荐。典型的做法是对用户和商品的交互关系进行建模,然后通过某种负采样损失学习节点嵌入,并通过kNN实时推荐给用户相似产品。Uber Eats 公司很早就通过这样的方式进行产品推荐,具体而言,他们使用图神经网络 GraphSage 为用户推荐食品和餐厅。

  • -- https://eng.uber.com/uber-eats-graph-learning/

  • -- Food Discovery with Uber Eats: Using Graph Learning to Power Recommendations

4.2 网易音乐【音乐推荐】

  • 通过图神经网络,挖掘用户的特征、歌曲的特征、用户对歌曲的行为特征,实现精准的音乐推荐。

  • 图中每个节点都具有结构信息,如果用户频繁订阅某种类别音乐或对某种类别音乐评分较高,那么系统就可以认定该用户对该类音乐比较感兴趣,就可以向该用户推荐更多该类别的音乐。

  • -- https://zhuanlan.zhihu.com/p/442309107

4.3 滴滴【车辆调控管理】

  • 滴滴出行研究了一种基于时空多图卷积神经网络的网约车需求量预测模型。

  • 通过分析区域之间复杂的时空依赖关系,对网约车需求量进行准确预测,指导车辆的调度,提高车辆的利用率,减少等待时间,并在一定程度上缓解了交通的拥堵。

  • -- Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting

4.4 阿里

【广告推荐】

  • 搜索广告匹配

  • 阿里妈妈利用图神经网络,从用户行为日志、内容属性等不同维度挖掘 Query(查询词)、Item(商品)和 Ad(广告)的多种关系。

  • 对于在线请求场景,通过计算用户查询词向量、前置行为中节点向量和广告节点向量之间的距离进行高效的向量化最近邻检索,从而快速匹配到符合用户意图的广告并推荐给用户。

【淘宝推荐】

  • 一篇关于结合知识图谱应用于大规模推荐的论文,成功应用于线上淘宝APP场景且有明显提升,推荐一读。

  • 当前基于KG的推荐方法可以分为两类:基于Path和基于GNN的方法。

  • 基于Path的方法通过探索目标user-item对在KG上的多个meta-path来预测用户偏好。这是一种典型需要domain knowledge的方法,而且忽略了KG中丰富的结构信息,因此不能充分刻画给定user和item内在的关系。

  • -- ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation SIGIR, 2020

  • https://blog.csdn.net/abcdefg90876/article/details/106893937/

【推荐系统】

4.5 Fabula AI【假新闻检测】

  • 伦敦的初创公司Fabula AI,使用GNN检测假新闻等

  • https://arxiv.org/abs/1902.06673

4.6 Comodo 科摩多【恶意应用识别】

通过构建HIN抽关系特征,对安卓智能手机中的恶意应用进行识别。

  • 实体:APP,API

  • 关系:

  • 1)Package关系(API-API):API 共用package,用矩阵P表示

  • 2)CodeBlock关系(API-API): API 共用code block,用矩阵B表示

  • 3)InvokeMethod关系(API-API): API 共用invoke方法,用矩阵I表示

  • 4)Contain关系(APP-API):APP使用API,用矩阵A表示

  • -- HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network KDD 2017

5⃣️其他相关&参考资料

SIGIR2020推荐系统论文一览:https://zhuanlan.zhihu.com/p/159742956

图数据库:https://zhuanlan.zhihu.com/p/210074511

图计算在网易游戏中的应用:https://zhuanlan.zhihu.com/p/370433730

*2021年,GNN+推荐系统/CV/物理/化学:https://blog.csdn.net/BAAIBeijing/article/details/112691028

*GNN 图神经网络 2021 年的5大应用热点:https://zhuanlan.zhihu.com/p/346895359

*工业向反欺诈算法论文及解读汇总:https://zhuanlan.zhihu.com/p/85155064

*开源分布式图数据库:https://zhuanlan.zhihu.com/p/152399147

  • 蚂蚁金服:GeaBase[1]
    金融级图数据库,通过自定义类语言为业务方提供服务,全量计算下推,提供毫秒级延时。主要应用于以下场景:

    金融风控场景:万亿级边资金网络,存储实时交易信息,实时欺诈检测。

  • 推荐场景:股票证券推荐。

  • 蚂蚁森林:万亿级的图存储能力,低延时强一致关系数据查询更新。

  • GNN:用于小时级 GNN 训练。尝试动态图 GNN 在线推理。

  • 阿里巴巴:iGraph[2]

  • iGraph 是图索引及查询系统,存储用户的行为信息,是阿里数据中台四驾马车之一。通过 Gremlin 语言为业务方提供电商图谱实时查询。

  • 今日头条:ByteGraph[3] 

  • ByteGraph 通过在 kv 上增加统一 cache 层,关系数据拆分为 B+ 树以应对高效的边访问和采样,类似 Facebook 的 TAO 。

  • 腾讯高性能分布式图计算框架柏拉图[4] 

以上文中灰色链接部分也属于参考文献,此处不再赘述


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

41ffa9993e5b6a48ab61fb817f28b4a2.png

记得备注呦

整理不易,还望给个在看!
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/361587?site
推荐阅读
相关标签
  

闽ICP备14008679号