赞
踩
你和“懂AI”之间,只差了一篇论文
很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。
为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。
同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。
读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。
这是读芯术解读的第147篇论文
WWW 2020
基于人才流动表征的企业竞争力分析
Large-Scale Talent Flow Embedding for Company Competitive Analysis
中国科学技术大学、百度
原文
Le Zhang, Tong Xu, Hengshu Zhu, Chuan Qin, Qingxin Meng, Hui Xiong, Enhong Chen, Large-Scale Talent Flow Embedding for Company Competitive Analysis, In Proceedings of The Web Conference2020 (WWW-2020) , Taipei, 2020.
本文是中国科学技术大学和百度TIC联合发表于WWW2020的工作,文章提出了一种基于人才流动表征的企业竞争力分析方法。我们首先基于大量的人才跳槽数据构建了人才流动网络并在网络上给出企业竞争力的定义,紧接着我们提出了一个人才流动表征模型去学习企业的吸引力表征,进而保留企业间的竞争关系。此外,我们还设计了一个多任务策略融合多个岗位的人才流动信息来完善表征学习模型,从而提供更细粒度的竞争力分析。实验结果验证了模型的有效性,并且揭示一些有趣的竞争现象。
在高速发展的商业环境下,企业间的竞争变得越来越激烈,对于企业竞争力分析的应用有着迫切的需求。借助于竞争力分析,企业可以实施前瞻性的战略手段和人才计划。然而,针对企业竞争力分析的研究,社会学背景的学者通常基于问卷调查和报告,这可能存在主观性的弊端。另一方面,数据驱动的方法一般依赖于一些领域特征,这会导致数据稀疏性问题,不利于推广,因此目前需要一个更客观普适的企业竞争力分析方法。
近年来,在线职业平台(例如,领英)的盛行积累了大量的电子简历,其中包含丰富的人才职业路径信息,这些大规模数据全面地描述了公司间人才流动的现象。根据相关数据统计显示,员工跳槽已经变得越来越频繁,2006年至2010年毕业的员工在毕业后头五年平均更换2.85个工作,几乎是1896年至1990年毕业员工的两倍,跳槽记录的大量积累为人才流动分析提供了数据支撑。通常,公司间的竞争会导致人才流动,而人才流动也可被视为公司之间竞争的重要标志之一,因此本文旨从人才流动的角度来研究企业之间的竞争。
在本文中,我们首先基于大量的人才跳槽数据构建了人才流动网络,并且定义了“竞争”的概念。接下来,沿着网络表征技术的思路,我们提出了一个人才流动表征模型来表示每个公司的两种吸引力,进而保留公司之间的竞争关系。具体而言,我们为每个公司定义两个低维向量,分别表示公司受到其他公司的吸引力和对其他公司的吸引力。利用每个公司的双向人才吸引力,可以有效地衡量公司之间的成对竞争关系。为了学习这些吸引力向量,我们在人才流动网络及其转置网络中进行随机游走,并用噪声生成估计(NCE)的策略进行学习。更进一步,我们设计了一个多任务策略来改进表征学习的结果,通过假设公司的特征保持稳定,但在不同岗位的人才流动网络中扮演不同的角色,从而融合多个岗位的人才流动网络进行学习来实现更全面的竞争力分析。
这里我们首先简要介绍我们的数据集,然后定义竞争力的概念,最后提出用于竞争力分析的人才流动表征问题。
2.1 数据描述
本文的数据集源自全球最大的在线职业平台(领英),用户可以在平台创建个人简历去介绍自己的工作经历。例如,如图1所示,每个简历中包含一个工作记录列表,每条记录包含公司名称、岗位名称、职责描述和工作时间段。
人才流动被表述为公司之间的员工工作跳槽行为,可以直接从电子简历中抽取。很明显,人才流动是有向非对称的,即如果存在员工从公司u跳槽v,反之却不一定成立。另外,如图2所示,人才流动具有可传递性,即如果公司u和v之间存在人才流动,公司v和w之间存在人才流动,那么u和w之间很可能存在人才流动。
2.2 企业竞争力定义
基于员工岗位流转的记录,我们可以构建一个人才流动网络,,其中代表的是公司集合,表示的是边集合,表示的从公司跳槽到的人数。
人才流动是企业竞争的表现,反之,企业之间的竞争应该能够揭示人才流动,因此我们基于人才流动去定义竞争的概念。如上所述,人才流动是非对称且可传递的,这些性质导致如下的假设,当公司u与v在人才流动网络上存在越多越短的路径,那么员工则越可能从u流动到v。实际上,这个假设和图上的高阶相似性PersonalizedPageRank(PPR)是一致的,PPR在网页排名技术中用于计算所有节点对目标节点的相关度,这里用PPR相似性来建模员工从公司u流动到v的趋势性。直观地,当公司u的员工越可能流动到v,那么v对u的竞争力增加。例如100个员工从u流动到v,有20个员工流动w,那么可以认为对公司u而言,v比w更具有竞争力,然而这种想法只考虑源公司的流出情况。如果考虑目的公司的流入情况,例如100个从u流动到v的员工占据公司v员工来源的10%,而10个流动到w的员工占据w员工来源的100%,那么此时公司w应该比v更具竞争力,因此我们定义竞争力应该同时考虑两种情况。人才从源公司的流出情况可以在原始网络中执行PPR算法估计,目的公司的人才流入情况,可以利用将原始网络的进行转置,然后再从目的公司执行PPR算法估计。综合两个方面,我们定义竞争力如下:
其中表示的是v对u的PPR相似性。下标"o"和"i"分别代表在原网络和转置网络。满足下面的递归等式:
其中A表示原始网络的归一化邻接矩阵,表示转移概率,r表示的是一个one-hot的向量,除了u对应的那一维等于1。在大规模的网络上直接求解PPR往往不可行,可以通过蒙特卡洛模拟随机游走的方法进行估计。
2.3 问题定义
本文旨在从人才流动的角度来揭示公司之间的竞争,直观的,人才流动代表潜在的“吸引力”,这进一步表明了他们的竞争力。因此,本文的动机是为每个公司学习两个吸引力向量:
· 表示公司u的人才受到其它公司吸引力的表征;
· 表示公司u对其它公司人才吸引力的表征。
形式化,本文的学习问题可以被形式化定义成如下:
人才流动表征:给定一个人才流动网络,我们目的是学习两个低维向量表征和去指示双向的竞争力。
本部分将介绍人才流动表征模型,并讨论学得的表征性质,最后设计一个多任务策略进一步提升模型效果。
3.1TFE模型
在表征空间,我们尝试去为每个公司学习表征进而保留公司间的竞争关系。根据公式(1),竞争力的定义依赖于两个部分,包括原始网络和转置网络中的PPR相似性。网络中节点v对u的PPR相似性可以从节点u开始以一定的转移概率执行随机游走,然后结合蒙特卡洛模拟的思想,执行多次随机游走,用路径终点为v点的频率进行估计。然而竞争力不能通过从一个节点随机游走直接估计,我们提出在原始网络和转置网络分别进行学习,最终通过相应向量拼接的方式获得最终的表征,其示意图如图3所示。
我们将公司的两个吸引力向量分别进行分隔,得到如下:
其中,表示的是向量的连接操作和分别表示公司在原始网络和转置网络上表征,并且维度都为。我们用和去保留原始网络上v对u的PPR相似性,即,用和去保留转置网络上u对v的PPR相似性。
不失一般性,这里介绍在原始网络上的网络表征学习过程。其它节点对公司u的相似性可以被看成是一种分布,并且满足。同时我们也可以在表征空间上生成一个估计的分布。我们希望用去拟合,我们的目标是最小化两个分布的KL-散度,即:
为了定义两个节点u和v在表征空间的相似性,我们选择u的源向量和v的目标向量之间的点积来表示u到v对应的距离,那么表示v到u对应的距离。基于此,我们能够保留PPR相似度的非对称性。另外,估计的概率分布也被softmax函数进行归一化处理:
根据公式5,我们的目标是最小化KL散度,其等价于最小化如下的交叉熵损失函数:
求解上面的损失函数,可以使用随机梯度(SGD)下降直接优化,然而,直接优化计算的复杂度过高,因为分母包含一个累加的形式,需要与网络中每个节点进行计算,当网络规模变大计算会变得非常耗时。为此,我们采用噪声对比估计(NCE)的方法进行优化。NCE的核心思想是训练一个二分类器,用于判断样本来自经验分布或是噪声分布。假设随机变量D表示样本的类别,其中D=1表示样例源自经验分布,D=0表示样例来自噪声分布。根据NCE的方法,首先我们从一个默认的分布中采样,然后从经验分布中采样一个节点v,在噪声分布中采样c个负样例,最后原始的优化目标变成最大化如下的式子:
其中表示模型的参数,c表示噪声样本的个数,条件概率的计算如下:
其中是sigmoid函数。当噪声样本的数量增长,那么负噪声对比估计的梯度将会接近于交叉熵的梯度,NCE的收敛性会受到经验分布和噪声分布的影响,我们根据经验将它们设置为。同理,我们可以得到在转置网络中的损失函数,合并两个网络中的损失函数,就可以得到最终的目标函数如下:
通过SGD可以实现对参数的求解,并通过公式3的拼接,能够得到公司最终的吸引力表征。
3.2 TFE性质
接下来我们将证明通过学得的表征能够保留企业之间的竞争关系。给定任意的一对公司u和v,它们的点积可以写成,以前半部分作为例子,当向量的维度足够大时,公式7所示的目标函数可以看成由一个个独立的的项构成。原本的损失函数可以重写为如下所示:
其中表示的是采样的次数。最大化目标函数,我们让损失函数对每一个独立的项求偏导,那么我们有:
令偏导的结果等于0,那么我们可以求得:
同理,对有同样的性质,所以:
显而易见,能够保留公司v对u的竞争力。
3.3 TFE的多任务策略
介绍完基本的TFE模型,接下来我们将研究如何融合多个岗位网络的信息进行表征学习。很显然,即使是同一个公司,在不同岗位上的人才流动情况也会不同,不同岗位上的员工在跳槽时所关注的点可能不同,例如,软件工程师更容易被高创新、高福利的公司吸引,销售人员则可能更愿意选择一些具有大品牌、好产品的公司。
实际上,表征代表了企业的一些性质,我们可以视表征的每个维度为一个特定的特征,我们假设这些公司的特征是保持不变的,但每个特征在不同的岗位网络竞争中起到的作用不同的。如上所述,我们用表示公司v对u的竞争力,其中d表示的是向量的维度,点积运算认为每个维度上的特征是一样重要的。基于我们的假设,我们为每个岗位k引入一个角色向量,其中每个维度的值表示的是第j个特征的重要性,那么此时在岗位k上,v对u的竞争力用下式进行计算:
进一步,对角色向量的每个维度进行约束,限制在0到1之间。基于基本模型的思路,针对每个岗位网络,我们对原始网络和转置网络分别进行求解,此时我们对角色向量进行拆分,,融合多个岗位上的信息进行学习,于是得到下面的损失函数:
其中*表示是估计的分布,下标o和i表示的是原网络和转置网络。同样基于NCE的方法去近似原本的损失函数,此时我们的目标是最大化下面的式子:
其中,,的计算方式类似于之前,的计算方式,只需要将其中向量点积换乘三维的乘法即可。对于整个模型的求解使用随机梯度下降法,由于角色向量的每个维度都被限制在0到1之间,因此使用投影梯度下降法优化。
我们选取领英数据集进行实验,筛选了15,244个公司在2015年到2017年之间的跳槽数据,进一步保留了四个最常见的岗位人才流转数据,包括销售、咨询、运营、工程师,表2展示了数据的统计信息。接下来将分别介绍几组实验:
(1)链接预测实验:首先在四个网络中分别随机抽取50%的边作测试正样本,并生成的等量的测试负样本,在剩下网络中训练模型并预测测试集中的边是否存在,以AUC作为评价指标。表3展示了不同模型在四个不同岗位人才流动网络上的链接预测的结果。进一步,为验证模型的鲁棒性,设置不同的比例的训练集分别实验,图4展示不同模型的效果,我们的方法都能取得比较不错的结果。
(2)边权重预测实验:链接预测实验只能判别两个公司之间是否存在人员流动这里我们进一步预测人员流动的强度。以2015年到2016年的人才流动数据作为的训练集,以2017年的数据为测试集。以模型在训练集上获得的表征去预测测试集上的强度,给定一个公司u,我们根据预测结果其他公司进行排序,最后用NDCG指标来验证预估排序的效果。表4展示了实验结果,整体模型的效果都不是很好,这是因为人才流动具有高动态性,但是我们的模型还是能取得最好的效果。
(3)网络重构实验:我们设计了网络重构实验,选取销售岗位人才流动网络为例,首先基于网络数据训练模型,然后计算节点两两之间的相似性并按照相似度从大到小排序,保留与原网络边数目相等的节点对,并连接他们构建新的网络。分别统计原始的图和模型生成新图中节点出入度分布,进行比较,图5展示几种代表性的模型结果,发现我们的TFE模型能够生成最为相似的结果。
(4)参数敏感性实验:这里讨论我们模型对参数的敏感性。以链接预测任务作为代表,主要讨论模型对三个参数的敏感性,分别是表征向量的维度,负样本的个数以及转移概率。图6展示的是模型对表征维度和转移概率的敏感性,随着维度的增加,模型效果不断地提升,这是由于更多的维度有助于去保留更多有用的信息,但是当维度超过128以后,模型效果没有没有明显提升。另一方面,随着转移概率的增加,模型效果显著提升,这是由于更高的转移概率有利于产生更长的游走路径,进而维护节点之间更高阶的关系。但当转移概率超过0.85后,模型效果开始下滑,这说明过长的游走路径会干扰模型的有效性。
最后,图7展示负样本的数量对模型的影响。很明显,模型的效果在很小的范围波动,根据相关工作的论述,尽管NCE的理论保障可能依赖于负样本的个数的影响,但是少量的负样本也能产生一个不错的结果,我们的结果进一步验证了这个结论。
(5)案例分析
竞争对手分析:给定一个公司,这里将去挖掘他们最大的竞争对手。首先以谷歌公司为例,我们利用为每个岗位计算其他公司对其竞争力。然后对计算结果进行排序,选择top-20的竞争对手进行展示。图8展示了结果,其中名字的大小代表竞争的强度。很明显,我们发现不同岗位上竞争对手的分布是不同的,这也证明了角色表征的有效性。对于工程师岗位,主要的竞争对手都是一个高科技公司,例如facebook和微软。对于咨询岗位,一些主流的法律和咨询公司竞争力很强。此外,我们还发现一个有趣的现象,大多数岗位上,facebook对谷歌都很有竞争力,但是在运营岗位上,facebook的竞争力却没那么强。除了发掘公司在某个特定岗位上的竞争对手,我们还用去发掘公司的整体的竞争对手,图9展示了谷歌和facebook公司top-20的全局竞争对手,我们发现这两家公司相互竞争激烈。
吸引力表征聚类:这里在完整的数据集上执行了MTFE模型,获得了公司的每个公司的S向量和T向量。进而执行K-means算法对S和T向量分别进行聚类操作,获得20个簇,并进一步将它们映射到二维空间进行可视化展示。图10展示了公司受其他公司吸引的向量(即S向量)的聚类结果,我们发现相同领域的公司更可能被聚集到一起,例如高科技公司,谷歌和百度等被聚在一起,酒店服务类公司被聚集在一起。图11展示了公司对其他公司吸引力的向量(即T向量)的聚类结果,此时发现原本在图10中按照领域划分的簇分开了,此时簇主要根据公司所在的国家地区进行聚合。
本文从人才流动的角度研究了企业竞争力分析问题。具体而言,我们首先基于大量的人才跳槽数据构建了人才流动网络并在网络上给出企业竞争力的定义。然后我们提出了一个人才流动表征(TFE)模型来学习公司的两种吸引力表征,进而保留公司间的竞争关系。此外,我们还设计了一种多任务策略,通过融合多个岗位的人才流动信息来完善TFE模型,从而提供细粒度的竞争力分析。最后在大规模的真实数据集上进行广泛实验,验证了模型的有效性,并发掘了一些有趣的竞争现象。
推荐阅读专题
留言点赞发个朋友圈
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范
推荐文章阅读
长按识别二维码可添加关注
读芯君爱你
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。