赞
踩
论文: https://arxiv.org/pdf/2106.01686.pdf
代码: https://github.com/alibaba-research/ConceptGraph
AliCG可以被视为一种动态知识图谱。
它不仅包含了传统知识图谱中的结构化知识,还能够捕捉和反映实时数据和趋势,这是其“动态”特性的体现。
动态知识图谱强调的是实时更新和适应新信息的能力,这正是AliCG针对用户搜索日志进行细粒度概念提取并快速适应新趋势的特点。
在传统的知识图谱中,信息可能是静态的,更新周期较长,而AliCG则能够持续地从用户行为中学习,及时更新其内容,更好地服务于动态变化的用户需求和搜索习惯。
具有知识图谱的基本结构,并且具备随时间更新其信息的能力。
假设有一个医学大模型名为MediGraph,它内置了一个传统的医学知识图谱。
当一个患者描述他的症状为“关节疼痛”和“皮疹”时,MediGraph使用其知识图谱来关联这些症状可能指向的几种疾病,如“类风湿关节炎”或“狼疮”。
这些关联是基于医学专家的知识和历史数据建立的,可能不会频繁更新。
另一方面,假设有一个医学大模型名为MediConcept,它使用AliCG概念图。
当同样的患者描述他的症状时,MediConcept不仅识别出了相同的疾病关联,但还注意到最近在用户搜索日志中出现了一个新的关联趋势:许多描述有类似症状的用户都在搜索“寨卡病毒”。
尽管寨卡病毒在医学知识图谱中可能与这些症状不是强关联,但由于AliCG能够捕捉到最新的搜索趋势,MediConcept建议医生考虑这个可能性,并为患者提供相应的测试。
AliCG 其动态性和适应性的优势。
它不仅包括了传统医学知识,具有知识图谱的基本结构。
还能快速适应新兴的疾病趋势和用户行为,这在面对像寨卡病毒这样新出现的健康威胁时显得尤为重要。
这使得医学大模型能够提供更及时和相关的诊断支持,进而提升医疗服务的质量。
这种方法控制模式的泛化和概念的一致性,通过查询-标题对的方式,提高了从嘈杂文本中提取细粒度概念的质量。
这张图说明了如何从文本中提取出现频率较低的长尾概念。
在左侧,给出了一个长尾实例,即包含“罕见精神障碍”如“aboulomania”(强迫症之一)和“body integrity identity disorder”(身体完整性认同障碍)的文本。
然后,通过短语挖掘技术识别出这些术语,这个过程展示在箭头下方的两个绿色椭圆中。
接下来的挑战是如何从文本中提取(如何提取?)并将这些术语与正确的概念相连接(如何链接?)。
右侧的橙色箭头指出了存在的两个主要问题:模式泛化不足(Poor pattern generalization)和共现样本少(Few co-occurrence samples)。
为了解决这些问题,图中展示了一个向下的箭头,指向了概念分类,其中“body integrity identity disorder”和“aboulomania”都被归类为“rare mental disorder”(罕见精神障碍)。
概念图结构:
这张图表展示了构建阿里巴巴概念图的过程。
该过程分为三个主要部分:
输入文本:此框显示了头实例(如动画电影列表或不同上下文中的哪吒提及)和长尾实例(如罕见精神疾病或藏历新年相关的传统活动)的示例。样本数量(哪吒为12,251个,长尾实例较少)表示数据集中的出现频率。
细粒度和长尾概念提取:这里展示了两条用于概念提取的路径:
分类体系演变:图表最右侧部分演示了基于用户行为的分类体系是如何演变的。
它展示了像“哪吒”和“身体完整性认同障碍”这样的不同概念及其关联的置信度分数(例如0.6、0.9),表明了它们与其他概念或实例的联系强度。
图表还显示了隐式和显式用户行为(搜索和点击统计)如何影响概念分类体系。
背景: 用户搜索查询中的许多实例和概念都与最近的趋势和演变事件有关。传统方法无法随时间更新分类体系。
解法: 基于隐式和显式用户行为的概念分布估计法 (Concept Distribution Estimation Based on Implicit and Explicit User Behaviors)
之所以使用这个解法: 是因为这种方法通过概念对齐,并利用用户的搜索和点击行为来估计隐式和显式的概念分布,以动态构建一个四层的概念-实例分类体系。
与以往的方法不同,这种方法利用用户行为来估计给定实例的概念置信分数,通过统计用户的搜索和点击行为来估算概念置信度,并结合隐式和显式用户行为的数据,构建一个动态演变的分类体系。
这三个子问题及其解决方案共同构成了阿里巴巴概念图(AliCG)的核心框架,使其能够在正常和长尾设置中提取并动态更新概念分类,支持细粒度的语义搜索和其他文本相关应用。
这张图展示了如何根据用户行为数据来演变分类体系。
左侧展示了用户搜索统计数据,如每日对“Chinese animation film”(中国动画电影)和“mythological character”(神话人物)的搜索量。
通过对实例和概念的对齐(Alignment),聚类(Clustering),以及用户点击统计数据(User Click Statistics),可以观察到用户对不同概念的兴趣。
右侧展示了如何利用这些数据进行分类体系演变。
使用专家规则(Expert Rules)和概率推断(Probabilistic Inference)来估计不同概念的分布,这些分布可以通过用户的隐式和显式行为来进行调整和更新。
用于语义搜索的阿里巴巴概念图(AliCG)的数据层级。
这张图表展示了AliCG用于语义搜索的数据层级结构,突出了如何将用户查询和文档内容与不同层级的概念相匹配:
查询示例:“产后吃榴莲安全吗?”这显示了用户的输入。
查询的概念:从查询中提取的概念,如“产后是产后恢复期”和“吃榴莲是吃热带水果”。
概念层级匹配:展示了如何将查询中提取的概念与AliCG中的不同层级匹配。例如,“饮食”是二级概念,而“吃热带水果”是三级概念。
文档的概念: 从相关文档中提取的概念,这些文档应该与查询相关,例如“产后恢复期”和“吃热带水果”。
AliCG层级结构: 概念图展示了不同概念和实例之间的关系。例如,“健康”是一个顶级概念,它进一步分支出更具体的概念,如“疾病”、“生理学”,以及更细致的实例,如“产后恢复期”。
这两张图表共同展示了阿里巴巴开发的概念图的复杂和动态性质,用以提高语义搜索能力。它们展示了从广泛类别到具体实例的多层次概念分类,以及用户行为如何影响这个分类体系的演变,以保持搜索结果的相关性和准确性。
与传统知识图谱相比,AliCG能够以特定的方式增强医学大模型的能力:
实时更新与动态适应:
细粒度概念与深层次理解:
个性化和上下文敏感性:
长尾概念的识别与挖掘:
跨领域知识的融合:
总结来说,AliCG通过其动态更新、细粒度概念挖掘、个性化适应、长尾知识处理和跨领域知识融合的特点,为医学大模型带来了超越传统知识图谱的增强能力,特别是在应对快速变化的医学信息和满足个性化医疗需求方面。
假设有一个在线医疗咨询平台,它使用医学大模型来帮助用户快速找到他们的健康问题相关的信息,或者提供关于疾病诊断的初步意见。
文本重写:用户输入的查询是“我最近总是感到很累,有时候会头晕。”
平台利用AliCG提取出“疲劳”和“头晕”这两个概念,并重写查询为“疲劳 头晕”,然后在医学数据库中检索这两个概念。
这种重写使得搜索结果更加准确,能够针对性地返回与“疲劳”和“头晕”相关的医学文章和建议,而不是仅仅基于原始文本的字面匹配。
概念嵌入:平台开发了一个用于疾病诊断建议的深度学习模型。
这个模型通过概念嵌入学习“疲劳”和“头晕”这些症状与特定疾病(如贫血、低血压)之间的联系。
当医生或研究者查询特定症状与疾病的关系时,模型能够提供基于概念关系学习得到的深度见解。
概念化预训练:在模型预训练阶段,平台利用AliCG中的概念和关系来设计预训练任务,例如,模型需要预测遮蔽的概念是“疲劳”还是“头晕”,或者预测与“疲劳”相关的疾病。
这种预训练方法帮助模型更好地理解医学概念之间的联系,提高了其在实际应用中的性能,如更准确地回答用户的健康问题。
AliCG的部署方法通过文本重写、概念嵌入和概念化预训练,提升了信息检索质量、神经网络的概念学习能力以及模型的预训练效果,这些方法分别针对信息检索中的文本理解、深度学习模型的概念理解能力和预训练阶段的知识注入问题,提供了有效的解决方案。
在阿里巴巴的业务场景中,包括阿里巴巴UC浏览器在内的多种应用已经部署了AliCG,它日常可以提取约2万个概念,并为超过3亿的日活跃用户提供服务。
通过多种评估,包括精细的概念获取、长尾概念挖掘和分类体系的演变评估,以及大规模在线A/B测试,证明了AliCG显著提升了语义搜索的性能。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。