赞
踩
两个(或多个)知识图谱的融合是怎么实现的呢?所谓融合,可以理解存在以下三种操作:1)实体词在新的上下级位置上进行插入;2)不同图谱中的同义实体词完成合并;3)三元组关系随着实体词位置变化而动态调整.
数据质量问题:命名模糊,数据输入错误,数据都市,数据格式不一致,缩写问题
数据规模问题:数据量过大,或数据量过小。数据种类多样性。在知识图谱对齐的时候,我们不仅通过实体名匹配,也会使用多种关系,链接,图谱层次。
考虑各个实体的属性,不考虑实体间的关系,通过评估各种相似度来对齐实体,本质上为分类问题。
一般来讲,小规模的知识图谱融合由人工完成为主,多以WordNet为参照做相似度计算求得对齐
参考论文:
1. VCU at Semeval-2016 Task 14: Evaluating similarity measures for semantic taxonomy enrichment
2. TALN at SemEval-2016 Task 14: Semantic Taxonomy Enrichment Via Sense-Based Embeddings
3. MSejrKu at SemEval-2016 Task 14: Taxonomy Enrichment by Evidence Ranking
当知识图谱规模小的时候,多使用词法句法信息,规模变大后可以使用图谱的结构特征信息
参考论文:
1. Enriching Taxonomies With Functional Domain Knowledge
2. Using Taxonomy Tree to Generalize a Fuzzy Thematic Cluster
本质上是不同的领域的实体对齐,形成与以上的链接。使用了基于知识表示的实体对齐。可以使用上下级的结构特征,和语义特征。
参考论文:(前三个基于字符相似度,后三个基于知识图嵌入)
1. RDF-AI: an Architecture for RDF Datasets Matching, Fusion and Interlink
2. Limes: a time-efficient approach for large-scale link discovery on the web of data
3. Holistic Entity Matching Across Knowledge Graphs
4. Entity Alignment between Knowledge Graphs Using Attribute Embeddings
5. Iterative Entity Alignment via Joint Knowledge Embeddings
6. Collective Embedding-based Entity Alignment via Adaptive Features
对知识图谱中的同义不同形的词进行合并,可以理解为一种知识对齐。由于不同形的词长的不一样,所以不能简单地用词相似度来合并,需要考虑实体的语义和结构等特征。
目前工业界的办法:
本文着重讨论一下在非结构化数据集上,常见的挖掘思路有哪些。一般来说,这一类工作分为以下几个步骤:
1) 从文本中提取mention词,简单的做法可以直接使用分词,选取一些特定分词结果做同义词挖掘。如果需要考虑语料中可能出现的新词或者不同语言表述,则需要配合Pattern挖掘、NER或名词短语抽取等方式获取候选词。
2) 准备好已有的同义词表作为种子数据
3) 获取所有种子词和候选词的特征,通常该任务的特征会从两个角度考虑,分别是local context和global context,通俗的讲就是局部特征和全局特征,前者着重于词本身,常见字级别特征、词级别特征等;后者则是考虑目标词在数据集中的分布特征或者词所在句子、段落的语义特征
4) 根据各自实际工作中数据集的特点,已有的paper从不同的角度进行建模,比如使用分布特征与pattern特征交叉验证,或是只考虑改进词本身的预训练向量,或是重点考虑候选词与目标同义词集合的分布差异。此处在下一节具体展开讨论。
参考论文:
1. Multi-Distribution Characteristics Based Chinese Entity Synonym Extraction from The Web (使用模板配对)
2. Hierarchical Multi-Task Word Embedding Learning for Synonym Prediction (使用词向量方法)
3. SurfCon: Synonym Discovery on Privacy-Aware Clinical Data
4. Automatic Synonym Discovery with Knowledge Bases
5. Mining Entity Synonyms with Efficient Neural Set Generation
在图谱的开发和应用上,有两个限制知识图谱的因素,图谱的规模局限性和新词汇的跟新延迟性。本文介绍了一种知识图谱的自动扩充方法,用以及时跟进新出现的词汇,把新词加入到知识图谱中。也可以理解成是对知识图谱的版本管理。
本文把新加入的词分为新词新意和旧词新意。通过爬取社交媒体的数据获取新词。在通过实体抽取等方法抽取新词的解释,关系(关系抽取)等知识。生成一个知识子图,再把子图融合到主知识图谱中。本文使用了ConceptNet作为数据集进行了验证。
在模型选取上,本文使用了Multilingual BERT作为模型处理多语言的语义文本,使模型无语言依赖性。这样,支持从多语网站爬取对新词的信息。模型包括三个部分:爬虫,语义分析器,知识挖掘模型。
实验部分的评估方法:
文章分别介绍了在不同图谱规模下,不同的图谱融合算法,我们可以根据当下的数据情况进行选择。当图谱规模较小时,我们还是推荐上文介绍的小规模图谱融合的方法,可解释性高,算法简单,同时可达到不错的效果。当图谱规模非常大时,图谱自身就是一个可解释性非常高的模型,此时采用层次聚类或知识表示抽象化图谱结构,才能达到较好的效果。在实际应用中,需要根据不同的业务建立不同的图谱,散落在各业务线的数据,永远只是服务于自身业务,并不能发现业务之间的潜在联系。为了实现跨业务语义解析和推荐,图谱融合是关键,需要根据不同业务的特点选择不同的融合算法,复杂不一定是最好。从以上研究中可以看到,如何丰富并更好的抽象新实体的外部语义环境和其在图谱中的关联结构,依然是今后研究的重点。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。