赞
踩
目录
(半)结构化文本数据:百科知识中的Inforbox、规范的表格、数据库、社交网络等
非结构化文本数据:网页、新闻、社交媒体、论文等
区别:信息抽取获得结构化数据,知识抽取获得机器可理解和处理的知识( 知识表示)。
关系:知识抽取建立在信息抽取基础上,都普遍利用到自然语言处理技术、基于规则的包装器和
机器学习等技术。
1.4.1 知识的不明确:
知识的不完备性
关系确实
标签/属性缺失
实体缺失
知识的不一致性
抽取原理
从关系数据库中抽取知识
抽取标准:
Direct Mapping
R2RML
抽取工具
输入:数据库表、视图、SQL查询
输出.三元组
实例:
“员工”和“部门”两个关系数据库表
该数据库表映射的RDF
步骤;
大规模多语言百科知识图谱,维基百科的结构化版本
覆盖127种语言,两千八百万个实体,数亿三元组,支持数据集的完全下载固定模式对实体信息进行抽取,包括abstract,infobox, category, page link等
比如百科知识的抽取
特点:
YAGO的百科知识抽取
抽取文本中的原子信息
人名
关系抽取指实体间的语义关系
事件抽取例子
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。