搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
在线问答5
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
2021年面试,整理全网初、中、高级常见Java面试题_面试 初中高级算法
2
vuefullcalendar怎么判断切换上下月_死锁;上下文切换;常用缓存淘汰策略FIFO、LFU、LRU...
3
js中会改变原数组的方法及不改变原数组的方法整理_js数组方法会改变原数组
4
简述OpenStack和华为私有云HCS_fusionsphere openstack
5
OpenCV基础知识(9)— 视频处理(读取并显示摄像头视频、播放视频文件、保存视频文件等)_opencv播放视频
6
[Python3网络爬虫开发实战] pyspider 框架介绍_pyspider 后端数据库是什么
7
LeetCode1 Java_leetcode java 1
8
高考结束了,聊聊洋哥从学生至今的成长之路~_findyi真实身份
9
文本生成 [1] 文本生成任务&评分指标
10
【狂神说Java】Mybatis笔记_【狂神说java】mybatis 笔记
当前位置:
article
> 正文
关于知识图谱中抽取方法总结_知识图谱中的实体抽取方法
作者:在线问答5 | 2024-08-10 11:42:10
赞
踩
知识图谱中的实体抽取方法
数据分为结构化和非结构化
关于非结构化数据抽取
- 抽取的三种方式 - 实体抽取 - 关系抽取 - 事件抽取
1
2
3
4
实体抽取
概念:实体抽取又称命名实体识别, 其目的是从文本中抽取实体信息元素, 包括人名、 组织机构名、 地理位置、 时间、 日期、 字符值和金额值等
实体抽取方法:
1、基于规则的方法:早期的命名实体识别方法主要采用人工编写规则的方式进行实体抽取。 这类方法首先构建大量的实体抽取规则, 一般由具有一定领域知识的专家手工构建。 然后, 将规则与文本字符串进行匹配, 识别命名实体。 这种实体抽取方式在小数据集上可以达到很高的准确率和召回率,但随着数据集的增大, 规则集的构建周期变长, 并且移植性较差。
2、基于统计模型的方法:基于统计模型的方法利用完全标注或部分标注的语料进行模型训练, 主要采用的模型包括隐马尔可夫模型( HMM) 、条件马尔可夫模型( CMM) 、 最大熵模型( MEM) 以及条件随机场模型(CRF),该类方法将命名实体识别作为序列标注问题处理。 与普通的分类问题相比, 序列标注问题中当前标签的预测不仅与当前的输入特征相关, 还与之前的预测标签相关, 即预测标签序列是有强相互依赖关系的。 从自然文本中识别实体是一个典型的序列标注问题。 基于统计模型构建命名实体识别方法主要涉及训练语料标注、 特征定义和模型训练三个方面。
3、基于深度学习的方法:一般地, 不同的神经网络结构在命名实体识别过程中扮演编码器的角色, 它们基于初始输入以及词的上下文信息, 得到每个词的新向量表示; 最后再通过CRF模型输出对每个词的标注结果。
关系抽取
概念:关系抽取是知识抽取的重要子任务之一, 面向非结构化文本数据,关系抽取是从文本中抽取出两个或者多个实体之间的语义关系。 关系抽取与实体抽取密切相关, 一般在识别出文本中的实体后,再抽取实体之间可能存在的关系。 目前, 关系抽取方法可以分为基于模板的关系抽取方法、 基于监督学习的关系抽取方法和基于弱监督学习的关系抽取方法。
关系抽取方法:
1、基于模板的关系抽取方法:早期的实体关系抽取方法大多基于模板匹配实现。 该类方法基于语言学知识, 结合语料的特点, 由领域专家手工编写模板, 从文本中匹配具有特定关系的实体。 在小规模、 限定领域的实体关系抽取问题上, 基于模板的方法能够取得较好的效果。
2、基于监督学习的关系抽取方法:基于监督学习的关系抽取方法将关系抽取转化为分类问题, 在大量标注数据的基础上, 训练有监督学习模型进行关系抽取。 利用监督学习方法进行关系抽取的一般步骤包括: 预定义关系的类型; 人工标注数据; 设计关系识别所需的特征, 一般根据实体所在句子的上下文计算获得; 选择分类模型( 如支持向量机、 神经网络和朴素贝叶斯等) , 基于标注数据训练模型; 对训练的模型进行评估。
2.1、在上述步骤中, 关系抽取特征的定义对于抽取的结果具有较大的影响, 因此大量的研究工作围绕关系抽取特征的设计展开。 根据计算特征的复杂性, 可以将常用的特征分为轻量级、 中等量级和重量级三大类。轻量级特征主要是基于实体和词的特征, 例如句子中实体前后的词、 实体的类型以及实体间的距离等。 中等量级特征主要是基于句子中语块序列的特征。 重量级特征一般包括实体间的依存关系路径、 实体间依存树结构的距离以及其他特定的结构信息。
2.2、基于深度学习的监督学习关系抽取方法:流水线方法和联合抽取方法两大类
流水线方法将识别实体和关系抽取作为两个分离的过程进行处理, 两者不会相互影响; 关系抽取在实体抽取结果的基础上进行, 因此关系抽取的结果也依赖于实体抽取的结果。
联合抽取方法将实体抽取和关系抽取相结合, 在统一的模型中共同优化; 联合抽取方法可以避免流水线方法存在的错误积累问题。
3、基于弱监督学习的关系抽取方法:基于监督学习的关系抽取方法需要大量的训练语料, 特别是基于深度学习的方法, 模型的优化更依赖大量的训练数据。 当训练语料不足时, 弱监督学习方法可以只利用少量的标注数据进行模型学习。 基于弱监督学习的关系抽取方法主要包括远程监督方法和Bootstrapping方法。
3.1、远程监督方法:远程监督方法通过将知识图谱与非结构化文本对齐的方式自动构建大量的训练数据, 减少模型对人工标注数据的依赖, 增强模型的跨领域适应能力。 远程监督方法的基本假设是如果两个实体在知识图谱中存在某种关系, 则包含两个实体的句子均表达了这种关系。
远程监督关系抽取方法的一般步骤为:
●从知识图谱中抽取存在目标关系的实体对;
●从非结构化文本中抽取含有实体对的句子作为训练样例;
●训练监督学习模型进行关系抽取
3.2、Bootstrapping 方法:Bootstrapping 方法利用少量的实例作为初始种子集合, 然后在种子集合上学习获得关系抽取的模板, 再利用模板抽取更多的实例, 加入种子集合中。 通过不断地迭代, Bootstrapping方法可以从文本中抽取关系的大量实例。
事件抽取
概念:事件是指发生的事情, 通常具有时间、 地点、 参与者等属性。 事件的发生可能是因为一个动作的产生或者系统状态的改变。 事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息, 并以结构化的形式呈现出来, 例如事件发生的时间、 地点、 发生原因、 参与者等。
一般地, 事件抽取任务包含的子任务有:
●识别事件触发词及事件类型;
●抽取事件元素的同时判断其角色;
●抽出描述事件的词组或句子;
●事件属性标注;
●事件共指消解。
事件抽取方法:
流水线方法:流水线方法将事件抽取任务分解为一系列基于分类的子任务, 包括事件识别、 元素抽取、 属性分类和可报告性判别; 每一个子任务由一个机器学习分类器负责实施。 一个基本的事件抽取流水线需要的分类器包括:
(1) 事件触发词分类器。 判断词汇是否为事件触发词, 并基于触
发词信息对事件类别进行分类。
(2) 元素分类器。 判断词组是否为事件的元素。
(3) 元素角色分类器。 判定事件元素的角色类别。
(4) 属性分类器。 判定事件的属性。
(5) 可报告性分类器。 判定是否存在值得报告的事件实例。
联合抽取方法:事件抽取的流水线方法在每个子任务阶段都有可能存在误差, 这种误差会从前面的环节逐步传播到后面的环节, 从而导致误差不断累积,使得事件抽取的性能急剧衰减。 为了解决这一问题, 一些研究工作提出了事件的联合抽取方法。 在联合抽取方法中, 事件的所有相关信息会通过一个模型同时抽取出来。 一般地, 联合事件抽取方法可以采用联合推断或联合建模的方法,联合推断方法首先建立事件抽取子任务的模型, 然后将各个模型的目标函数进行组合, 形成联合推断的目标函数; 通过对联合目标函数进行优化, 获得事件抽取各个子任务的结果。 联合建模的方法在充分分析子任务间的关系后, 基于概率图模型进行联合建模, 获得事件抽取的总体结果。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/在线问答5/article/detail/958319
推荐阅读
article
使用
scrapy
爬虫,爬取
今日
头条
首页推荐新闻(
scrapy
+
selenium
+
PhantomJS
)...
爬取
今日
头条
https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面查看源代码你会发现全是j...
赞
踩
article
分别列举
人工智能
4个主要
领域
中
最牛叉
的
10
位
专家
_
人工智能
各
领域
的
大牛...
人工智能
,各个子
领域
的
最牛叉
的
10
位
专家
除了吴恩达,你还能说出几个?李飞飞在计算机视觉
中
能排进前
10
吗? 在平时文献搜索...
赞
踩
article
MySQL 对比
数据库
表
结构_
mysql
比较不同
的
数据库
中
相同
的
表
字段有什么不同...
对比测试服务器与正式服务器
的
表
结构差别可以使用软件进行对比,如navicat,可以对比各个
表
的
具体差异,包括字段
的
增减、...
赞
踩
article
白话
transformer
(一):
注意力
机制
_
transformer
注意力
机制
...
本文用通俗的语言解释了Transformer中的
注意力
机制
,旨在帮助初学者理解如何通过
注意力
机制
解决词嵌入的歧义问题。文...
赞
踩
article
QT
/
C语言
实现
数据库
sqlite3
_qt
sqlite3
...
本文介绍了在
C语言
和
QT
环境下如何使用
sqlite3
数据库
,包括移植
sqlite3
、常用的SQL语句、
C语言
调用sqli...
赞
踩
article
30
道
python
自动化
测试
面试
题与答案汇总_
python
自动化
面试
...
是指把一个具体的页面转化为编程语言当中的一个对象,页面特性转化成对象属性,页面操作转化为对象方法。1)通俗来讲把每个页面...
赞
踩
article
VggNet
训练
cifar
-
10
数据集_
cifar
10
vgg
...
文章探讨了在VGG网络中,通过降低学习率(从0.1到0.005)、使用Xavier初始化和SGD优化器来改善模型训练。尽...
赞
踩
article
Linux
物理机系统
备份
工具
再生
龙和
TimeShift
使用
教程
...
Ubuntu物理机系统
备份
工具
TimeShift
使用
教程
_
再生
龙
再生
龙 ...
赞
踩
article
SQL
Server
管理套件(
SSMS
)_
2016sql
server
的
ssms
是...
当您按照之前章节的步骤顺利安装完
SQL
Server
2014 后,要做的第一件事就是需要打开
SQL
Server
...
赞
踩
article
Unity3D
插件之
FingerGesture
的
简单使用_
unity
fingergestures
...
FingerGesture
简介
FingerGesture
下载地址
FingerGesture
是基于Unity
的
一个主用于...
赞
踩
article
两个
数据库
比较
对比
视图
存储
过程
及表结构差异
_
存储
过程
修改前后如何
对比
...
https://blog.csdn.net/shiershilian/article/details/72236407?...
赞
踩
article
计算机
专业应届毕业生找
工作
一定要知道
的
面试
题--必背版_
计算机
找
工作
面试
问些
什么
...
答:extern可以用引用头文件
的
方式,也可以用extern关键字,如果用引用头文件方式来引用某个在头文件中声明
的
全局变...
赞
踩
article
一文详解
Transformer
!!!
_
localposencoding
...
解决的问题RNN 无法并行化,可以考虑使用CNN,但是CNN比较难考虑比较多的信息这样的话self-attention ...
赞
踩
article
苹果笔记本安装
国产
统信
操作系统
UOS
uos
-
desktop
-20-e-1060-
arm64
_
uos
...
本文介绍了如何在苹果笔记本上安装
国产
统信
操作系统
UOS,详细步骤包括下载镜像、使用虚拟机软件、选择镜像、设置语言及创建账...
赞
踩
article
sqlite
合并
两个
数据库
中的特定表...
【代码】
sqlite
3.exe
合并
两个
数据库
中的特定表。
sqlite
合并
两个
数据库
中的特定表 ...
赞
踩
article
使用
datagrip
实现不同
数据库
表
之间的
结构
同步
_
datagrip
同步
数据库
...
使用
datagrip
实现
表
结构
同步
_
datagrip
同步
数据库
datagrip
同步
数据库
...
赞
踩
article
Unity3D
的
FingerGestures
插件
说明文档
中文
版_
unity3d
中文
插件
...
fingerGestures包结构 路径,相对Assets/Plugin/… 描述 F...
赞
踩
article
小车
快速
循迹
串级
PID
算法
稳得很 纯纯干货_
pid
循迹
...
网上的文章翻了一遍,都没有讲智能
小车
如何做到
快速
循迹
,而且又稳的,是不是。有讲
PID
算法
循迹
的,要么运用到自己
小车
身上就...
赞
踩
article
moviepy
使用
教程
_
moviepy
教程
...
moviepy
使用
教程
一、剪辑成果二、遇到问题三、
moviepy
方法分享一、音频剪辑方法二、视频剪辑方法一、剪辑成果 ...
赞
踩
article
自然语音
处理
(NLP)系列(四)——
命名
实体
识别
(
NER
)_nlp
语音指令
识别
...
命名
实体
识别
(
NER
)是自然语言
处理
的重要组成部分,涉及
识别
文本中的
实体
如人名、地名和组织名。该任务包括
实体
边界
识别
和分...
赞
踩
相关标签
python
爬虫
json
机器学习
数据挖掘
自然语言处理
计算机视觉
表结构对比
transformer
深度学习
人工智能
c语言
c++
qt
sqlite3
数据库
分布式
jmeter
测试用例
单元测试
功能测试
测试工具
linux
运维
服务器