搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
繁依Fanyi0
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
30个极致实用的谷歌浏览器插件,让你开发事半功倍
2
边缘计算背景介绍_边缘计算平台背景概括
3
shell脚本耕升(一)_shell标准输出符号是 和 ,他们的区别是前者会先清空文件,再写入内容,而后者会将内
4
使用VSCode+PlatformIO搭建ESP32开发环境_vscode安装platformio 下载esp32 websocket库
5
7zip命令
6
[python]飞桨python小白逆袭课程day5——大作业来啦_百度飞浆用python调整图片清晰度
7
Fastboot驱动及安装_高通fast boot驱动
8
人工智能在医疗领域的应用
9
Android 高级开发——NFC标签开发深度解析_wifi信息怎么写入ndefrecord
10
Windows11下Edge浏览器登录工行农行并使用K宝U盾_中国农业银行edge安全扩展
当前位置:
article
> 正文
关于知识图谱中抽取方法总结_知识图谱实体抽取方法
作者:繁依Fanyi0 | 2024-04-01 13:07:57
赞
踩
知识图谱实体抽取方法
数据分为结构化和非结构化
关于非结构化数据抽取
- 抽取的三种方式 - 实体抽取 - 关系抽取 - 事件抽取
1
2
3
4
实体抽取
概念:实体抽取又称命名实体识别, 其目的是从文本中抽取实体信息元素, 包括人名、 组织机构名、 地理位置、 时间、 日期、 字符值和金额值等
实体抽取方法:
1、基于规则的方法:早期的命名实体识别方法主要采用人工编写规则的方式进行实体抽取。 这类方法首先构建大量的实体抽取规则, 一般由具有一定领域知识的专家手工构建。 然后, 将规则与文本字符串进行匹配, 识别命名实体。 这种实体抽取方式在小数据集上可以达到很高的准确率和召回率,但随着数据集的增大, 规则集的构建周期变长, 并且移植性较差。
2、基于统计模型的方法:基于统计模型的方法利用完全标注或部分标注的语料进行模型训练, 主要采用的模型包括隐马尔可夫模型( HMM) 、条件马尔可夫模型( CMM) 、 最大熵模型( MEM) 以及条件随机场模型(CRF),该类方法将命名实体识别作为序列标注问题处理。 与普通的分类问题相比, 序列标注问题中当前标签的预测不仅与当前的输入特征相关, 还与之前的预测标签相关, 即预测标签序列是有强相互依赖关系的。 从自然文本中识别实体是一个典型的序列标注问题。 基于统计模型构建命名实体识别方法主要涉及训练语料标注、 特征定义和模型训练三个方面。
3、基于深度学习的方法:一般地, 不同的神经网络结构在命名实体识别过程中扮演编码器的角色, 它们基于初始输入以及词的上下文信息, 得到每个词的新向量表示; 最后再通过CRF模型输出对每个词的标注结果。
关系抽取
概念:关系抽取是知识抽取的重要子任务之一, 面向非结构化文本数据,关系抽取是从文本中抽取出两个或者多个实体之间的语义关系。 关系抽取与实体抽取密切相关, 一般在识别出文本中的实体后,再抽取实体之间可能存在的关系。 目前, 关系抽取方法可以分为基于模板的关系抽取方法、 基于监督学习的关系抽取方法和基于弱监督学习的关系抽取方法。
关系抽取方法:
1、基于模板的关系抽取方法:早期的实体关系抽取方法大多基于模板匹配实现。 该类方法基于语言学知识, 结合语料的特点, 由领域专家手工编写模板, 从文本中匹配具有特定关系的实体。 在小规模、 限定领域的实体关系抽取问题上, 基于模板的方法能够取得较好的效果。
2、基于监督学习的关系抽取方法:基于监督学习的关系抽取方法将关系抽取转化为分类问题, 在大量标注数据的基础上, 训练有监督学习模型进行关系抽取。 利用监督学习方法进行关系抽取的一般步骤包括: 预定义关系的类型; 人工标注数据; 设计关系识别所需的特征, 一般根据实体所在句子的上下文计算获得; 选择分类模型( 如支持向量机、 神经网络和朴素贝叶斯等) , 基于标注数据训练模型; 对训练的模型进行评估。
2.1、在上述步骤中, 关系抽取特征的定义对于抽取的结果具有较大的影响, 因此大量的研究工作围绕关系抽取特征的设计展开。 根据计算特征的复杂性, 可以将常用的特征分为轻量级、 中等量级和重量级三大类。轻量级特征主要是基于实体和词的特征, 例如句子中实体前后的词、 实体的类型以及实体间的距离等。 中等量级特征主要是基于句子中语块序列的特征。 重量级特征一般包括实体间的依存关系路径、 实体间依存树结构的距离以及其他特定的结构信息。
2.2、基于深度学习的监督学习关系抽取方法:流水线方法和联合抽取方法两大类
流水线方法将识别实体和关系抽取作为两个分离的过程进行处理, 两者不会相互影响; 关系抽取在实体抽取结果的基础上进行, 因此关系抽取的结果也依赖于实体抽取的结果。
联合抽取方法将实体抽取和关系抽取相结合, 在统一的模型中共同优化; 联合抽取方法可以避免流水线方法存在的错误积累问题。
3、基于弱监督学习的关系抽取方法:基于监督学习的关系抽取方法需要大量的训练语料, 特别是基于深度学习的方法, 模型的优化更依赖大量的训练数据。 当训练语料不足时, 弱监督学习方法可以只利用少量的标注数据进行模型学习。 基于弱监督学习的关系抽取方法主要包括远程监督方法和Bootstrapping方法。
3.1、远程监督方法:远程监督方法通过将知识图谱与非结构化文本对齐的方式自动构建大量的训练数据, 减少模型对人工标注数据的依赖, 增强模型的跨领域适应能力。 远程监督方法的基本假设是如果两个实体在知识图谱中存在某种关系, 则包含两个实体的句子均表达了这种关系。
远程监督关系抽取方法的一般步骤为:
●从知识图谱中抽取存在目标关系的实体对;
●从非结构化文本中抽取含有实体对的句子作为训练样例;
●训练监督学习模型进行关系抽取
3.2、Bootstrapping 方法:Bootstrapping 方法利用少量的实例作为初始种子集合, 然后在种子集合上学习获得关系抽取的模板, 再利用模板抽取更多的实例, 加入种子集合中。 通过不断地迭代, Bootstrapping方法可以从文本中抽取关系的大量实例。
事件抽取
概念:事件是指发生的事情, 通常具有时间、 地点、 参与者等属性。 事件的发生可能是因为一个动作的产生或者系统状态的改变。 事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息, 并以结构化的形式呈现出来, 例如事件发生的时间、 地点、 发生原因、 参与者等。
一般地, 事件抽取任务包含的子任务有:
●识别事件触发词及事件类型;
●抽取事件元素的同时判断其角色;
●抽出描述事件的词组或句子;
●事件属性标注;
●事件共指消解。
事件抽取方法:
流水线方法:流水线方法将事件抽取任务分解为一系列基于分类的子任务, 包括事件识别、 元素抽取、 属性分类和可报告性判别; 每一个子任务由一个机器学习分类器负责实施。 一个基本的事件抽取流水线需要的分类器包括:
(1) 事件触发词分类器。 判断词汇是否为事件触发词, 并基于触
发词信息对事件类别进行分类。
(2) 元素分类器。 判断词组是否为事件的元素。
(3) 元素角色分类器。 判定事件元素的角色类别。
(4) 属性分类器。 判定事件的属性。
(5) 可报告性分类器。 判定是否存在值得报告的事件实例。
联合抽取方法:事件抽取的流水线方法在每个子任务阶段都有可能存在误差, 这种误差会从前面的环节逐步传播到后面的环节, 从而导致误差不断累积,使得事件抽取的性能急剧衰减。 为了解决这一问题, 一些研究工作提出了事件的联合抽取方法。 在联合抽取方法中, 事件的所有相关信息会通过一个模型同时抽取出来。 一般地, 联合事件抽取方法可以采用联合推断或联合建模的方法,联合推断方法首先建立事件抽取子任务的模型, 然后将各个模型的目标函数进行组合, 形成联合推断的目标函数; 通过对联合目标函数进行优化, 获得事件抽取各个子任务的结果。 联合建模的方法在充分分析子任务间的关系后, 基于概率图模型进行联合建模, 获得事件抽取的总体结果。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/348986
推荐阅读
article
T5
模型
总结
_
t5
模型
怎么用...
T5
(Transfer Text-to-Text Transformer)
模型
:一个统一框架,靠着大力出奇迹,将所有 N...
赞
踩
article
谷歌
开源能
翻译
101种
语言
的AI
模型
,只比
Facebook
多一种...
大数据文摘出品来源:VB10月底,
Facebook
发布了一款可
翻译
100种
语言
的机器学习
模型
,微软发布了一款能
翻译
94种...
赞
踩
article
PyTorch
中
nn
.
ReLU
函数
说明...
【代码】
PyTorch
中
nn
.
ReLU
函数
说明。
PyTorch
中
nn
.
ReLU
函数
说明 torc...
赞
踩
article
(五十二):
多
模态
情感
分析
研究
综述
_
张亚洲
_
多
模态
情感
分析
综述
...
(五十二)
多
模态
情感
分析
研究
综述
_
张亚洲Abstract1 叙述式
多
模态
情感
分析
1. 1 静态
多
模态
情感
分析
(文本与图像...
赞
踩
article
【SCI一区 原创首发】基于
BES
-
CNN
-
LSTM
-
Mutilhead
-
Attention
秃鹰搜索...
【SCI一区 原创首发】基于
BES
-
CNN
-
LSTM
-
Mutilhead
-
Attention
秃鹰
搜索算法
优化卷积
长短期
记...
赞
踩
article
Transformer
(李宏毅课程)_
decoder
的
输入
是将
encoder
的
全部输出和...
Transformer
Seq2seqSeq2seqThe output length is determined by ...
赞
踩
article
提升多模态深度学习性能:利用
Triplet
、
Spatial
Group
Enhance
、NAM、S...
多模态数据,指的是包含多个不同模态(如文本、图像、声音等)的数据,它们可以提供更全面的信息来解决各种任务,如图像字幕生成...
赞
踩
article
(2023,
Diffusion
& 稳健性 & 攻击)
稳定
扩散
模型
是不
稳定
的_
diffusion
m...
文本到图像
模型
的
生成
过程缺乏稳健性。对文本提示引入小的扰动可能会导致主题与其他类别混合,或者它们在
生成
的图像中完全消失。...
赞
踩
article
NLP
学习笔记23-
抽样
_
nlp
从
概率分布
中
采样
...
一 序 本文属于贪心
NLP
训练营学习笔记系列。之前的Python基础以及numpy相关的内容,视频上是60--90的。还...
赞
踩
article
2021
Java
捕获异常
Error
和
Exception
,异常处理的五个关键字try
catch
f...
77.异常01:
Error
和
Exception
77.1.什么是异常◆实际工作中,遇到的情况不可能是非常完美的。比如:你写...
赞
踩
article
UIE
:
信息
抽取
的大一统
模型
_uie
模型
...
信息
抽取
通常包含常见的四个子任务: 实体
抽取
、关系
抽取
、事件
抽取
以及情感分析等。在过去,因为不同的任务识别的实体、事件类...
赞
踩
article
5个
AI
人工智能
平台
推荐,绘画
、
写作
文案
、
文章
一键生成_类似文心一言
的
软件...
随着
人工智能
技术
的
快速发展,
AI
原创
文章
写作
平台
也愈加成熟和完善,让
文章
的
创作变得更加便捷
、
高效
、
优质。下面介绍五个国内...
赞
踩
article
Kibana
操作
ES
全覆盖 基础
查询
DSL
查询
_
kibana
查询
es数据...
Kibana
是一个针对Elasticsearch的开源分析及可视化平台,可以
查询
、查看并与存储在
ES
索引的数据进行交互操...
赞
踩
article
基于
selenium
的
pyse
自动化
测试
框架...
pyse
支持多种定位方式,id、name、class、link text、xpath和css。把定位方法与定位内容一体,...
赞
踩
article
【
GRU
回归
预测
】基于多头
注意力
机制的卷积
神经网络
结合门控循环单元
CNN
-
Bi
GRU
-Mutilhe...
本文提出了一种基于多头
注意力
机制的卷积
神经网络
结合门控循环单元(
CNN
-
Bi
GRU
-
Mutilhead
-Attentio...
赞
踩
article
【
嵌入式
实战
项目
精选】附源码 | 三等奖作品 | 基于
RA4M2
和
阿里
云物
联网
平台
的
智能
卧室小管家...
本
项目
已
RA4M2
为主控,搭载了RT-Thread实时操作系统,配合Wi-Fi模块来提供网络通讯能力,外设接入了继电器、...
赞
踩
article
RNN
、
CNN
、
Transformer
_cnn rnn
transformer
...
卷积神经网络—不同层能够输出图像中不同层面上的细节特征;循环神经网络
RNN
传统
RNN
全连接网络运用到NLP任务上,面临的...
赞
踩
article
Swin
Transformer
实现
(复现)纯目标检测_如何使用
swin
transformer
实现
...
Swin
Transformer
实现
(复现)纯目标检测_如何使用
swin
transformer
实现
回归如何使用
swin
...
赞
踩
article
ChatGLM
(
国内版
的
chatGPT
)...
ChatGLM
-6B 是一个开源
的
、支持中英双语
的
对话语言模型,基于架构,具有 62 亿参数。结合模型量化技术,用户可以...
赞
踩
article
知
识
图谱
-第三方工具:
DeepKE
【
支持
低资源
、
长篇章的
知
识
抽取
工具,
支持
:①命名实体
识
别
、
②
关系
...
DeepKE
是一个基于深度学习的开源中文
知
识
图谱
抽取
框架,
支持
低资源
、
长篇章的
知
识
抽取
工具,
支持
命名实体
识
别
、
关系
抽取
...
赞
踩
相关标签
python
机器学习
人工智能
大数据
编程语言
深度学习
pytorch
自然语言处理
big data
cnn
lstm
BES-CNN-LSTM
Attention
多头注意力
时间序列
ai
java
elasticsearch