搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家自动化
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
【云原生系列CKA备考】Kubernetes架构_一个基础的kubernetes集群包含一个master和多个node
2
保护IP地址不被窃取的几种方法_黑客是怎么防止别人查自己的ip地址的
3
java全排列——dfs方法(深度搜索)_java全排列算法dfs
4
Linux基础——sar 查看网卡流量_linux查看网卡历史
5
6个超级个体正在使用的国内外AI工具聚合网站 原创_聚合ai网站
6
Android自定义修改打包apk名称_android studio 2023 打包apk名字更改
7
[蓝桥杯]真题讲解:景区导游(DFS遍历、图的存储、树上前缀和与LCA)
8
Llama中文大模型-模型预训练_ollama 中文模型
9
redis学习记录_当
10
alpine 系统_alpine基于debian吗
当前位置:
article
> 正文
UCAS - AI学院 - 知识图谱专项课 - 第8讲 - 课程笔记
作者:我家自动化 | 2024-04-22 10:45:54
赞
踩
UCAS - AI学院 - 知识图谱专项课 - 第8讲 - 课程笔记
UCAS - AI学院 - 知识图谱专项课 - 第8讲 - 课程笔记
关系抽取
概述
面向非结构化文本的关系抽取
预定义关系抽取
开放式关系抽取
面向半结构化文本的关系抽取
数据和评测
关系抽取
概述
关系抽取:自动识别由一对概念和联系这对概念的关系构成相关三元组 / 多元组
关系抽取信息来源:网页
结构化数据
半结构化数据
纯文本
关系类别
ACE 61种
TAC-KBP 39种
SemEval 10种
难点
自然语言的多样性(同一关系的不同表述)
自然语言的歧义性(相同表述在不同语义下表示不同的关系)
面向非结构化文本的关系抽取
预定义关系抽取
关系分类
任务:给定两个实体,判断其关系
关系集合已经定义好,实质是在关系集合中分类
方法:机器学习方法,将关系实例转换成高维空间中的特征向量,在标注语料库训练生成分类模型,在识别实体间关系
基于特征向量的方法
获取有效的词法、句法、语义等特征,并有效集成起来
产生描述实体语义关系的各种局部特征和全局特征
特征选取:从自由文本及其句法结构中抽取各种词汇特征以及结构化特征
Pros:简单使用、计算比较快
Cons:难以进一步挖掘有效平面特征
基于核函数的方法
挖掘反应语义关系的结构化信息及如何有效计算结构化信息之间的相似度
核函数
K ( x , y ) K(x, y)
K
(
x
,
y
)
表示二者之间的相似度
Pros:能够有效挖掘结构化信息
Cons:句法分析引入噪声,计算慢
传统方法的问题
需要抽取特征、专家知识
很多语言缺乏处理工具,无法提取特征
工具引入造成错误累积
人工设计特征不一定合适
基于深度学习的方法
设计合理的网络结构,捕捉更多信息,更准确地完成关系抽取
CNN——建模局部特征
RNN——建模时序信息
基于CNN的关系分类方法
通过CNN学习文本语义特征
词向量表示词汇语义特征(WordNet),CNN建模句子语义特征(词 + 位置)
问题:CNN难以建模句子中长距离的依赖关系
基于LSTM的关系分类方法
双向LSTM,两个隐层向量对应位置求和
Attention层,隐层softmax
Pros:人工干预小,可扩展性好
Cons:可解释性差,训练时间长
实体关系联合抽取
任务:给定一个句子,需要识别句子中的实体以及实体之间的关系(RDF三元组)
序列标注方法
BIES标注,以及头尾实体序号组合
考虑Other标签,不属于任何关系
标注形式:BIES - Relation - ID
根据标注结果得到三元组
标注方法
LSTM + CRF
LSTM + LSTM(E-D)
LSTM + LSTM + bias(对Other标签的重要程度进行设置)
问题:不能同时抽取重叠实体的两个三元组——多关系抽取
多关系抽取
任务:给定一个句子,需要识别所有的三元组(存在重叠实体情形)
重叠类型
不重叠类型
实体对重叠类型
单个实体重叠类型
拷贝机制的端到端模型
Encoder:将自然语言句子编码成一个定长语义向量
Decoder:直接解码成各个三元组
拷贝机制:原句内容拷贝到LSTM中,提高对应词置信度
OneDecoder策略:一个解码单元解码所有三元组
MultiDecoder策略:多个解码单元解码,一个解码单元解码一个三元组
远程监督关系抽取
利用知识库对文本自动进行回标得到远程监督数据集
无需人工参与,获取代价低,易扩展到大规模场景
起源:在Wikipedia抽取关系信息
难以确定关系类别
无法获取训练语料
infobox抽取信息——文本回标(对齐)——获得训练语料
Distant Supervision
使用知识库中的关系,启发式地标注语料
假设:每一个同时包含连个实体的句子都会表述两个实体在知识库中的对应关系
噪声问题
标注负例
形式化描述
数据构建
给定知识库中的一个三元组
r ( e 1 , e 2 ) r(e_1, e_2)
r
(
e
1
,
e
2
)
将同时包含了
e 1 e_1
e
1
和
e 2 e_2
e
2
的句子回标关系
r r
r
这样的句子集合称为包
任务
包级别的标签预测:远程监督关系抽取需要给未知的包预测语义标签
常用FreeBase回标NYT语料
方法
概率图方法
矩阵补全方法(观测矩阵 = 低秩矩阵 + 噪声矩阵)
深度学习方法
包级别关系预测
句子级别的关系抽取
多实例学习
不要确定包括两个实体的每个句子具有那种关系
只要确定两个实体具体有那种关系就可以了
目的:在不知道每个示例标签的情况下,根据训练集给定的包,通过学到的模型预测包的标签
多实例学习远程监督分类(多示例单标签)
动机:远程监督数据存在噪声、传统NLP工具存在错误累积问题
方法
视为一个多示例问题
一个包只有一个标签
分段CNN,摆脱对NLP工具的依赖
PCNN(对句子处理,然后取分类概率最大的句子的关系作为包的关系,训练时只使用这个句子)
利用分段池化保留更多信息,句子分为三段(头实体、中间、尾实体)池化
词的表示:词 + 位置
多实例学习远程监督分类(多示例单标签 + 注意力机制)
利用注意力机制减轻噪声影响
方法
用 CNN 对包中的每个句子进行表示
计算每个句子的注意力权重
包的表示等于各个句子表示加权之和
对包的表示进行分类
多实例学习远程监督分类(多示例多标签)
存在包有个关系的情形
需要考虑跨句子的信息——隐式关系
方法
跨句子最大池化捕获句子的信息
两种损失函数建模多标签
强化学习
噪声信息不可避免
基于句子级的示例挑选,得到包级别表示,可以有效滤除噪声
每个包打多个标签,每个句子只有一个标签,可以指出那个句子给出了哪个标签,训练时直接判断哪些句子是噪声,并直接过滤掉,训练一个句子级别的分类器,为每个句子分类
强化学习过程
示例挑选器和关系分类器互相促进
实力选择器挑选出有效的句子参与分类(策略梯度训练)
关系分类器对挑选出的句子进行分类
句子级远程监督关系分类(强化学习)
包级别只关心包的关系
句子级关系同时关心包中各句子类别
利用远程监督数据对句子进行关系分类
句子关系分类器,利用“至少一个”假设预测包的关系
开放式关系抽取
通过识别表达语义关系的短语抽取实体之间的关系
使用句法和统计数据过滤抽取的三元组
Pros:无需预先定义关系类别
Cons:语义未归一化,同一关系有不同表示
传统方法
TextRunner
语料的自动生成(依存句法分析)和分类器训练(朴素贝叶斯)
大规模关系三元组的抽取
关系三元组可信度计算(相似合并,利用网络频率计算)
深度学习方法
拷贝机制 + Seq2Seq
句子片段作为三元组拷贝到模型
面向半结构化文本的关系抽取
目标:从半结构化网页中抽取实体属性名以及实体属性值
方法
半结构化信息块定位
具有相同模式的实体关系属性名总时连续出现
“XXX:”的结构出现
关键在于属性名称的确定
问题:仅依靠已有属性名定位,召回率低
基本框架
首先利用结构化信息识别半结构化块
然后在识别的块中学习属性模板并抽取属性
对模板和属性名进行排序,获得高质量的模板和属性名
利用高质量的模板和属性名进行定位和抽取
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5ZIsSp1C-1588178569882)(assets/image-20200429193127144.png)]
启发式规则P8
模板学习
确定前缀和分隔符
Ranker对抽取模板于属性名进行排序
Graph,Random Walking
单个页面内实体属性抽取
利用网站级知识在页面定位半结构化信息块
抽取属性名和属性值
确定实体1
大多数情况下条目名称
并列结构情形
数据和评测
评测语料:P16
ACE:关系检测和识别
TAC-KBP
SemEval:信息抽取
NYT:数据构建(Freebase回标)
WebNLG:为生成任务构建,数据构建
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/我家自动化/article/detail/468301
推荐阅读
article
flutter
踩坑(
1
)
_
flutter
resizetoavoidbottominset
...
1
、软键盘将布局顶起导致高度报错:2、setstate报回调错误:3.取消文本框下划线:
_
flutter
resizet...
赞
踩
article
epoll
实现
echo
服务器...
摘要:使用
epoll
实现
echo
服务器的并发功能
epoll
实现
echo
服务器 ...
赞
踩
article
Redis
缓存
_
长时间
储存
用户
信息
,采用什么
缓存
...
为什么要使用redis
缓存
存储
用户
信息
?a. 使用redis
缓存
存储
用户
信息
和
用户
登录时的token
信息
,在登录第三方系...
赞
踩
article
如何
使用
Kimi
API
开发应用...
如何
使用
Kimi
API
开发应用。_kimi apikimi api ...
赞
踩
article
链表
经典练习
题
合集(
Java
版)
_
java
链表
算法
题
...
最近开始了数据结构的学习,数据结构是比较抽象的,需要不断的进行画图总结,不断地刷相关的
题
来加强自己对于数据结构的理解,我...
赞
踩
article
无法修复的
系统
乱码
--
2020
-
09
-
15
_中幕
乱码
2020
...
如果你的
系统
升级后,出现某些软件安装后出现
乱码
,而且含有中文的bat,不再支持了,那下面是你的福音。下面是装到电脑的软件...
赞
踩
article
Java
实现
微信
支付
功能_
java
微信
支付
...
java
实现
微信
支付
功能_
java
微信
支付
java
微信
支付
第一步,在配置文件添加
微信
配置 &n...
赞
踩
article
人工智能
导论
——
概念
篇_
人工智能
导论
概念
...
简简单单概况
人工智能
的情况-对应
人工智能
专业硕士考试_
人工智能
导论
概念
人工智能
导论
概念
...
赞
踩
article
蓝桥
杯-
单片机
组基础
21
——第
15
届省赛代码_
十五届
蓝桥
杯
单片机
省赛答案...
做下来感觉,主观题第
15
届比14届稍微简单一些,但是出其不意考了DAC本届客观题有点难,做选择感觉把握性不大,多选比较多...
赞
踩
article
PyTorch
深度
学习 开发
环境
搭建
全教程_
pytorch
环境
搭建
...
本文介绍了如何在
PyTorch
中
搭建
深度
学习开发
环境
,包括conda安装、新建Python
环境
、PyCharm安装、显卡...
赞
踩
article
网络
攻防
演练
——事前
准备
工作
汇总_
网络
攻防
演练
做好
哪些
准备
工作
...
心细的你是不是已经发现了,上面介绍的
工作
实际上是环环相扣的,首先要制定好组织架构,然后基于组织架构编写
演练
方案,通过正式...
赞
踩
article
将
关系
型
数据库
中的数据转成
RDF
(一)_
关系
数据库
转为
rdf
三元组
...
有两种方式,1、使用D2R工具生成虚拟
RDF
文件显示, 详细实现细节点击打开链接 2、使用Jena API自...
赞
踩
article
java
可盈
保险合同
管理系统
的设计与实现(
springboot
+
mysql
源码+文档)...
基于Spring Boot的可盈
保险合同
管理系统
的设计与实现的主要使用者分为:管理员在后台主要管理公告管理,用户管理,客...
赞
踩
article
Redis
实现
限流
的三种方式_
redis
限流
...
限流
,
Redis
,令牌桶,滑动窗口,固定窗口,接口_
redis
限流
redis
限流
一、固定窗口 ...
赞
踩
article
大
数据
分析题-考试竞赛(分享)_
数据
来源繁多,
下面
哪
一个
不
属于
结构化
数据
源a.
网络日志
b.
mysql
...
一、选择题1.
下面
哪
个程序负责 HDFS
数据
存储。A、NameNodeB、JobtrackerC、DatanodeD、...
赞
踩
article
现代
浏览器
对
es
模块
【
es
m】原生
支持
/
浏览器
不
支持
cjs 的原因_
支持
原生
es
m scrip...
需要注意的是,虽然现代
浏览器
已经原生
支持
ES
模块
,但对于一些旧版本的
浏览器
,特别是 Internet Explore...
赞
踩
article
耗时半月
,
终于把
牛客
网
软件测试
面试
八股文
,
整理成了
文档资料
....._
牛客
软件测试
...
一、
面试
基础题简述测试流程:1、阅读相关技术文档(如产品PRD、UI设计、产品流程图等)。2、参加需求评审会议。3、根据...
赞
踩
article
第一个
SpringMVC
程序...
目录一、
SpringMVC
简介二、
第一个
注解的
SpringMVC
程序1. 新建maven web项目2. pom.xml...
赞
踩
article
【免费题库】
华为
OD机试 -
小朋友
来自
多少分区(
Java
& JS &
Python
&
C
& ...
## 题目描述幼儿园组织活动,老师布置了一个任务:每个
小朋友
去了解与自己同一个小区的
小朋友
还有几个。我们将这些数量汇总到...
赞
踩
article
字节跳动
测试
岗
面试
记
:
二面被按地上血虐
,
所幸
Offer
已到手
...
...
离
面试
期越来越近也越来越焦虑
,
这个时候更需要去调整好自己的心态
,
沉入到复习当中
,
对各个知识点要学会查漏补缺
,
学着多去做做...
赞
踩
相关标签
flutter
服务器
redis
缓存
数据库
AI编程
链表
数据结构
list
乱码
java
微信
开发语言
人工智能
深度学习
自动驾驶
机器学习
计算机视觉
蓝桥杯
单片机
嵌入式硬件
51单片机
c语言
python
pytorch