赞
踩
信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。粗浅的来说它的任务是从大量数据中准确、快速地获取目标信息,并将其以结构化的形式储存起来,方便以后的分析和处理,从而提高信息的利用率概率。模型/分类器可以帮助实现这些任务。
- 抽取实体:比如人,地名,时间这些一般的常见的实体,再比如在一些垂直领域,需要提取医疗领域,金融领域,教育领域等方面的实体。
- 抽取关系:提取的是实体与实体间的关系。
命名实体识别
实体消歧
关系提取
事件抽取
命名实体识别是信息抽取的基础,是第一步,也是必须的一步。
命名实体识别的主要任务是识别出待处理文本中七类命名实体,分别为人名、机构名、地名、时间、日期、货币和百分比。在这七类当中,时间、日期、货币、百分比相对而言其构成具有很明显的规律,识别起来相对容易,但是剩下的三类由于用字灵活,所以识别难度很大。命名实体的内部构成和外部语言环境具有一些特征,无论何种方法,都在试图充分发现和利用实体所在的上下文特征和实体的内部特征。
算法:
利用规则(正则表达式)
利用分类模型(不考虑时序)
生成模型:朴素贝叶斯…
判别模型:逻辑回归,SVM…
时序模型
HMM,CRFs, RNN/LSTM/GRU…
命名实体的过程中不免会出现一个实体对应多个实体的现象,简单的来说就是一个词语对应多个含义。实体消歧就是为了确定实体指称项所指向真实的实体。
针对方法的不同可以分为基于聚类的实体消岐和基于实体链接的实体消岐。
实体关系抽取作为文本挖掘和信息抽取的核心任务,其主要通过对文本信息建模,自动抽取出实体对之问的语义关系,提取出有效的语义知识。其研究成果主要应用在文本摘要、自动问答、机器翻译、语义网标注、知识图谱等。
其研究成果主要应用在文本摘要、自动问答、机器翻译、语义网标注、知识图谱等。
算法:
基于规则
监督学习
半监督&无监督学习
Bootstrap
Distant Supervision
无监督学习
简单介绍一下 booststrap 的基本思想:
- 1. booststrap 是一个 需要 人工检测 的半监督学习,需要人工事先定义好主体字典(定义 ‘搜索种子’、定义种子所对应的的模板),其
- 中‘搜索种子’是同一类别的,循环迭代添加 种子、模板 并经过人工筛选整合,使得主体字典抽取信息精确率和召回率不断提高。
作为自然语言处理中信息抽取的子任务, 事件抽取旨在从非结构化的文本中识别出预先定义的事件, 并判断其类型及参与者。由此产生的语义理解可应用于自动文摘、个性化新闻系统和金融分析等。
事件抽取通常被划分成两个子任务。即:事件触发词识别/分类及事件元素识别/分类。事件触发词识别/分类的目标是从候选文本中识别出触发事件的核心词 (通常为动词或者名词) 并判断其类型和子类型;事件元素识别/分类的目标则是从已识别的事件中标注事件的参与者及属性 (包括事件发生的时间、地点和人物等信息) 。
参考:
https://blog.csdn.net/weixin_42936560/article/details/87879023 -------- 关系抽取
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。