赞
踩
NLP是人工智能领域的掌上明珠,知识(信息)抽取中关键技术主要是NLP处理技术,主要以命名实体识别(实体抽取)与实体链接、实体关系抽取、事件抽取为主。如下图所示不同数据源知识抽取的过程。
实体抽取,又称命名实体识别(Named Entities Recognition,NER),主要任务是识别命名实体的文本范围,并将其分类为预定义的类别,学术上所涉及一般包含三大类,实体类、时间类、数字类和7个小类,比如人、地名、时间、组织、日期、货币、百分比,是问答系统、翻译系统、知识图谱的基础,早期的NER的方法主要由语言学家手工构造规则模板,选用特定特征,包括统计信息、标点符号、指示词、方向词、中心词等,以模式与字符串相匹配为主要手段,但是此方法需要大量人力构建语言模型、系统周期较长、知识更新较慢、移植性较差。随着机器学习应用,提出了基于统计学的方法,主要包括隐马尔科夫模型(HMM)、最大熵马尔科夫模型(MEMM)、支持向量机(SVM)、条件随机场(CRF),基于统计方法的对特征选择要求较高,对语料库的依赖较大。深度学习的表征学习相比于机器学习特征工程,在特征学习方面具有较大优势,采用句子嵌入到CNN-CRF中,自动学习特征,对实体进行分类,实体抽取的LSTM-CRF ,BiLSTM-CRF模型,对实体识别提高了一个新的高度,目前。ACL会议提出了基于注意力机制、迁移学习及半监督学习的方法。
基于监督的关系抽取问题一般是转化为分类问题,模型的选择主要有SVM、朴素贝叶斯等机器学习分类模型,关系抽取的特征的定义对抽取的结果具有较大影响,依赖于特征工程。目前,深度学习表示学习的方法,避免了人工构建特征,只需要对词及位置的进行向量表示,主要有两个关系抽取的方法:流水线和联合法.
1)基于深度学习的流水线关系抽取
2)基于深度学习的联合关系抽取方法
1)远程监督方法
该方法主要通过知识图谱与非结构化文本对齐的方式自动构建大量数据集,减少模型对人工标注数据的依赖。主要步骤有:
该方法存在语义漂移的现象,Guoliang JI的APCNNs模型和Jun Feng的CNN-RL模型具有代表性。
2)Bootstrapping 方法
事件抽取是指从自然语言文本中抽取用户感兴趣的事情信息,并以结构化的形式呈现出来。如下图所示:
A simple BiLSTM-CRF model for Chinese Named Entity Recognition
命名实体识别全解析
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。