赞
踩
Extraction information from unstructured text(非结构化数据)
先做实体抽取,再做关系抽取
命名实体识别,简称NER,又称作专名识别,是指识别文本中具有特定意义的实体,主要包括任命,地名,机构名,专有名词等。
先做意图识别:文本分类
第一次抽取实体:北京,伤害
第二次抽取实体:11月16日
给定word, 词性和实体类别,O为不需要关注的单词,多个单词构成一个实体类别。
选择概率最大的实体类型
针对一个单词,使用特征工程,提取特征,得到feature vector,输入到模型得到分类结果。
比如,应用随机森林进行分类,将一个单词是否是标题,是否有大写,它的词长度等作为feature,输入到模型进行训练,得到分类结果。这种特征提取没有考虑上下文信息。
对于一个句子的特征提取: The professor Colin proposed a model for NER in 1999
1、Bag-of-word features
2、词性的feature
3、前缀后缀
4、当前词的特性
5、 stemming
对单词做stemming后重复上面四个操作
对于当前词的词性:Loc,需要把这个词性转变为one-hot encoding,但会使特征的维度变大很多很多。
1、类别型的特征,使用one-h
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。