赞
踩
分词模式分为:全模式、精确模式、搜索引擎模式。
nlp常用技术:分词、命名实体识别、词性识别。
nlp常用软件包:NLTK,gensim,jieba,stanfordcorenlp,hanlp。
如何处理分词分错的情况:加载自定义字典。
如何处理多个词组成的短语的情况:自定义语法规则。
如何过滤掉不符合常规的词,比如标点符号:N-GRAM、TF-IDF
- 当分词字典的词冲突,相互影响该怎么办?
- 调整词频和字典顺序
- ## 3.1 分词、词性标注及命名实体识别介绍及应用
- ### 分词
- ==中文分词==(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
-
- 中文/n 分词/n 是/v 其他/p 中文/n (信息,n) 处理/v 的 基础,搜索引擎、机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。
-
- ### 词性标注
- ==词性标注==(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程
- 序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%准确率的中文词性标注程序。
-
- 不同的工具词性标注不一定一样,jieba标注在最后附录。
-
- ### 命名实体识别
- ==命名实体识别==(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
- 在不同的顷目中,命名实体类别具有不同的定义。
-
-
- ## 3.2 准确分词之加载自定义字典分词
-
- 当分词工具分词不准确时,该怎么办?
- 加载自定义字典?该如何加载?看代码
-
- ## 3.3 准确分词之动态调整词频和字典顺序
-
- 当分词字典的词冲突,相互影响该怎么办?
- 调整词频和字典顺序,看代码
-
- ## 3.4 词性标注代码实现及信息提取
-
- 看代码
-
- ## 3.5 人名、地名、机构名等关键命名实体识别
-
- 看代码
-
- ##
-
- 不同的工具词性标注不一定一样,以下是jieba标注:
- ```
- 词性标注
- Ag
- 形语素
- 形容词性语素。形容词代码为 a,语素代码g前面置以A。
- a
- 形容词
- 取英语形容词 adjective的第1个字母。
- ad
- 副形词
- 直接作状语的形容词。形容词代码 a和副词代码d并在一起。
- an
- 名形词
- 具有名词功能的形容词。形容词代码 a和名词代码n并在一起。
- b
- 区别词
- 取汉字“别”的声母。
- c
- 连词
- 取英语连词 conjunction的第1个字母。
- dg
- 副语素
- 副词性语素。副词代码为 d,语素代码g前面置以D。
- d
- 副词
- 取 adverb的第2个字母,因其第1个字母已用于形容词。
- e
- 叹词
- 取英语叹词 exclamation的第1个字母。
- f
- 方位词
- 取汉字“方”
- g
- 语素
- 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
- h
- 前接成分
- 取英语 head的第1个字母。
- i
- 成语
- 取英语成语 idiom的第1个字母。
- j
- 简称略语
- 取汉字“简”的声母。
- k
- 后接成分
- l
- 习用语
- 习用语尚未成为成语,有点“临时性”,取“临”的声母。
- m
- 数词
- 取英语 numeral的第3个字母,n,u已有他用。
- Ng
- 名语素
- 名词性语素。名词代码为 n,语素代码g前面置以N。
- n
- 名词
- 取英语名词 noun的第1个字母。
- nr
- 人名
- 名词代码 n和“人(ren)”的声母并在一起。
- ns
- 地名
- 名词代码 n和处所词代码s并在一起。
- nt
- 机构团体
- “团”的声母为 t,名词代码n和t并在一起。
- nz
- 其他丏名
- “丏”的声母的第 1个字母为z,名词代码n和z并在一起。
- o
- 拟声词
- 取英语拟声词 onomatopoeia的第1个字母。
- p
- 介词
- 取英语介词 prepositional的第1个字母。
- q
- 量词
- 取英语 quantity的第1个字母。
- r
- 代词
- 取英语代词 pronoun的第2个字母,因p已用于介词。
- s
- 处所词
- 取英语 space的第1个字母。
- tg
- 时语素
- 时间词性语素。时间词代码为 t,在语素的代码g前面置以T。
- t
- 时间词
- 取英语 time的第1个字母。
- u
- 助词
- 取英语助词 auxiliary
- vg
- 动语素
- 动词性语素。动词代码为 v。在语素的代码g前面置以V。
- v
- 动词
- 取英语动词 verb的第一个字母。
- vd
- 副动词
- 直接作状语的动词。动词和副词的代码并在一起。
- vn
- 名动词
- 指具有名词功能的动词。动词和名词的代码并在一起。
- w
- 标点符号
- x
- 非语素字
- 非语素字只是一个符号,字母 x通常用于代表未知数、符号。
- y
- 语气词
- 取汉字“语”的声母。
- z
- 状态词
- 取汉字“状”的声母的前一个字母。
- un
- 未知词
- 不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准,CSW分词中定义)
- ```
-
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。