赞
踩
语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。
官方文档:
- 分词。和大部分西方语言不同,汉语书面语词语之间没有明显的空格标记,文本中的句子以字串的形式出现。因此汉语自然语言处理的首要工作就是要将输入的字串切分为单独的词语,然后在此基础上进行其他更高级的分析。
- 词性标注的目的是为每一个词性赋予一个类别,这个类别称为词性标记(Part-of-speech tag),比如,名词(Noun)、动词(Verb)、形容词(Adjective)等。一般来说,属于相同词性的词,在句法中承担类似的角色。
- 命名实体识别的任务是识别句子中的人名、地名、机构名等命名实体。每一个命名实体由一个或多个词语构成。根据标注规范的不同,命名实体可能存在嵌套的情况,但是目前大部分研究工作不考虑嵌套的情况。比如,“王义和老师”是人名,“哈尔滨南岗区”是地名,“哈尔滨工业大学”是机构名或地名。
——引用自:李正华. 汉语依存句法分析关键技术研究[D].哈尔滨工业大学,2013.
环境:python3.6 win10
官方文档:
pip安装在win10下可能会报错,提示需要安装C++
解决方法:使用该文中的whl文件安装
下面两个文件针对不同的python版本下载一个即可, 这是我在自己的电脑(win10)上编译的,不知道你的系统是否能用,64bit的windows应该都可以,有问题在下面留言。注意: 这两个文件的区别是python版本号
python3.5:pyltp-0.2.1-cp35-cp35m-win_amd64.whl
python3.6:pyltp-0.2.1-cp36-cp36m-win_amd64.whl
下载地址:百度云
百度云下载慢的话点这里,选择对应的模型文件,我下载的是v3.4
注意:
请确保下载的模型版本与当前版本的 pyltp 对应,否则会导致程序无法正确加载模型。
windows下需要另外下载SRL模型
下载后文件夹如图:
模型文件名 | 说明 |
---|---|
cws.model | 分句模型 |
ner.model | 命名实体识别模型 |
parser.model | 依存句法分析模型 |
pisrl.model | 语义角色标注模型 |
pos.model | 词性标注模型 |
注意:记住模型存放位置,后续python文件中需要调用。
分词、词性标注、句法分析一系列任务之间存在依赖关系。举例来讲,对于词性标注,必须在分词结果之上进行才有意义。
LTP中提供的5种分析之间的依赖关系如下所示:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。