当前位置:   article > 正文

《自然语言处理:基于预训练模型的方法》第三章 LTP工具集_ltp 自己训练

ltp 自己训练

之前介绍的工具集主要用于英文的处理,而以中文为代表的汉藏语系与以英语为代表的印欧语系不同,一个显著的区别在于词语之间不存在明显的分隔符,句子一般是由一串连续的字符构成,因此在处理中文时,需要使用更有针对性的分析工具。

语言技术平台(Language Technology Platform,LTP)是哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)历时多年研发的一整套高效、高精度的中文自然语言处理开源基础技术平台。该平台集词法分析(分词、分词标注和命名实体识别)、句法分析(依存句法分析)和语义分析(语义角色标注和语义依存分析)等多项自然语言处理技术于一体。最新发布的LTP4.0版本使用Python语言编写,采用预训练模型以及多任务学习机制,能够以较小的模型获得非常高的分析精度。

安装:

pip install ltp

安装上的话,用这个:

pip install ltp -i https://pypi.tuna.tsinghua.edu.cn/simple

下面对LTP的使用方法进行简要的介绍:

1.中文分词

如上所述,由于中文词语之间没有空格进行分割,而自然语言处理中通常以为最小的处理单位,因此需要对中文进行分词处理。中文的分词与英文的标记解析功能类似,只是中文分词更强调识别句子中的词语信息,因此往往不被成为标记解析。另外,与标记解析相比,由于一个句子往往有多重可能的分词结果,因此分词任务的难度更高,精度也更低。使用LTP进行分词非常容易,具体示例如下。

  1. from ltp import LTP
  2. ltp = LTP()# 默认加载Small模型,首次使用时会自动下载并加载模型
  3. segment,hidden = ltp.seg(['南京市长江大桥。'])# 对句子进行分词,结果使用segment访问,hidden用于# 访问每个词的隐含层向量,用于后续分析步骤
  4. print(segment)

 2.其他中文自然语言处理功能

除了分词功能,LTP还提供了分句、词性标注、命名实体识别、依存句法分析和语义角色标注等功能。

与NLTK类似,在此只演示如何使用LTP进行分句和词性标注。

  1. sentences = ltp.sent_split(["南京长江大桥。","汤姆生病了。他去了医院。"])
  2. print(sentences)

  1. segment,hidden = ltp.seg(sentences)
  2. print(segment)

  1. pos_tags = ltp.pos(hidden) # 词性标注
  2. print(pos_tags)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/637580
推荐阅读
相关标签
  

闽ICP备14008679号