赞
踩
from pyltp import SentenceSplitter
sentence = SentenceSplitter.split('我是逗号,我是句号。我是问号?我是感叹号!')
print '\n'.join(sentence)
import os
LTP_DATA_DIR = '/path/to/your/ltp_data' # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model') # 分词模型路径,模型名称为`cws.model`
from pyltp import Segmentor
segmentor = Segmentor() # 初始化实例
segmentor.load(cws_model_path) # 加载模型
words = segmentor.segment('欧几里得是西元前三世纪的希腊数学家。') # 分词
print ' '.join(words)
segmentor.release() # 释放模型
这里可以添加用户自定义词典
segmentor = Segmentor() # 初始化实例
segmentor.load_with_lexicon(cws_model_path, '/path/to/your/lexicon') # 加载模型,参数lexicon是自定义词典的文件路径
words = segmentor.segment('欧几里得是西元前三世纪的希腊数学家。')
print ' '.join(words)
segmentor.release()
pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model') # 词性标注模型路径,模型名称为`pos.model`
from pyltp import Postagger
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path) # 加载模型
words = ['欧几里得', '是', '西元前', '三', '世纪', '的', '希腊', '数学家', '。']
postags = postagger.postag(words) # 词性标注
print ' '.join(postags)
postagger.release() # 释放模型
ner_model_path = os.path.join(LTP_DATA_DIR, 'ner.model') # 命名实体识别模型路径,模型名称为`ner.model`
from pyltp import NamedEntityRecognizer
recognizer = NamedEntityRecognizer() # 初始化实例
recognizer.load(ner_model_path) # 加载模型
words = ['欧几里得', '是', '西元前', '三', '世纪', '的', '希腊', '数学家', '。']
postags = ['nh', 'v', 'nt', 'm', 'n', 'u', 'ns', 'n', 'wp']
nertags = recognizer.recognize(words, postags) # 命名实体识别
print ' '.join(nertags)
recognizer.release() # 释放模型
par_model_path = os.path.join(LTP_DATA_DIR, 'parser.model') # 依存句法分析模型路径,模型名称为`parser.model` from pyltp import Parser parser = Parser() # 初始化实例 parser.load(par_model_path) # 加载模型 words = ['欧几里得', '是', '西元前', '三', '世纪', '的', '希腊', '数学家', '。'] postags = ['nh', 'v', 'nt', 'm', 'n', 'u', 'ns', 'n', 'wp'] arcs = parser.parse(words, postags) # 句法分析 rely_id = [arc.head for arc in arcs] # 提取依存父节点id relation = [arc.relation for arc in arcs] # 提取依存关系 heads = ['Root' if id == 0 else words[id-1] for id in rely_id] # 匹配依存父节点词语 for i in range(len(words)): print relation[i] + '(' + words[i] + ', ' + heads[i] + ')' parser.release() # 释放模型
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。