赞
踩
词性标注一般需要一定的标注规范,如将词分为名词、形容词、动词等。中文领域尚无统一标准,常用的包括:
这里我们使用北大词性标注集:
re_han_internal=re.compile("[\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)")
######词性标注######
import jieba.posseg as psg
sent="中文分词是文本处理不可或缺的一步!"
seg_list=psg.cut(sent)
print(' '.join(['{0}/{1}'.format(w,t) for w,t in seg_list]))
中文/nz 分词/n 是/v 文本处理/n 不可或缺/l 的/uj 一步/m !/x
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。