赞
踩
与国内主流分词工具jieba相比,北大新开源的分词工具pkuseg(项目链接)在四个测试集上的F-score平均值高于jieba近10个百分点。见下图。
pkuseg支持领域分词,调用时指定特定的领域可自动下载相应模型,但是容易下载失败,建议自行下载并配置环境。如,笔者在此下载了医疗领域包medicine.zip和词性标注包postag.zip,将压缩包和解压文件一起防在了目录C:\Users\enshi.pkuseg下。见下图。
pkuseg提供了配套的词性表词性表,下载后用逗号隔开。见下图。
#!/usr/bin/python3
# -*- coding:utf-8 -*-
"""
@Author : heyw
@Contact : he_yuanwen@126.com
@Time : 2020/2/1
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。