赞
踩
最近需要用分词系统对新闻文本做一些处理,之前用了jieba做的,但jiaba识别人名、地名、各种名字的表现很差,所以要么自己写识别算法,要么换分词工具。HanLP看了下介绍,感觉挺不错的,功能能扣得上我的需求。言归正传,往下走。
HanLP是清华大学开发的,由一系列模型与算法组成的开源Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。(转自官网,有修改)
官网:http://hanlp.linrunsoft.com/index.html
不得不说maven真是个好东西,繁杂的配置工程,只用在pom.xml里加几行这个,就ok了,真的造福我们这种懒人。
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.2.8</version>
</dependency>
加上以后记得要在maven build里面compile一下
如果不是maven工程,可以跟着官网文档的步骤慢慢来:
http://hanlp.linrunsoft.com/doc.html
compile之后,一定要耐心等一会
我当时立马兴奋的试了一下官网给的demo
import java.util.List; import com.hankcs.hanlp.*; import com.hankcs.hanlp.seg.common.Term; public class HanTest { public static void main(String[] args) { // TODO Auto-generated method stub System.out.println(HanLP.segment("你好,欢迎使用HanLP!")); List<Term> termList = HanLP.segment("商品和服务"); System.out.println(termList); } }
但运行成功却没出预计结果,只报了这个:
Usage: MapFile inFile outFile
查了半天没查出来这是个啥错,emm???
十几分钟后,不死心再试一次,结果居然好了!
输出结果:
[你好/l, ,/w, 欢迎/v, 使用/v, HanLP/nx, !/w]
[商品/n, 和/c, 服务/vn]
之前应该是maven还没把整个包下载好导致的
安装成功,可以用了,清爽、舒服!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。