当前位置:   article > 正文

Java汉语言处理工具:HanLP初体验_java hanlp

java hanlp

最近需要用分词系统对新闻文本做一些处理,之前用了jieba做的,但jiaba识别人名、地名、各种名字的表现很差,所以要么自己写识别算法,要么换分词工具。HanLP看了下介绍,感觉挺不错的,功能能扣得上我的需求。言归正传,往下走。

HanLP

HanLP是清华大学开发的,由一系列模型与算法组成的开源Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。(转自官网,有修改)
官网:http://hanlp.linrunsoft.com/index.html

安装

不得不说maven真是个好东西,繁杂的配置工程,只用在pom.xml里加几行这个,就ok了,真的造福我们这种懒人。

<dependency>
    <groupId>com.hankcs</groupId>
    <artifactId>hanlp</artifactId>
    <version>portable-1.2.8</version>
</dependency>
  • 1
  • 2
  • 3
  • 4
  • 5

加上以后记得要在maven build里面compile一下

如果不是maven工程,可以跟着官网文档的步骤慢慢来:
http://hanlp.linrunsoft.com/doc.html

初测

compile之后,一定要耐心等一会

我当时立马兴奋的试了一下官网给的demo

import java.util.List;

import com.hankcs.hanlp.*;
import com.hankcs.hanlp.seg.common.Term;

public class HanTest {

	public static void main(String[] args) {
		// TODO Auto-generated method stub
		System.out.println(HanLP.segment("你好,欢迎使用HanLP!"));
		
		List<Term> termList = HanLP.segment("商品和服务");
		System.out.println(termList);
	}

}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

但运行成功却没出预计结果,只报了这个:
Usage: MapFile inFile outFile
查了半天没查出来这是个啥错,emm???

十几分钟后,不死心再试一次,结果居然好了!
输出结果:

[你好/l, ,/w, 欢迎/v, 使用/v, HanLP/nx, !/w]
[商品/n, 和/c, 服务/vn]
  • 1
  • 2

之前应该是maven还没把整个包下载好导致的

安装成功,可以用了,清爽、舒服!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/473981
推荐阅读
相关标签
  

闽ICP备14008679号