赞
踩
HanLP 是由一系列模型和算法组成的Java工具包。目标是普及自然语言处理在生产环境中的应用。它不仅是分词,还提供了词法分析、句法分析、语义理解等完整的功能。HanLP 具有功能齐全、性能高效、结构清晰、语料最新、功能可定制等特点。
HanLP 是完全开源的,包括字典。不依赖其他jar,底层使用了一系列高速数据结构,如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等,这些基础组件都是开源的。
通过工具类HanLP,可以一句话调用所有函数,文档详细,开箱即用。底层算法经过精心优化,极速分词模式下每秒可达2000万字,内存仅需要120MB。IO方面,字典加载速度极快,快速启动仅需500ms
POM文件
4.0.0
com.iqilu
Segment
1.0-SNAPSHOT
jar
Hello
http://maven.apache.org
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
junit
junit
3.8.1
test
com.hankcs
hanlp
portable-1.3.2
DemoSegment.java
package com.iqilu;
import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.common.Term;
import java.util.List;
public class DemoSegment {
public
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。