当前位置:   article > 正文

Java培训学习之分词工具之HanLP介绍_hanlp.segment

hanlp.segment

HanLP 是由一系列模型和算法组成的Java工具包。目标是普及自然语言处理在生产环境中的应用。它不仅是分词,还提供了词法分析、句法分析、语义理解等完整的功能。HanLP 具有功能齐全、性能高效、结构清晰、语料最新、功能可定制等特点。
HanLP 是完全开源的,包括字典。不依赖其他jar,底层使用了一系列高速数据结构,如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等,这些基础组件都是开源的。
通过工具类HanLP,可以一句话调用所有函数,文档详细,开箱即用。底层算法经过精心优化,极速分词模式下每秒可达200​​0万字,内存仅需要120MB。IO方面,字典加载速度极快,快速启动仅需500ms
POM文件

4.0.0
com.iqilu
Segment
1.0-SNAPSHOT
jar
Hello
http://maven.apache.org

<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>



junit
junit
3.8.1
test


com.hankcs
hanlp
portable-1.3.2


DemoSegment.java
package com.iqilu;
import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.common.Term;
import java.util.List;
public class DemoSegment {
public

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/812568
推荐阅读
相关标签
  

闽ICP备14008679号