当前位置:   article > 正文

word中文分词 一_word.local.conf

word.local.conf

        前言:这篇笔记算是 word中文分词 java库的入门笔记,记录下word分词的基本配置,和一个由于经验浅而踩的坑。

感谢word分词 的作者,word分词的github地址:https://github.com/ysc/word

1、maven依赖

  1. <dependency>
  2. <groupId>org.apdplat</groupId>
  3. <artifactId>word</artifactId>
  4. <version>1.3</version>
  5. </dependency>

2、自定义词典和停用词配置

        1)、在classpath目录下新建名为 word.local.conf的文本文件(没有txt后缀) (文件是utf-8编码)

        2)、新建自定义词典文件 mydic.txt,新建停用词词典文件 mystopword.txt。(文件使用utf-8编码,尽量英文文件名)

        3)、word.local.conf增加自定义词典配置,添加一行 "dic.path=H:/mydic.txt ",路径名称随意,文件名就是步骤2新建的

                 文件,也可以使用classpath指定,classpath不能有空格,绝对路径也不能有空格(踩过的坑)。。。

        4)、word.local.conf增加自定义停用词配置,添加一行  stopwords.path= "dic.path=H:/mystopword.txt ",,路径名称随

                 意,文件名就是步骤2新建的文件,也可以使用classpath指定,

                 classpath不能有空格,绝对路径也不能有空格(踩过的坑)。。。

        5)、接下来就算是入门了。。。。。。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/610070
推荐阅读
相关标签
  

闽ICP备14008679号