当前位置:   article > 正文

NLPIR/ICTCLAS 2015 分词系统使用_使用中科院分词系统做自然语言处理

使用中科院分词系统做自然语言处理


        自然 言的处理的第一步是分词。近期使用了中科院分词系统NLPIR/ICTCLAS 2016。在2014版本以及之前称为ICTCLAS,之后的版本都更名为NLPIR。 新版简介如下:

       词法分析是自然语言处理的基础与关键。 张华平博士在多年研究工作积累的基础上, 研制出了 NLPIR 分词系统, 主要功能包括中文分词; 英文分词; 词性标注; 命名实体识别; 新词识别; 关键词提取; 支持用户专业词典与微博分析。 NLPIR系统支持多种编码(GBK 编码、 UTF8 编码、 BIG5 编码) 、 多种操作系统(Windows,Linux, FreeBSD 等所有主流操作系统)、多种开发语言与平台(包括:C/C++/C#,Java,Python,Hadoop 等)。
       我的开发环境是eclipse,win10 64位操作系统。
       首先下载两个压缩包,一个是分词包一个接口包,ICTCLAS是纯C编写,在java上使用需要JNI也就是c语言加一个java接口,NLPIR有java版本,我使用的是ICTCLAS加一个接口的方法。分词包下载地址:http://ictclas.nlpir.org/downloads,接口包下载地址(JNI):http://ictclas.nlpir.org/newsdownloads?DocId=384  。
分别解压后待用。 
        新建一个eclipse项目,将分词包中Data目录拷贝到file目录;解压开JNI包将NLPIR.dll动态链接库放到项目目录下,与file目录同级。

       自己修改编写的测试及使用代码如下:

        

  1. import java.io.BufferedReader;
  2. import java.io.File;
  3. import java.io.FileInputStream;
  4. import java.io.InputStreamReader;
  5. import java.io.UnsupportedEncodingException;
  6. import java.util.ArrayList;
  7. import java.util.Calendar;
  8. import java.util.List;
  9. import com.sun.jna.Library;
  10. import com.sun.jna.Native;
  11. import nlpir_Spl
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号