中科院分词系统整理笔记

作者：神奇cpp | 2024-07-19 12:05:54

踩

中科院分词系统

NLPIR简介

一套专门针对原始文本集进行处理和加工的软件，提供了中间件处理效果的可视化展示，也可以作为小规模数据的处理加工工具。可以使用该软件对自己的数据进行处理。

NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统，从2009年开始，为了和以前工作进行大的区隔，并推广NLPIR自然语言处理与信息检索共享平台，调整命名为NLPIR分词系统，增加了十一项功能。

NLPIR 系统支持多种编码（GBK 编码、UTF8 编码、BIG5 编码）、多种操作系统（Windows, Linux， FreeBSD 等所有主流操作系统）、多种开发语言与平台（包括：C/C++/C#,Java,Python,Hadoop 等）。

新增功能

全文精准检索-JZSearch：支持多数据类型、多字段、多语言；

新词发现：挖掘新词列表

分词标注：对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中，导入用户定义的词典。

统计分析与术语翻译：一元词频统计、二元词语转移概率统计，并且可以针对常用的术语，会自动给出相应的英文解释。

大数据聚类及热点分析-Cluster：自动分析出热点事件，并提供事件话题的关键特征描述。

大数据分类过滤：从海量文档中筛选出符合需求的样本。

自动摘要-Summary：能够对单篇或多篇文章，自动提炼出内容的精华，方便用户快速浏览文本内容。

关键词提取-KeyExtract：能够对单篇文章或文章集合，提取出若干个代表文章中心思想的词汇或短语，可用于精化阅读、语义查询和快速匹配等

文档去重-RedupRemover：能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录，同时找出所有的重复记录。

HTML正文提取-HTMLPaser：自动剔除导航性质的网页，剔除网页中的HTML标签和导航、广告等干扰性文字，返回有价值的正文内容。适用于大规模互联网信息的预处理和分析。

编码自动识别与转换：自动识别文档内容的编码，并进行自动转换，目前支持Unicode/BIG5/UTF-8等编码自动转换为简体的GBK，同时将繁体BIG5和繁体GBK进行繁简转化。

相关技术

1.网络信息实时采集与正文提取

NLPIR大数据搜索与挖掘演示平台根据新浪rss摘要，利用NLPIR的精准网络采集系统实时抓取新浪最新的新闻（每次刷新均会重新抓取），NLPIR正文提取系统将网页中的导航、广告等内容去除，利用网络文本链接密度作为主要参数，采用深度神经网络模型，实现文本正文内容的自动提取。这里，也可由用户人工随意输入任意的文章。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/851385