赞
踩
智能分析技术 - 自动分类 | |
2007-03-12 | |
摘 要 本文提出一个电子文档的自动分类的模型:基于《知网》之上,经过对文档的关键词的抽取和排岐, 进而得到关键词的概念,再对关键词的概念进行综合而得到该文本的所属的类别,实验证明该模型有较好的效果。 一 、引 言
我们预定义十一种分类的类别:政治类、军事类、经济类、法律类、文化类、体育类、卫生类、宗教类、工业类、农业类、交通类,从1998年的《人民日报 》选出的500篇新闻语料库,其中包括了各类预定义的类别的文本,利用所实现的文本分类模型进行自动文本分类,得到以下的实验数据。
政治 军事 经济 法律 农业 体育 卫生 工业 文化 交通 宗教 合计 从上面可以看出,这个模型得到的结果是比较令人满意的,特别是精确率已经达到较高的水平,可见文本自动分类的方法还是可行的。自动分类中有些不能归类是因为其在归类判断中关键词的概念所属的类别太过分散,宜用手工分类。
参 考 文 献 Abstract This paper present a module of automatic Chinese documents classification. After get keywords from the documents, we get rid of ambiguity of the keywords.Base on how_net,we get the concept of the keywords.We classify the document after we integrate all the keywords’ concept. It has been tested the this module had good effect. Keyword document classification , concept , how-net , comprehensive information
|
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。