赞
踩
一、 系统简介
通过对网络爬虫工具的设置并扩展,自动抓取行业领域资料,或通过语料管理模块上传领域相关资料,形成语料库。调用信息抽取模块和信息去噪模块,提取语料库中pdf、doc、ppt、html、excel、txt及专利等文件中的内容信息,并将抽取的信息进行去噪处理,去除标签、乱码、页眉和页脚等无用信息,同时确保有用信息被完整保留。在完成语料预处理后进行知识挖掘,首先基于领域词典,对去噪处理后的信息进行分词、词汇统计分析,最终找出领域单词概念和组合概念,同时记录语料中包含领域概念的语句,并基于规则抽取核心语句中领域概念间的关系,通过本体的推理,形成此文档的概念知识关系网,并保存为xml语法格式,存入数据库。在此基础上通过对识别的领域概念和核心语句的精炼,提取出文档的关键词(1-3个)和摘要信息(3句左右)。基于关键词和摘要信息对文档进行自动分类,并在以后信息更新时,保持聚类结果的相对稳定。分析完相关的语料资料后,生成整个网站的概念知识网,并将挖掘出的知识建立语义索引库。
用户使用该系统时,支持目录导航、相关概念、扩展概念和语义查询。目录导航:显示系统自动聚类的特定领域的层次结构信息,每个节点后显示节点下的网页或文档资源的个数,并支持图形化显示。语义查询:支持用户对关键词、词组和简单语句的查询,通过本体推理查询,形成语义查询检索式,返回语义索引库中的相关信息,同时通过本体推理,找出相关概念和扩展概念并能显示出来。
二、 系统架构图
图1、系统架构图
三、 系统数据处理流程图
图2、系统主要模块间关系图
图3、语义索引库构建流程图
图4、信息检索数据流程图
四、 系统模块设计
编号 | 名称 | 人员分配 | 备注 |
G20111025F01 | 系统页面开发 | 设计并开发 | |
G20111025F02 | 网络爬虫 | 升级完善 | |
G20111025F03 | 信息提取 | 重点 | |
G20111025F04 | 信息去噪 | 难点 | |
G20111025F05 | 智能分词 | 升级完善 | |
G20111025F06 | 领域概念识别 | 重点 | |
G20111025F07 | 概念间关系抽取 | 重点、难点 | |
G20111025F08 | 文档关键词抽取 | 重点、难点 | |
G20111025F09 | 文档自动摘要 | 重点、难点 | |
G20111025F10 | 文档自动分类 | 重点、难点 | |
G20111025F11 | 语料管理模块 | 工作量较大 | |
G20111025F12 | 知识提取库 | 重点、难点 | |
G20111025F13 | 语义索引库 | 重点、难点 | |
编号 | 名称 | 人员分配 | 备注 |
L20111025S1 | 信息检索模块 | 升级完善 | |
L20111025S2 | 检索结果优化 | 升级完善 | |
L20111025S3 | 网状信息可视化显示 | 重点 | |
L20111025S4 | 统计信息可视化显示 | 重点 | |
编号 | 名称 | 人员分配 | 备注 |
L20111025Y1 | 互联网资源 | 较简单 | |
L20111025Y2 | 领域词典 | 工作量较大 | |
L20111025Y3 | 领域本体 | 重点 | |
L20111025Y4 | 目录导航体系 | 难点、要点 | |
五、 系统各模块具体分工情况
(1) 系统页面开发
编号 | G20111025F01 |
模块 | 系统页面开发 |
描述 | 系统操作的平台 |
功能 | 合理布局,设置系统各项功能相应按钮、信息展示框。 整体布局拟采用左、中、右三栏结构,主要栏目包括:语义检索、资源分布图、本体知识图等。 |
格式 | |
存储 | |
输出 | |
接口 | |
难点 | |
分工 | 贾婷负责搜集、调研互联网同类网站(包括相关智能搜索引擎、专家系统和行业重要网站),栾勇设计首页整体布局和栏目设置,最终在doc中采用表格或其他形式描述出来。 |
(2) 网络爬虫
编号 | G20111025F02 |
模块 | 网络爬虫 |
描述 | 对Heritrix网络爬虫工具的功能进行合理扩展利用。 |
功能 | 扩展升级已有网络爬虫工具,比如添加能够抓取特定前缀的URL、抓取含有特定关键字的网页等功能。 |
格式 | |
存储 | |
输入 | 起始网址、摘要、前缀、关键词、抓取链接层数、抓取时间、抓取网页个数、抓取全部或只抓取更新等等 |
输出 | 抓取的互联网网页信息 |
接口 | |
难点 | |
分工 | |
备注 | 更新抓取时为识别信息是否为新信息,需要在知识提取库或索引库设置相应字段记录。 |
(3) 信息提取
编号 | G20111025F03 |
模块 | 信息提取 |
描述 | 提取网络爬虫抓取的各类网页文件和doc、docx、pdf、ppt、txt等文本文件内容。注意调用pdf文件内容提取程序(已有)时,当pdf为扫描版或软件识别版,可能会出错,要找出原因,同时注意当文档内容分栏或有插图、插表时的提取结果,设法提高准确性。 |
功能 | |
格式 | |
存储 | |
输入 | |
输出 | |
接口 | |
难点 | |
分工 |
(4) 信息去噪
编号 | G20111025F05 |
模块 | 信息去噪 |
描述 | 去除抽取信息中的干扰字符,同时尽量确保有用信息完整保留 |
功能 | 实现信息去噪算法,归纳总结各种类型文件抽取内容的特点,以句子为单位,去除空格、页眉、页脚、页码、乱码和其他杂乱符号;归纳总结并识别出文件中各级标题的特点 |
格式 | |
存储 | |
输入 | 文件内容抽取结果 |
输出 | 以句子为单位输出 |
接口 | |
难点 | 去噪算法 |
分工 | |
备注 | 去噪算法应当多花时间,防止过多有用信息也被去除。 |
(5) 智能分词
编号 | G20111025F04 |
模块 | 智能分词 |
描述 | 分析JE分词工具、庖丁解牛分词工具、Lucene自带分词工具、哈工大分词工具和中科院计算所分词工具的优缺点,选定适合该系统的分词工具。系统运行时不需要更新用户自定义词典,但需支持扩展词性(用于标识词是否为领域概念),初步考虑选用JE分词工具(考虑分词工具是否免费、有效期等因素)。 |
功能 | 分词工具有多个函数可以调用:快速分词(只分词)、全功能分词(分词、词性、关系)等,如果需要多次调用,需选择合适的分词函数。 |
格式 | |
存储 | |
输入 | 信息去噪结果:以句为单位。 |
输出 | 多维向量:词、词性、本体角色、在句子中与其他词的关系等等。 |
接口 | |
难点 | 处理好分词与去噪的先后关系,提高准确率。 |
分工 | |
备注 | 注意本体半自动构建系统中分词和信息去噪的先后关系,有可能先去噪后分词,或者交叉进行,考虑那种方式准确率高。 |
(6) 领域概念识别
编号 | G20111025F06 |
模块 | 领域概念识别 |
描述 | 基于智能分词中扩展词性标识,识别领域概念,并记录包含领域概念的句子,用于概念间关系抽取。 |
功能 | |
格式 | |
存储 | |
输入 | 文件中所有句子的分词结果:多维向量 |
输出 | 文件中的领域词汇(包括本体中的关系词汇) |
接口 | |
难点 | 组合领域概念、自定义领域词典中未收录的领域概念识别; 本体中动词属性关系词的识别抽取 |
分工 |
(7) 概念间关系抽取
编号 | G20111025F07 |
模块 | 概念间关系抽取 |
描述 | 基于HOWNET对输入的概念进行相似度计算,并通过聚类算法聚类,最终提取出概念间关系。 |
功能 | |
格式 | |
存储 | |
输入 | 句子、带句法分析的分词结果、领域概念识别结果 |
输出 | 概念间关系三元组 xml语法格式字符串 |
接口 | |
难点 | 注意概念间关系冗余的处理。 |
分工 | |
备注 | 选用较好的聚类算法并比较结果 |
(8) 文档关键词抽取
编号 | G20111025F08 |
模块 | 文档关键词抽取 |
描述 | 基于领域概念识别结果,参考统计等关键词抽取算法,提取2至4个最能体现文档主题的词语。 |
功能 | |
格式 | |
存储 | |
输入 | 领域概念识别结果 |
输出 | 1至3个领域关键词 |
接口 | |
难点 | 高效准确的关键词抽取算法 |
分工 |
(9) 文档自动摘要
编号 | G20111025F09 |
模块 | 文档自动摘要 |
描述 | 基于分词结果和领域概念识别结果,以句为单位计算每句中领域概念出现次数,选择2至4句出现领域概念最多的句子作为文档摘要。 |
功能 | |
格式 | |
存储 | |
输入 | 分词结果和领域概念识别结果 |
输出 | 2至4句文档摘要 |
接口 | |
难点 | 研究寻找准确性较好的自动摘要算法。 |
分工 |
(10) 文档自动分类
编号 | G20111025F10 |
模块 | 文档自动聚类 |
描述 | 基于文档中识别出的领域词汇并重点考虑文档的关键词,根据词汇出现频率,设置一定的权重,映射到导航目录体系中,每篇文档可以映射体系中多个节点。 |
功能 | |
格式 | |
存储 | |
输入 | 领域词汇识别结果和关键词提取结果 |
输出 | 映射到目录导航体系中的节点 |
接口 | |
难点 | 高效遍历和映射算法 |
分工 |
(11) 语料管理模块
编号 | G20111025F11 |
模块 | 语料管理模块 |
描述 | 提供对网络抓取资料和用户上传资料的目录导航,能够查看资料容量、抓取时间、网址等信息。 |
功能 | |
格式 | |
存储 | |
输入 | |
输出 | |
接口 | |
难点 | 可以将存储目录记录在数据表中,通过访问数据库实现查看。 |
分工 |
(12) 知识提取库
编号 | G20111025F12 |
模块 | 知识提取库 |
描述 | 记录网络爬虫、信息提取、信息去噪、智能分词、领域概念识别、概念间关系抽取、文档关键词抽取、文档自动摘要、文档自动分类等所有模块处理的结果信息。 |
功能 | |
格式 | |
存储 | |
输入 | 网络爬虫、信息提取、信息去噪、智能分词、领域概念识别、概念间关系抽取、文档关键词抽取、文档自动摘要、文档自动分类等所有模块处理的结果信息 |
输出 | 数据库 |
接口 | |
难点 | |
分工 |
(13) 信息检索模块
编号 | L20111025S1 |
模块 | 信息检索模块 |
描述 | 依据信息检索数据处理流程图,实现相应功能 |
功能 | |
格式 | |
存储 | |
输入 | 用户查询关键词或查询语句 |
输出 | 用户需要的相关信息 |
接口 | |
难点 | 提高信息检索的效率 |
分工 |
(14) 检索结果优化
编号 | L20111025S3 |
模块 | 检索结果优化 |
描述 | 对用户查询返回的结果依据相关性进行优化排序 |
功能 | |
格式 | |
存储 | |
输入 | 用户查询输入和每条返回结果的领域概念、关键词、摘要等信息 |
输出 | 每条返回结果的查询相关性权值。 |
接口 | |
难点 | 优化排序算法 |
分工 |
(15) 网状信息可视化显示
编号 | L20111025S4 |
模块 | 网状信息可视化显示 |
描述 | 当用户鼠标移至查询结果列表中每条信息的“图形预览”图标上时,读取记录该条文档信息中概念及关系的xml格式数据,调用信息可视化工具,显示该条记录的概念关系图。另外,通过该模块可以图示化展示本体结构和目录导航结构。 |
功能 | |
格式 | |
存储 | |
输入 | xml格式数据 |
输出 | 动态结果图 |
接口 | |
难点 | 解决节点太多、太少时图形显示的美观问题。图形中节点文字要清晰,节点太多时,合理省略节点。 |
分工 |
(16) 统计信息可视化显示
编号 | L20111025S5 |
模块 | 统计信息可视化显示 |
描述 | 使用饼状图、柱状图、折线图展示系统中相关统计信息,如目录导航体系中各节点资源数量、用户查询命中数量,以及其他与系统实际应用中相关的统计信息。 |
功能 | |
格式 | |
存储 | |
输入 | 相关统计数据 |
输出 | 相关统计图形 |
接口 | |
难点 | |
分工 |
(17) 互联网资源
编号 | L20111025Y1 |
模块 | 互联网资源 |
描述 | 通过调研查找互联网上领域相关的门户网站信息,用于网络爬虫信息抓取来源。 |
功能 | |
格式 | |
存储 | |
输入 | |
输出 | 网址、网名、介绍 |
接口 | |
难点 | |
分工 |
(18) 领域词典
编号 | L20111025Y2 |
模块 | 领域词典 |
描述 | 通过调研收起领域相关词汇,构建领域自定义词典。 |
功能 | |
格式 | |
存储 | |
输入 | |
输出 | 领域自定义词典。 |
接口 | |
难点 | |
分工 |
(19) 领域本体
编号 | L20111025Y3 |
模块 | 领域本体 |
描述 | 通过不断收集领域主题词、领域概念,不停地完善领域本体。 |
功能 | |
格式 | |
存储 | |
输入 | |
输出 | |
接口 | |
难点 | |
分工 |
(20) 目录导航体系
编号 | L20111025Y4 |
模块 | 目录导航体系 |
描述 | |
功能 | 显示系统自动聚类的行业领域的层次结构信息,每个节点后显示节点下的网页资源个数。目录导航体系的前两层需要人手工设计,参考领域本体层次架构体系,并且要同时考虑行业用户的需求。每一个资源根据提炼出的关键词和摘要信息进行映射,可以同属于目录体系的多个节点。 |
格式 | |
存储 | |
输入 | |
输出 | |
接口 | |
难点 | |
分工 |
重要名词:
相关概念:与用户查询输入关键词相关的概念。
扩展概念:用户输入关键词在本体中的上下位概念。
本体知识图:显示本体结构、层次关系、属性关系。
资源分布图:图形化显示系统自动聚类的结果。
Web知识图:图形化预览各条搜索结果信息的知识图。
文档知识图:图形化显示系统上传文档的知识结构图。
统计分析图:采用饼状图、柱状图和折线图显示系统聚类体系中各节点资源比例、系统新增资源比例、查询结果中各节点资源比例等等。
来源:我是码农,转载请保留出处和链接!
本文链接:http://www.54manong.com/?id=1260
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646208", container: s }); })();
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646147", container: s }); })();
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。