当前位置:   article > 正文

计算机自然语言论文,毕业论文-基于自然语言处理的摘要生成系统.doc

基于自然语言处理的摘要生成系统

青岛理工大学毕业设计(论文)

青岛理工大学

毕 业 设 计(论 文)

题目 基于自然语言处理的摘要生成系统

PAGE

PAGE I

摘 要

在计算机和互联网飞速发展的同时以及信息化时代的到来,各种各样的信息存在与我们生活的每时每刻,尤其是在互联网上大量的博客、新闻等以电子形式出现在人们的面前,大量信息的稂莠不齐导致我们很难在其中获得自己需要的东西。所以,如何快速的在巨大的知识网络中获得自己需要的知识、如何迅速的得到文章的主旨、如何去面对互联网时代每天新增的大量新信息,这已经是一迫在眉睫需要解决的问题了。实际上,人们没有足够的时间去阅读每天接触的新信息来筛选自己所需要的,所以急切需要某种廉价的方法来对大量的信息进行压缩和提炼,文本摘要提取正是利用廉价的计算机解决这一难题的有效方法。

所谓的文章摘要自动提取,就是指计算机可以通过一系列的计算,提取出原文章中可以反映出文章主旨的短文。现有的摘要提取方法有自动摘要、基于理解的摘要提取、信息抽取和基于结构的自动摘要提取等几种主要的方法。

本系统摘要提取的方法为基于统计的信息提取,首先采用TF/IDF逆文本频率提取出文章中的关键词,通过TF/IDF计算其在文章中的权重。然后将原文以句子为单位,通过其中包含关键词的TF/IDF权值对每个句子计算一个权值,对原文中所有句子按权值有大到小进行排序,挑选其中权值最高的几个句子为摘要句,然后按照原文中出现的次序输出。因为摘要句中包含的关键词较多,可以认为能概括出文章的主旨,另外,因为是文章中的原句,所以不会出现原句不通顺的情况。本系统使用python语言开发,python语言相对于C++和Java更使用于文字处理,且有更多开源的库可以使用,另外,python拥有很高的开发效率。

本系统主要分为爬虫、中文分词、统计分析、关键词提取、摘要提取、输出摘要六个功能,其中中文分词系统直接采用了开源的jieba分词系统,该系统采用基于前缀词典实现高效的词图扫描,关键词提取使用了TF/IDF权值,文中给出了TF/IDF的计算公式。然后根据关键词的TF/IDF权值寻找关键句,此方法实现简单,开发难度不大、效率较高,适用于文章数目较多、准确率要求不高的应用环境(如新闻网站等)。

关键词:分词,摘要,文本处理, TF/IDF, 权值,关键词

PAGE

PAGE I

ABSTRACT

At the same time, the rapid development of computers and the Internet as well as the arrival of the information age, the presence of a variety of information all the time and our lives, especially on the Internet a lot of blog and news in electronic form in front of people , a lot of grass herbicides missing information lead us where it is difficult to get what they need. So, how to quickly get in the huge knowledge network knowledge they need, how to quickly get the gist of the article, how to face the new day, a lot of the Internet era of new information, this is an urgent need to address the problem. In fact, people do not have enough time to read the new information daily exposure to screening they need so desperately need some inexpensive way to compress and extract a lot of information on, as it happens, is the use of text summarization cheap effective way to solve this problem computer.

The so-called automatic extraction Abstract, refers to a computer through a seri

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/769239
推荐阅读
相关标签
  

闽ICP备14008679号