当前位置:   article > 正文

python数据挖掘实战笔记——文本挖掘(10):自动摘要_python文本数据挖掘生成摘要

python文本数据挖掘生成摘要

概念:

摘要: 全面准确地反映某一文献中心内容的简单连贯的短文。
自动摘要: 利用计算机自动地从原始文件中提取摘要。

算法原理: 余弦相似定理
在这里插入图片描述

算法步骤:

  • 获取需要摘要的文章
  • 对该文章进行词频统计
  • 对该文章进行分句,一般采用“,"、"."、?"进行分句。
  • 计算分句文章之间的余弦相似度。
  • 取相似度最高的分句,作为文章的摘要。

下面是具体代码实现:
首先导入包:

#导入需要的包
import re
import os
import jieba
import codecs
import numpy
import pandas
import os.path
from sklearn.metrics import pairwise_distances
from sklearn.feature_extraction.text import CountVectorizer
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

然后和

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/281805
推荐阅读
相关标签
  

闽ICP备14008679号