赞
踩
当然可以。首先,你需要使用 Python 的文本处理库,比如 nltk 或者 gensim。这些库提供了很多用于提取文本信息的工具,例如分词、词干提取、词性标注等。
具体来说,你可以使用这些工具来提取文本中的关键词,然后使用这些关键词来生成摘要。例如,你可以统计出文本中每个词出现的频率,并使用这些频率来生成摘要。
下面是一个使用 nltk 库完成文本摘要的简单示例代码:
- import nltkfrom nltk.tokenize import word_tokenize
- from nltk.corpus import stopwords
- from nltk.probability import FreqDist
-
- def summarize(text, n):
- # 分词
- words = word_tokenize(text)
- # 去除停用词
- filtered_words = [word for word in words if word not in stopwords.words('english')]
- # 统计词频
- fdist = FreqDist(filtered_words)
- # 提取前 n 个高频词
- top_n_words = [pair[0] for pair in fdist.most_common(n)]
- # 生成摘要
- summary = ' '.join(top_n_words)
- return summary
-
- text = "This is a sample text. It can be any text that you want to summarize. The summary generated by this code will be based on the frequency of words in the text."
- summary = summarize(text, 5)
- print(summary)
上述代码会将输入的文本进行分词,然后去除停用词(即常见的无意义词,如 the、a、an 等),最后使用词频统计提取出前 5 个最高频的词,并将这些词作为
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。