赞
踩
通过上述三篇文章的介绍(详见其他的博客),接下来将对TF-IDF算法的实现进行介绍。
关键词提取的代码如下:
import sys sys.path.append('../') import jieba import jieba.analyse from optparse import OptionParser USAGE = "usage: python extract_tags.py [file name] -k [top k]" parser = OptionParser(USAGE) parser.add_option("-k", dest="topK") opt, args = parser.parse_args() if len(args) < 1: print(USAGE) sys.exit(1) file_name = args[0] if opt.topK is None: topK = 10 else: topK = int(opt.topK) content = open(file_name, 'rb').read() tags = jieba.analyse.extract_tags(content, topK=topK) print(",".join(tags))
测试样本为《西游记》的
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。