赞
踩
1. 读取文件,用split进行分隔,并选出文本,一行视为一个文档。文档中可能会包含一些“噪声”(比如‘[’和‘]’等,可以删除)。
2. 使用jieba对所有文档进行分词,并统计词频。
3. 按词频进行排序。观察高频词和低频词。
过滤前高频词:
低频词:
4. 引入停用词表(上网搜索)进行停用词过滤,重新观察词频排序的结果。
过滤后高频词:
低频词:
(词数少了几百个)
代码:
6. 对词性进行分析,观察不同词性的出现频率,并对特定词性的词进行可视化(词云)。
过滤前:
频率(饼状图):
动词的词云图:
7.(附加) 如果tuple来表示bigram,请统计所有的bigram的频率,并通过可视化观察高频的bigram。
8.(附加)可否利用词频来进行特征词的筛选?如果有了特征词,怎么通过其来对文本进行向量表示?如果有了向量表示,可否计算不同文本之间的距离(相似性)?
向量表示:
计算文本距离:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。