当前位置:   article > 正文

统计一TXT文档中单词出现频率,输出频率最高的10个单词_编写代码,对文件“荷塘月色.txt”进行词频统计,将词频最高的10个词语作为主题词,

编写代码,对文件“荷塘月色.txt”进行词频统计,将词频最高的10个词语作为主题词,

实验过程


主要思路就是首先将标点符号,常用冠词等替换掉,然后利用哈希表和数组原理排序,输出最高频率的前十个数组



代码如下



import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;

public class test {
 public static void main(String[] args) throws IOException {
  long start = System.currentTimeMillis(); // 程序开始时间
  File file = new File("E:/TEST.txt");

  BufferedReader br = new BufferedReader(new FileReader(file));
  StringBuilder sb = new StringBuilder();
  String line = null;
  while ((line = br.rea

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/864144
推荐阅读
相关标签
  

闽ICP备14008679号