赞
踩
做一个词频统计程序,该程序具有以下功能
基本要求:
(1)可导入任意英文文本文件
(2)统计该英文文件中单词数和各单词出现的频率(次数),并能将单词按字典顺序输出。
(3)将单词及频率写入文件。
- /**
- *author by daisy
- */
- import java.io.BufferedReader;
- import java.io.BufferedWriter;
- import java.io.FileReader;
- import java.io.FileWriter;
- import java.io.IOException;
- import java.util.ArrayList;
- import java.util.Collections;
- import java.util.Comparator;
- import java.util.List;
- import java.util.Map;
- import java.util.Set;
- import java.util.SortedMap;
- import java.util.TreeMap;
-
- public class WordFrequencyCount {
- public static void main(String[] args) throws IOException {
- BufferedReader bufferedReader = new BufferedReader(new FileReader("E:/text.txt"));
- BufferedWriter bufferedWriter = new BufferedWriter(new FileWriter("E:/out.txt"));
- String s;
- while ((s = bufferedReader.readLine()) != null) {
- //通过键值对的方式去分别存储单词和出现的次数
- Map<String, Integer> map = new TreeMap<String, Integer>();
- //创建一个words数组,将split分割的字符串存入数组
- String[] words = s.split("[【】、.。,\"!--;:?\'\\] ]");
- for (int i = 0; i < words.length; i++) {
- String key = words[i].toLowerCase();//将所有单词转化为小写
- if (key.length() > 0) {
- //用containsKey判断map集合对象中是否包含某个字符串
- if (!map.containsKey(key)) {//如果不包括说明第一次出现,则给频率值赋1;
- map.put(key, 1);
- } else {// 如果不是第一次出现,就把value值++,那么value值是多少就是出现了几次
- int value = map.get(key);//用get(key)获取对应的value值
- value++;
- map.put(key, value);
- }
- }
- }
- //利用TreeMap实现Comparator接口
- Comparator<Map.Entry<String, Integer>> valueComparator = new Comparator<Map.Entry<String,Integer>>() {
- public int compare(Map.Entry<String, Integer> o1,Map.Entry<String, Integer> o2) {
- return o1.getKey().compareTo(o2.getKey());//降序排序
- }
- };
- //map转换成list进行排序,Entry是Map中的一个静态内部类,用来表示Map中的每个键值对
- //map.EntrySet(),实现了Set接口,里面存放的是键值对.
- List<Map.Entry<String, Integer>> list = new ArrayList<Map.Entry<String,Integer>>(map.entrySet());
- // 排序
- Collections.sort(list,valueComparator);
- System.out.println("-----------------按字典顺序排序如下---------------");
- for (Map.Entry<String, Integer> entry : list) {
- System.out.println(entry.getKey() + "----" + entry.getValue());
- bufferedWriter.write(entry.getKey()+"----"+entry.getValue()+"\r\n");
- }
- }
- bufferedWriter.newLine();
- // 关闭输入输出流
- bufferedReader.close();
- bufferedWriter.close();
- }
- }
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。