Linux指令之利用uniq, sort，对大文件做排序去重_100g文件 sort uniq 会内存溢出吗

作者：IT小白 | 2024-07-08 00:20:54

踩

100g文件 sort uniq 会内存溢出吗

最近在对一些数据做筛洗，涉及到对大文件的排序和去重。刚开始接触到这个这个任务，我也是想尽各种方法, 想用redis, 想用bitmap。最后发现这些实现的方法都极其繁琐，而且极其吃内存，所以都不是很可行。在百抓挠腮之际，知乎上发现了一个回答，就是利用sort进行排序，然后利用uniq进行去重。

本来刚开始看到这个回答，我是持有怀疑态度的。但是经过实践发现，利用uniq 和 sort的指令，其中间数据不会全部存在内存，而是大部分存在磁盘里，是非常安全的做法。处理了几个4G左右的文件，速度也是非常快的。下面就来描述一下怎么去使用这两个指令：

$ cat testfile #原有内容  
test 30  
test 30  
test 30  
Hello 95  
Hello 95  
Hello 95  
Hello 95  
Linux 85  
Linux 85 
1
2
3
4
5
6
7
8
9
10

使用uniq 命令删除重复的行后，有如下输出结果：

$ uniq testfile     #删除重复行后的内容  
test 30  
Hello 95  
Linux 85 
1
2
3
4

但是我们现在又面临一个问题，就是如果重复的行是不相邻的，是没有办法去重的。不慌，可以利用另一个指令，sort + 管道 + uniq：

$ sort  testfile1 | uniq
Hello 95  
Linux 85 
test 30
1
2
3
4

其次，如果我们还想统计各行在文中出现的次数：

$ sort testfile1 | uniq -c
   3 Hello 95  
   3 Linux 85 
   3 test 30
1
2
3
4

最后，我们还想根据出现的次数进行排序，sort 的 -n 参数可以帮助我们实现这个功能，最后重定向到tem,csv的文件中：

 sort testfile1 | uniq -c | sort -n > tmp.csv
1

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/797166