搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
凡人多烦事01
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
Android状态栏/通知栏图标白底问题
2
IP 多播地址与MAC多播地址的映射关系_ip多播地址与物理多播地址映射
3
java在windows_在 Windows 上安装 Java - Java 入门教程
4
AnoDDPM: Anomaly Detection with Denoising DiffusionProbabilistic Models using Simplex Noise论文学习
5
Bootstrap基础--选项卡_nav-tabs
6
字节跳动安全工程师校招一面面经_字节跳动技术支持安全岗面试
7
2017.2.3初次接触codeforces_codefoece多少分才能变色
8
最新4合1小说系统源码 (音乐、漫画、视频自动采集)_小说 视频 图片最新版源码
9
大数据、人工智能在交通行业中的应用及其带来的影响
10
vscode配置C/C++笔记(硬要使用C++11)_vscode应输入声明
当前位置:
article
> 正文
Linux文件按某列排序取top 有关awk
作者:凡人多烦事01 | 2024-02-08 17:57:46
赞
踩
awk排序取前10
目标:
Hive中的数据, 按照每个类目用户的总流量大小排序.
现在需要取出每个类目的top10.
Hive中使用order by categoryId, traffic desc来对数据排序, 但没办法对每个categoryId取top. 因为limit是对整个最终结果产生影响, 所以不能用limit来做.
最后决定导出文本, 使用awk来取top10.
脚本:
hive -e "select category, traffic from log_table where pt=$yesterday order by category, traffic desc" | awk '{if(cate[$1] < 10){cate[$1]++;print $0}}' > result.txt
这样就能够按照category取top. 缺点是对数据量大小有要求, 太大可能不行, 不过是线性的.
最开始数据只是单纯用select导出, 所以需要先用sort做一个大排序, 然后awk, 最后再sort一下:
sort -k 2 -r -n result.txt | awk '{if(cate[$1] < 10){cate[$1]++;print $0}}' | sort -k1 -k2 -r
因为有排序, 所以对数据量很敏感, 最后决定先在Hive中排好序再说, 于是就这样搞了.
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/凡人多烦事01/article/detail/70228
推荐阅读
article
Linux
JSON
解析对象实例...
json解析对象:a.json{ "name": "中国", "cities": [{ "省份": "江苏", "城市"...
赞
踩
article
linux
shell
json
操作命令
jq
简介_
linux
shell
jq
后面插入...
jq
命令允许直接在命令行下对JSON进行操作,包括分片、过滤、转换等 ,
jq
是用C编写,没有运行时依赖,所以几乎可以运行...
赞
踩
article
Linux
-实操篇9-
解析
json
的工具
jq
_
linux
查看
json
内容...
jq
的简单用法,
Linux
json
解析
_
linux
查看
json
内容
linux
查看
json
内容 ...
赞
踩
article
python
程序开机
自启动
_
Python
脚本
开机
自启动
(
Linux
)...
Python
脚本
开机自动运行;本帖适用于使用systemd的
Linux
系统,现在流行的
Linux
发行版都使用system...
赞
踩
article
将
python
脚本
设置为开机自启
服务
(
Linux
)
_
将
python
脚本
变成
服务
...
在/usr/lib/systemd/system 编写xxx.service文件,内容如下:[Unit]Descript...
赞
踩
article
anaconda
安装
、配置、开机启动和
基本操作
(
windows
+
linux
详细)_anacon...
anaconda
的
安装
、配置、开机启动和
基本操作
,
windows
和
linux
下都有,非常详细,一步步照着来就行_ana...
赞
踩
article
linux
创建
开机
自动
启动
python
脚本_
linux
python
项目
开机
自
启动
...
进入system 目录 :cd /etc/systemd/system。_
linux
python
项目
开机
自
启动
linu...
赞
踩
article
linux
:
YOLO5
配置(
ubuntu
20.04 下
安装
运行
yolov5
)_
linux
+c++...
ubuntu
20.04 下
安装
运行
yolov5
新建文件夹,
安装
python
安装
python-pip:克隆YOLOv5...
赞
踩
article
【Linux】基于
Jetson
Nano
的ROS平台
SLAM
项目_linux
ros
+
slam
...
去年接了一个大创项目,是基于ROS平台的
SLAM
项目,在
Jetson
Nano
()上实现,第一次做这么“高级”的项目,写...
赞
踩
article
【
linux
】
磁盘空间
不足
-常用
排查
和
处理
命令
...
上面的
命令
会给你被删除的文件的 pid,但它们仍然存在于系统中,处于删除状态。因此,为了释放文件系统的空间,我们可以通过...
赞
踩
article
linux
--
per
-
CPU
变量...
per
-
CPU
变量是一种存在与每个
CPU
本地的变量,对于每一种
per
-
CPU
变量,每个
CPU
在本地都有一份它的副本。li...
赞
踩
article
【
linux
|
java
应用报错】
Cannot
allocate
memory
...
解决
Cannot
allocate
memory
【
linux
|
java
应用报错】
Cannot
allocate
memo...
赞
踩
article
Linux
文件
IO...
在
Linux
下的一切接
文件
(Everything is file in Unix/
Linux
)。IEEE制定了一套POS...
赞
踩
article
Linux
解决报错“
libc
.so.6:
version
GLIBC
_2.14 not
found
...
低版本
libc
库运行高版本
libc
库编译的程序在这篇博客中我描述了使用
patchelf
来修改动态库链接器的方...
赞
踩
article
linux
yes
命令
_如何在
Linux
上使用
yes
命令
...
linux
yes
命令
Fatmawati Achmad Zaenuri/Shutterstock.comFatmawa...
赞
踩
article
多
操作系统
引导
管理工具
System
Commander
2000
全面兼容
Windows
9x/...
多
操作系统
引导
管理工具
System
Commander
2000
2000
-06-22 9:00 在多
操作系统
引导管理工...
赞
踩
article
linux
系统
重新安装
,
但需要保存
系统
内
数据
的
问题...
问题:如果
linux
瘫痪之后重做
系统
,
那么原
系统
分区里
的
重要文件能保存下来吗(即
系统
重做后还能找到吗)? 解答:就像wi...
赞
踩
article
Linux
给
根目录
新增
磁盘
空间_
linux
如何添加
根目录
保存
的
磁盘
...
最近安装虚拟机时老是发现
磁盘
空间不够,但是因为网上
的
方法感觉都不是很全,因此整理一份详细
的
攻略,以作留存。虚拟机软件:O...
赞
踩
article
linux
下
安装
缺失的
包
_
linux
安装
nmf
包
...
在
linux
安装
oracle的过程中,因为
linux
的某些
包
的缺失导致前置检查不符合要求,这时就要
安装
这些缺失的
包
;首先...
赞
踩
article
linux
保留
数据
挂载
,
linux
系统
数据
盘
怎么
挂载
?...
1.远程SSH登录上Centos服务器,并进行如下操作注意:
挂载
操作会清空
数据
,请确认
挂载
盘
无
数据
或者未使用1.列出所有...
赞
踩
相关标签
json
c语言
servlet
java
linux
服务器
python程序开机自启动
python
ubuntu
jetson nano
slam
ros
运维
arm开发
kernel
IO文件操作