当前位置:   article > 正文

11、Linux文本处理三剑客之awk命令(1)_终端输出流给awk

终端输出流给awk

awk 是一个强大好用的数据处理工具,对于 Linux 文本处理三剑客,grep 命令倾向于查找,sed 命令倾向于编辑更新,而 awk 命令则倾向于对数据分析并生成报告。本篇将重点梳理 awk 命令及常见的使用场景。

1、awk 基本格式

awk 命令可以直接处理文件,也可以作为管道命令读取前一个命令的标准输出,基本格式如下:

awk [参数选项] '匹配的内容' [文件名]

参数选项有:

  1. Usage: awk [POSIX or GNU style options] -f progfile [--] file ...
  2. Usage: awk [POSIX or GNU style options] [--] 'program' file ...
  3. POSIX options: GNU long options: (standard)
  4. -f progfile --file=progfile
  5. -F fs --field-separator=fs
  6. -v var=val --assign=var=val
  7. Short options: GNU long options: (extensions)
  8. -b --characters-as-bytes
  9. -c --traditional
  10. -C --copyright
  11. -d[file] --dump-variables[=file]
  12. -e 'program-text' --source='program-text'
  13. -E file --exec=file
  14. -g --gen-pot
  15. -h --help
  16. -L [fatal] --lint[=fatal]
  17. -n --non-decimal-data
  18. -N --use-lc-numeric
  19. -O --optimize
  20. -p[file] --profile[=file]
  21. -P --posix
  22. -r --re-interval
  23. -S --sandbox
  24. -t --lint-old
  25. -V --version

2、默认分隔符

最常用参数为 -F,而 awk 命令使用空格、tab 制表符作为缺省的字段分隔符。因此,如果处理的文本中的字段间有空格、tab 制表符的话,则不需要指定 -F 选项,举个入门的小例子:

  1. $ echo "today is hot" |awk '{print $1}'
  2. today
  3. $ echo "today is hot" |awk '{print $2}'
  4. is
  5. $ echo "today is hot" |awk '{print $3}'
  6. hot
  7. $ echo "today is hot" |awk '{print $1,$3}'
  8. today hot
  9. $ echo "today is hot" |awk '{print $0}'
  10. today is hot

从上面可以看到,awk 是以行为一次处理的单元,而以字段为最小的处理单元,使用 $+数字 表示数据列,$1表示第一列,$2表示第二列,依次类推,$n表示第n列,当 n=0,即 $0 表示所有列。

当然,awk 也支持格式化打印输出,例如:

  1. $ echo "today is hot" |awk '{print $1,$3}'
  2. today hot
  3. $ echo "today is hot" |awk '{printf "%-10s %-15s\n",$1,$3}'
  4. today hot

3、指定分隔符

如果字段间隔符不是空格、tab 制表符的话,使用 -F "指定字符串" 分隔,演示如下:

  1. # 以,作为分隔符
  2. $ echo "today,is hot,is irritability" |awk -F "," '{print $2}'
  3. is hot
  4. # 以is作为分隔符
  5. $ echo "today,is hot,is irritability" |awk -F "is" '{print $1}'
  6. today,
  7. $ echo "today,is hot,is irritability" |awk -F "is" '{print $2}'
  8. hot,
  9. $ echo "today,is hot,is irritability" |awk -F "is" '{print $3}'
  10. irritability

当然,指定字符串is 也可以不使用双引号:

  1. $ echo "today,is hot,is irritability" |awk -F is '{print $2}'
  2. hot,

如果指定字符有多个的话,先以第一个分隔符为准,然后再按顺序以其他的分隔字符分隔,比如:

  1. $ echo "today,is hot,is irritability" |awk -F "[ ,]" '{print $3,$5}'
  2. hot irritability

4、使用内置变量

awk 支持以下几个常用的内置变量:

  • FS:设置输入字段分隔符,等价于-F参数选项;
  • OFS:设置输出字段分隔符;
  • NR:表示已读的记录数(行号);
  • NF:表示浏览记录的字段个数(列数);

举例1:字符串转数组

  1. $ echo "1555650,1505765,1893873" |awk 'BEGIN{FS=",";OFS=" "} {print $1,$2,$3}'
  2. 1555650 1505765 1893873

字符串转数组,就是把逗号替换成空格而已。请注意,BEGIN 语句表示在所有文本处理动作执行之前被执行(前置处理),END 语句在所有文本处理动作执行之后被执行(后置处理);

举例2:输出文件的所有内容,并显示行号和列数

  1. $ awk -F : '{print NR " " NF " " $0}' /etc/passwd
  2. 1 7 root:x:0:0:root:/root:/bin/bash
  3. 2 7 bin:x:1:1:bin:/bin:/sbin/nologin
  4. 3 7 daemon:x:2:2:daemon:/sbin:/sbin/nologin
  5. 4 7 adm:x:3:4:adm:/var/adm:/sbin/nologin
  6. 5 7 lp:x:4:7:lp:/var/spool/lpd:/bin/false
  7. 6 7 sync:x:5:0:sync:/sbin:/bin/sync
  8. 7 7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
  9. 8 7 halt:x:7:0:halt:/sbin:/sbin/halt
  10. 9 7 mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
  11. 10 7 operator:x:11:0:operator:/root:/sbin/nologin
  12. (后面内容省略)

5、使用函数

awk 命令支持使用函数,比如常见的函数有:

  • length(x):获取 x 的长度
  • tolower(x):将 x 转小写
  • toupper(x):将 x 转大写
  • substr(x,y):在 x 中,获取从 y 开始截取到末尾的部分

举例:字符串转大写,并统计长度

  1. $ awk -F : '{print toupper($1),length($1)}' /etc/passwd
  2. ROOT 4
  3. BIN 3
  4. DAEMON 6
  5. ADM 3
  6. (后面内容省略)

6、使用流程控制语句

awk 命令也支持使用流程控制语句,比如 if 条件语句,举个我用过的例子:

$ awk 'BEGIN{FS="|";OFS="|"} { if ($6 == 4 || $6 == 9) {print $1,$5}}' demo_20220712.txt >>test.txt

此外,相对简单的条件语句还可以使用简化版,举例说明:

  1. # 过滤出第一列等于指定字符串的数据
  2. $ awk '$1 == "daemon:x:2:2:daemon:/sbin:/sbin/nologin"' /etc/passwd
  3. daemon:x:2:2:daemon:/sbin:/sbin/nologin
  4. # 过滤出第三列大于1小于5的数据
  5. $ awk -F : '$3 > 1 && $3 < 5' /etc/passwd
  6. daemon:x:2:2:daemon:/sbin:/sbin/nologin
  7. adm:x:3:4:adm:/var/adm:/sbin/nologin
  8. lp:x:4:7:lp:/var/spool/lpd:/bin/false
  9. $ awk -F : '$3 > 1 && $3 < 5 {print $1,$3}' /etc/passwd
  10. daemon 2
  11. adm 3
  12. lp 4

流程控制语句,又比如 for 循环语句,打印1~10:

  1. $ awk 'BEGIN{ for(i=0;i<=10;i++){ print i} }'
  2. 0
  3. 1
  4. 2
  5. 3
  6. 4
  7. 5
  8. 6
  9. 7
  10. 8
  11. 9
  12. 10

而 while、do-while 等循环语句,用法类似。

7、使用正则表达式

awk 命令也支持正则表达式的使用,~表示匹配模式开始,//中存放匹配的模式,举例:

  1. # 判断含有daemon字符串的数据
  2. $ awk -F : '$0 ~ /daemon/' /etc/passwd
  3. daemon:x:2:2:daemon:/sbin:/sbin/nologin
  4. libstoragemgmt:x:998:997:daemon account for libstoragemgmt:/var/run/lsm:/sbin/nologin
  5. tss:x:59:59:Account used by the trousers package to sandbox the tcsd daemon:/dev/null:/sbin/nologin
  6. memcached:x:898:991:Memcached daemon:/run/memcached:/sbin/nologin
  7. $ awk -F : '$0 !~ /daemon/' /etc/passwd
  8. $ awk -F : '!/daemon/' /etc/passwd

8、按列求和

awk 命令更倾向于处理规则的文本数据,如果遇到求某一列的和,该如何计算呢?如下:

  1. $ awk -F ":" '{sum += $3}END{print sum}' /etc/passwd
  2. 80079

最后

以上梳理了 awk 命令常见使用的场景,从中能够明显的看到 awk 在文本数据处理方面的强大功能,作为入门这篇只梳理到这儿,后面有空再总结下 awk 命令的高级用法,比如 awk 脚本、grep + sed + awk 组合玩转文本处理的复杂场景等。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/207030
推荐阅读
相关标签
  

闽ICP备14008679号