当前位置:   article > 正文

Linux文本处理三剑客:awk(常用匹配模式)

Linux文本处理三剑客:awk(常用匹配模式)

Linux操作系统中,grep、sed、awk被称为文本操作“三剑客”,上三期中,我们将详细介绍grep、sed、awk的基本使用方法,希望能够帮助到有需要的朋友。

1、前言

awk作为一门编程语言还有很多内容,我们继续学习awk。

网上有很多教程,讲的都很棒的,但是也讲得很迷糊。

关注我,我也是在摸索中学习,尽量讲清晰一些,希望您在看的过程中,能够有所发现。

首先,上官方手册:Gawk - GNU Project - Free Software Foundation (FSF)

工作流程如下图:BEGIN块开始,循环执行BODY块,最后执行END块。

大家记住这张图,下面我们来讲常用的匹配模式。

主要有以下几种:

  • awk保留字
  • 关系运算符
  • 匹配操作符
  • 正则表达式

2、awk保留字

保留字描述
BEGIN在处理文件之前执行一次的特殊模式。常用于初始化操作,如设置变量、打印标题等。
END在处理文件之后执行一次的特殊模式。常用于收尾工作,如统计结果、输出总结信息等。
NR内置变量,表示当前记录的编号。记录是以换行符分隔的文本行。常用于控制循环或条件判断,如打印第一行或最后一行,或执行基于记录编号的操作。
NF内置变量,表示当前记录的字段数。字段是以空格或制表符分隔的文本列。常用于指定操作的字段数量,如打印指定字段,或执行基于字段数的条件判断。
FS内置变量,表示输入字段分隔符。默认为空格或制表符,可以通过赋值改变其值。常用于处理不同格式的文本文件,如逗号分隔的CSV文件,冒号分隔的passwd文件等。
OFS内置变量,表示输出字段分隔符。默认为与FS相同的值,可以通过赋值改变其值。常用于控制输出格式,如指定输出结果的分隔符。
$0 内置变量,表示当前记录的整体内容。常用于对整行进行操作,如替换、删除、打印等。
$1...$n一组内置变量,分别表示当前记录的各个字段。常用于对指定字段进行操作,如计算、比较、拼接等。

3、关系运算符

关系运算符是指用来比较两个值的大小或相等性的运算符,它们返回一个布尔值(真或假)。awk支持以下关系运算符:

关系运算符描述
==等于
!=不等于
<小于
<=小于等于
>大于
>=大于等于

关系运算符可以用来构造条件表达式,比如筛选出某个范围内的数据,判断某个值是否存在等。

4、匹配操作符

匹配操作符是指用来检查一个值是否匹配一个模式的运算符,它们返回一个布尔值(真或假)。awk支持以下匹配操作符:

- ~匹配
!~不匹配


模式可以是一个字符串或一个正则表达式。匹配操作符可以用来过滤出符合某种规则的数据,比如包含某个关键字,以某个字符开头或结尾等。

5、正则表达式 

元素描述
字符类用方括号括起来的一组字符,表示匹配其中任意一个字符。比如[abc]表示匹配a或b或c。
范围类用方括号括起来的两个字符之间加上连字符,表示匹配该范围内的任意一个字符。比如[a-z]表示匹配小写字母。
反向类在字符类或范围类前面加上^,表示匹配除了该类之外的任意一个字符。比如[^0-9]表示匹配非数字。
预定义类用反斜杠加上一个字母,表示匹配某种类型的字符。比如\d表示匹配数字,\w表示匹配字母或数字或下划线。
量词用花括号括起来的一个或两个数字,表示匹配前面的元素的重复次数。比如a{3}表示匹配三个a,a{2,4}表示匹配两个到四个a。
贪婪量词在量词后面加上?,表示匹配前面的元素的最小重复次数。比如a{2,4}?表示匹配两个a。
通配符用点号.表示匹配任意一个字符(除了换行符)。
边界符用反斜杠加上一个大写字母,表示匹配某种位置。比如\b表示匹配单词边界,\B表示匹配非单词边界。
分组用圆括号括起来的一部分正则表达式,表示将其作为一个整体进行匹配或引用。比如(ab)+表示匹配ab的一次或多次重复,\1表示引用第一个分组的内容。
选择用竖线|分隔的两个或多个正则表达式,表示匹配其中任意一个。比如a|b|c表示匹配a或b或c。

正则表达式可以用来描述各种复杂的文本模式,比如邮箱地址,手机号码,日期格式等。

示例代码:

  1. # 示例代码一:使用awk打印包含特定关键字的行
  2. awk '/关键字/' 文件名
  3. # 示例代码二:使用awk打印第一列等于指定值的行
  4. awk '$1 == "指定值"' 文件名
  5. # 示例代码三:使用awk打印字段数大于等于3的行
  6. awk 'NF >= 3' 文件名
  7. # 示例代码四:使用awk打印以特定字符串开头的行
  8. awk '$0 ~ /^特定字符串/' 文件名
  9. # 示例代码五:使用awk打印指定字段的和
  10. awk '{sum += $1} END {print sum}' 文件名
  11. # 示例代码六:使用awk打印匹配正则表达式的行
  12. awk '/正则表达式/' 文件名
  13. # 示例代码七:使用awk自定义分隔符,并打印指定字段
  14. awk -F ':' '{print $1}' 文件名
  15. # 示例代码八:使用awk在匹配的行前后添加文字
  16. awk '/匹配模式/ {print "前缀" $0 "后缀"}' 文件名
  17. # 示例代码九:使用awk按照指定条件排序
  18. awk '{print $2, $1}' 文件名 | sort
  19. # 示例代码十:使用awk统计特定字段的出现次数
  20. awk '{count[$1]++} END {for (word in count) print word, count[word]}' 文件名

 如果您觉得有些用处,欢迎在评论区留言,关注。谢谢您的阅读!

  往期学习笔记:

Windows系统开启Linux子系统(Ubuntu)

Linux常用命令(目录操作命令)

Linux常用命令:文件的创建、复制、移动、查找和删除命令

Linux常用命令:文本文件的查看与编辑

Linux常用命令:文本文件的拼接与分割

Linux常用命令:文件的权限管理

Linux常用命令:文件的下载、压缩与解压

Linux常用命令:常见的操作符

Linux常用命令:系统操作命令
 

 Linux文本处理三剑客:grep

Linux文本处理三剑客:sed

Linux文本处理三剑客:awk

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/204111
推荐阅读
相关标签
  

闽ICP备14008679号