閱讀(3.3k) 書(shū)簽贊(0) 我要糾錯(cuò)

Shell文本處理三劍客（二）

2018-06-08 17:08 更新

防偽碼：鋤禾日當(dāng)午，汗滴禾下土。

8.3 awk

awk 是一個(gè)處理文本的編程語(yǔ)言工具，能用簡(jiǎn)短的程序處理標(biāo)準(zhǔn)輸入或文件、數(shù)據(jù)排序、計(jì)算以及

生成報(bào)表等等。

在 Linux 系統(tǒng)下默認(rèn) awk 是 gawk，它是 awk 的 GNU 版本?？梢酝ㄟ^(guò)命令查看應(yīng)用的版本：ls -l

/bin/awk

基本的命令語(yǔ)法：awk option 'pattern {action}' file

其中 pattern 表示 AWK 在數(shù)據(jù)中查找的內(nèi)容，而 action 是在找到匹配內(nèi)容時(shí)所執(zhí)行的一系列命令。

花括號(hào)用于根據(jù)特定的模式對(duì)一系列指令進(jìn)行分組。

awk 處理的工作方式與數(shù)據(jù)庫(kù)類似，支持對(duì)記錄和字段處理，這也是 grep 和 sed 不能實(shí)現(xiàn)的。

在 awk 中，缺省的情況下將文本文件中的一行視為一個(gè)記錄，逐行放到內(nèi)存中處理，而將一行中的

某一部分作為記錄中的一個(gè)字段。用 1,2,3...數(shù)字的方式順序的表示行（記錄）中的不同字段。用

$后跟數(shù)字，引用對(duì)應(yīng)的字段，以逗號(hào)分隔，0 表示整個(gè)行。

8.3.1 選項(xiàng)

選項(xiàng) 描述

-f program-file 從文件中讀取 awk 程序源文件

-F fs 指定 fs 為輸入字段分隔符

-v var=value 變量賦值

--posix 兼容 POSIX 正則表達(dá)式

--dump-variables=[file] 把 awk 命令時(shí)的全局變量寫(xiě)入文件，

默認(rèn)文件是 awkvars.out

--profile=[file] 格式化 awk 語(yǔ)句到文件，默認(rèn)是 awkprof.out

8.3.2 模式

常用模式有：

Pattern Description

BEGIN{ } 給程序賦予初始狀態(tài)，先執(zhí)行的工作

END{ } 程序結(jié)束之后執(zhí)行的一些掃尾工作

/regular expression/ 為每個(gè)輸入記錄匹配正則表達(dá)式

pattern && pattern 邏輯 and，滿足兩個(gè)模式

pattern || pattern 邏輯 or，滿足其中一個(gè)模式

! pattern 邏輯 not，不滿足模式

pattern1, pattern2 范圍模式，匹配所有模式 1 的記錄，直到匹配到模式 2

而動(dòng)作呢，就是下面所講的 print、流程控制、I/O 語(yǔ)句等。

示例：

1）從文件讀取 awk 程序處理文件

# vi test.awk

{print $2}

# tail -n3 /etc/services |awk -f test.awk

48049/tcp

48128/tcp

49000/tcp

2）指定分隔符，打印指定字段

打印第二字段，默認(rèn)以空格分隔：

# tail -n3 /etc/services |awk '{print $2}'

48049/tcp

48128/tcp

48128/udp

指定冒號(hào)為分隔符打印第一字段：

# awk -F ':' '{print $1}' /etc/passwd

root

bin

daemon

adm

sync

......

還可以指定多個(gè)分隔符，作為同一個(gè)分隔符處理：

# tail -n3 /etc/services |awk -F'[/#]' '{print $3}'

iqobject

Matahari Broker

# tail -n3 /etc/services |awk -F'[/#]' '{print $1}'

iqobject 48619

matahari 49000

# tail -n3 /etc/services |awk -F'[/#]' '{print $2}'

tcp

udp

tcp

# tail -n3 /etc/services |awk -F'[/#]' '{print $3}'

iqobject

Matahari Broker

# tail -n3 /etc/services |awk -F'[ /]+' '{print $2}'

48619

49000

[]元字符的意思是符號(hào)其中任意一個(gè)字符，也就是說(shuō)每遇到一個(gè)/或#時(shí)就分隔一個(gè)字段，當(dāng)用多個(gè)

分隔符時(shí)，就能更方面處理字段了。

3）變量賦值

# awk -v a=123 'BEGIN{print a}'

123

系統(tǒng)變量作為 awk 變量的值：

# a=123

# awk -v a=$a 'BEGIN{print a}'

123

或使用單引號(hào)

# awk 'BEGIN{print '$a'}'

123

4）輸出 awk 全局變量到文件

# seq 5 |awk --dump-variables '{print $0}'

# cat awkvars.out

ARGC: number (1)

ARGIND: number (0)

ARGV: array, 1 elements

BINMODE: number (0)

CONVFMT: string ("%.6g")

ERRNO: number (0)

FIELDWIDTHS: string ("")

FILENAME: string ("-")

FNR: number (5)

FS: string (" ")

IGNORECASE: number (0)

LINT: number (0)

NF: number (1)

NR: number (5)

OFMT: string ("%.6g")

OFS: string (" ")

ORS: string ("\n")

RLENGTH: number (0)

RS: string ("\n")

RSTART: number (0)

RT: string ("\n")

SUBSEP: string ("\034")

TEXTDOMAIN: string ("messages")

5）BEGIN 和 END

BEGIN 模式是在處理文件之前執(zhí)行該操作，常用于修改內(nèi)置變量、變量賦值和打印輸出的頁(yè)眉或標(biāo)

題。

例如：打印頁(yè)眉

# tail /etc/services |awk 'BEGIN{print "Service\t\tPort\t\t\tDescription\n==="}{print

$0}'

Service Port Description

===

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

END 模式是在程序處理完才會(huì)執(zhí)行。

例如：打印頁(yè)尾

# tail /etc/services |awk '{print $0}END{print "===\nEND......"}'

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

===

END......

6）格式化輸出 awk 命令到文件

# tail /etc/services |awk --profile 'BEGIN{print

"Service\t\tPort\t\t\tDescription\n==="}{print $0}END{print "===\nEND......"}'

Service Port Description

===

nimgtw 48003/udp # Nimbus Gateway

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service Protocol

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

===

END......

# cat awkprof.out

# gawk profile, created Sat Jan 7 19:45:22 2017

# BEGIN block(s)

BEGIN {

print "Service\t\tPort\t\t\tDescription\n==="

}

# Rule(s)

{

print $0

}

# END block(s)

END {

print "===\nEND......"

}

7）/re/正則匹配

匹配包含 tcp 的行：

# tail /etc/services |awk '/tcp/{print $0}'

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

iqobject 48619/tcp # iqobject

matahari 49000/tcp # Matahari Broker

匹配開(kāi)頭是 blp5 的行：

# tail /etc/services |awk '/^blp5/{print $0}'

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

匹配第一個(gè)字段是 8 個(gè)字符的行：

# tail /etc/services |awk '/^[a-z0-9]{8} /{print $0}'

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

如果沒(méi)有匹配到，請(qǐng)查看你的 awk 版本（awk --version）是不是 3，因?yàn)?4 才支持{}

8）邏輯 and、or 和 not

匹配記錄中包含 blp5 和 tcp 的行：

# tail /etc/services |awk '/blp5/ && /tcp/{print $0}'

blp5 48129/tcp # Bloomberg locator

匹配記錄中包含 blp5 或 tcp 的行：

# tail /etc/services |awk '/blp5/ || /tcp/{print $0}'

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

iqobject 48619/tcp # iqobject

matahari 49000/tcp # Matahari Broker

不匹配開(kāi)頭是#和空行：

# awk '! /^#/ && ! /^$/{print $0}' /etc/httpd/conf/httpd.conf

或

# awk '! /^#|^$/' /etc/httpd/conf/httpd.conf

或

# awk '/^[^#]|"^$"/' /etc/httpd/conf/httpd.conf

9）匹配范圍

# tail /etc/services |awk '/^blp5/,/^com/'

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

對(duì)匹配范圍后記錄再次處理，例如匹配關(guān)鍵字下一行到最后一行：

# seq 5 |awk '/3/,/^$/{printf /3/?"":$0"\n"}'

另一種判斷真假的方式實(shí)現(xiàn)：

# seq 5 |awk '/3/{t=1;next}t'

1 和 2 都不匹配 3，不執(zhí)行后面{}，執(zhí)行 t，t 變量還沒(méi)賦值，為空，空在 awk 中就為假，就不打印

當(dāng)前行。匹配到 3，執(zhí)行 t=1，next 跳出，不執(zhí)行 t。4 也不匹配 3，執(zhí)行 t，t 的值上次賦值的 1，

為真，打印當(dāng)前行，以此類推。（非 0 的數(shù)字都為真，所以 t 可以寫(xiě)任意非 0 數(shù)字）

如果想打印匹配行都最后一行，就可以這樣了：

# seq 5 |awk '/3/{t=1}t'

8.3.3 內(nèi)置變量

變量名描述

FS 輸入字段分隔符，默認(rèn)是空格或制表符

OFS 輸出字段分隔符，默認(rèn)是空格

RS 輸入記錄分隔符，默認(rèn)是換行符\n

ORS 輸出記錄分隔符，默認(rèn)是換行符\n

NF 統(tǒng)計(jì)當(dāng)前記錄中字段個(gè)數(shù)

NR 統(tǒng)計(jì)記錄編號(hào)，每處理一行記錄，編號(hào)就會(huì)+1

FNR 統(tǒng)計(jì)記錄編號(hào)，每處理一行記錄，編號(hào)也會(huì)+1，與 NR 不同的是，處理第二個(gè)

文件時(shí)，編號(hào)會(huì)重新計(jì)數(shù)。

ARGC 命令行參數(shù)數(shù)量

ARGV 命令行參數(shù)數(shù)組序列數(shù)組，下標(biāo)從 0 開(kāi)始，ARGV[0]是 awk

ARGIND 當(dāng)前正在處理的文件索引值。第一個(gè)文件是 1，第二個(gè)文件是 2，以此類推

ENVIRON 當(dāng)前系統(tǒng)的環(huán)境變量

FILENAME 輸出當(dāng)前處理的文件名

IGNORECASE 忽略大小寫(xiě)

SUBSEP 數(shù)組中下標(biāo)的分隔符，默認(rèn)為"\034"

示例：

1）FS 和 OFS

在程序開(kāi)始前重新賦值 FS 變量，改變默認(rèn)分隔符為冒號(hào)，與-F 一樣。

# awk 'BEGIN{FS=":"}{print $1,$2}' /etc/passwd |head -n5

root x

bin x

daemon x

adm x

lp x

也可以使用-v 來(lái)重新賦值這個(gè)變量：

# awk -vFS=':' '{print $1,$2}' /etc/passwd |head -n5 # 中間逗號(hào)被換成了 OFS 的默

認(rèn)值

root x

bin x

daemon x

adm x

lp x

由于 OFS 默認(rèn)以空格分隔，反向引用多個(gè)字段分隔的也是空格，如果想指定輸出分隔符這樣：

# awk 'BEGIN{FS=":";OFS=":"}{print $1,$2}' /etc/passwd |head -n5

root:x

bin:x

daemon:x

adm:x

lp:x

也可以通過(guò)字符串拼接實(shí)現(xiàn)分隔：

# awk 'BEGIN{FS=":"}{print $1"#"$2}' /etc/passwd |head -n5

root#x

bin#x

daemon#x

adm#x

lp#x

2）RS 和 ORS

RS 默認(rèn)是\n 分隔每行，如果想指定以某個(gè)字符作為分隔符來(lái)處理記錄：

# echo "www.baidu.com/user/test.html" |awk 'BEGIN{RS="/"}{print $0}'

www.baidu.com

user

test.html

RS 也支持正則，簡(jiǎn)單演示下：

# seq -f "str%02g" 10 |sed 'n;n;a\-----' |awk 'BEGIN{RS="-+"}{print $1}'

str01

str04

str07

str10

將輸出的換行符替換為+號(hào)：

# seq 10 |awk 'BEGIN{ORS="+"}{print $0}'

1+2+3+4+5+6+7+8+9+10+

替換某個(gè)字符：

# tail -n2 /etc/services |awk 'BEGIN{RS="/";ORS="#"}{print $0}'

iqobject 48619#udp # iqobject

matahari 49000#tcp # Matahari Broker

3）NF

NF 是字段個(gè)數(shù)。

# echo "a b c d e f" |awk '{print NF}'

打印最后一個(gè)字段：

# echo "a b c d e f" |awk '{print $NF}'

打印倒數(shù)第二個(gè)字段：

# echo "a b c d e f" |awk '{print $(NF-1)}'

排除最后兩個(gè)字段：

# echo "a b c d e f" |awk '{$NF="";$(NF-1)="";print $0}'

a b c d

排除第一個(gè)字段：

# echo "a b c d e f" |awk '{$1="";print $0}'

b c d e f

4）NR 和 FNR

NR 統(tǒng)計(jì)記錄編號(hào)，每處理一行記錄，編號(hào)就會(huì)+1，F(xiàn)NR 不同的是在統(tǒng)計(jì)第二個(gè)文件時(shí)會(huì)重新計(jì)數(shù)。

打印行數(shù)：

# tail -n5 /etc/services |awk '{print NR,$0}'

1 com-bardac-dw 48556/tcp # com-bardac-dw

2 com-bardac-dw 48556/udp # com-bardac-dw

3 iqobject 48619/tcp # iqobject

4 iqobject 48619/udp # iqobject

5 matahari 49000/tcp # Matahari Broker

打印總行數(shù)：

# tail -n5 /etc/services |awk 'END{print NR}'

打印第三行：

# tail -n5 /etc/services |awk 'NR==3'

iqobject 48619/tcp # iqobject

打印第三行第二個(gè)字段：

# tail -n5 /etc/services |awk 'NR==3{print $2}'

48619/tcp

打印前三行：

# tail -n5 /etc/services |awk 'NR<=3{print NR,$0}'

1 com-bardac-dw 48556/tcp # com-bardac-dw

2 com-bardac-dw 48556/udp # com-bardac-dw

3 iqobject 48619/tcp # iqobject

看下 NR 和 FNR 的區(qū)別：

# cat a

# cat b

# awk '{print NR,FNR,$0}' a b

1 1 a

2 2 b

3 3 c

4 1 c

5 2 d

6 3 e

可以看出 NR 每處理一行就會(huì)+1，而 FNR 在處理第二個(gè)文件時(shí)，編號(hào)重新計(jì)數(shù)。同時(shí)也知道 awk 處理

兩個(gè)文件時(shí)，是合并到一起處理。

# awk 'FNR==NR{print $0"1"}FNR!=NR{print $0"2"}' a b

當(dāng) FNR==NR 時(shí)，說(shuō)明在處理第一個(gè)文件內(nèi)容，不等于時(shí)說(shuō)明在處理第二個(gè)文件內(nèi)容。

一般 FNR 在處理多個(gè)文件時(shí)會(huì)用到，下面會(huì)講解。

5）ARGC 和 ARGV

ARGC 是命令行參數(shù)數(shù)量

ARGV 是將命令行參數(shù)存到數(shù)組，元素由 ARGC 指定，數(shù)組下標(biāo)從 0 開(kāi)始

# awk 'BEGIN{print ARGC}' 1 2 3

# awk 'BEGIN{print ARGV[0]}'

awk

# awk 'BEGIN{print ARGV[1]}' 1 2

# awk 'BEGIN{print ARGV[2]}' 1 2

6）ARGIND

ARGIND 是當(dāng)前正在處理的文件索引值，第一個(gè)文件是 1，第二個(gè)文件是 2，以此類推，從而可以通

過(guò)這種方式判斷正在處理哪個(gè)文件。

# awk '{print ARGIND,$0}' a b

1 a

1 b

1 c

2 c

2 d

2 e

# awk 'ARGIND==1{print "a->"$0}ARGIND==2{print "b->"$0}' a b

a->a

a->b

a->c

b->c

b->d

b->e

7）ENVIRON

ENVIRON 調(diào)用系統(tǒng)變量。

# awk 'BEGIN{print ENVIRON["HOME"]}'

/root

如果是設(shè)置的環(huán)境變量，還需要用 export 導(dǎo)入到系統(tǒng)變量才可以調(diào)用：

# awk 'BEGIN{print ENVIRON["a"]}'

# export a

# awk 'BEGIN{print ENVIRON["a"]}'

123

8）FILENAME

FILENAME 是當(dāng)前處理文件的文件名。

# awk 'FNR==NR{print FILENAME"->"$0}FNR!=NR{print FILENAME"->"$0}' a b

a->a

a->b

a->c

b->c

b->d

b->e

9）忽略大小寫(xiě)

# echo "A a b c" |xargs -n1 |awk 'BEGIN{IGNORECASE=1}/a/'

等于 1 代表忽略大小寫(xiě)。

8.3.4 4 操作符

運(yùn)算符描述

（....）分組

$ 字段引用

++ -- 遞增和遞減

+ - ! 加號(hào)，減號(hào)，和邏輯否定

* / % 乘，除和取余

+ - 加法，減法

| |& 管道，用于 getline，print 和 printf

< > <= >= != == 關(guān)系運(yùn)算符

~ !~ 正則表達(dá)式匹配，否定正則表達(dá)式匹配

in 數(shù)組成員

&& || 邏輯 and，邏輯 or

?: 簡(jiǎn)寫(xiě)條件表達(dá)式：

expr1 ? expr2 : expr3

第一個(gè)表達(dá)式為真，執(zhí)行 expr2，否則執(zhí)行 expr3

= += -= *= /= %= ^= 變量賦值運(yùn)算符

須知：在 k awk 中，有 3 3 種情況表達(dá)式為假：數(shù)字是 0 0 ，空字符串和未定義的值

數(shù)值運(yùn)算，未定義變量初始值為 0 0 。字符運(yùn)算，未定義變量初始值為空。

舉例測(cè)試：

# awk 'BEGIN{n=0;if(n)print "true";else print "false"}'

false

# awk 'BEGIN{s="";if(s)print "true";else print "false"}'

false

# awk 'BEGIN{if(s)print "true";else print "false"}'

false

示例：

1）截取整數(shù)

# echo "123abc abc123 123abc123" |xargs -n1 | awk '{print +$0}'

123

# echo "123abc abc123 123abc123" |xargs -n1 | awk '{print -$0}'

-123

2）感嘆號(hào)

打印奇數(shù)行：

# seq 6 |awk 'i=!i'

讀取第一行，i 是未定義變量，也就是 i=!0，!取反意思。感嘆號(hào)右邊是個(gè)布爾值，0 或空字符串為

假，非 0 或非空字符串為真，!0 就是真，因此 i=1，條件為真打印當(dāng)前記錄。

沒(méi)有 print 為什么會(huì)打印呢？因?yàn)槟Ｊ胶竺鏇](méi)有動(dòng)作，默認(rèn)會(huì)打印整條記錄。

讀取第二行，因?yàn)樯洗?i 的值由 0 變成了 1，此時(shí)就是 i=!1，條件為假不打印。

讀取第三行，上次條件又為假，i 恢復(fù)初始值 0，取反，繼續(xù)打印。以此類推...

可以看出，運(yùn)算時(shí)并沒(méi)有判斷行內(nèi)容，而是利用布爾值真假判斷輸出當(dāng)前行。

打印偶數(shù)行：

# seq 6 |awk '!(i=!i)'

2）不匹配某行

# tail /etc/services |awk '!/blp5/{print $0}'

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

3）乘法和除法

# seq 5 |awk '{print $0*2}'

# seq 5 |awk '{print $0%2}'

打印偶數(shù)行：

# seq 5 |awk '$0%2==0{print $0}'

打印奇數(shù)行：

# seq 5 |awk '$0%2!=0{print $0}'

4）管道符使用

# seq 5 |shuf |awk '{print $0|"sort"}'

5）正則表達(dá)式匹配

# seq 5 |awk '$0~3{print $0}'

# seq 5 |awk '$0!~3{print $0}'

# seq 5 |awk '$0~/[34]/{print $0}'

# seq 5 |awk '$0!~/[34]/{print $0}'

# seq 5 |awk '$0~/[^34]/{print $0}'

6）判斷數(shù)組成員

# awk 'BEGIN{a["a"]=123}END{if("a" in a)print "yes"}' </dev/null

yes

7）三目運(yùn)算符

# awk 'BEGIN{print 1==1?"yes":"no"}' # 三目運(yùn)算作為一個(gè)表達(dá)式，里面不允許寫(xiě) print

yes

# seq 3 |awk '{print $0==2?"yes":"no"}'

yes

替換換行符為逗號(hào)：

# seq 5 |awk '{print n=(n?n","$0:$0)}'

1,2

1,2,3

1,2,3,4

1,2,3,4,5

# seq 5 |awk '{n=(n?n","$0:$0)}END{print n}'

1,2,3,4,5

說(shuō)明：讀取第一行時(shí)，n 沒(méi)有變量，為假輸出$0 也就是 1，并賦值變量 n，讀取第二行時(shí)，n 是 1 為

真，輸出 1,2 以此類推，后面會(huì)一直為真。

每三行后面添加新一行：

# seq 10 |awk '{print NR%3?$0:$0 "\ntxt"}'

txt

在

兩行合并一行：

# seq 6 |awk '{printf NR%2!=0?$0" ":$0" \n"}'

1 2

3 4

5 6

# seq 6 |awk 'ORS=NR%2?" ":"\n"'

1 2

3 4

5 6

# seq 6 |awk '{if(NR%2)ORS=" ";else ORS="\n";print}'

8）變量賦值

字段求和：

# seq 5 |awk '{sum+=1}END{print sum}'

# seq 5 |awk '{sum+=$0}END{print sum}'

8.3.5 5 流程控制

1 1 ）f if 語(yǔ)句

格式：if (condition) statement [ else statement ]

單分支：

# seq 5 |awk '{if($0==3)print $0}'

雙分支：

# seq 5 |awk '{if($0==3)print $0;else print "no"}'

多分支：

# cat file

1 2 3

4 5 6

7 8 9

# awk '{if($1==4){print "1"} else if($2==5){print "2"} else if($3==6){print "3"} else

{print "no"}}' file

2 2 ）e while 語(yǔ)句

格式：while (condition) statement

遍歷打印所有字段：

# awk '{i=1;while(i<=NF){print $i;i++}}' file

awk 是按行處理的，每次讀取一行，并遍歷打印每個(gè)字段。

3 3 ）r for 語(yǔ)句 C C 語(yǔ)言風(fēng)格

格式：for (expr1; expr2; expr3) statement

遍歷打印所有字段：

# cat file

1 2 3

4 5 6

7 8 9

# awk '{for(i=1;i<=NF;i++)print $i}' file

倒敘打印文本：

# awk '{for(i=NF;i>=1;i--)print $i}' file

都換行了，這并不是我們要的結(jié)果。怎么改進(jìn)呢？

# awk '{for(i=NF;i>=1;i--){printf $i" "};print ""}' file # print 本身就會(huì)新打印一行

3 2 1

6 5 4

9 8 7

或

# awk '{for(i=NF;i>=1;i--)if(i==1)printf $i"\n";else printf $i" "}' file

3 2 1

6 5 4

9 8 7

在這種情況下，是不是就排除第一行和倒數(shù)第一行呢？我們正序打印看下

排除第一行：

# awk '{for(i=2;i<=NF;i++){printf $i" "};print ""}' file

2 3

5 6

8 9

排除第二行：

# awk '{for(i=1;i<=NF-1;i++){printf $i" "};print ""}' file

1 2

4 5

7 8

IP 加單引號(hào)：

# echo '10.10.10.1 10.10.10.2 10.10.10.3' |awk '{for(i=1;i<=NF;i++)printf

"\047"$i"\047"}

'10.10.10.1' '10.10.10.2' '10.10.10.3'

\047 是 ASCII 碼，可以通過(guò) showkey -a 命令查看。

4 4 ）r for 語(yǔ)句遍歷數(shù)組

格式：for (var in array) statement

# seq -f "str%.g" 5 |awk '{a[NR]=$0}END{for(v in a)print v,a[v]}'

4 str4

5 str5

1 str1

2 str2

3 str3

5 5 ）k break 和和 e continue 語(yǔ)句

break 跳過(guò)所有循環(huán)，continue 跳過(guò)當(dāng)前循環(huán)。

# awk 'BEGIN{for(i=1;i<=5;i++){if(i==3){break};print i}}'

# awk 'BEGIN{for(i=1;i<=5;i++){if(i==3){continue};print i}}'

6 6 ）刪除數(shù)組和元素

格式：

delete array[index] 刪除數(shù)組元素

delete array 刪除數(shù)組

# seq -f "str%.g" 5 |awk '{a[NR]=$0}END{delete a;for(v in a)print v,a[v]}'

空的…

# seq -f "str%.g" 5 |awk '{a[NR]=$0}END{delete a[3];for(v in a)print v,a[v]}'

4 str4

5 str5

1 str1

2 str2

7 7 ）t exit 語(yǔ)句

格式：exit [ expression ]

exit 退出程序，與 shell 的 exit 一樣。[ expr ]是 0-255 之間的數(shù)字。

# seq 5 |awk '{if($0~/3/)exit (123)}'

# echo $?

123

8.3.6 6 數(shù)組

數(shù)組：存儲(chǔ)一系列相同類型的元素，鍵/值方式存儲(chǔ)，通過(guò)下標(biāo)（鍵）來(lái)訪問(wèn)值。

awk 中數(shù)組稱為關(guān)聯(lián)數(shù)組，不僅可以使用數(shù)字作為下標(biāo)，還可以使用字符串作為下標(biāo)。

數(shù)組元素的鍵和值存儲(chǔ)在 awk 程序內(nèi)部的一個(gè)表中，該表采用散列算法，因此數(shù)組元素是隨機(jī)排

序。

數(shù)組格式：array[index]=value

1）自定義數(shù)組

# awk 'BEGIN{a[0]="test";print a[0]}'

test

2）通過(guò) NR 設(shè)置記錄下標(biāo)，下標(biāo)從 1 開(kāi)始

# tail -n3 /etc/passwd |awk -F: '{a[NR]=$1}END{print a[1]}'

systemd-network

# tail -n3 /etc/passwd |awk -F: '{a[NR]=$1}END{print a[2]}'

zabbix

# tail -n3 /etc/passwd |awk -F: '{a[NR]=$1}END{print a[3]}'

user

3）通過(guò) for 循環(huán)遍歷數(shù)組

# tail -n5 /etc/passwd |awk -F: '{a[NR]=$1}END{for(v in a)print a[v],v}'

zabbix 4

user 5

admin 1

systemd-bus-proxy 2

systemd-network 3

# tail -n5 /etc/passwd |awk -F: '{a[NR]=$1}END{for(i=1;i<=NR;i++)print a[i],i}'

admin 1

systemd-bus-proxy 2

systemd-network 3

zabbix 4

user 5

上面打印的 i 是數(shù)組的下標(biāo)。

第一種 for 循環(huán)的結(jié)果是亂序的，剛說(shuō)過(guò)，數(shù)組是無(wú)序存儲(chǔ)。

第二種 for 循環(huán)通過(guò)下標(biāo)獲取的情況是排序正常。

所以當(dāng)下標(biāo)是數(shù)字序列時(shí)，還是用 for(expr1;expr2;expr3)循環(huán)表達(dá)式比較好，保持順序不變。

4）通過(guò)++方式作為下標(biāo)

# tail -n5 /etc/passwd |awk -F: '{a[x++]=$1}END{for(i=0;i<=x-1;i++)print a[i],i}'

admin 0

systemd-bus-proxy 1

systemd-network 2

zabbix 3

user 4

x 被 awk 初始化值是 0，沒(méi)循環(huán)一次+1

5）使用字段作為下標(biāo)

# tail -n5 /etc/passwd |awk -F: '{a[$1]=$7}END{for(v in a)print a[v],v}'

/sbin/nologin admin

/bin/bash user

/sbin/nologin systemd-network

/sbin/nologin systemd-bus-proxy

/sbin/nologin zabbix

6）統(tǒng)計(jì)相同字段出現(xiàn)次數(shù)

# tail /etc/services |awk '{a[$1]++}END{for(v in a)print a[v],v}'

2 com-bardac-dw

1 3gpp-cbsp

2 iqobject

1 matahari

2 isnetserv

2 blp5

# tail /etc/services |awk '{a[$1]+=1}END{for(v in a)print a[v],v}'

2 com-bardac-dw

1 3gpp-cbsp

2 iqobject

1 matahari

2 isnetserv

2 blp5

# tail /etc/services |awk '/blp5/{a[$1]++}END{for(v in a)print a[v],v}'

2 blp5

第一個(gè)字段作為下標(biāo)，值被++初始化是 0，每次遇到下標(biāo)（第一個(gè)字段）一樣時(shí)，對(duì)應(yīng)的值就會(huì)被

+1，因此實(shí)現(xiàn)了統(tǒng)計(jì)出現(xiàn)次數(shù)。

想要實(shí)現(xiàn)去重的的話就簡(jiǎn)單了，只要打印下標(biāo)即可。

7）統(tǒng)計(jì) TCP 連接狀態(tài)

# netstat -antp |awk '/^tcp/{a[$6]++}END{for(v in a)print a[v],v}'

9 LISTEN

6 ESTABLISHED

6 TIME_WAIT

8）只打印出現(xiàn)次數(shù)大于等于 2 的

# tail /etc/services |awk '{a[$1]++}END{for(v in a) if(a[v]>=2){print a[v],v}}'

2 com-bardac-dw

2 iqobject

2 isnetserv

2 blp5

9）去重

只打印重復(fù)的行：

# tail /etc/services |awk 'a[$1]++'

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/udp # iqobject

不打印重復(fù)的行：

# tail /etc/services |awk '!a[$1]++'

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

iqobject 48619/tcp # iqobject

matahari 49000/tcp # Matahari Broker

先明白一個(gè)情況，當(dāng)值是 0 是為假，非 0 整數(shù)為真，知道這點(diǎn)就不難理解了。

只打印重復(fù)的行說(shuō)明：當(dāng)處理第一條記錄時(shí)，執(zhí)行了++，初始值是 0 為假，就不打印，如果再遇到

相同的記錄，值就會(huì)+1，不為 0，則打印。

不打印重復(fù)的行說(shuō)明：當(dāng)處理第一條記錄時(shí)，執(zhí)行了++，初始值是 0 為假，感嘆號(hào)取反為真，打

印，如果再遇到相同的記錄，值就會(huì)+1，不為 0 為真，取反為假就不打印。

# tail /etc/services |awk '{if(a[$1]++)print $1}'

isnetserv

blp5

com-bardac-dw

iqobject

使用三目運(yùn)算：

# tail /etc/services |awk '{print a[$1]++?$1:"no"}'

isnetserv

blp5

com-bardac-dw

iqobject

# tail /etc/services |awk '{if(!a[$1]++)print $1}'

3gpp-cbsp

isnetserv

blp5

com-bardac-dw

iqobject

matahari

10）統(tǒng)計(jì)每個(gè)相同字段的某字段總數(shù)：

# tail /etc/services |awk -F'[ /]+' '{a[$1]+=$2}END{for(v in a)print v, a[v]}'

com-bardac-dw 97112

3gpp-cbsp 48049

iqobject 97238

matahari 49000

isnetserv 96256

blp5 96258

11）多維數(shù)組

awk 的多維數(shù)組，實(shí)際上 awk 并不支持多維數(shù)組，而是邏輯上模擬二維數(shù)組的訪問(wèn)方式，比如

a[a,b]=1，使用 SUBSEP（默認(rèn)\034）作為分隔下標(biāo)字段，存儲(chǔ)后是這樣 a\034b。

示例：

# awk 'BEGIN{a["x","y"]=123;for(v in a) print v,a[v]}'

xy 123

我們可以重新復(fù)制 SUBSEP 變量，改變下標(biāo)默認(rèn)分隔符：

# awk 'BEGIN{SUBSEP=":";a["x","y"]=123;for(v in a) print v,a[v]}'

x:y 123

根據(jù)指定的字段統(tǒng)計(jì)出現(xiàn)次數(shù)：

# cat a

A 192.168.1.1 HTTP

B 192.168.1.2 HTTP

B 192.168.1.2 MYSQL

C 192.168.1.1 MYSQL

C 192.168.1.1 MQ

D 192.168.1.4 NGINX

# awk 'BEGIN{SUBSEP="-"}{a[$1,$2]++}END{for(v in a)print a[v],v}' a

1 D-192.168.1.4

1 A-192.168.1.1

2 C-192.168.1.1

2 B-192.168.1.2

本文出自 “一盞燭光” 博客，謝絕轉(zhuǎn)載！

以上內(nèi)容是否對(duì)您有幫助：

← Shell文本處理三劍客（一）

Shell文本處理三劍客（三） →

寫(xiě)筆記

我要補(bǔ)充