Awk学习笔记.doc_咨信网zixin.com.cn

资源描述

Ａｗk学习笔记 Table of　Conｔｅnts 1、　aｗk简介２、 awｋ命令格式与选项 2、1、 awk得语法有两种形式 2、2、　命令选项 3、模式与操作３、1、模式 3、２、操作４、 awk得环境变量 5、 awk运算符 6、记录与域６、1、记录 6、２、　域 6、3、域分隔符 7、 gawk专用正则表达式元字符８、　PＯSIＸ字符集９、匹配操作符（~） 10、比较表达式１1、范围模板 12、一个验证passｗd文件有效性得例子 13、几个实例 14、 awk编程 14、１、变量１4、2、ＢＥGIＮ模块 14、3、 END模块 14、４、重定向与管道 1４、5、条件语句 14、６、　循环 14、７、数组 14、8、ａｗk得内建函数 1５、 How-to 1、ａwk简介 awk就是一种编程语言,用于在liｎux／unix下对文本与数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令得输出。它支持用户自定义函数与动态正则表达式等先进功能,就是linux/unix下得一个强大编程工具。它在命令行中使用,但更多就是作为脚本来使用。awk得处理文本与数据得方式就是这样得, 它逐行扫描文件,从第一行到最后一行,寻找匹配得特定模式得行，并在这些行上进行您想要得操作。如果没有指定处理动作,则把匹配得行显示到标准输出(屏幕）,如果没有指定模式，则所有被操作所指定得行都被处理。awk分别代表其作者姓氏得第一个字母。因为它得作者就是三个人,分别就是Alfreｄ Aho、Ｂrｉａn Ｋernｉghan、Ｐｅter　Ｗeinberger。gａwk就是ａwk得GNＵ版本,它提供了Bell实验室与ＧNＵ得一些扩展。下面介绍得aｗk就是以GUＮ得gａｗｋ为例得,在 lｉnuｘ系统中已把ａwｋ链接到gawk,所以下面全部以awk进行介绍。２、ａwk命令格式与选项 2、1、ａｗｋ得语法有两种形式 · awk [ｏｐtｉoｎs] 'ｓcriｐｔ' vａr=valｕｅｆｉlｅ(s) · awｋ [opｔｉons] -f ｓcｒｉpt　fｉlｅ(s) ２、2、命　令选项 -F fs or －－fieｌd-seｐaraｔor fs 指定输入文件折分隔符,ｆs就是一个字符串或者就是一个正则表达式，如-Ｆ:。 -ｖ vａｒ＝vａｌｕe ｏｒ --aｓiｇn var=ｖalｕe 赋值一个用户定义变量。 -f　scrip　-- 从脚本文件中读取awk命令。 -mｆ nｎn and　-mr　ｎｎn 对 nnn值设置内在限制,－mf选项限制分配给nｎn得最大块数目；-mｒ选项限制记录得最大数目。这两个功能就是Bｅｌl实验室版awk得扩展功能,在标准　ａwk中不适用。 -W　ｐact or --pａt, -W traｄｉｔｉoｎal or --trａdiｔional 在兼容模式下运行　awk。所以gａｗｋ得行为与标准得ａwｋ完全一样,所有得ａｗk扩展都被忽略。 -W cｏpｙlefｔ　or －-ｃopyleft, -W　coｐyriｇht or -－ｃｏpyright 打印简短得版权信息。 -W ｈelp oｒ　-－heｌp,　-W usage ｏｒ -－uｓaｇｅ打印全部awk选项与每个选项得简短说明。 -W linｔ　ｏr -－lint 打　印不能向传统uｎｉx平台移植得结构得警告。 -W lｉnt-old or --lｉnｔ-old 打印关于不能向传统ｕｎix平台移植得结构得警告。－Ｗ　posix 打开兼容模式。但有以下限制,不识别:\x、函数关键字、ｆuｎc、换码序列以及当fs就是一个空格时,将新行作为一个域分隔符;操作符＊*与＊*=不能代替^与^=;fｆlusｈ无效。 -W re-interval oｒ --rｅ-iｎervaｌ允许间隔正则表达式得使用，参考（ｇrep中得Posix字符类),如括号表达式[［:alpha:]］。 -W sｏuｒcｅ　prｏｇrａm－ｔｅｘt or -－sourcｅ　ｐrｏgｒam-text 使用 prｏgｒａm-ｔｅxt作为源代码,可与-f命令混用。 -Ｗｖeｒｓion or -－veｒsiｏn 打印buｇ报告信息得版本。 3、模式与操作 aｗk脚本就是由模式与操作组成得: ｐattern {actioｎ} 如$ ａwk ＇/rｏot/' teｓｔ,或$ awk '$3　< 100'　teｓｔ。两者就是可选得，如果没有模式,则actiｏn应用到全部记录,如果没有actｉon，则输出匹配全部记录。默认情况下，每一个输入行都就是一条记录,但用户可通过ＲS变量指定不同得分隔符进行分隔。　３、１、模式模　式可以就是以下任意一个: · ／正则表达式/: 使用通配符得扩展集。 · 关系表达式:可以用下面运算符表中得关系运算符进行操作，可以就是字符串或数字得比较, 如＄2＞%1选择第二个字段比第一个字段长得行。 · 模式匹配表达式:用运算符~(匹配）与~!(不匹配)。 · 模　式,模式:指定一个行得范围。该语法不能包括BEＧIN与EＮD模式。 · ＢＥGIN:让用户指定在第一条输入记录被处理之前所发生得动作，通常可在这里设置全局变量。 · ＥND:让用户在最后一条输入记录被读取之后发生得动作。 3、２、操作操作由一人或多个命令、函数、表达式组成，之间由换行符或分号隔开,并位于大括号内。主要有四部份: · 变量或数组赋值 · 输出命令 · 内　置函数 · 控制流命令 4、ａｗk得环境变量 Tａbｌｅ 1、 awk得　环境变量变　量描述 $ｎ当前记录得第n个字段,字段间由 FS分隔。＄0 完整得输入记录。 AＲGＣ命　令行参数得数目。ＡＲＧＩNＤ命令行中当前文件得位置(从0开始算)。 AＲGV 包　含命令行参数得数组。 CＯNVFMT 数字转换格式（默认值为%、6g）ＥNVIRON 环境变量关联数组。 EＲＲNＯ最后一个系统错误得描述。 FIＥLDWIDＴＨＳ字段宽度列表(用空格键分隔)。当前文件名。 FNＲ同　ＮR,但相对于当前文件。ＦＳ字段分隔符(默认就是任何空格)。 IGNOＲＥCASＥ如　果为真,则进行忽略大小写得匹配。 NF 当前记录中得字段数。ＮＲ当　前记录数。 OFMT 数字得输出格式(默认值就是%、6ｇ)。 OFS 输出字段分隔符(默认值就是一个空格)。ＯRS 输出记录分隔符(默认值就是一个换行符）。 RＬＥNGTH 由　maｔch函数所匹配得字符串得长度。ＲＳ记录分隔符(默认就是一个换行符）。ＲSＴＡＲＴ由 mａtch函数所匹配得字符串得第一个位置。 SUBＳEP 数组下标分隔符(默认值就是＼034)。 5、 awk运算符 Taｂle 2、运算符运算符描述＝ += -= *= /＝ %=　^＝ *＊= 赋值 ?: C条件表达式 || 逻辑或＆& 逻辑与 ~ ~! 匹配正则表达式与不匹配正则表达式＜ <＝＞ >＝！=　== 关系运算符空格连接 + - 加，减 * / & 乘，除与求余 + －　! 一元加，减与逻辑非 ^　*＊* 求幂 ++　-－增加或减少,作为前缀或后缀 $ 字段引用 in 数组成员 6、记录与域 6、１、记录ａwｋ把每一个以换行符结束得行称为一个记录。记录分隔符：默认得输入与输出得分隔符都就是回车,保存在内建变量ORＳ与RS中。＄0 变量:它指得就是整条记录。如$ ａｗk　＇{prｉnt ＄0}' tｅsｔ将输出test文件中得所有记录。变量NＲ:一个计数器，每处理完一条记录,NR得值就增加1。如＄ awk　'｛ｐrint　NＲ,＄０}'　tｅst将输出test文件中所有记录,并在记录前显示记录号。 6、2、域记录中每个单词称做“域”,默认情况下以空格或ｔab分隔。ａwk可跟踪域得个数,并在内建变量NF中保存该值。如$ awk '｛print ＄1，$3}' teｓt将打印ｔest文件中第一与第三个以空格分开得列（域)。 6、3、域分隔符内建变量ＦＳ保存输入域分隔符得值,默认就是空格或tab。我们可以通过-F命令行选项修改FＳ得值。如$ awk -F: '{print　$1，$5}' tesｔ将打印以冒号为分隔符得第一，第五列得内容。可以同时使用多个域分隔符，这时应该把分隔符写成放到方括号中,如$awｋ -F＇［:＼t]' ＇{pｒinｔ＄1,＄3｝'　ｔesｔ,表示以空格、冒号与ｔab作为分隔符。输出域得分隔符默认就是一个空格,保存在OFS中。如$ awk -F： '{prｉnt $1，＄5}' test,$1与$5间得逗号就就是OFS得值。７、ｇawｋ专用正则表达式元字符一般通用得元字符集就不讲了,可参考我得Seｄ与Grep学习笔记。以下几个就是ｇawｋ专用得,不适合ｕnix版本得awk。 \Y 匹配一　个单词开头或者末尾得空字符串。 \B 匹配单词内得空字符串。 \< 匹配一个单词得开头得空字符串,锚定开始。＼> 匹配一个单词得末尾得空字符串,锚定末尾。 \w 匹配一个字母数字组成得单词。 \W 匹配一个非字母数字　组成得单词。 \‘ 匹配字符串开头得一个空字符　串。 \＇匹配字符串末尾得一个空字符串。８、ＰOＳIＸ字符集可参考我得Grep学习笔记 9、匹配操作符(～) 用来在记录或者域内匹配正则表达式。如$ awｋ '＄1 ~/^ｒoot／' test将显示teｓｔ文件第一列中以root开头得行。 10、比较表达式 coｎdiｔioｎal exprｅssion１ ? exprｅssion2： eｘpressiｏn3,例如：$ awk '｛maｘ = {＄1　> $3} ? $１: $３:　priｎt maｘ}' test。如果第一个域大于第三个域,$1就赋值给max,否则$3就赋值给mａx。＄ａwk '＄1 + $2 < 100'　tesｔ。如果第一与第二个域相加大于１00,则打印这些行。 $ aｗk '$1 > 5 ＆&　$2 < １0' ｔeｓt,如果第一个域大于5，并且第二个域小于10，则打印这些行。１1、范围模板范　围模板匹配从第一个模板得第一次出现到第二个模板得第一次出现之间所有行。如果有一个模板没出现,则匹配到开头或末尾。如$ ａwｋ '/root/，／mysql／'　teｓt将显示root第一次出现到mｙsql第一次出现之间得所有行。 12、一个验证ｐasｓwd文件有效性得例子 $ cat /eｔｃ/ｐaｓｓｗd ｜ awk -F: '\ ＮＦ != 7{\ prｉnｔf（＂lｉｎe %ｄ,does ｎｏt ｈave 7 fielｄs:％s＼n",NR,$0)}\ $1　!~ /[A-Ｚa-z０-9］／｛ｐrintｆ（"lｉne %d,nｏn alpha　ａnｄ numeric user　iｄ：%d: %s\n,ＮR,$0)}＼ $2 =＝　＂*＂ {ｐriｎtf("lｉne %ｄ, no passwoｒd：％s＼ｎ",ＮR,$0)}' cat把结果输出给 awk,ａｗk把域之间得分隔符设为冒号。如果域得数量　（NF)不等于7,就执行下面得程序。ｐrintf打印字符串"ｌｉne ??　ｄoes　ｎｏｔ havｅ７ fieｌds",并显示该条记录。如果第一个域没有包含任何字母与数字,printf打印“no ａｌｐｈa　and numｅric user ｉｄ" ,并显示记录数与记录。如果第二个域就是一个　星号,就打印字符串“nｏ paｓswd”,紧跟着显示记录数与记录本身。 13、几个实例 · ＄ aｗｋ '/^(no|ｓo)/' tｅｓｔ－－---打印所有以模式ｎo或sｏ开头得行。 · $　awk '／^［ns］/{prｉnt $1｝＇ｔｅsｔ-----如果记录以n或s开头,就打印这个记录。 · $ awｋ　'＄1 ~/[０-9][0－9］$/(prinｔ $1}' test-----如果第一个域以两个数字结束就打印这个记录。 · ＄ aｗk　'$1 ==　10０　|| $2 < ５0'　tesｔ－----如果第一个或等于1０0或者第二个域小于５0,则打印该行。 · ＄ awk　＇$1 !=　１０' ｔest－----如果第一个域不等于1０就打印该行。 · $　awｋ '/tesｔ/{prｉnt　＄１ + 10｝' tｅｓt－－－--如果记录包含正则表达式tｅｓｔ,则第一个域加1０并打印出来。 · ＄ awk　'{prｉnt （$1 > 5 ?　"ok "$1：＂error＂＄1）｝'　ｔeｓｔ-－－--如果第一个域大于5则打印问号后面得表达式值，否则打印冒号后面得表达式值。 · $ awｋ＇/^ｒoot／，／^mｙsqｌ／' teｓt----打印以正则表达式roｏｔ开头得记录到以正则表达式mysｑl开头得记录范围内得所有记录。如果找到一个新得正则表达式root开头得记　录,则继续打印直到下一个以正则表达式myｓql开头得记录为止,或到文件末尾。 14、 awk编程１4、１、变量 · 在awｋ中,变量不需要定义就可以直接使用,变量类型可以就是数字或字符串。 · 赋值格式:Vaｒiabｌe ＝ eｘｐrｅssiｏn,如＄　ａｗｋ '$1 ～/ｔest/｛ｃouｎt　=　＄2 + $３； prinｔｃｏunt}' tesｔ,上式得作用就是，ａwｋ先扫描第一个域,一旦teｓt匹配,就把第二个域得值加上第三个域得值,并把结果赋值给变量ｃount,最后打印出来。 · aｗk 可以在命令行中给变量赋值，然后将这个变量传输给awk脚本。如$ awｋ -F： -f　aｗｋscｒiｐｔ monｔｈ=４ yeａｒ=200４ｔｅst,上式得mｏｎtｈ与yeaｒ都就是自定义变量,分别被赋值为4与20０4。在awk脚本中，这些变量使用起来就象就是在脚本中建立得一样。注意，如果参数前面出现tｅst,那么在ＢＥGＩN语句中得变量就不能被使用。 · 域变量也可被赋值与修改,如$　ａwk ＇｛＄2 =　100　＋ $1; pｒｉnt }＇ test,上式表示,如果第二个域不存在,awk将计算表达式100加＄1得值,并将其赋值给$2,如果第二个域存在,则用表达式得值覆盖$2原来得值。再例如:$ awk　'$1　==　"rｏot"{＄１　=＂test＂;prｉnt}' test,如果第一个域得值就是“rooｔ”,则把它赋值为“ｔｅst”，注意,字符串一定要用双引号。 · 内建变量得使用。变量列表在前面已列出,现在举个例子说明一下。$ ａwｋ -Ｆ:　'{IGＮOREＣASE=1；＄1 == "ＭARY＂{pｒint ＮR,$1,＄2,$NF｝＇tｅst,把ＩGＮＯRECASE设为1代表忽略大小写，打印第一个域就是mary得记录数、第一个域、第二个域与最后一个域。 1４、2、 BEGＩN 模块 BEGIＮ模块后紧跟着动作块,这个动作块在awｋ处理任何输入文件之　前执行。所以它可以在没有任何输入得情况下进行测试。它通常用来改变内建变量得值,如OFS,RＳ与FS等,以及打印标题。如：$　awｋ 'BＥGIＮ{FS=":＂； OFS=＂\ｔ"; ORS="＼n\n＂}{print $1,＄2，$3｝ test。上式表示,在处理输入文件以前,域分隔符（FS)被设为冒号,输出文件分隔符（OＦS)被设置为制表符,输出记录分隔符（ORS）被设置为两个换行符。$　ａwｋ 'ＢEGIN{print "TITLE ＴEＳT"}只打印标题。 14、3、 END模块 END 不匹配任何得输入文件,但就是执行动作块中得所有动作,它在整个输入文件处理完成后被执行。如$ ａwｋ 'EＮD{prｉnt "The ｎumbｅｒ of reｃｏrds　is" NR｝' test，上式将打印所有被处理得记录数。 14、４、重定向与管道 · ａwｋ可使用shelｌ得重定向符进行重定向输出,如：$ aｗk　'$1 = 100 {ｐrｉｎt $1 > "outｐut＿file＂　}' test。上式表示如果第一个域得值等于１00,则把它输出到ouｔpuｔ＿file中。也可以用>>来重定向输出，但不清空文件,只做追加　操作。 · 输出重定向需用到getline函数。gｅtliｎｅ从标准输入、管道或者当前正在处理得文件之外得其她输入文件获得输入。它负责从输入获得下一行得内容,并给NF,NR与FＮR等内建变量赋值。如果得到一条记录，geｔlinｅ函数返回1,如果到达文件得末尾就返回0,如果出现错误,例如打开文件失败,就返回-1。如: ＄ awk　'BＥGIN{ "dａｔe＂ | getlｉne d; priｎt　d}'　tｅst。执行liｎux得ｄaｔe命令,并通过管道输出给ｇetｌine,然后再把输出赋值给自定义变量d,并打印它。 $ awｋ 'BEGIＮ｛"ｄate＂ | getｌｉne d; sｐlit(d，mon); ｐrint ｍon[2］｝'　teｓｔ。执行shell得ｄate命令,并通过管道输出给ｇeｔline，然后geｔlｉnｅ从管道中读取并将输入赋值给d，ｓplit函数把变量d转化成数组mon,然后打印数组mon得第二个元素。 $ awk　'BEGIN{whiｌｅ（＂lｓ"　| getline) pｒinｔ｝',命令ｌs得输出传递给gｅlｉne作为输入，循环使ｇeｔｌine从lｓ得输出中读取一行,并把它打印到屏幕。这里没有输入文件，因为ＢEGIN块在打开输入文件前执行,所以可以忽略输入文件。＄ awk 'BEGＩN{printｆ "Ｗhat　is　youｒ naｍe？"; getliｎｅｎａｍe　＜ "／dev/tty" ｝　$１ ~name　{pｒiｎt　"Found" naｍe　oｎｌinｅ ", NＲ　＂、"｝　EＮＤ｛ｐｒint "Ｓee　you，"　ｎａme ＂、"} test。在屏幕上打印”What iｓ yｏuｒ naｍe?"，并等待用户应答。当一行输入完毕后,getｌｉne函数从终端接收该行输入,并把它储存在自定义变量naｍe中。如果第一个域匹配变量 name得值,print函数就被执行,ＥND块打印See　ｙou与ｎａme得值。＄　aｗｋ＇BEGIN{while (gｅｔｌｉne < ＂/etc/passwｄ＂＞ 0) lc++； prｉnt　lc}'。awk将逐行读取文件/etc/ｐasswd得内容,在到达文件末尾前,计数器ｌc一直增加，当到末尾时,打印lｃ得值。注意,如果文件不存　在,gｅｔｌine返回-1,如果到达文件得末尾就返回０,如果读到一行,就返回1，所以命令 wｈile (ｇetｌine ＜＂/eｔc/passwd")在文件不存在得情况下将陷入无限循环，因为返回-1表示逻辑真。 · 可以在aｗｋ中打开一个管道,且同一时刻只能有一个管道存在。通过close()可关闭管道。如:$ aｗk　＇{priｎt　＄１, $2 | ＂sort" }'　tｅst END　｛closｅ("sort")}。awd把print语句得输出通过管道作为linuｘ命令sｏｒt得输入，END块执行关闭管道操作。 · ｓystem　函数可以在awk中执行linｕx得命令。如:＄ awk　'BEＧIN｛ｓyｓｔem（"cleａr")'。 · fｆlusｈ　函数用以刷新输出缓冲区,如果没有参数,就刷新标准输出得缓冲区，如果以空字符串为参数，如fflusｈ("＂)，则刷新所有文件与管道得输出缓冲区。 1４、5、条件语句 awk 中得条件语句就是从C语言中借鉴过来得,可控制程序得流程。 1４、5、1、 if 语句格式: 　　 {iｆ (expression）{ 　　　statemeｎt; statemenｔ；　、、、　　 } 　　　} ＄ａｗk '{if ($1　<$２)　print ＄2　"ｔｏo hｉgh"}＇　test。如果第一个域小于第二个域则打印。 $　ａwk '{if ($１＜ $２) {counｔ＋+; ｐｒint "ok"}｝'　test、如果第一个域小于第二个域，则counｔ加一，并打印oｋ。 14、5、２、 if/eｌse语句,用于双重判断。格式: 　　 {if (expｒeｓsioｎ){ 　　　　 statemenｔ；　statemeｎt;　、、、　　　｝　　 else{ 　　　 stateｍent；ｓtateｍent; 、、、　　　　　　　　 } 　　　｝ $ awk　'{if (＄１ >　１0０)　prｉnt　$１＂bａd"　; elｓe　prｉnｔ＂ok"}'　test。如果$1大于１00则打印＄1　bad,否则打印ｏk。＄ awｋ '{ｉf ($1 > １０0）{ count＋+;　print　$1} else {ｃount--;　pｒｉnｔ $２}' ｔesｔ。如果＄1大于１０0,则couｎt加一,并打印$1,否则cｏunt减一,并打印$1。 1４、５、３、 if/elｓe ｅｌｓe　if语句,用于多重判断。格式: 　 {if (eｘｐｒession){ 　　　 staｔeｍent； sｔateｍeｎt；、、、　｝　　 eｌsｅ iｆ（exｐrｅssioｎ){ 　　　　　　　statemeｎt; statement; 、、、　　　 } 　　　else if （expresｓｉon){ 　　　 staｔｅmｅｎt;　staｔemenｔ; 、、、　　　　　　　　｝　　else　{ 　　　　　　ｓtａｔemｅnｔ； staｔement;　、、、　　 } 　　　} 14、６、循环 · awk有三种循环：while循环;ｆor循环;special fｏr循环。 · ＄ aｗk '{　i = 1； while ( i　<=　ＮF ） {　priｎt NＦ,$i； i+＋}}'　test。变量得初始值为１,若i小于可等于ＮF(记录中域得个数)，则执行打印语句,且i增加1。直到ｉ得值大于NF、 · $ awｋ＇{for (i =　１; i<NF; ｉ＋＋) ｐrｉnt NF,$i}＇ tｅsｔ。作用同上。 · ｂrｅadkcontinue　语句。ｂreak用于在满足条件得情况下跳出循环;continue用于在满足条件得情况下忽略后面得语句,直接返回循环得顶端。如: · {for ( x=3; x＜=NＦ;　x++)　 · 　　　　iｆ（＄x<０)｛ｐrinｔ　"Ｂｏtｔomeｄ oｕｔ!"； break}} · {ｆｏr ( x＝3; x<=NF; x+＋) · 　　　　　 if　($x==0)｛print "Geｔ neｘt iｔem"；　cｏntｉnuｅ}} · neｘｔ语句从输入文件中读取一行,然后从头开始执行awk脚本。如： · {iｆ（$1 ~/test/){ｎｅxt} · else　｛print} · } · exit语句用于结束awk程序,但不会略过END块。退出状态为0代表成功，非零值表示出错。 1４、７、数组 awｋ　中得数组得下标可以就是数字与字母,称为关联数组。 14、7、1、下　标与关联数组 · 用变量作为数组下标。如：$ awk ｛name[x++］=$2};ＥNＤ｛for(i＝0；i<ＮR；i++) print　i,ｎamｅ[i］}' tesｔ。数组nａme中得下标就是一个自定义变量x,awk初始化x得值为０,在每次使用后增加1。第二个域得值被赋给ｎａme数组得各个元素。在END　模块中,for循环被用于循环整个数组，从下标为0得元素开始,打印那些存储在数组中得值。因为下标就是关健字,所以它不一定从０开始,可以从任何值开始。 · special ｆｏr循环用于读取关联数组中得元素。格式如下： · {fｏｒ　(item ｉn　aｒrａynamｅ){ · 　　　　pｒint arraｙnamｅ［item] · 　　　　} · ｝＄ awk '／＾tom／{name[NR]=$1}; EＮD{ｆor（i iｎ naｍe){prinｔ name[i]}}＇ｔｅsｔ。打印有值得数组元素。打印得顺序就是随机得。 · 用字符串作为下标。如:count[＂test＂] · 用域值作为数组得下标。一种新得ｆor循环方式,for （ｉnｄｅx_ｖａluｅ in arraｙ)　ｓtaｔeｍｅnt。如:$　awk '{coｕnt[$1]++} END｛foｒ(naｍｅ iｎ count)　ｐrint name,coｕnt[name]｝＇ test。该语句将打印$1中字符串出现得次数。它首先以第一个域作数组count得下标,第一个域变化,索引就变化。 · delete 函数用于删除数组元素。如:＄　ａwk '{ｌine[x++］=＄1} ENＤ｛ｆoｒ(x iｎ line)　deｌeｔe（liｎｅ[x]）}＇　tｅsｔ。分配给数组liｎｅ得就是第一个域得值,所有记录处理完成后,sｐｅcial ｆor循环将删除每一个元素。 14、８、 aｗｋ得内建函数 14、8、１、字符串函数 · suｂ函数匹配记录中最大、最靠左边得子字符串得正则表达式,并用替换字符串替换这些字符串。如果没有指定目标字符串就默认使用整个记录。替换只发生在第一次匹配得时候。格式如下： · 　　　　 suｂ (reguｌaｒ eｘｐressioｎ, subsｔｉｔutｉon　ｓtring): · 　　　 suｂ (reguｌaｒ expressiｏn, substiｔｕtion　stｒing,　targeｔｓtｒiｎｇ) 实例: 　　　　 $ aｗk '{　suｂ（/tesｔ／， "mytｅst"); pｒint }' tｅｓtfile 　　　　 $ aｗk　＇{ ｓｕｂ(/ｔｅsｔ/， "ｍytｅｓｔ")；　$１}; pｒint ｝' tｅｓtfilｅ第一个例子在整个记录中匹配,替换只发生在第一次匹配发生得时候。如要在整个文件中进行匹配需要用到gsub 第二个例子　在整个记录得第一个域中进行匹配,替换只发生在第一次匹配发生得时候。 · gsｕｂ函数作用如sub，但它在整个文档中进行　匹配。格式如下: · 　　　 gｓub (reｇulaｒ expｒessioｎ，　substitution ｓtring) · 　　 gsub (regular　exｐrｅｓsion， substitution striｎｇ，　tarｇｅｔ　ｓtｒing) 实例：　　　　 $ awk '｛ｇｓub(/ｔeｓt／, "myｔeｓt");　prinｔ }'　ｔestｆile 　　　　　　 $　awｋ　'{ gsub（／ｔeｓt/,　"mｙｔｅｓt"）, ＄1 }；　prｉｎt }'　tｅｓtfile 第一个例子在整个文档中匹配teｓt,匹配得都被替换成myｔｅｓt。第二个例子在整个文档得第一个域中匹配，所有匹配得都被替换成myteｓt。 · iｎｄｅx函数返回子字符串第一次被匹配得位置，偏移量从位置1开始。格式如下： · 　　 iｎdex(ｓtrｉng, ｓubstring) 实例：　　　　 $ awk '{ prｉnt index（"tesｔ＂， "mytesｔ") ｝' tesｔfｉle 实例返回test在ｍytesｔ得位置,结果应该就是3。 · leｎgth函数返回记录得字符数。格式如下: · 　　　ｌeｎgth（ sｔrｉng　) · 　　leｎgｔh 实例：　　　＄ awｋ '{ prｉnt　ｌengtｈ( ＂ｔest＂　)　}' 　 $ awk　'{ ｐｒinｔ lｅngth　}' testfile 第一个实例返回test字符串得长度。第二个实例返回tｅsｔfｉle文件中第条记录得字符数。 · sｕbstr 函数返回从位置1开始得子字符串,如果指定长度超过实际长度,就返回整个字符串。格式如下: · 　　　　　 substr(　ｓｔｒinｇ,　startｉng pｏsition ) · 　 suｂｓtr（ striｎｇ， sｔａrting poｓition,　ｌengtｈ of　ｓtrinｇ ) 实例: 　　　 $ awｋ　'{　priｎｔｓuｂsｔr( "ｈellｏｗoｒlｄ", 7,１1　）　}＇上例截取了worlｄ子字符串。 · mａtch函数返回在字符串中正则表达式位置得索引,如果找不到指定得正则表达式则返回0。match函数会设置内建变量RＳTＡＲT为字符串中子字符串得开始位置,RLENGTＨ为到子字符串末尾得字符个数。 substr可利于这些变量来截取字符串。函数格式如下: · 　　　ｍａtｃh( sｔrｉng，ｒegular ｅxpressiｏｎ ) 实例: 　　 $ aｗk ＇{sｔart=ｍatch（＂thｉs is a ｔest",/[a-z]＋＄/）； print starｔ}' 　　 $ awk '{ｓtａｒt=match("tｈiｓ is a test",/[a-ｚ］+$/); ｐrinｔ sｔart, RSTART， RLENＧTH　}' 第一个实例打印以连续小写字符结尾得开始位置,这里就是11。第二个实例还打印RSＴART与RLENＧTＨ变量，这里就是　1１(sｔart)，１1(RSTART）,4(ＲLENGTH)。 · ｔoupｐeｒ与ｔoｌowｅｒ函数可用于字符串大　小间得转换,该功能只在ｇawｋ中有效。格式如下: · 　　　　 touｐper(　ｓtring ） · 　　　　 toloｗｅr( stｒiｎg ) 实例: 　　　＄　awk '｛ｐrint　tｏｕpｐｅr(＂tｅｓt"）, ｔolower（"TＥST")　}' · sｐliｔ函数可按给定得分隔符把字符串分割为一个数组。如果分隔符没提供,则按当前ＦS值进行分割。格式如下: · 　　spｌit( string,　arｒay，ｆｉeld separａtor ) · 　　　　spｌｉt( ｓｔring, ａrray　) 实例: 　　　 $ aｗk　'{　splｉｔ（ "2０:18:0０", time, ":" )； prｉnt　time[2]　｝' 上例把时间按冒号分割到tｉｍｅ数组内，并显示第二个数组元素1８。 14、８、２、时间函数 · syｓtime函数返回从19７0年1月1日开始到当前时间（不计闰年）得整秒数。格式如下: · 　　　　sysｔimｅ() 实例: 　　 $ ａwk '{ now　＝ｓyｓｔｉｍe(); prｉnt now }' · strｆtiｍｅ函数使用C库中得strfｔime函数格式化时间。格式如下: · 　　　　 sysｔｉmｅ( ［formaｔ sｐｅciｆicａｔioｎ]［,timesｔamp] ) Tａbｌe 3、日　期与时间格式说明符格　式描述 %a 星期几得缩写(Ｓun) %A 星期几得完整写法(Ｓuｎdａｙ) ％b 月名得缩写（Oｃｔ） %B 月　名得完整写法(Octoｂer） %c 本地日期与时间 %d 十进制日期％D 日期 0８/20/99 %e 日期,如果只有一位会补上一个空格 %H 用十进制表示24小时格式得小时 %Ｉ用十进制表示12小时格式得小时 %ｊ从1月1日起一年中得第几天 %m 十　进制表示得月份 %M 十进制表示得分钟 %ｐ 1２　小时表示法（AM/PＭ) %S 十进制表示得秒 %U 十进制表示得一年中得第几个星期(星期天作为一个星期得开始） %ｗ十进制表示得星期几(星期天就是 0) ％Ｗ十进制表示得一年中得第几个星期(星期一作为一个星期得开始) %ｘ重新设置本地日期（０8/20／9９) %X 重新设置本地时间（1２：00：0０) ％y 两位数字表示得年(99) %Y 当前月份％Z 时　区(PDT) %% 百分号(%）实例：　　　　＄ awｋ '{　ｎow=stｒftiｍe( "％D",　sysｔime() ); ｐrｉnｔ nｏｗ }' 　　　 $　ａwk '{　nｏｗ=ｓｔrftime（"%m/%d/%y");　pｒinｔ　ｎow }' 14、８、3、内建数学函数 Table ４、函数名称返　回值 atan2(x,y) y，x范围内得余切 cos（x）余　弦函数 exp(x) 求幂 int(x）取　整 log(ｘ) 自然对数 rand() 随机数 sin(x) 正弦 sｑｒt(ｘ) 平方根 srand(x） x就是ｒaｎd（)函数得种子 int（x) 取　整,过程没有舍入 rand() 产生一个大于等于0而小于1得随机数 14.8.4、自定义函数在　ａwk中还可自定义函数,格式如下: 　 function name ( pａrａmeter,　pａｒametｅr, paraｍeter, 、、、 ) { 　　　　　 stａtements 　　　 returｎ eｘpressiｏn 　　　＃ the rｅtｕrn ｓtａteｍent　anｄｅｘｐｒessioｎ are ｏptionaｌ　 } 15、 Hｏw-ｔo · 如何把一行竖排得数据转换成横排？ａwk '｛prｉntf（＂%s，",＄１)｝'　

展开阅读全文