AWK

AWK 11级 ACM班郑辉煌 5110209289

简介 • 1970s. Bell labs • Alfred Aho，Peter Weinberger，Brain Kernighan • 样式扫描处理语言 • 处理文本的编程语言工具 • 来源于SNOBOL4，Bourne shell， C • 可以进行正则表达式的匹配，样式装入、流控制、数学运算符、进程控制语句甚至于内置的变量和函数

AWK语法 • awk[ -F re] [parameter...] ['prog'] [-f progfile][in_file...] • -F re: • parameter: • 'prog': 标准形式为： 'pattern {action}' • -f progfile: • in_file

AWK程序结构 • 输入数据 模式匹配 • 每次扫描一行（记录）…域 • 发现匹配内容执行动作 • 未发现匹配内容下一行

AWK ‘prog’ • pattern { action } • pattern表示AWK在数据中查找的内容 • 而action 是在找到匹配内容时所执行的一系列命令。 • 无pattern默认匹配全部的记录 • 而无 action则是打印原始记录。

Example • BEGIN { print “Hello, world!” } #hello world • length($0) > 80 • { w += NF #单词数 • c += length + 1 #字符数 • } • END { print NR, w, c }#NR是记录条数

Example • $awk '/sun/{print}' mydoc • $awk ‘/sun/’ mydoc #简化 • $awk '/[Ss]un/,/[Mm]oon/ {print}' myfile • 第一个匹配Sun或sun的行与第一个匹配Moon或moon的行之间的行，并显示到标准输出上

awk记录与字段（域） • 在缺省的情况下：将文本文件中的一行视为一个记录。 • awk借用shell 的方法，用$1,$2,$3...这样的方式来顺序地表示记录中的不同字段。 • 特殊地，awk用$0表示整个行（记录）。 • 不同的字段之间是用称作分隔符的字符分隔开的。系统默认的分隔符是空格。 • awk允许在命令行中用-F re的形式来改变这个分隔符。

内置变量 • NR: 已输入记录的条数。 • NF: 当前记录中域的个数。记录中最后一个域可以以$NF的方式引用。 • FILENAME: 当前输入文件的文件名。 • FS: “域分隔符”，用于将输入记录分割成域。其默认值为“空白字符”，即空格和制表符。FS可以替换为其它字符，从而改变域分隔符。 • RS: 当前的“记录分隔符”。默认状态下，输入的每行都被作为一个记录，因此默认记录分隔符是换行符。 • OFS: “输出域分隔符”，即分隔print命令的参数的符号。其默认值为空格。 • ORS: “输出记录分隔符”，即每个print命令之间的符号。其默认值为换行符。 • OFMT: “输出数字格式”(Format for numeric output)，其默认值为"%.6g"。

Example • awk -F % 'NR==7,NR==15 {printf $1 $3 $7}‘ myfile • 显示文本文件myfile中第七行到第十五行中以字符%分隔的第一字段，第三字段和第七字段：

Example • { s += $NF } # $NF是该行最后一个域 • END { print s + 0 } • 计算最后一个单词和 • 注意s + 0这句

与C类似 • if…else • while • for • break, continue • || , >=, +=……不同：~匹配，！~不匹配 • 函数：printf， getline，sin，exp • …其他内置函数

Example • $awk '{printf"%03d%s\n",NR,$1}' testAwk • { while（getline == 1）#成功1，失败0 • { • … • } • }

更复杂的：计算词频 • BEGIN { FS="[^a-zA-Z]+" } • { • for (i=1; i<=NF; i++) • words[tolower($i)]++ #tolower返回小写 • } • END { • for (i in words) #与很多语言不同的特殊用法 • print i, words[i] • }

自定义函数 • # 示例函数必须有关键字function • function add_three (number) { return number + 3 } print add_three(36) # 输出 39

Example • awk>‘BEGIN{pageno = 1; file = FILENAME> pageno = print_header(file，pageno)；> printf("当前页页号是：%d\n", pageno); >} >#定义函数print_header>function print_header(FileName, PageNum){ > printf("%s %d\n",FileName, PageNum); > PageNum++; return PageNUm; > } >}' myfile myfile1 当前页页号是：2

高级输入输出 • 1.读取下一条记录：next语句读取下一个记录并完成模式匹配，然后立即执行相应的操作。 next导致这个记录的任何额外匹配模式被忽略。 • 2.关闭文件（输入，输出文件） • close (”filename”)

3.文件输出 • awk中允许用如下方式将结果输出到一个文件： • printf("hello word!\n") > "datafile" 或printf("hello word!\n") >> "datafile" • 重定向到管道 • print "expression" | "command"

Reference • Wiki • 各种网络资源 • Q and A

Thanks

AWK

AWK

Presentation Transcript

awk

sed and awk

AWK

AWK

awk Challenges

The AWK Language

AWK

AWK

awk

Introduction to Awk

awk

CISC3130: awk

awk

AWK

AWK

The awk command

AWK

The Awk Utility: Awk as a UNIX Tool

AWK 入門

Awk 2 – more awk

Learning AWK

CISC3130: awk