cos(expr) | Косинус expr |
exp(expr) | Возведение в степень expr |
getline() | Чтение следующей входной строки; возвращает 0 в случае конца файла, в противном случае 1 |
index(s1, s2) | Положение строки s2 в s1 ; возвращает 0, если строка не входит |
int(expr) | Целая часть expr ; округляет по минимуму |
length(s) | Длина строки s |
log(expr) | Натуральный логарифм expr |
sin(expr) | Синус expr |
split(s, a, c) | Разбиение s на а[1] ... a[n] по символу c ; возвращает n |
sprintf(fmt, ...) | Форматирование в соответствии со спецификацией fmt |
substr(s,m,n) | Подстрока в n символов строки s , начинающаяся с индекса m |
Таблица 4.5: Встроенные функции awk
Стандартной задачей обработки данных является получение суммарных значений для множества пар имя значение. Иными словами, по входному потоку типа
Susie 400
John 100
Mary 200
Mary 300
John 100
Susie 100
Mary 100
мы хотим получить суммарные значения для каждого имени:
John 200
Mary 600
Susie 500
Программа awk
предлагает изящное решение этой задачи — с помощью ассоциативных массивов. Хотя обычно мы представляем себе индекс массива как целое число, в awk
любое значение можно использовать в качестве индекса. Поэтому
{sum[$1] += $2}
END {for (name in sum) print name sum [name]}
задает всю программу подсчета n печати сумм для пар имя значение независимо от порядка следования этих пар. Каждое имя ($1
) служит индексом в массиве sum
; в конце применена специальная форма цикла for
для перебора всех элементов sum
и их печати. Синтаксис этого варианта цикла for
таков:
for (перем in массив)
оператор
Хотя он может показаться вам искусственным, как цикл for
языка shell
, они никак не связаны. Цикл охватывает индексы массива, а не его элементы, устанавливая значение "перем" равным каждому индексу поочередно. Однако порядок появления индексов непредсказуем, поэтому может возникнуть необходимость в их сортировке. В приведенном примере выходной поток можно по конвейеру передать команде sort
, чтобы имена шли в порядке убывания значений:
$ awk '...' | sort +1nr
Реализация ассоциативной памяти предполагает хэширование, чтобы доступ к одному элементу занимал столько же времени, сколько и к любому другому, и чтобы это время не зависело (по крайней мере для массивов средних размеров) от числа элементов в массиве.
Использование ассоциативных массивов эффективно для вычислительных задач, таких, как подсчет частоты появления слов во входном потоке:
$ cat wordfreq
awk ' { for (i = 1; i <= NF; i++) num[$i]++ }
END {for (word in num) print word, num[word] }
' $*
$ wordfreq ch4.* | sort +1 -nr | sed 20q | 4
the 372 .CW 345 of 220 is 185
to 175 a 167 in 109 and 100
.PI 94 .P2 94 .PP 90 $ 87
awk 87 sed 83 that 76 for 75
The 63 are 61 line 55 print 52
$
В первом цикле for
выбирается каждое слово из входной строки и заполняется массив num
, индексируемый словами. (Не путайте $i
, обозначающее в awk
i-е поле входной строки, с переменными языка shell
.) После того как файл будет прочитан, во втором цикле for
печатаются в произвольном порядке слова и частота их появления.
Вильям Л Саймон , Вильям Саймон , Наталья Владимировна Макеева , Нора Робертс , Юрий Викторович Щербатых
Зарубежная компьютерная, околокомпьютерная литература / ОС и Сети, интернет / Короткие любовные романы / Психология / Прочая справочная литература / Образование и наука / Книги по IT / Словари и Энциклопедии