В результат действия команды wordfreq
попали команды форматирования типа .CW
, которые применяются для печати слов определенным шрифтом. Как избавиться от таких ненастоящих слов? Как бы вы использовали команду tr
, чтобы программа wordfreq
работала правильно, независимо от того, прописные или строчные буквы задействованы во входном потоке? Сравните реализацию и скорость выполнения программы wordfreq
, конвейера из разд. 4.2 и предлагаемого ниже решения.
sed 's/[→][→]*/\
/q' $* | sort | uniq -c | sort -nr
Хотя обе команды, и sed
и awk
, предназначены для решения небольших задач типа выбора определенного поля, только awk
используется в той степени, в какой предполагает настоящее программирование. Примером может служить программа, которая разбивает длинные строки, чтобы они занимали не более 80 позиций. Каждая строка, превышающая 80 символов, завершается после 80-го символа; в качестве предупреждения добавляется \
и обрабатывается остаток строки. Хвост разбиваемой строки сдвигается к ее правому концу, а не к левому, что более удобно для программ печати, и именно поэтому мы обратимся к программе fold
. Рассмотрим, в частности, строки из 20, а не из 80 позиций:
$ cat тест
Короткая строка
Строка немного длиннее
Эта строка еще длиннее, чем предыдущая строка
$ fold тест
Короткая строка
Строка немного длиннее
Эта строка еще длиннее,
чем предыдущая строка
$
Вам может показаться странным, что в седьмой версии системы нет программы для добавления или удаления символов табуляции, хотя команда pr
в System V выполняет и то и другое. Наша реализация программы fold
использует редактор sed
, чтобы перевести символы табуляции в пробелы и чтобы счетчик числа символов в awk
принял правильное значение. Это хороший способ при табуляции в начале строки (что типично для языковых программ), но номер позиции сбивается, если символ табуляции оказывается в середине строки:
# fold: fold long lines
sed 's/\(->/ /g' $* | # convert tabs to spaces
awk '
BEGIN {
N = 80 # folds at column 80
for (i = 1; i <= N; i++) # make a string of blanks
blanks = blanks " "
}
{
if ((n = length($0)) <= N)
print
else {
for (i = 1; n > N; n -= N) {
printf "%s\\\n", substr($0,i,N)
i += N;
}
printf "%s%s\n" , substr(blanks, 1, N-n), substr($0, I)
}
} '
На языке awk
нет явной операции конкатенации строк; строки соединяются, если они следуют подряд. Вначале blanks
является пустой строкой. Цикл в части BEGIN
создает длинную строку пробелов конкатенацией: каждый шаг цикла прибавляет еще один пробел к концу строки blanks
. Во втором цикле входная строка разбивается на части, пока оставшаяся часть не станет достаточно короткой. Как и в языке Си, операцию присваивания можно использовать в качестве выражения, поэтому в конструкции
if ((n=length($0)) <= N)...
длина входной строки присваивается n
до проверки значения. Обратите внимание на скобки.
Измените программу fold
так, чтобы разрыв строки происходил на пробеле или символе табуляции, а не посреди слова. Сделайте эту программу пригодной и для длинных слов.
Допустим, что вы намереваетесь написать программу field n
. Эта программа будет печатать n-е поле каждой входной строки так, чтобы можно было, например, задать:
$ who | field 1
для печати только имен, под которыми пользователи входят в систему. Язык awk
явно предоставляет возможность выбора полей. Наша основная задача — передать номер n программе awk
. Ниже приведено одно из возможных решений:
$ awk '{print $'$1'}'
Здесь $1
открыто (не внутри каких либо кавычек), и поэтому становится номером поля, доступным в программе awk
. При ином решении используются кавычки:
awk "{print \$$1}"
Вильям Л Саймон , Вильям Саймон , Наталья Владимировна Макеева , Нора Робертс , Юрий Викторович Щербатых
Зарубежная компьютерная, околокомпьютерная литература / ОС и Сети, интернет / Короткие любовные романы / Психология / Прочая справочная литература / Образование и наука / Книги по IT / Словари и Энциклопедии