Читаем Программирование. Принципы и практика использования C++ Исправленное издание полностью

  Регулярные выражения (regular expressions, regexps или regexs), по существу, образуют небольшой язык для выражения символьных шаблонов. Этот мощный (выразительный) и лаконичный язык иногда выглядит довольно таинственным. За десятилетия использования регулярных выражений в этом языке появилось много тонких свойств и несколько диалектов. Здесь мы опишем подмножество регулярных выражений (большое и полезное), которое, возможно, в настоящее время является наиболее распространенным диалектом (язык Perl). Если читателям понадобится более подробная информация о регулярных выражениях или возникнет необходимость объяснить их другим людям, они могут найти все, что нужно, в веб. Существует огромное количество учебников (очень разного качества) и спецификаций. В частности, в веб легко найти спецификацию boost::regex и ее эквивалент, принятый Комитетом по стандартизации (WG21 TR1).

  Библиотека boost::regex поддерживает также системы обозначений языков ECMAScript, POSIX и awk, а также утилит grep и egrep. Кроме того, она содержит массу возможностей для поиска. Это может оказаться чрезвычайно полезным, особенно, если вам необходимо сравнить шаблон, описанный на другом языке. Если вам понадобятся языковые средства, которые выходят за рамки тем, которые мы описываем, поищите их самостоятельно. Однако помните, что использование как можно большего числа свойств — это не самоцель качественного программирования. При любой возможности постарайтесь сжалиться над бедным программистом, который будет эксплуатировать вашу программу (возможно, им окажетесь вы сами через несколько месяцев), читать ее и пытаться разобраться в вашем коде: код следует писать так, чтобы он не был заумным без особой причины и не содержал малопонятных мест.

<p id="AutBody_Root451"><strong>23.8.1. Символы и специальные символы</strong></span><span></p>

Регулярные выражения определяют шаблон, который можно использовать для сопоставления символов из строки. По умолчанию символ в шаблоне соответствует самому себе в строке. Например, регулярное выражение (шаблон) "abc" соответствует подстроке abc строки Is there an abc here?

Реальная мощь регулярных выражений заключается в специальных символах и сочетаниях символов, имеющих особый смысл в шаблоне.

Например, выражение

x.y

соответствует любой строке, состоящей из трех символов, начинающейся с буквы x и заканчивающейся буквой y, например xxy, x3y и xay, но не yxy, 3xy или xy.

Обратите внимание на то, что выражения {...}, *, + и ? являются постфиксными операторами. Например, выражение \d+ означает “одна или несколько десятичных цифр”.

Если хотите использовать в шаблоне один из специальных символов, вы должны сделать его управляющим, поставив перед ним обратную косую черту; например, символ + в шаблоне является оператором “один или несколько”, а символ \+ — это знак “плюс”.

<p id="AutBody_Root452"><strong>23.8.2. Классы символов</strong></span><span></p>

Самые распространенные сочетания символов в сжатом виде представлены как специальные символы.

Символы в верхнем регистре означают “не вариант специального символа в нижнем регистре”. В частности, символ \W означает “не буква”, а не “буква в верхнем регистре”.

Элементы третьего столбца (например, [[:digit:]]) представляют собой альтернативные синтаксические конструкции, использующие более длинные имена.

Как и библиотеки string и iostream, библиотека regex может обрабатывать большие наборы символов, такие как Unicode. Как и в случае библиотек string и iostream, мы просто упоминаем об этом, чтобы при необходимости читатели могли самостоятельно найти информацию. Обсуждение манипуляций текстами в кодировке Unicode выходит за рамки рассмотрения нашей книги.

<p id="AutBody_Root453"><strong>23.8.3. Повторения</strong></span><span></p>

Повторяющиеся шаблоны задаются постфиксными операторами.

Например, выражение

Ax*

соответствует символу A, за котором не следует ни одного символа или следует несколько символов x:

A

Ax

Axx

Axxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Если мы требуем, чтобы символ x встречался хотя бы один раз, то следует использовать оператор +, а не *. Например, выражение

Ax+

соответствует символу A, за которым следует один или несколько символов x:

Ax

Axx

Axxxxxxxxxxxxxxxxxxxxxxxxxxxxx

но не

A

В общем случае необязательный символ (ни одного или несколько) указывается с помощью знака вопроса. Например, выражение

\d–?\d

соответствует двум цифрам с необязательным дефисом между ними:

1–2

12

но не

1––2

Для задания конкретного количества вхождений или конкретного диапазона вхождений используются фигурные скобки. Например, выражение

\w{2}–\d{4,5}

соответствует только строкам, содержащим две буквы и дефис, за которым следуют четыре или пять цифр:

Ab–1234

XX–54321

22–54321

но не

Ab–123

?b–1234

Да, цифры задаются символами \w.

<p id="AutBody_Root454"><strong>23.8.4. Группировка</strong></span><span></p>
Перейти на страницу:

Похожие книги

Programming with POSIX® Threads
Programming with POSIX® Threads

With this practical book, you will attain a solid understanding of threads and will discover how to put this powerful mode of programming to work in real-world applications. The primary advantage of threaded programming is that it enables your applications to accomplish more than one task at the same time by using the number-crunching power of multiprocessor parallelism and by automatically exploiting I/O concurrency in your code, even on a single processor machine. The result: applications that are faster, more responsive to users, and often easier to maintain. Threaded programming is particularly well suited to network programming where it helps alleviate the bottleneck of slow network I/O. This book offers an in-depth description of the IEEE operating system interface standard, POSIX (Portable Operating System Interface) threads, commonly called Pthreads. Written for experienced C programmers, but assuming no previous knowledge of threads, the book explains basic concepts such as asynchronous programming, the lifecycle of a thread, and synchronization. You then move to more advanced topics such as attributes objects, thread-specific data, and realtime scheduling. An entire chapter is devoted to "real code," with a look at barriers, read/write locks, the work queue manager, and how to utilize existing libraries. In addition, the book tackles one of the thorniest problems faced by thread programmers-debugging-with valuable suggestions on how to avoid code errors and performance problems from the outset. Numerous annotated examples are used to illustrate real-world concepts. A Pthreads mini-reference and a look at future standardization are also included.

David Butenhof

Программирование, программы, базы данных