Для того чтобы указать, что некое регулярное выражение является
(\d*:)
Данное выражение определяет частичный шаблон, не содержащий ни одной или содержащий несколько цифр, за которыми следует двоеточие. Группу можно использовать как часть более сложного шаблона. Рассмотрим пример.
(\d*:)?(\d+)
Данное выражение задает необязательную и, возможно, пустую последовательность цифр, за которыми следуют двоеточие и последовательность из одной или нескольких цифр. Этот лаконичный и точный способ выражения шаблонов изобрели обычные люди!
23.8.5. Варианты
Символ “или” (|
) задает альтернативу. Рассмотрим пример.Subject: (FW:|Re:)?(.*)
Это выражение распознает тему сообщения электронной почты с необязательными символами FW:
или Re:, за которыми может не стоять ни одного символа или может стоять несколько символов. Рассмотрим пример.Subject: FW: Hello, world!
Subject: Re:
Subject: Norwegian Blue
но не
SUBJECT: Re: Parrots
Subject FW: No subject!
Пустая альтернатива не допускается.
(|def)
// ошибка
Однако мы можем указать несколько альтернатив сразу.
(bs|Bs|bS|BS)
23.8.6. Наборы символов и диапазоны
Специальные символы представляют собой обозначение наиболее распространенных классов символов: цифр (\d
); букв, цифр и знака подчеркивания (\w) и др. (см. раздел 23.7.2). Однако часто бывает полезно определить свой собственный специальный символ. Сделать это очень легко. Рассмотрим пример.В спецификации класса символов дефис (–
) используется для указания диапазона, например, [1–3] (1, 2 или 3) и [w–z] (w, x, y или z). Пожалуйста, будьте аккуратны при использовании таких диапазонов: не все языки содержат одинаковые буквы, и порядки их следования в алфавитах разных языков могут отличаться. Если вам необходим диапазон, не являющийся частичным диапазоном букв и цифр, принятых в английском языке, то обратитесь к документации.Следует подчеркнуть, что мы используем специальные символы, такие как \w
(означающий “любой словообразующий символ”), в спецификации класса символов. Как же нам вставить обратную косую черту (\) в класс символов? Как обычно, превращаем ее в управляющий символ: \\. ^
^
. Например:В последнем регулярном выражении символ ^
стоит не на первом месте после квадратной скобки ([), значит, это простой символ, а не оператор отрицания. Регулярные выражения могут быть очень хитроумными.Реализация библиотеки regex
[[:alnum:]]
. Здесь слово alnum представляет собой имя совокупности символов (набор буквенно-цифровых символов). Шаблон для непустой строки буквенно-цифровых символов, заключенной в квадратные скобки, может выглядеть так: "[[:alnum:]]+
". Для того чтобы поместить это регулярное выражение в строковый литерал, мы должны сделать кавычки управляющими символами.string s = "\"[[:alnum:]]+\"";
Более того, чтобы поместить строковый литерал в объект класса regex
regex
является явным:regex s("\\\"[[:alnum:]]+\\\"");
Использование регулярных выражений вынуждает вводить множество обозначений. Перечислим стандартные классы символов.
Реализация библиотеки regex
23.8.7. Ошибки в регулярных выражениях
Что произойдет, если мы зададим неправильное регулярное выражение? Рассмотрим пример.
regex pat1("(|ghi)"); // пропущенный оператор альтернативы
regex pat2("[c–a]"); // не диапазон
Когда мы присваиваем шаблон объекту класса regex
bad_expression
.Рассмотрим небольшую программу, позволяющую исследовать механизм сравнения регулярных выражений.
#include
#include
#include
#include
#include
using namespace std;