Обеспечиваемая технологией скорость поиска видеоинформации по индексированному массиву объёмом 5 Тбайт составляет 5-15 с при степени достоверности, соответствующей сертификату, выдаваемому подобным системам. Под «индексированным массивом» в данном случае понимается вышеупомянутый набор характерных кадров, 1 Мбайт которых соответствует примерно 6 Мбайтам исходного видеоматериала (но это соотношение ориентировочно и зависит от выбранного порога индексирования). В итоге образуются как бы два массива: проиндексированный (потому и «как бы», что он может быть не один – в зависимости от числа критериев индексации), которым, например, телекомпания оперирует при подготовке новостных и иных программ, и другой, состоящий из оригиналов видеоматериала. Типовая схема работы системы – на рис. 2.1.
Рис. 2.1
Кроме того, технология используется для видеонаблюдения: например, она осуществляет в реальном времени последовательное сканирование (посредством видеокамеры) толпы в местах, где движение людей упорядочено: эскалаторы, турникеты и т. п. Ключами для анализа снимаемого материала служат хранящиеся в базах данных фотографии разыскиваемых людей, объектов, автомобильных номерных знаков и т. д. Достоверность распознавания – вопрос постоянного совершенствования технологии. Представитель фирмы привёл такой пример: на одном из этапов развития технологии проводилось «опознание» футболистов по фотографии их команды. Система опознала 9 из 11 футболистов плюс лежащий перед ними мяч. То есть террорист в принципе мог замаскироваться, неся возле своей головы большой розовый грейпфрут, но и в таком случае среди критериев поиска можно было задать «обнаружение людей с большими грейпфрутами». Позже, уже в России, проводились эксперименты по настройке системы на «похожесть» лиц. На человека надевали шапку, очки, прикрывали лицо шарфом, при этом достоверность распознавания достигала 40–50
На рис. 2.2 показаны особенности поиска по изображению человека. Маленький кадр в левом нижнем углу – изображение-запрос. Верхняя линейка кадров – результат поиска с указанием степени близости результата к запросу: «100 %» здесь относятся к кадру, использованному в качестве запроса; рядом с числом процента – названия видеоматериалов, содержащих данные кадры.
Рис. 2.2
Для работающего с Excalibur оператора исследуемый массив предстаёт в виде двух мультимедийных составляющих: картинки и текста. Текст – это фоновый код для поиска видеоизображения, поэтому в ранее рассмотренном процессе редактирования большое значение имеет вычленение текстового материла из видеозаписи (этот же текстовый материал при необходимости ложится в основу субтитров). Поиск проиндексированной видеоинформации, уже хранящейся в VideoAsset Server, осуществляется как по кадрам из StoryBoard при помощи ПО Visual RetrievalWare, так и по тексту (субтитры, название и пр.) при помощи RetrievalWare – профессиональной системы управления знаниями. В частности, в версии 7.0 этой системы, имеющей графические словари (рис. 2.3), мультимедийные запросы могут формироваться по следующим принципам: слова и изображения смешаны в одном запросе; объединение слов и изображений в сложное логическое выражение; при ранжировании результатов поиска учитываются и слова, и изображения. На рис. 2.4 приведён пример сложного поиска.