Конкурс проходил следующим образом: организаторы разбивали всю массу фотографий на тренировочное множество, которое участники могли использовать для обучения своих программ, и тестовое множество, которое не предоставлялось участникам и использовалось для оценки работы программ с незнакомыми изображениями. Перед конкурсом тренировочное множество размещалось в интернете, а в ходе соревнований исследователи представляли на суд свои натренированные программы, которые сдавали экзамен на секретном тестовом множестве. Победителем признавалась программа, показавшая самую высокую точность при распознавании объектов на изображениях тестового множества.
Ежегодные конкурсы PASCAL привлекали большое внимание и стимулировали исследования в сфере распознавания объектов. С годами программы-участницы постепенно совершенствовались (любопытно, что сложнее всего им было распознавать цветы в горшках). Однако некоторые исследователи полагали, что эталонные данные PASCAL в некотором роде сдерживают развитие компьютерного зрения. Участники уделяли слишком много внимания конкретным двадцати категориям объектов, классификация по которым проходила в рамках конкурса, и не создавали системы, способные работать с огромным количеством категорий объектов, распознаваемых людьми. Более того, в наборе данных не хватало фотографий, чтобы представленные на соревнование программы могли узнать все возможные вариации внешнего вида объектов и научиться обобщать.
Чтобы двигаться вперед, необходимо было создать новые эталонные данные, в которые вошло бы гораздо больше категорий и фотографий. Молодая специалистка по компьютерному зрению из Принстона Фей-Фей Ли задалась этой целью и случайно узнала о проекте другого принстонского профессора, психолога Джорджа Миллера, который хотел создать базу данных английских слов, выстроенных в иерархическом порядке от самых специфических к самым общим, с группировкой синонимов. Возьмем, например, слово “капучино”. В базе данных, получившей название
В базе данных также содержится информация о том, что, скажем, “напиток” и “питье” – это синонимы, что слово “напиток” входит и в другую цепочку, включающую слово “жидкость”, и так далее.
База данных
Вскоре Ли с коллегами приступили к сбору огромного количества изображений, используя существительные
Ли с коллегами стали искать возможные способы автоматизации работы, но дело в том, что определение, изображен ли на фотографии объект, обозначаемый конкретным существительным, – это и есть задача на распознавание объектов! И компьютеры справлялись с ней из рук вон плохо, что и стало поводом к созданию
Группа зашла в тупик, но затем Ли случайно наткнулась на созданный тремя годами ранее сайт, который мог обеспечить проект рабочими руками, необходимыми
Mechanical Turk