Читаем The Worlds I See полностью

Подготовка к конкурсу началась сразу после моего возвращения в США, и на первый взгляд предпосылка казалась простой: взять набор алгоритмов, обученных на ImageNet, протестировать их на наборе никогда ранее не виденных изображений, оценить их ответы и проранжировать их по количеству допущенных ошибок. Победит тот, у кого будет наименьший суммарный коэффициент ошибок. Однако на практике превращение набора данных в соревнование - это сложная научная задача.

В таких играх, как шахматы, покер или баскетбол, понятие победы просто и самоочевидно. Однако объявление победителя в научном соревновании сродни принятию на себя обязательств: не только в том, что участник покажет хорошие результаты по каким-то показателям, но и в том, что его разработка внесет вклад в общее дело. Что она может научить нас чему-то новому, проницательному и, возможно, даже преобразующему. Что это следующий шаг к Полярной звезде. Это грандиозное заявление, и очень важно, чтобы оно было сделано с уверенностью.

Это делало строгость и прозрачность основополагающими, заставляя нас составлять обширную документацию, объясняющую, как именно будет анализироваться алгоритм и по каким формулам будет оцениваться его эффективность. Но гибкость тоже была достоинством. Ведь при попытке присвоить фотографии единый ярлык даже человек может не согласиться с тем, какой объект является наиболее значимым. Представьте себе, например, фотографию композиции из фруктов, на которой клубника и яблоко выделяются настолько, что любое из них можно считать центральным элементом. Будет ли "неправильным" обозначить на фотографии одно из них, но не другое?

Чтобы не объявить хорошо работающий алгоритм неправильным, каждому участнику разрешалось предоставить упорядоченный список из пяти меток - в данном случае для "клубники" и "яблока" - метрику оценки, которую мы стали называть "коэффициент ошибок топ-5". Это побуждало участников разумно подстраховывать свои ставки и гарантировало, что мы увидим самую широкую и справедливую картину их возможностей.

Как и при создании самого ImageNet, конкурс преподнес постоянный поток неожиданных проблем. Мы потратили несколько недель на обдумывание логистики предоставления набора данных участникам конкурса и в итоге решили распространить уменьшенное подмножество: примерно десятую часть всех изображений и двадцатую часть всех категорий, или около 1,4 миллиона отдельных фотографий, охватывающих тысячу повседневных объектов, растений и животных. Чтобы убедиться в том, что мы проводим новые тесты для алгоритмов, мы повторили большую часть процесса разработки ImageNet, загрузив и разметив сотни тысяч новых изображений, а также проведя еще один раунд краудсорсинга. В общей сложности на это ушли месяцы работы.

На этом пути усилия Цзя поддерживала растущая команда, в которую входили такие новички, как Ольга Руссаковски, умная, энергичная аспирантка, ищущая что-то интересное, за что можно было бы побороться. Она сразу же выделилась на фоне остальных: пронзительные глаза, вьющиеся волосы до плеч и увлекательный стиль речи. Она понравилась мне с первой же встречи, но особенно меня поразили тихие контрасты, которые определяли ее: хотя она была кипучей и ее легко было принять за коренную калифорнийку, на самом деле она родилась на Украине и часто говорила о бабушке, которая до сих пор живет в Харькове. Она уже была солидным выбором с интеллектуальной точки зрения, но при этом обладала социальной ловкостью, которая была редкостью на нашем факультете. Я мог сказать, что у нее достаточно интеллекта, чтобы внести свой вклад в проект за кулисами, но я начал задумываться, не сможет ли она когда-нибудь использовать свою природную смекалку, чтобы представлять его и на публике.

"Волнуешься?" спросила Ольга.

Так и было. Команда допоздна засиделась в лаборатории, чтобы завершить последние детали, готовясь к следующему дню, когда заработает сайт и будет объявлен наш конкурс.

"Скажите мне, - начал Цзя. "Какова ваша конечная цель здесь?"

Это был вопрос, на который я был более чем готов ответить, поскольку с самых мрачных дней проекта ImageNet я мало о чем еще думал. Учитывая всю проделанную нами работу, я считал, что думать об ImageNet просто как о наборе данных - это редуктивно. Даже сейчас - особенно сейчас, когда конкурс был уже совсем близко, - это была гипотеза. Это была ставка на то, что наша область больше всего нуждается в доступе к разнообразию и вариативности, на которых тысячелетиями воспитывалось человеческое восприятие.

Я был настроен оптимистично, полагая, что на столе лежит нечто вроде прорыва, но опасаясь, что путь к нему будет неблизким. Мы обсудили зверинец алгоритмов, которые сейчас в моде, и мою уверенность в том, что объем ImageNet окажется слишком требовательным, чтобы любой из них смог по-настоящему овладеть им. Векторные машины поддержки, случайные леса, бустинг, даже байесовская сеть, которую мы с Пьетро использовали в нашей статье об одномоментном обучении, прогнется под его весом, и нам придется изобретать что-то действительно новое.

Перейти на страницу:

Похожие книги

Искусство статистики. Как находить ответы в данных
Искусство статистики. Как находить ответы в данных

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики.На русском языке публикуется впервые.

Дэвид Шпигельхалтер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
Эволюция и прогресс
Эволюция и прогресс

Автор вводит читателя в круг наиболее интригующих вопросов эволюционной биологии. До сих пор эволюционный прогресс остается предметом бурных, даже ожесточенных споров. По существу, всех биологов можно разделить на сторонников и противников идеи этой формы прогресса. Эволюцию живых организмов обычно связывают с ростом их сложности и степени совершенства, однако до сих пор нет строгих критериев этой оценки. Главная мысль, развиваемая автором, состоит в том, что основные атрибуты прогресса — усложнение строения и повышение уровня надклеточной организации — являются лишь следствием постоянно идущего отбора на повышение эволюционной пластичности видов.Книга предназначена для биологов широкого профиля, а также всех интересующихся вопросами эволюции живых существ.

Владимир Александрович Бердников

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Биология / Научпоп / Образование и наука / Документальное
История леса
История леса

Лес часто воспринимают как символ природы, антипод цивилизации: где начинается лес, там заканчивается культура. Однако эта книга представляет читателю совсем иную картину. В любой стране мира, где растет лес, он играет в жизни людей огромную роль, однако отношение к нему может быть различным. В Германии связи между человеком и лесом традиционно очень сильны. Это отражается не только в облике лесов – ухоженных, послушных, пронизанных частой сетью дорожек и указателей. Не менее ярко явлена и обратная сторона – лесом пропитана вся немецкая культура. От знаменитой битвы в Тевтобургском лесу, через сказки и народные песни лес приходит в поэзию, музыку и театр, наполняя немецкий романтизм и вдохновляя экологические движения XX века. Поэтому, чтобы рассказать историю леса, немецкому автору нужно осмелиться объять необъятное и соединить несоединимое – экономику и поэзию, ботанику и политику, археологию и охрану природы.Именно таким путем и идет автор «Истории леса», палеоботаник, профессор Ганноверского университета Хансйорг Кюстер. Его книга рассказывает читателю историю не только леса, но и людей – их отношения к природе, их хозяйства и культуры.

Хансйорг Кюстер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература