Случилось следующее: перед конкурсом
Каждая команда заводила на тестовом сервере учетную запись и использовала ее, чтобы проверять, насколько хорошо справляются с задачей разные версии ее программы, что позволяло им публиковать (и рекламировать) свои результаты до объявления официальных результатов соревнования.
Главное правило машинного обучения гласит: “Не используй тестовые данные для тренировки”. Все кажется вполне очевидным: если включить тестовые данные в процесс тренировки программы, невозможно будет получить точную оценку способностей программы к обобщению. Не сообщают же студентам задания экзаменационного теста заранее. Но оказывается, что существуют неочевидные способы ненамеренно (или намеренно) нарушить это правило, чтобы казалось, будто программа работает лучше, чем на самом деле.
Один из этих способов таков: нужно загрузить выданные программой категории для тестового множества на тестовый сервер и отрегулировать программу в зависимости от результата. Повторить категоризацию и снова загрузить результаты на сервер. Провести эту манипуляцию много раз, пока скорректированная программа не станет лучше справляться с тестовым множеством. Для этого не нужно видеть метки изображений из тестового множества, но нужно получать оценку точности работы программы и регулировать программу соответствующим образом. Оказывается, если повторить всю процедуру достаточное количество раз, она сможет значительно улучшить работу программы с тестовым множеством. Однако, используя информацию из тестового множества, чтобы настроить программу, вы лишаетесь возможности использовать тестовое множество для проверки способности программы к обобщению. Представьте, что студенты проходят итоговый тест много раз, каждый раз получая единственную оценку и пытаясь на ее основании скорректировать свои ответы в следующий раз. В итоге студенты сдадут на проверку преподавателю тот вариант ответов, который получил самую высокую оценку. Такой экзамен нельзя считать хорошим показателем усвоения материала, поскольку он показывает лишь то, как студенты подогнали свои ответы к конкретным заданиям теста.
Чтобы предотвратить такое подглядывание данных, но в то же время позволить участникам соревнования
Великая битва на конкурсе
Но через несколько недель организаторы соревнования