В наши дни следование этой концепции затрудняется повсеместным использованием вычислительных методов. Компьютеры не похожи на научный инструментарий прошлого, поскольку они представляют собой скорее платформы для внедрения тех или иных методов, а не непосредственные инструменты исследователя. И в современных условиях концепция воспроизводимости настоятельно требует публикации дополнительных сведений – таких как информация об использовавшемся программном обеспечении и другие цифровые данные (которые, однако, публикуются далеко не всегда).
Этот пробел в передаче научного знания не остался незамеченным в сообществе ученых, занимающихся вычислительной наукой, и, словно мы вернулись во времена Бойля, раздается все больше голосов, призывающих к установлению новых стандартов научной коммуникации. На этот раз предлагается включить в набор публикуемой информации данные и программы. Невоспроизводимые вычислительные результаты экспериментов в области генетики, проводившихся в последние годы в Университете Дьюка, привлекли серьезное внимание к этой проблеме и привели к появлению отчета Национальной академии медицины, в котором рекомендовались новые стандарты клинических испытаний – в частности, особая процедура одобрения для вычислительных тестов, возникающих в процессе вычислительных исследований.
Отчет впервые в истории науки рекомендовал, чтобы информация о программах, которые будут использоваться в том или ином вычислительном тесте, была опубликована в самом начале исследования, то есть стала бы «устойчиво доступной». На прошедшем после публикации отчета семинаре в Университете Брауна на тему «Воспроизводимость в вычислительной и экспериментальной математике» (в котором я выступила одним из соорганизаторов) были сформулированы рекомендации относительно того, какую информацию следует включать при публикации вычислительных выводов (в частности, речь шла о доступе к программам, данным и деталям исполнения). В данном контексте под воспроизводимостью следует понимать вычислительную воспроизводимость (
Эту вычислительную воспроизводимость следует отличать от эмпирической воспроизводимости или описанной Бойлем передачи сведений в рамках невычислительных научных экспериментов. Это различие крайне важно, поскольку и у традиционных эмпирических исследований имеется немало проблем с точки зрения повторяемости и доверия к результатам. Как отметил лауреат Нобелевской премии (и постоянный участник дискуссий на
Постепенно становится все более ясным, что наука более не может считаться надежным источником «проверяемых фактов» (в данном случае речь идет об эмпирической, а не вычислительной воспроизводимости). Однако то, что мы называем оба эти понятия одним и тем же словом «воспроизводимость», лишь запутывает обсуждение, в результате которого мы хотели бы принять воспроизводимость в качестве стандарта. И я считаю, что существует как минимум еще один явный источник невоспроизводимости – «статистическая воспроизводимость» (
Решение вопроса воспроизводимости путем открытия информации о методах и инструментах исследователя – это, безусловно, важно, но этого совершенно недостаточно. Помимо этого, нам нужно выработать новые критерии для оценки надежности и постоянства статистических выводов, в том числе новые показатели надежности, расширить поле неопределенности при количественной оценке. Это позволит нам сформулировать новые показатели статистической неопределенности и лучше понять возможные источники ошибок, особенно когда в дело вовлечены большие наборы данных из множества источников или масштабные модели. Мы также можем лучше выявлять искажения, возникающие из-за правил статистической отчетности, разработанных задолго до компьютерной эры.
Проблем с любым из этих трех типов воспроизводимости – эмпирической, вычислительной и статистической – может быть вполне достаточно для того, чтобы сорвать любую работу по установлению научных фактов. Каждый из этих типов требует своего «лечения» – улучшения существующих стандартов передачи научного здания и научной отчетности (эмпирическая воспроизводимость); большей доступности информации о вычислительной среде (вычислительная воспроизводимость); и статистической оценки повторных результатов с целью их валидации (статистическая воспроизводимость).
Мои предложения носят довольно общий характер, и каждый тип воспроизводимости может потребовать различных действий, в зависимости от деталей контекста того или иного научного исследования. Но если мы будем и дальше путать между собой эти не похожие друг на друга аспекты научного метода, то так и не сможем найти решение для старого спора, который начался около недостроенной вакуумной камеры Бойля.
Среднее значение
Николас Кристакис