Этот выдающийся результат был чрезвычайно важен,
Джек Галлант первым отметил, что каким бы впечатляющим ни было их достижение, это не конец, а только начало. Есть надежда, что полный цикл научного осмысления пополнится новыми теориями и догадками.
В ожидании метода
Никогда не знаешь, сколько времени уйдет на формирование научных выводов о больших массивах данных. Наука жертвует знаковыми событиями, но поставляет их в совершенно произвольном порядке.
Большие массивы бизнес-данных появляются настолько быстро, насколько люди могут их принимать, но обычно даже быстрее. Благодаря ускоренным циклам обратной связи, значимость больших массивов бизнес-данных возрастает. Мы привыкли считать их обоснованными, несмотря на то что они могут всего лишь казаться таковыми из-за своего особого положения в сети. Подобные данные достоверны только за счет невероятного числа повторов.
Наука требует иного подхода к большим массивам данных, и мы его ищем. Для обработки этих массивов в области науки еще не выработана окончательно четкая процедура. И когда для работы с ними появятся проверенные практики, мы получим точные ответы на вопросы:
• Какие стандарты должны быть соблюдены для публикации тиражирования результата? До какой степени тиражирование должно требовать сбора разнообразных, но при этом похожих больших массивов данных, а не просто повторно использовать одни и те же данные, применяя к ним разные алгоритмы?
• Что такое публикация? Описание используемого кода? Сам код? Код в некой стандартной разновидности структуры, благодаря которой становится возможным использовать его повторно и вносить в него поправки?
• Должен ли анализ таких данных предполагать применение стандартных практик метаанализа?
• Какая документация в условиях непрерывного документального учета данных должна приводиться к единому стандарту?
Должны ли утверждаться новые практики, аналогичные двойному слепому методу или плацебо, помогающие ученым, работающим с большими массивами данных, не одурачить самих себя? Должны ли разработчики кода для получения независимых результатов работать небольшими группами, чтобы анализировать большие массивы данных, которые остаются в полной изоляции друг от друга?
В ближайшее время мы получим ответы на все эти вопросы, но пока что научные практики постоянно меняются. Но несмотря на то что детали еще не проработаны, ученых объединяет стремление проверять гипотезы, независимо от объемов данных, с которыми они работают.
Мудрые или внушающие страх?
В мире бизнеса большие массивы данных зачастую работают независимо от их достоверности. Люди платят деньги за пользование сайтами знакомств. Но алгоритмы, якобы подбирающие идеального партнера, на самом деле, скорее всего, не работают. Не имеет значения, права ли наука, пока клиенты за нее платят. А они платят.
Таким образом, нет нужды определять, достоверна ли статистика в собственно научном смысле, или кто-то лишь создал видимость достоверности, прибегнув к техникам социальной инженерии. Вот пример такого обмана: двое встречаются, зарегистрировавшись на сайте знакомств, потому что оба
Древний парадокс в новых обстоятельствах: сложно сказать, мудр ли правитель, или он просто внушает страх. Если то, что предсказывает правитель, действительно происходит, любое объяснение сгодится.
Предположим, некий продавец электронных книг рекламирует свой товар, и пользователь планшета проходит по ссылке для оплаты. В некоторой степени это может произойти, потому что продавец использует облачные сервисы, содержащие по-научному точный алгоритм прогноза, и составленная им модель целевой аудитории верна.
Инженеры решат, что роль сыграли умные программы. У них здорово получается дурачить себя верой в то, что это всегда так. В предыдущей книге я рассказывал о том, как сложно эмпирически отличить успех искусственного интеллекта от самовнушения, что программа работает.