Есть две основные причины отсутствия прозрачности: сложность и секретность. В случае с GFT применимы обе: Google не стал открыто делиться достаточными подробностями о GFT, такими как используемые переменные и алгоритмы, возможно, потому, что хотел сохранить алгоритмы в тайне. Но даже если бы Google открыто поделился этой информацией, GFT все равно оставался бы непрозрачным для большинства людей. Первоначальный алгоритм был основан на 45 поисковых запросах, позже их число было увеличено до 160. Таким образом, раскрытие алгоритма само по себе не гарантирует прозрачности.
Аналогично, широко распространено мнение, что прозрачные правила всегда менее точны. Другими словами, чтобы принимать наилучшие решения, нужно полагаться на самые непрозрачные правила. Например, исследователи машинного обучения из Агентства перспективных оборонных исследовательских проектов утверждают, что существует общий компромисс между прозрачностью и точностью. 31 Он иллюстрируется такими графиками, как рисунок 2.3 .
Компромисс между прозрачностью и точностью, как правило, не работает. Светло-серые точки иллюстрируют утверждение об общем компромиссе между прозрачностью и точностью предсказания: непрозрачные алгоритмы предсказывают лучше (вверху слева), а прозрачные - хуже (внизу справа). Эти утверждения можно найти во многих источниках, но они редко основаны на данных. Они говорят о том, что прозрачность требует жертвовать точностью. Мы добавили контрпримеры, основанные на реальных данных. Первая пара показывает, что прозрачная эвристика хиатусов предсказывает покупки клиентов лучше, чем случайный лес, сложный и непрозрачный алгоритм машинного обучения. Вторая пара иллюстрирует, что эвристика recency предсказывает лучше, чем непрозрачный Google Flu Trends (GFT). Позиции эвристик и алгоритмов условны и приведены только для примера.
Как мы показываем на этом графике, такой компромисс в целом не верен. Хотя алгоритм GFT менее прозрачен, чем эвристика recency, последняя более точна. Аналогично, эвристика хиатуса, несмотря на свою прозрачность, предсказывает будущие покупки клиентов точнее, чем случайный лес, который строит тысячи деревьев решений на основе данных о предыдущих покупателях и является одним из самых мощных методов машинного обучения. Эти два примера, основанные на реальных данных, показывают, что не существует такого понятия, как общий компромисс между прозрачностью и точностью. Скорее, нам нужно определить, когда большая прозрачность связана с большей точностью, а когда нет. Это тема экологической рациональности эвристик, которую мы рассматриваем в главе 3.
Тот факт, что не существует общего компромисса между прозрачностью и точностью, является положительным результатом для объяснимого искусственного интеллекта (XAI), который в значительной степени предполагал этот компромисс. Например, большинство алгоритмов, используемых для предсказания того, совершит ли покупатель повторную покупку или обвиняемый в преступлении повторно совершит преступление, настолько сложны, что менеджеры, обвиняемые и судьи не могут понять, как делаются эти предсказания. Чтобы решить эту проблему, XAI может попытаться, например, объяснить случайный лес простыми словами. Однако это сложно сделать и чревато искажениями. Наш подход предлагает новое решение: прежде чем использовать сложные и труднообъяснимые алгоритмы ИИ, проверьте, существуют ли прозрачные и точные эвристики для поставленной задачи прогнозирования.
Распространенные заблуждения
В этой главе мы привели четыре основные причины для использования эвристики: она быстрая, экономная, точная и прозрачная. Эвристика позволяет решать проблемы большого мира, характеризующиеся неопределенностью и трудноразрешимостью, когда максимизация ожидаемой полезности и теория вероятностей непригодны, и даже алгоритмы ИИ, использующие большие данные, испытывают трудности. Акцент на малых мирах и рисках, а не на больших мирах и неопределенности, породил ряд ошибочных представлений об эвристике. Они возникают из-за предположения о малых мирах. В таблице 2.3 приведены некоторые из наиболее распространенных.
Шесть распространенных заблуждений об эвристике
Распространенное заблуждение
Разъяснение
Эвристика дает второсортные результаты; оптимизация всегда лучше.
В ситуациях неопределенности (например, при принятии бизнес-решений) и неразрешимости (например, при игре в шахматы) оптимизация невозможна. Здесь эффективными инструментами являются эвристики.
Существует две системы рассуждений: первая - быстрая, эвристическая, интуитивная, бессознательная и часто ошибочная; вторая - медленная, логическая, целенаправленная, сознательная и правильная.