Дж. П.
: Да. Сегодня в сообществе машинного обучения мы наблюдаем аналогичную ситуацию. Причем зачастую управляющие рычаги находятся в руках халтурщиков за счет связей со спонсорами. Представители индустрии зачастую недальновидны и требуют быстрых успехов, что смещает акценты исследований. Во время работы над байесовскими сетями я был среди немногих, кто выступал за то, чтобы делать все по правилам теории вероятностей. К сожалению, при таком подходе требовались экспоненциальные время и память. Таких ресурсов не было.Меня вдохновила работа когнитивного психолога Дэвида Румельхарта, который исследовал, каким образом детям удается быстро и правильно читать тексты. Он предлагал создать многослойную систему, в которой с уровня пикселов шел переход на семантический уровень, затем – на уровень предложений и грамматики, при этом происходило установление связи и передача сообщений. Каждый уровень выполнял только свою задачу и не знал, что делают остальные, чтобы получить корректный ответ, в котором, например, слово car отличается от слова cat.
Попытки смоделировать такую архитектуру в теории вероятностей не давали хорошего результата, пока я не обнаружил, что свойство сходимости появляется при древовидной структуре модулей. Сообщения можно передавать асинхронно, и в конечном итоге система даст корректный ответ. Затем мы перешли к полидеревьям, и, в конце концов, в 1995 г. я опубликовал статью о байесовских сетях.
Программировать эту архитектуру оказалось на удивление легко. Не требовалось управляющей программы для наблюдения за всеми элементами. Достаточно было указать, что будет происходить с переменной, когда она решит обновить информацию. Затем эта переменная отправляла сообщения соседям, которые в свою очередь отправляли сообщения своим соседям и т. д., после чего система давала корректный ответ.
Байесовские сети были приняты благодаря простоте программирования. Более того, они позволили запрограммировать зависимость между симптомами и болезнью и вычислить вероятность заболевания по наличию или отсутствию симптомов. При этом пользователю было понятно, почему система дает тот или иной результат и как ее модифицировать в случае изменившейся среды. Преимуществом была и модульность, характерная для способов, которые работают в природе.
В то время мы не понимали значение модульности. Оказалось, что она обеспечивается причинностью. Убрав причинно-следственные связи, мы теряем модульность, и вместе с ней прозрачность, возможность менять конфигурацию и другие приятные функции. К 1988 г., когда вышла моя книга о байесовских сетях, я уже хотел перейти к следующему шагу – моделированию причинности.
М. Ф.
: Мы то и дело слышим, что «взаимосвязь и причинно-следственные отношения – это разные вещи» и что данные не дают информации о причинно-следственных связях. Правильно ли я понимаю, что байесовские сети также не позволяют ее получить?Дж. П.
: Нет. Байесовские сети работают в разных режимах в зависимости от того, как сконструированы.М. Ф.
: Идея этих сетей в обновлении вероятностей на основе новых данных ради получения более точной оценки. Вы нашли, как эффективно сделать это для большого числа вероятностей.Дж. П.
: Теорема Байеса применяется давно, сложность состояла в том, чтобы найти эффективный способ ее применения. Я считал, что для машинного обучения это просто необходимо. Можно получить данные и с помощью теоремы Байеса обновить систему для повышения ее производительности и улучшения параметров. Но это вероятностная, а не причинно-следственная схема, поэтому она имеет ограничения.М. Ф.
: Но она часто используется в системах распознавания речи и на различных устройствах.Дж. П.
: Мне доводилось слышать, что байесовские сети используются во всех сотовых телефонах для подавления помех при передаче, как и алгоритм распространения доверия. Именно так мы назвали алгоритм передачи сообщений. Якобы они есть в Siri, но проверить это невозможно, так как Apple держит свои разработки в секрете.Байесовский вывод – один из основных компонентов машинного обучения, но постепенно произошел переход от байесовских сетей к менее прозрачному глубокому обучению. Система теперь самостоятельно регулирует параметры, а мы понятия не имеем, что за функция соединяет вход и выход. Работая с байесовскими сетями, мы не до конца осознавали важность модульности. При моделировании диагностической системы туда закладывается причинно-следственная связь между симптомами и заболеваниями. Но при этом возникает вопрос: как выглядит тот ингредиент, который мы называем «причинно-следственными связями»? Где он находится и как мы его обрабатываем?
М. Ф.
: Байесовские сети стали популярными в computer science благодаря вашей книге. Но вы еще до ее выхода хотели перейти к причинному анализу?