Машина работает, даже если вы набираете что-то совершенно оригинальное, как нам всем нравится думать. В 2012 году произошел интеллектуальный спор[439]
между одним из основоположников современной лингвистики Ноамом Хомским и Питером Норвигом из Google, который предпринимает колоссальные инженерные усилия, чтобы без нее обходиться. В 1950-х годах Хомский предложил знаменитую фразу Colorless green ideas sleep furiously («Бесцветные зеленые идеи спят яростно»), иллюстрирующую управляемость природы человеческого языка какими-то правилами. Эту фразу никто из людей раньше не видел (во всяком случае, пока Хомский ее не прославил), и не существует способа придать ей осмысленное толкование как утверждения о физическом мире. Тем не менее наш разум четко распознает ее как грамматическое предложение и даже «понимает» ее: мы могли бы правильно отвечать на вопросы, основанные на ней (например: «Спокойно ли спят бесцветные зеленые идеи?»), и осознаем (поскольку знаем, что такое существительные, прилагательные и глаголы), что в конструкции «спят зеленые яростно идеи бесцветные» нужно переставить слова, чтобы придать ей хоть какое-то подобие смысла. Однако, вопреки Хомскому, современная машина может прийти к тем же выводам без изучения правил структуры языка. Программа разрабатывает способ оценить какую-то последовательность слов как похожую на предложение или не похожую, опираясь на ее сходство с другими предложениями, которые реально были сформулированы людьми. Как и машина, обученная отличать кошку от некошки, она применяет своеобразную форму градиентного спуска, чтобы постепенно выработать стратегию, которая идентифицирует уже виденные предложения как максимально похожие на предложения, чем прочие комбинации слов. И не только это; стратегия, которую находит машина, склонна (по каким-то причинам, которые остаются не совсем понятными специалистам) хорошо срабатывать при оценке правильности тех строк слов, которые не были частью обучения. Фраза «бесцветные зеленые идеи спят яростно» получает гораздо более высокую оценку похожести на предложение, чем «спят зеленые яростно идеи бесцветные», даже без какой-либо формальной системы грамматики, даже если эти фразы никогда ранее не встречались в наблюдаемых данных (если предположить, что вы тренируетесь на текстах, собранных до Хомского). Даже фрагменты этой фразы (например, «бесцветные зеленые») встречались редко, если вообще встречались.Норвиг отмечает, что, когда дело касается реального машинного перевода или автоматической подсказки, статистические методы наподобие этого определенно превосходят все попытки воссоздать базовые механизмы производства человеческого языка[440]
. Хомский возражает: как бы там ни было, но методы, как у Google, не дают ни малейшего представления о том, что такое язык; они подобны Галилею, наблюдавшему движение тела по параболе, когда Ньютон еще не предложил объясняющие его законы.И в отношении языка, и в отношении пандемий правы обе стороны. Нельзя обойтись ни без подбора кривой, ни без инженерного анализа. Автор одной из самых удачных моделей пандемии 2020 года, недавний выпускник Массачусетского технологического института Юян Гу умело объединил оба подхода: он использовал модель дифференциальных уравнений в стиле Росса, предназначенную для имитации известной механики передачи COVID-19, но при этом добавил методы машинного обучения для настройки многих неизвестных параметров в модели, чтобы они максимально хорошо соответствовали наблюдаемым до сих пор данным о пандемии. Нам нужно как можно больше каталогизировать то, что произошло вчера, если мы хотим предсказать, что произойдет завтра. Однако у нас никогда не было миллиардов прошлых пандемий, которые можно было бы рассмотреть, и если мы хотим хорошо подготовиться к следующей вирусной новинке, то нам стоит лучше поискать законы.
Глава 12. Дым в листе
В 1977 году группа участников нидерландской команды предложила на международной математической олимпиаде в Белграде своим британским коллегам такую головоломку. Какое число будет следующим в последовательности?
1, 11, 21, 1211, 111221, 312211…
Упростит ли это задачу, если я назову несколько следующих чисел:
13112221, 1113213211, 31131211131221, 13211311123113112211…
Большинство людей не могут ее решить. Я, естественно, тоже не смог, когда увидел впервые. Но когда вы узнаете решение, удивлению нет предела, насколько оно простое и одновременно очаровательное. Это последовательность «посмотри и скажи». Первый член – это 1. Читаем его как «одна единица» и получаем второе число 11. Читаем его как «две единицы» и получаем следующее число 21. Читаем его как «одна двойка, одна единица» и получаем 1211. Затем следует «одна единица, одна двойка, две единицы», то есть 111221, и так далее.