В чем же была проблема? Алгоритм тренировали на множестве изображений белых лиц. В данных было мало лиц чернокожих. Такие искажения в данных породили целую армию алгоритмов, принимающих недопустимые решения: программы распознавания голоса, натренированные на мужских голосах и не узнающие женских, программы распознавания визуальных образов, принимающие чернокожих людей за горилл, автоматические кабины для изготовления фотографий на документы, говорящие людям азиатского происхождения, что их фотографии не соответствуют требованиям, потому что у них закрыты глаза. Четверо из каждых пяти сотрудников в сфере информационных технологий, работающих в Кремниевой долине, – белые мужчины. Это побудило Буоламвини организовать Лигу алгоритмической справедливости (Algorithmic Justice League) для борьбы против искажений в данных, на которых обучаются алгоритмы.
Проблемы возникают и в правовой системе, так как людям отказывают в предоставлении кредитов, устройстве на работу или праве на получение государственных пособий по решению алгоритма. Такие люди – вполне обоснованно – хотят знать, почему им отказали. Но, так как алгоритмы создают деревья решений, исходя из своего взаимодействия с данными, которое трудно проанализировать, обоснование таких решений оказывается делом непростым.
Кое-кто предлагает правовые меры для исправления этого положения, но такие меры оказывается чертовски сложно применять. Статья 22 Общего регламента по защите данных (General Data Protection Regulations), вступившего в силу в Европейском союзе в мае 2018 года, утверждает, что всякий человек должен иметь «право не быть субъектом такого решения, которое основано только на автоматической обработке» и право получать «полноценную информацию о заключенной в ней логике» во всех случаях, когда решение выносится компьютером. И как, интересно, этого добиться?
Отрасль информационных технологий уже призывали попытаться разработать метаязык, при помощи которого алгоритмы могли бы обосновывать свои решения, но пока эта задача не решена, нам, может быть, следует относиться к влиянию таких алгоритмов на повседневную жизнь с большей осторожностью. Многие алгоритмы хорошо справляются с одной конкретной работой, но не очень-то знают, что делать при возникновении непредвиденных отклонений. Когда происходит нечто необычное, они попросту игнорируют это явление, хотя человек на их месте, возможно, смог бы заметить такую нестандартную ситуацию и разобраться в ней.
Это подводит нас к «теореме об отсутствии бесплатных завтраков», которая доказывает невозможность существования универсального обучающегося алгоритма, способного точно предсказывать результат развития событий в любом сценарии. Эта теорема доказывает, что, даже если обучающемуся алгоритму показать половину данных, остальные, невидимые, данные всегда можно подобрать таким образом, что алгоритм будет выдавать точные предсказания на тренировочных данных, но совершенно утратит эту способность, когда дело дойдет до тех данных, которых ему не показывали.
Одних только данных никогда не будет достаточно. Они должны сопровождаться знаниями. Именно в этом отношении человеческий код, видимо, лучше способен работать с контекстом и видеть общую картину – по меньшей мере пока что.
Именно эта способность изменяться и адаптироваться к новым условиям и была использована при создании AlphaGo. Сотрудники DeepMind предусмотрели при разработке своего алгоритма период контролируемого обучения. Так взрослые помогают детям освоить навыки, которые сами взрослые уже освоили. Человек как биологический вид развивается потому, что мы накапливаем знания и передаем их следующим поколениям образом гораздо более эффективным по сравнению с их первоначальным обретением. Чтобы добраться до переднего края математических исследований, мне не нужно самостоятельно открывать всю предыдущую математику заново. Вместо этого я учусь несколько лет в университете, проходя через века математических открытий по ускоренному маршруту.
Программа AlphaGo начала с прохождения такого же процесса. Люди уже сыграли в го миллионы партий, которые были записаны, оцифрованы и доступны в Сети. Эти записи дают замечательный материал, который компьютер может исследовать, выделяя ходы, давшие преимущество победителю. Такая большая база данных позволяет компьютеру оценить вероятность успешности всех возможных ходов в конкретных вариантах расположения камней на доске. Когда рассматриваются все возможные варианты развития конкретной партии, данных немного, но такой анализ создает хорошую основу для обучения игрока, хотя его будущий противник может не пойти по тому же пути, по которому пошла проигравшая сторона в партии, занесенной в базу данных, и именно поэтому одного лишь изучения этого массива данных было недостаточно.