Читаем За стеной фильтров. Что Интернет скрывает от вас? полностью

За стеной фильтров. Что Интернет скрывает от вас?

В мире вещательных СМИ предполагается, что все представители аудитории способны читать и обрабатывать информацию примерно на одном уровне. За стеной фильтров для этого нет никаких оснований. И это, с одной стороны, здорово: масса людей, отказавшихся от чтения, потому что газеты стали слишком заумными, могут снова начать потреблять письменный контент. Но если никто не потребует повышения качества, то эти люди надолго застрянут в третьем классе.

Поступки и приключения

Иногда передача алгоритмам права решать, что мы увидим и какие возможности нам предложат, приносит более честные результаты. Компьютер может игнорировать расу и пол, на что люди обычно не способны. Но это лишь в случае, если соответствующие алгоритмы добросовестны и проницательны. Иначе они будут просто отражать социальные нормы той культуры, которую обрабатывают.

В ряде случаев алгоритмическая обработка персональных данных может привести даже к большей дискриминации, чем если бы этим занимались люди. Например, программа, помогающая компаниям процеживать массу резюме в поисках подходящих соискателей, может «учиться», принимая во внимание, сколько рекомендованных ею кандидатов были наняты. Если работодатель выбирает девять белых подряд, то программа может сделать вывод, что компания не заинтересована в черных, и исключит их из дальнейшего поиска. «Во многих отношениях, — пишет социолог Дэлтон Конли из Нью-Йоркского университета, — такая сетевая категоризация более коварна, чем банальная сортировка по расе, классу, полу, религии или любому другому параметру»[269]. Среди программистов такая ошибка получила название «чрезмерно близкой подгонки».

Онлайн-сервис видеопроката Netflix работает на основе Алгоритма CineMatch. Сначала все было довольно-таки просто. Если он взял на прокат первый фильм трилогии «Властелин колец», то Netflix мог изучить, какие фильмы брали другие люди, посмотревшие его. Если многие из них просили «Звездные войны», то велика вероятность, что и я захотел бы их посмотреть.

Этот метод анализа называется k-NN (метод «к-ближайших соседей»[270]), и с его помощью CineMatch научился довольно ловко угадывать, что люди хотели бы посмотреть, исходя из тех фильмом, что они уже брали, и оценок, которые им поставили. К 2006 году CineMatch мог с точностью до балла предсказывать оценку, которую пользователь выставит любому из многих сотен тысяч фильмов в коллекции Netflix. Он дает более точные рекомендации, чем большинство людей. Человек-продавец ни за что не порекомендовал бы фильм «Молчание ягнят» поклонникам «Волшебника страны Оз», однако CineMatch знает: людям, которым по душе один из этих фильмов, зачастую нравится и другой. Но главу Netflix Рида Хастингса это не устроило. «Сейчас мы вывели модель Т[271], а возможно гораздо большее», — сказал он журналисту в 2006 году[272]. 2 октября 2006 года на сайте Netflix появилось объявление: «Мы заинтересованы. Цена вопроса — 1 миллион долларов». Netflix опубликовал колоссальные массивы данных — рецензии, записи о прокате фильмов и другую информацию из своей базы, очищенную от всего, что могло бы указать на конкретного пользователя. И компания была готова заплатить миллион долларов человеку или команде, которые смогут опередить CineMatch по точности предсказаний хотя бы на 10 процентов. Конкурс Netflix Challenge был открыт для всех. «Все, что вам нужно, — это компьютер и классные идеи», — заявил Хастингс в интервью New York Times[273].

За девять месяцев в конкурсе поучаствовали около 1800 команд из более чем 150 стран. Они опирались на идеи машинного обучения, коллаборативной фильтрации, нейронных сетей и интеллектуального анализа данных. Обычно конкурсанты, соревнующиеся за такой крупный приз, действуют в тайне от других. Но Netflix призывала конкурирующие группы общаться друг с другом и открыла интернет-форум, где они могли совместно работать над общими затруднениями. Если почитать этот форум, можно практически пощупать те проблемы, которые терзали конкурсантов во время трехлетней погони за более совершенным алгоритмом. Проблема чрезмерно близкой подгонки возникала снова и снова.

При создании алгоритмов анализа данных возникают две большие сложности. Первая — найти все структуры и вычленить их из шума. Вторая — противоположность первой: не выводить структур, которых на самом деле не существует. Формула, описывающая последовательность «1,2,3», может звучать как «предыдущее число плюс один» или же как «положительные простые числа от меньшего к большему». Вы не сможете выбрать верную, пока не получите больше данных. А если вы слишком поспешно делаете выводы, то занимаетесь чрезмерно близкой подгонкой.

В прокате фильмов риски невелики: в прошлом, например, многие зрители были убеждены, что если им понравились фильмы «Крестный отец» и «Крестный отец — 2», то понравится и «Крестный отец — 3». Но проблема чрезмерной подгонки — это, по сути, одна из центральных, неустранимых проблем стены фильтров. В сущности, это создание стереотипов.

Перейти на страницу: