Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Существуют и другие, возможно, более серьезные проблемы, связанные с сетевыми данными. Например, алгоритм поиска Google постоянно обновляется, становясь все более эффективным, но детали этих изменений остаются непрозрачными для всех, кроме разработчиков. Например, к последним изменениям относятся введение показателя качества веб-страницы при ранжировании, понижение рейтинга сайтов, которые считаются манипулятивными, обработка запросов на естественном языке для лучшего понимания их цели, повышение рейтинга страниц, оптимизированных для мобильных устройств, и идентификация сайтов, нарушающих правила Google. Все эти изменения кажутся разумными и полезными, но дело в том, что они постоянно меняют природу собираемых данных; проще говоря, затруднительно сравнивать данные, собранные до и после изменения (DD-тип 7: данные, меняющиеся со временем). В частности, показатели экономического и социального благополучия могут меняться не потому, что изменилась базовая реальность, а потому, что изменились собираемые данные об этой реальности – так называемый сдвиг показателей. Именно темные данные лежат в основе этих изменений.

Мы имели возможность убедиться, что целая череда успешных историй основана на связывании наборов данных, их комбинировании, дублировании и объединении данных из разных источников. Потенциальная мощь таких методов несомненна, поскольку разные источники, вероятно, содержат разную информацию о тех или иных аспектах изучаемого предмета. Чаще всего этим предметом оказываются люди, и очевидно, что такие проекты могут быть чрезвычайно полезны, например для укрепления здоровья граждан и повышения благополучия общества. Но риски темных данных при связывании баз остаются всегда. Генеральные совокупности в базах данных часто не совпадают полностью (одна может включать какие-то случаи, другая нет), а во время сопоставления могут возникнуть несоответствия в силу различных способов хранения данных (является ли Джон Смит тем же человеком, что и Джон В. Смит или Дж. В. Смит?). Не говоря уже о дубликатах записей.

Эта книга в первую очередь о том, как темные данные водят за нос людей (а во вторую – что людям с этим делать). Но проблема несколько шире: темные данные могут вводить в заблуждение не только людей, но и машины. По мере того, как машинное обучение и искусственный интеллект становятся все более распространенными, следует ожидать, что будет появляться все больше сообщений о том, как темные данные обманули машину или даже привели к ее аварии. В области машинного обучения и компьютерного зрения существует концепция, которую иногда называют «Умный Ганс». Вот поучительная история ее появления.

Умным Гансом звали коня, принадлежавшего школьному учителю арифметики Вильгельму фон Остену. Умный Ганс был настолько умным, что умел складывать, вычитать, умножать и делить числа, определять время и даже читать и понимать по-немецки. Фон Остен задавал Гансу вопрос (письменно или устно), и, поскольку Ганс не мог ни говорить, ни писать (видимо, для него это было не так умно), он отвечал, постукивая копытом нужное количество раз.

В 1907 г. этот феномен исследовал биолог и психолог Оскар Пфунгст. По его выводу, хотя никаких уловок со стороны хозяина не предпринималось, сказать, что Ганс производит вычисления, было нельзя. Смышленый конь улавливал подсознательные сигналы своего хозяина, который и производил вычисления. Интересно, что сам фон Остен не отдавал себе отчета в том, что подает какие-то сигналы. В этом есть определенное сходство с рассказами игроков в покер.

Для нас важно, что Умный Ганс на самом деле не отвечал на те вопросы, на которые, как полагали зрители, он отвечает. То же самое может случиться и с машинами: их анализ, классификация, решения могут основываться на непредвиденных аспектах входных данных, в том числе на таких, о которых вы даже не подозреваете. В некоторых случаях «едва различимые незначительные отклонения для правильно классифицированного входного изображения [могут означать], что оно перестает классифицироваться правильным образом»[168]. Используя эту слабость автоматических алгоритмов, исследователи из Университета Карнеги – Меллона разработали фигурную оправу для очков, которая для нас выглядит привычно, но при этом начисто сбивает с толку искусственный интеллект и не позволяет ему определить носителя очков[169]. К сожалению, исследователи обнаружили, что путаница не ограничивается конкретным алгоритмом нейронной сети, а представляет собой общую проблему для этого класса алгоритмов. Очевидно, что машины видят вещи совершенно иначе, чем мы, и также ясно, что их видение – это не то, что нас интересует.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление знаниями. Как превратить знания в капитал
Управление знаниями. Как превратить знания в капитал

Впервые в отечественной учебной литературе рассматриваются процессы, связанные с управлением знаниями, а также особенности экономики, основанной на знаниях. Раскрываются методы выявления, сохранения и эффективного использования знаний, дается классификация знаний, анализируются их экономические свойства.Подробно освещаются такие темы, как интеллектуальный капитал организации; организационная культура, ориентированная на обмен знаниями; информационный и коммуникационный менеджмент; формирование обучающейся организации.Главы учебника дополнены практическими кейсами, которые отражают картину современной практики управления знаниями как за рубежом, так и в нашей стране.Для слушателей программ МВА, преподавателей, аспирантов, студентов экономических специальностей, а также для тех, кого интересуют проблемы современного бизнеса и развития экономики, основанной на знаниях.Серия «Полный курс МВА» подготовлена издательством «Эксмо» совместно с Московской международной высшей школой бизнеса «МИРБИС» (Институт)

Александр Лукич Гапоненко , Тамара Михайловна Орлова

Экономика / О бизнесе популярно / Финансы и бизнес