Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Мы познакомились с простыми методами подстановки значений на место недостающих и с более сложными, которые задействуют наблюдаемые переменные, чтобы оценить отсутствующее значение. Идея использования предполагаемой взаимосвязи между наблюдаемыми значениями и недостающими для прогнозирования последних приводит к продуктивной итеративной идее, основанной на принципе максимального правдоподобия.

Для любого определенного набора данных и любой предложенной статистической модели механизма их происхождения мы можем рассчитать вероятность возникновения такого набора данных в соответствии с этой моделью. Принцип максимального правдоподобия гласит, что из двух статистических моделей мы должны предпочесть ту, для которой вероятность генерации этих данных выше. В более общем смысле, если у нас есть несколько, много или даже бесконечное число возможных объяснений происхождения набора данных, согласно принципу максимального правдоподобия мы должны выбрать то, которое с наибольшей вероятностью их породило. Итеративный подход – это метод нахождения такой модели, когда отсутствующие данные принадлежат категориям NDD или SDD.

Мы начинаем с подстановки значений на место недостающих, причем получить их можем как угодно, вплоть до случайных предположений. Затем на основе дополненного таким образом набора данных – где присутствуют и наблюдаемые значения, и вмененные – мы оцениваем соотношения переменных, используя принцип максимального правдоподобия. Далее мы берем эти оценочные соотношения и получаем новые замены для пропущенных значений. Затем мы снова используем дополненные данные с новыми вмененными значениями, чтобы сделать следующий виток оценки взаимосвязей, и т. д., цикл за циклом. При соблюдении определенных общих условий значения замещения меняются с каждым циклом все меньше и меньше, и наконец мы приходим к окончательным оценочным соотношениям переменных – тем, которые и представляют модель максимального правдоподобия.

Эти повторяющиеся циклы – выбор значений для пропущенных элементов и последующее использование дополненных данных для получения оценок взаимосвязей между переменными, что, в свою очередь, дает новые замещающие значения для пропущенных элементов, – являются продуктивной идеей, которую в разной форме выдвигали многие ученые. Три статистика – Артур Демпстер, Нэн Лэрд и Дональд Рубин, с последним из которых мы уже встречались, – в своей основополагающей статье 1977 г. обобщили варианты этой идеи, продемонстрировали их общность и придали им более абстрактную форму, допускающую широкое применение в различных ситуациях. Они назвали свой метод EM-алгоритмом, или алгоритмом максимизации ожиданий. Он включает в себя два шага в каждом цикле: первый шаг – вычисление ожидаемого значения для каждого пропущенного элемента, и второй – оценка соотношений переменных с использованием дополненного набора данных. Второй шаг в каждом цикле называется максимизацией, потому что он максимизирует вероятность.

На самом деле Демпстер, Лэрд и Рубин показали, что нет необходимости заходить так далеко, чтобы найти отсутствующим значениям замену. Все, что необходимо, это смоделировать распределение, из которого, вероятно, пришли недостающие значения. Мы столкнулись с этой концепцией, когда рассматривали анализ выживания. Напомню: мы не пытались оценить интервалы выживания тех, кто остался жив после окончания периода наблюдения, а просто использовали вероятность того, что они будут жить дольше, чем этот период.

EM-алгоритм активизирует эту концепцию. После того, как Демпстер и его коллеги представили абстрактное описание двухэтапного циклического алгоритма, стало очевидно, что фундаментально эта идея уже возникла повсюду и проявлялась порой весьма неожиданно. Кроме того, алгоритм был расширен и дополнен различными методами, например, были разработаны модификации, которые требуют меньшего числа итераций «ожидание – максимизация» до момента, когда заменители пропущенных значений (и соотношения переменных) перестанут изменяться, то есть до того, как процесс приблизится к наилучшей (в смысле максимального правдоподобия) модели.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление знаниями. Как превратить знания в капитал
Управление знаниями. Как превратить знания в капитал

Впервые в отечественной учебной литературе рассматриваются процессы, связанные с управлением знаниями, а также особенности экономики, основанной на знаниях. Раскрываются методы выявления, сохранения и эффективного использования знаний, дается классификация знаний, анализируются их экономические свойства.Подробно освещаются такие темы, как интеллектуальный капитал организации; организационная культура, ориентированная на обмен знаниями; информационный и коммуникационный менеджмент; формирование обучающейся организации.Главы учебника дополнены практическими кейсами, которые отражают картину современной практики управления знаниями как за рубежом, так и в нашей стране.Для слушателей программ МВА, преподавателей, аспирантов, студентов экономических специальностей, а также для тех, кого интересуют проблемы современного бизнеса и развития экономики, основанной на знаниях.Серия «Полный курс МВА» подготовлена издательством «Эксмо» совместно с Московской международной высшей школой бизнеса «МИРБИС» (Институт)

Александр Лукич Гапоненко , Тамара Михайловна Орлова

Экономика / О бизнесе популярно / Финансы и бизнес