Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Более утонченное применение метод симуляции находит в современном анализе данных. В частности, так называемая байесовская статистика, описанная далее в этой главе, часто приводит к очень сложным и трудноразрешимым математическим уравнениям. Поиск решения таких уравнений затруднен или попросту невозможен, но на основе симуляции были разработаны альтернативные методы. Так же, как в примере с прогнозированием климата, мы берем уравнения в качестве модели и генерируем данные, которые могли бы возникнуть, если бы эта модель была верной. Затем мы точно так же повторяем это раз за разом, чтобы сгенерировать множественные наборы данных, каждый из которых мог бы возникнуть в реальности. После этого мы суммируем множественные наборы данных, что позволяет вычислять средние значения, диапазоны вариаций или любую другую описательную статистику, которая нам нужна. По сути, мы видим то, какими характеристиками могут обладать результаты и какова вероятность их появления. Методы симуляции превратили байесовскую статистику из интересной теоретической идеи в практический и очень полезный инструмент, который лег в основу машинного обучения и искусственного интеллекта.

Однако важно помнить, что по определению симулированные данные поступают из гипотетической модели. Они являются темными данными (DD-тип 14: фальшивые и синтетические данные), которые возникают не в результате реального процесса. Очевидно, что если модель неверна, если она плохо отображает реальность, то мы рискуем получить искаженное представление о том, что могло бы произойти. Здесь работает то же правило, что и везде: если у вас нет глубокого понимания вопроса, вы легко можете сбиться с пути.

<p>Репликация данных</p>

Из этой книги вы уже знаете, как часто мы хотим оценить то, чего не было, или то, что не можем наблюдать непосредственно. Например, мы пытаемся диагностировать заболевание, основываясь исключительно на симптомах; или прогнозировать число пассажиров нью-йоркского метро в следующем году, исходя из того, сколько человек совершило поездку в этом; или понять, на что будет походить национальная экономика через десятилетие; или предсказать, какой потенциальный заемщик допустит дефолт по кредиту, какой студент преуспеет на курсе, какой соискатель будет более эффективно выполнять работу.

Общей особенностью этих ситуаций является то, что в нашем распоряжении есть данные, описывающие ряд предыдущих случаев (людей, у которых были заболевания, пассажиропоток прошлых лет или поведение реальных заемщиков). И для каждого из этих случаев мы знаем исход (какое именно заболевание, сколько пассажиров, количество дефолтов), а также описательные характеристики (симптомы, повторяющиеся маршруты, информация из формы заявки). Мы можем использовать эти исторические данные для моделирования взаимосвязи между описательными характеристиками и исходом. Такая модель позволит прогнозировать исходы для других случаев исключительно на основе их описательных характеристик.

Эта базовая структура – совокупность прошлых наблюдений, дающая нам и характеристики, и исходы, которую мы используем для построения модели, связывающей характеристики с результатом, чтобы в дальнейшем предсказывать новые исходы – распространена повсеместно. Подобные модели часто называют прогностическими, хотя «прогноз», возвращаясь к нашим примерам, может быть связан с неизвестным диагнозом, а вовсе не обязательно с будущим пассажиропотоком. Будучи исключительно популярными, прогностические модели стали предметом огромного числа исследований. На сегодня разработано множество методов построения таких моделей с широким спектром специфических свойств, и можно выбрать наилучший, соответствующий конкретной задаче.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление знаниями. Как превратить знания в капитал
Управление знаниями. Как превратить знания в капитал

Впервые в отечественной учебной литературе рассматриваются процессы, связанные с управлением знаниями, а также особенности экономики, основанной на знаниях. Раскрываются методы выявления, сохранения и эффективного использования знаний, дается классификация знаний, анализируются их экономические свойства.Подробно освещаются такие темы, как интеллектуальный капитал организации; организационная культура, ориентированная на обмен знаниями; информационный и коммуникационный менеджмент; формирование обучающейся организации.Главы учебника дополнены практическими кейсами, которые отражают картину современной практики управления знаниями как за рубежом, так и в нашей стране.Для слушателей программ МВА, преподавателей, аспирантов, студентов экономических специальностей, а также для тех, кого интересуют проблемы современного бизнеса и развития экономики, основанной на знаниях.Серия «Полный курс МВА» подготовлена издательством «Эксмо» совместно с Московской международной высшей школой бизнеса «МИРБИС» (Институт)

Александр Лукич Гапоненко , Тамара Михайловна Орлова

Экономика / О бизнесе популярно / Финансы и бизнес