• Сбор данных требует затрат – вложения. Его размер зависит от того, сколько данных вам необходимо и чем осложнен процесс сбора. Крайне важно уравновесить издержки на приобретение данных с выгодой от повышенной точности прогноза. Для определения оптимального подхода требуется оценить окупаемость затрат для каждого типа данных: сколько нужно вложить для сбора и насколько ценным окажется повышение точности соответствующих прогнозов?
• Увеличение ценности с поступлением дополнительных данных зависит от статистических и экономических причин. С точки зрения статистики у данных – убывающая отдача. Каждая следующая порция данных улучшает прогноз меньше, чем предыдущая; десятое наблюдение более существенно для прогноза, чем тысячное. С точки зрения экономики все не так однозначно. Добавление данных к существующему большому объему может быть эффективнее, чем к маленькому, – например, если дополнительные данные делают прогностическую машину пригодной к использованию, повышают ее продуктивность или позволяют обойти конкурента. Таким образом, организация должна понимать взаимосвязь между добавлением данных, повышением точности прогнозов и увеличением ценности.
Глава 4. Новое разделение труда
Каждое изменение в электронном документе можно зафиксировать. Для большинства людей это просто более удобный способ отслеживать правки, но Рон Глозман увидел в нем возможность применять ИИ к данным для прогнозирования редактирования. В 2015 году Глозман запустил стартап Chisel, и его первый продукт прогнозировал конфиденциальную информацию в юридических документах. Продукт представляет ценность для юридических компаний, потому что при разглашении документов они обязаны скрывать информацию такого рода. Раньше редактировали вручную, люди вычитывали и исправляли тексты документов. Предложение Глозмана позволяло сэкономить время и силы.
Машинное редактирование работало, но не идеально. Бывало, что машина по ошибке скрывала информацию, подлежащую разглашению, или пропускала конфиденциальную. Для соответствия юридическим стандартам требовалась проверка исправленного текста человеком. На тестовом этапе Chisel предлагала фрагменты для редактирования, и человек подтверждал или опровергал предложение. На практике такая совместная работа экономила много времени, а ошибок оказывалось меньше, чем если бы редактирование осуществлялось только человеком.
Разделение труда между человеком и компьютером оказалось эффективным, потому что устранило недостатки работы читающего – низкую скорость и недостаточную внимательность – и ошибки машинной интерпретации текста.
Ошибаются и люди, и машины. Не зная типичных неточностей, мы не понимаем, как объединить их для прогнозирования. Зачем? Согласно идее разделения труда, существующей еще с XVIII века, со времен экономики Адама Смита[38]
, – роли распределяются в соответствии со способностями. В нашем случае с целью прогнозирования разделение труда должно произойти между человеком и машиной. Для этого необходимо разобраться, какие обязанности лучше выполняют люди, а какие – компьютеры. Таким образом мы определим отдельные роли.Слабые стороны человека в прогнозировании
В известном психологическом эксперименте испытуемому показывали случайную последовательность
Почти все сразу замечают, что
Из подобных экспериментов напрашивается вывод, что из людей получаются плохие статистики даже в ситуации, когда они способны оценить вероятности. Такую ошибку не сделала бы ни одна прогностическая машина. Но люди, вероятно, не относятся к подобным задачам ответственно, для них это просто игра. Допускали бы они такие ошибки, если последствия были бы серьезнее, чем в игре?