Давайте начнем с признания того, что есть случаи, когда выборочный метод просто не будет работать. Если вам нужно найти 100 клиентов, обеспечивающих самые большие объемы продаж, это нельзя сделать на основе выборки. Вы должны рассмотреть каждого клиента, чтобы найти 100 лучших. Однако такие задачи, хотя и являются довольно типичными, не превалируют среди аналитических потребностей. Кроме того, существуют случаи, когда модель, даже если она построена на основе выборки, должна быть применена ко всей совокупности данных. Другими словами, когда дело доходит до практического применения модели, вариант с выборками отпадает.
Но давайте обратимся к типичной задаче, когда необходимо установить среднее значение или получить оценки параметров прогностической модели. С точки зрения статистики правильная выборка, которая адекватно отражает всю совокупность и имеет достаточный размер, даст такой же ответ, как и вся совокупность данных. В таких обычных ситуациях практически не будет разницы между ответом, полученным на выборке, и ответом, полученным на всей совокупности. Более высокая стоимость обработки массы дополнительных данных не принесет дополнительных доходов. Даже если модель в конечном итоге будет использована для обработки всех данных, нет смысла создавать модель на основе всей совокупности. Вместо этого необходимо разделить все данные на две части и использовать одну для построения, а другую для последующей валидации модели. Угадайте, что представляют собой наборы данных, предназначенные для построения и проверки модели? Это выборки! Таким образом, использования выборок данных во многих случаях попросту нельзя избежать.
Некоторые специалисты с пеной у рта утверждают, что в тех случаях, когда можно обойтись без выборки, нужно обходиться без нее. Другие считают, что использование более чем минимальной выборки – это пустая трата времени и ресурсов. Лично моя позиция такова: если некто выполняет для меня проект и хочет использовать выборку, я соглашаюсь при условии, что выборка является правильной и достаточного размера. Если же мне предлагают использовать всю совокупность данных, я соглашаюсь и на это при условии, что привлечение дополнительных ресурсов окажется незначительным. Я уверен, что получу такие же результаты, поэтому меня не беспокоит, какой именно путь будет избран. При разработке аналитического процесса существует масса спорных вопросов, поэтому не тратьте время на споры о том, использовать выборку или нет.
Не переусложняйте анализ
Впервые столкнувшись с этой проблемой, я был поражен: оказывается, чересчур изощренная аналитика иногда дает худший результат, чем простая. Это может быть верно даже в тех случаях, когда чисто теоретически более сложный метод должен работать лучше. Убежден, причина в том, что данные всегда содержат некоторую неопределенность, зачастую являются разреженными и никогда не бывают абсолютно полными. Когда аналитика усложняется, возникает риск увеличения в данных ошибок и неопределенностей наряду со снижением контроля и ухудшением их расчета. Вдобавок можно перестараться с настройкой модели, т. е. настолько ее усложнить, что она начнет отражать случайные вариации, присутствующие в конкретном наборе данных, на котором модель создавалась, а не реально существующие эффекты. Переусложненная настройка становится очевидной, когда модель плохо работает при применении к проверочной выборке.
Несколько лет назад моя команда разрабатывала модели прогнозирования продаж на уровне отдельных магазинов для крупного ретейлера. Анализ должен был охватывать сотни миллионов комбинаций магазин/товар. Многие виды товаров продавались часто и стабильно, что соответствовало предположениям, на которые опираются широко используемые алгоритмы для такого типа прогнозов. Однако также было много товаров, что не вписывались в стандартные шаблоны продаж. Клиент нанял мою команду, чтобы разработать индивидуальные решения, применимые к таким исключениям. Однако, с учетом масштабов организации, исключения все равно составляли миллионы комбинаций магазин/товар.
При создании аналитических процессов в операционном масштабе упрощенные решения могут оказаться лучше причудливых. Операционная аналитика часто работает с данными низкого качества, которые могут быть разреженными и неполными. Чрезмерная изощренность модели может привести к нарастанию в данных проблем, вместо того чтобы контролировать их.