Вред от смещенных выборок отличается от вреда маленьких. При выборе небольших групп случайным образом вы, по крайней мере, при увеличении размеров выборки приближаетесь к точному результату. А при смещенных выборках этого не происходит – будет расти лишь ваша уверенность в неверном результате.
Например, в преддверии общенациональных выборов 2019 года Джереми Корбин, тогдашний лидер лейбористской партии, и Борис Джонсон, премьер-министр и лидер тори, провели теледебаты.
После этого компания YouGov, специалист по политопросам, выяснила, что среди телезрителей мнения о том, кто же был убедительнее, разделились почти поровну: 48 % считали, что Джонсон, 46 % – Корбин и еще 7 % не могли определить победителя. (Да, в сумме получается 101 %. Так бывает, если округлять числа до ближайшего целого.)
Это вызвало споры в интернете. В одном вирусном твите (более 15 000 лайков на настоящий момент) упоминалось, что результаты других опросов резко отличались от данных YouGov[9]
(см. рисунок на следующей странице).Четыре из пяти опросов показали, что Корбин явно выиграл дебаты. У единственного, давшего иной результат, объем выборки был в несколько раз меньше, чем у каждого из остальных. Тем не менее только его и цитировали на всех новостных каналах. Говорит ли это о предвзятом отношении СМИ к Корбину?
Скорее, это пример смещенных выборок. Те четыре опроса проводились в твиттере. Обычно это – просто безобидное развлечение (полуфинал мировой лиги чипсов: Monster Munch Pickled Onion против Walkers Cheese & Onion и т. д.). Но иногда вопросы бывают политическими.[10]
Беда в том, что твиттер не представляет всего населения. Соцсетью пользуется 17 % британцев, и среди них, согласно опросу 2017 года, больше молодежи, женщин и представителей среднего класса, чем в целом по стране. А молодежь, женщины и средний класс чаще голосуют за лейбористов. (Ну и, конечно, те, кто увидел эти опросы и поучаствовал в них, не представляют твиттер в целом.)
Большее число опрошенных делу не помогло бы. Проблема сохранилась бы, ведь выборка оставалась бы нерепрезентативной. Даже миллион человек – это все равно опрос пользователей твиттера, а не населения страны. Вы бы получили только более точное значение неверного ответа.
Репрезентативную выборку вообще получить очень трудно. Опрашивая людей в твиттере, вы не узнаете мнения тех, кто им не пользуется. То же самое верно и во всех других случаях. Если проводить опрос в интернете, вы упустите из виду тех, у кого его нет; если на улице, то не охватите тех, кто сидит дома. Раньше при проведении политических опросов было принято обзванивать респондентов, потому что стационарные телефоны стояли почти у каждого и так можно было без труда получить случайную выборку – просто выбирая номера случайным образом. Но в наше время этот способ даст сильно смещенную выборку, потому что те, у кого есть домашние телефоны (и кто отвечает на звонки с неизвестных номеров), отличаются от тех, у кого их нет.[11]
Есть способы, которые отчасти помогают обходить подобные трудности при выборе респондентов. Но идеала достичь невозможно: никого нельзя заставить участвовать в опросе, поэтому вам никогда не удастся полноценно представить тех, кто их ненавидит. Так что приходится идти обходным путем – снабжать результаты весами.
Представьте, что, согласно переписи, и мужчины, и женщины составляют по 50 % населения. Вы проводите опрос, стараясь получить максимально репрезентативную выборку. Из вашей тысячи респондентов 400 – женщины и 600 – мужчины. Вы задаете вопрос: «Нравится ли вам сериал „Анатомия страсти“?» Оказывается, что 400 человек его любят, а 600 – нет. Можно было бы решить, что «Анатомии страсти» симпатизирует 40 % населения. Но, уточнив данные, вы обнаруживаете гендерный перекос: сериал нравится 100 % женщин и 0 % мужчин.
Вы получили 40 % потому, что ваша выборка не репрезентативна для населения страны в целом. К счастью, это легко исправить. Достаточно присвоить результатам веса. Вы знаете, что в вашей выборке женщин всего 40 %, хотя должно быть 50 %. И поскольку 50 на 25 % больше 40, увеличиваете 400 ответов «да» на 25 % и получаете 500.
С мужчинами делаете то же самое. В вашей выборке их 60 %, а в несмещенной должно быть 50 %. 50 составляет 0,833… от 60, следовательно, здесь вес составит 0,833…
Поэтому полученный вами результат 600 вы умножаете на 0,833… и получаете 500. Теперь взвешенные результаты показывают, что 50 % населения нравится сериал «Анатомия страсти».
Можно действовать более тонко. Например, если оказалось, что 50 % ваших респондентов на последних выборах голосовали за консерваторов, а вы знаете, что страна в целом отдала за них 40 % голосов, а за лейбористов – 35 %, то можете снабдить свою выборку соответствующими весами. Или, если в выборке преобладают люди старшего возраста, потому что вы со своими расспросами звонили на домашние телефоны, но вы знаете распределение населения по возрастам, то у вас тоже получится скорректировать это с помощью весов.