Такие социальные данные начали собирать в семнадцатом веке и продолжают делать это до сих пор. В 1662 году Джон Граунт издал свои «Природные и политические наблюдения», основанные на статистическом анализе лондонских «Отчетов о смертности населения», которые печатались еженедельно и использовались как барометр, чтобы предупреждать людей о возможном начале эпидемии и дать им возможность покинуть город. В 1693 году астроном Эдмонд Галлей издал «таблица продолжительности жизни», основанные на отчетах о смертности жителей города Бреслау, данные которого были более точными, чем те, к которым имел доступ Граунт. Галлей также смог показать, что правительство того времени слишком дешево продает ежегодную пожизненную ренту. Математическая статистика конца девятнадцатого века может считаться новой ветвью математики, которая соединила статистические методы астрономов и приемы сбора данных страховщиков.
Вряд ли мне известно что-либо, способное столь сильно поразить воображение, как удивительная форма космического порядка, выраженная «Законом частоты появления ошибок». Если бы греки знали его, они наверняка связали бы его с каким-нибудь божеством. Этот закон действует в полнейшем хаосе, сохраняя абсолютное спокойствие и до поры оставаясь в тени. Чем буйнее толпа, чем очевиднее проявляется анархия, тем более заметно его влияние. Это — высший закон безумия. Всякий раз, когда большая выборка хаотически разбросанных элементов выстроена в порядке их величины, оказывается, что в них скрыта самая прекрасная форма регулярности, о которой никто и подозревать не мог.
Фрэнсис Гальтон (1822–1911), кузен Чарльза Дарвина, разработал биометрические принципы. Он использовал статистические методы для анализа социальных данных и наследственных свойств. Главной целью так называемого движения евгеники было улучшить человеческий вид при помощи селективного размножения, а статистика использовалась для обеспечения количественного представления пути развития человечества и способа определения направления его усовершенствования. Гальтон применил нормальное распределение не как «кривую ошибок», но как меру изменения, поняв на основании теории эволюции Дарвина с помощью естественного отбора, что биологическая изменчивость нуждалась в анализе сама по себе, а не как эволюционная ошибка относительно некоторой идеализированной «нормы».
Именно Гальтон ввел понятия регресса и корреляции. Статистическое понятие регресса возникло из исследования душистого горошка. Гальтон разделил партию семян на семь групп согласно размеру семени. Семена получающегося потомства показали ту же самую изменчивость, или разницу в размере, соответственно группам. Средний размер семени всей партии оставался постоянным, но значения размера отдельных групп далеко ушли от своей родительской группы в сторону этого среднего значения — математического ожидания группы. Таким образом, значения «регрессировали» в направлении среднего значения по совокупности. В 1885 году Гальтон обнаружил явление регресса и разобрался в нем, а в 1889 году он ввел связанную с этим понятием идею корреляции. Измеряя две взаимосвязанные переменные и отображая эти значения в виде графика, Гальтон обнаружил единую безразмерную величину, которая служила коэффициентом взаимосвязанности между этими двумя переменными. Этот коэффициент корреляции варьировался между +1 — идеальная положительная корреляция — до -1 — идеальная отрицательная корреляция. Когда этот коэффициент приближался к нулю, это означало, что между переменными нет никакой корреляции. Сам по себе коэффициент корреляции не мог доказать никакой причинной связи между переменными, но мог оправдать дальнейшие эксперименты, которые позволили бы обнаружить эту связь.