Главное отличие современной жажды данных от того, что происходило во времена Флоренс Найтингейл – в эпоху «первой волны больших данных», – заключается в том, что сегодня у нас есть интернет. Использование чисел по-прежнему требует стандартизации, сбора данных и их анализа, но благодаря интернету все это происходит с гораздо бо́льшим размахом. Такое впечатление, что мы еще никогда не
Одновременно с увеличением объема данных растут и ожидания от возможностей их использования. Компания Tala, давшая Дженифер кредит, хочет применить большие данные для охвата тех граждан, у кого сейчас нет возможности занимать деньги. Американская психотерапевтическая служба Crisis Text Line анализирует данные текстовых сообщений, определяя склонных к суициду людей[243]
. А организация Rainforest Connection собирает на старых смартфонах данные, помогающие бороться с незаконными вырубками и браконьерством.Ожидания неимоверно высоки. Политики, руководители компаний и просветители утверждают, что большие данные позволят нам выйти из климатического кризиса[244]
, преобразовать системы здравоохранения[245] и искоренить голод[246].Возможно, при помощи больших данных мы даже спасем демократию. Выборы не имеют смысла, когда многие не голосуют, утверждала в колонке в нидерландской газете NRC глава университета Луиза Фреско. «Нельзя ли заменить демократические выборы системой искусственного интеллекта?»[247]
Сложные вычислительные системы могут сделать выборы ненужными, потому что наши предпочтения уже содержатся в наших данных – в том, куда мы ездим, с кем разговариваем, что читаем.С помощью этих сведений о нашем поведении – добавив при необходимости результаты дополнительных опросов – можно добраться до сути того, что мы действительно считаем важным, и выявить наши политические предпочтения.
Мысленный эксперимент Фреско может показаться совершенно оторванным от реальности, но нельзя забывать, что алгоритмы, работающие с большими данными, влияют на нашу жизнь все сильнее. Страховщики используют их, чтобы рассчитать ваши страховые взносы[248]
, налоговые органы – чтобы понять, уклоняетесь ли вы от налогов[249], а американские суды – чтобы решить, следует ли предоставить заключенному досрочное освобождение[250]. Наша судьба все больше оказывается во власти больших данных. Предполагать, что мы можем не обращать на это внимания, позволив им решать все за нас, опасно. За этой идеей скрывается серьезная ошибка: убеждение в том, что данные всегда соответствуют истине, а у больших данных нет тех недостатков, которые мы видели в предыдущих главах.Давно пора взглянуть на большие данные пристальнее, учитывая все, о чем мы говорили. Как мы стандартизируем? Как собираем и анализируем данные в XXI веке? И почему мы не можем не раздумывая оставить важные решения на милость чисел и вычислений?
Что мы имеем в виду, когда говорим об алгоритмах
Для начала заглянем, как говорится, под капот. Как используются данные в наше время? В прошлом, чтобы разобраться в массивах данных, мы изобрели средние значения и графики. Точно так же и сегодня умные люди придумали, как укротить триллионы байтов информации. Эти методы – алгоритмы – решают, какие результаты вы получаете из поиска в Google, какие сообщения видите в фейсбуке, кто появляется в вашем приложении знакомств, кто получает кредиты от компаний, подобных Tala. (Слово «алгоритм» происходит от имени среднеазиатского математика IX века Мухаммада ибн Мусы аль-Хорезми, написавшего трактат по алгебре[251]
.)Собственно говоря, алгоритм – это всего лишь набор нескольких действий, которые нужно выполнить для достижения определенной цели. На экране компьютера он выглядит очень сухо и скучно: в каждой строчке программист записывает на компьютерном языке инструкцию о том, какие действия следует выполнить в тех или иных условиях. Такая строчка может быть условным оператором типа