Читаем Все лгут. Поисковики, Big Data и Интернет знают о вас всё полностью

Я потратил десять лет на анализ различных данных, и за это время мне посчастливилось работать со многими из наиболее значимых в этой области людей. Один из самых важных уроков, которые я усвоил, заключается в том, что правильная работа с информацией не настолько сложна, как кажется многим. Лучшие примеры научной работы с данными на самом деле показывают, насколько она интуитивна{14}.

Что же делает науку о данных столь интуитивной? По своей сути эта дисциплина занимается выявлением и отбором правильных данных, а также прогнозированием того, как одна переменная повлияет на другую. Люди постоянно этим занимаются.

Просто подумайте, как бабушка давала мне совет по поводу моих отношений. Она использовала большую базу данных об отношениях, загружавшуюся в ее мозг в течение практически всей жизни, – истории, которые она слышала от членов своей семьи, от друзей и знакомых. Сначала она ограничила данные для анализа примерами отношений, в которых мужчина имел многие из тех качеств, которые есть и у меня – чувствительность, склонность к самоизоляции, чувство юмора. Затем сосредоточилась на ключевых качествах известных ей в этой выборке женщин: насколько они были добрыми, умными, красивыми. Потом сопоставила эти ключевые качества женщин с важнейшим элементом отношений: были ли они хорошими или нет. И, наконец, сообщила результат. Другими словами, она заметила закономерности и предсказала, как одна переменная будет влиять на другую. В этой ситуации бабушка выступила как специалист по работе с данными.

Вы тоже являетесь специалистом по работе с данными. Будучи ребенком, вы замечали: стоило начать плакать, как мама сразу обращала на вас внимание. Это тоже часть науки по работе с данными. Достигнув совершеннолетия, вы заметили, что, если слишком много ныть и жаловаться, люди начнут избегать общения с вами. Это тоже наука о данных. Когда люди меньше общаются с вами, у вас портится настроение, вы недовольны. Когда вы менее счастливы, вы менее дружелюбны, а когда вы менее дружелюбны, люди предпочитают держаться от вас еще дальше. Это наука о данных. Везде наука о данных. Повсюду наука о данных.

Поскольку она, таким образом, является практически естественным делом, я обнаружил, что в лучших вариантах анализа больших данных может разобраться практически любой умный человек. Если вы не можете понять, в чем суть исследования, проблема скорее всего не в вас, а в самом исследовании.

Вам нужны доказательства того, что научная работа с большими данными, как правило, является интуитивно понятной? Недавно я наткнулся на исследование, которое может оказаться одним из самых важных среди всех, проводившихся в течение последних нескольких лет. Оно также является одним из наиболее интуитивных, которые я когда-либо видел. Мне хочется, чтобы вы подумали не только о его важности, но и о том, насколько оно естественно и похоже на то, что делала моя бабушка.

Этот эксперимент проводила команда ученых из Колумбийского университета и из Microsoft. Целью был поиск симптомов, позволяющих предсказать зарождение у людей рака поджелудочной железы{15}. При этом заболевании только три процента больных проживают больше пяти лет, но раннее обнаружение болезни может удвоить шансы пациента.

Какой метод применили исследователи? Они использовали данные десятков тысяч анонимных пользователей Bing – поисковика Microsoft. При этом выбирали пользователей, у которых недавно был диагностирован рак поджелудочной железы – основываясь на безошибочном поисковом запросе, например: «Мне только что диагностировали рак поджелудочной железы» или «Мне сказали, что у меня рак поджелудочной железы, чего ожидать?»

Далее ученые искали запросы относительно возникающих симптомов. Они сравнили данные небольшого количества пользователей, сообщивших о своем диагнозе не сразу, с теми, кто этого вообще не сделал. Другими словами, попытались выявить, какие симптомы беспокоили тех, кто признался в своем диагнозе только через несколько недель или месяцев.

Результаты оказались просто поразительными. Признаками рака поджелудочной железы оказались боль в спине, а затем пожелтение кожи. Поисковый запрос только о боли в спине по большей части не относился к раку. Аналогично, поисковый запрос «Несварение желудка, а потом боль в животе» свидетельствует о раке поджелудочной железы, тогда как просто несварение желудка без болей не означает этого страшного диагноза. Исследователи смогли выявить от 5 до 15 % случаев практически без ложных срабатываний. Может быть, это не выглядит особо удачным результатом, но если у вас рак поджелудочной железы, даже 10 %-ная возможность удвоить шансы на выживание будет восприниматься как неожиданный подарок судьбы.

Неспециалисту изложенные в статье детали исследования будет трудно осмыслить в полной мере. Они включают в себя много технических терминов, таких как тест Холмогорова – Смирнова[6], смысл которого, признаться, я уже забыл.

Перейти на страницу:

Похожие книги

Самоучитель UML
Самоучитель UML

Самоучитель UMLПервое издание.В книге рассматриваются основы UML – унифицированного языка моделирования для описания, визуализации и документирования объектно-ориентированных систем и бизнес-процессов в ходе разработки программных приложений. Подробно описываются базовые понятия UML, необходимые для построения объектно-ориентированной модели системы с использованием графической нотации. Изложение сопровождается примерами разработки отдельных диаграмм, которые необходимы для представления информационной модели системы. Цель книги – помочь программистам освоить новую методологию разработки корпоративных программных приложений для последующего применения полученных знаний с использованием соответствующих CASE-инструментов.

Александр Васильевич Леоненков , Александр Леоненков

Зарубежная компьютерная, околокомпьютерная литература / Программирование / Прочая компьютерная литература / Книги по IT
Основы информатики: Учебник для вузов
Основы информатики: Учебник для вузов

Учебник состоит из двух разделов: теоретического и практического. В теоретической части учебника изложены основы современной информатики как комплексной научно-технической дисциплины, включающей изучение структуры и общих свойств информации и информационных процессов, общих принципов построения вычислительных устройств, рассмотрены вопросы организации и функционирования информационно-вычислительных сетей, компьютерной безопасности, представлены ключевые понятия алгоритмизации и программирования, баз данных и СУБД. Для контроля полученных теоретических знаний предлагаются вопросы для самопроверки и тесты. Практическая часть освещает алгоритмы основных действий при работе с текстовым процессором Microsoft Word, табличным редактором Microsoft Excel, программой для создания презентаций Microsoft Power Point, программами-архиваторами и антивирусными программами. В качестве закрепления пройденного практического курса в конце каждого раздела предлагается выполнить самостоятельную работу.

Вадим Васильевич Лысенко , Лариса Александровна Малинина , Максим Анатольевич Беляев

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Справочник по параметрам BIOS
Справочник по параметрам BIOS

В справочнике в алфавитном порядке приведено описание большинства параметров современных BIOS. В краткой форме описаны большинство настроек BIOS, даны рекомендуемые значения для различных конфигураций компьютеров. Также рассказано, что представляет собой BIOS, какие типы BIOS существуют, как получить доступ к BIOS и обновлять ее.Кроме того, вы научитесь использовать различные функции BIOS, узнаете, как оптимизировать их с целью улучшения производительности и надежности системы.Для более глубокого понимания работы BIOS и детального рассмотрения ее функций рекомендуем обратиться к книге «Оптимизация BIOS. Полное руководство по всем параметрам BIOS и их настройкам» А. Вонга.Книга предназначена для всех пользователей компьютера – как начинающих, которые хотят научиться правильно и грамотно настроить свою машину, используя возможности BIOS, так и профессионалов, для которых книга окажется полезным справочником по всему многообразию настроек BIOS. Перевод: А. Осипов

Адриан Вонг

Прочая компьютерная литература / Книги по IT