Читаем Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры полностью

Первая серьезная проблема заключается в том, что большие данные и данные, которыми оперируют ученые, структурированы совершенно по-разному. Ученые предпочитают отвечать на тщательно сформулированные вопросы с помощью элегантных экспериментов, дающих воспроизводимые и точные результаты. Однако большие данные часто сопровождаются неразберихой. Типичный массив больших данных представляет собой смесь фактов и измерений, сделанных без какой-либо научной цели и с использованием далеко не универсальных процедур. Он изобилует ошибками и огромным количеством пугающих пробелов – например, недостающими элементами информации, важными для любого разумного ученого. Такие ошибки и упущения часто непоследовательны, даже в рамках единого массива данных. Это связано с тем, что большие массивы данных часто создаются путем объединения большого количества более мелких массивов данных. Очевидно, что некоторые из компонентов массивов данных более надежны, чем другие, и у каждого из них есть свои особенности. Хорошим примером может служить социальная сеть Facebook. Добавление людей «в друзья» может означать совершенно разное для разных людей. Кто-то делает это довольно свободно. Кто-то более осторожен. Некоторые добавляют в друзья коллег, другие этого не делают. Отчасти работа с большими данными как раз и требует, чтобы их хорошо понимали и учитывали все подобные особенности. Но настолько хорошо можно быть знакомым с петабайтом данных?

Вторая серьезная сложность заключается в том, что большие данные не всегда вписываются в концепцию того, что мы привыкли понимать под научным методом. Ученые любят подтверждать конкретные гипотезы и постепенно собирать свои выводы сначала в связные, а затем и математически верные теории. Стоит покопаться в любом достаточно интересном большом наборе данных, и вы неминуемо сделаете открытие – к примеру, найдете корреляцию между активизацией морского пиратства и изменением температуры в атмосфере. Такой вид исследований иногда называется «исследованием без гипотез», поскольку вы никогда не знаете в начале работы, что найдете в процессе. Тем не менее большие данные вам помогут куда меньше, если нужно объяснить такую корреляцию с точки зрения причинно-следственной связи. Вызывают ли действия пиратов глобальное потепление? Заставляет ли повышение температуры на улице заниматься пиратством? А если эти два показателя не связаны между собой, то почему они оба так сильно растут в последние годы? Большие данные часто заставляются нас теряться в догадках.

Поскольку мы продолжаем накапливать необъясненные и недостаточно объясненные факты, появилось мнение, что причинно-следственная связь как основа научного познания рискует уступить свое место корреляции. Некоторым даже кажется, что дальнейшее развитие больших данных приведет к смерти теории. Однако с такой точкой зрения вряд ли можно согласиться. Мы можем отнести к подлинным триумфам современной науки такие теории, как теория общей относительности Эйнштейна или теория естественного отбора Дарвина, объясняющие причины сложных явлений с помощью небольшого набора основополагающих принципов. Если поиск таких теорий уйдет в прошлое, то мы рискуем потерять саму суть того, что называется наукой. Какой смысл делать миллионы открытий, если мы не можем объяснить сути ни одного из них? Это не значит, что мы должны отказываться от объяснений природы вещей. Это значит лишь, что мы должны изменить принципы своей работы.

И последняя значительная проблема связана с тем, где теперь живут данные. Мы как ученые привыкли получать данные, экспериментируя в своих лабораториях или выбираясь в мир природы и фиксируя свои наблюдения. Ученый в некотором смысле контролирует получение данных. Однако в мире больших данных привратниками самых обширных массивов оказываются крупные корпорации и даже правительства. А людям, гражданам стран и клиентам компаний, далеко не безразлично, как используются эти данные. Мало кто хочет, чтобы налоговая служба США делилась данными личных налоговых деклараций с исследователями (пусть и руководствующихся самыми добрыми намерениями). Продавцы на eBay не хотят, чтобы полная информация о произведенных ими сделках становилась общедоступной или передавалась каким-то студентам-недоучкам. Лог-файлы поисковых машин и электронные письма должны по умолчанию обладать определенной степенью интимности и конфиденциальности. Авторы книг и блогов защищены законами об авторских правах. А коммерческие компании распространяют право собственности на контролируемые ими данные. Они могут анализировать эти данные с намерением получить больше от вложений в рекламу, но вряд ли согласятся поделиться своими конкурентными преимуществами с чужаками, особенно исследователями и учеными, которые вряд ли поспособствуют повышению прибыльности бизнеса.

Перейти на страницу:

Похожие книги

97 этюдов для архитекторов программных систем
97 этюдов для архитекторов программных систем

Успешная карьера архитектора программного обеспечения требует хорошего владения как технической, так и деловой сторонами вопросов, связанных с проектированием архитектуры. В этой необычной книге ведущие архитекторы ПО со всего света обсуждают важные принципы разработки, выходящие далеко за пределы чисто технических вопросов.?Архитектор ПО выполняет роль посредника между командой разработчиков и бизнес-руководством компании, поэтому чтобы добиться успеха в этой профессии, необходимо не только овладеть различными технологиями, но и обеспечить работу над проектом в соответствии с бизнес-целями. В книге более 50 архитекторов рассказывают о том, что считают самым важным в своей работе, дают советы, как организовать общение с другими участниками проекта, как снизить сложность архитектуры, как оказывать поддержку разработчикам. Они щедро делятся множеством полезных идей и приемов, которые вынесли из своего многолетнего опыта. Авторы надеются, что книга станет источником вдохновения и руководством к действию для многих профессиональных программистов.

Билл де Ора , Майкл Хайгард , Нил Форд

Программирование, программы, базы данных / Базы данных / Программирование / Книги по IT
Программирование. Принципы и практика использования C++ Исправленное издание
Программирование. Принципы и практика использования C++ Исправленное издание

Специальное издание самой читаемой и содержащей наиболее достоверные сведения книги по C++. Книга написана Бьярне Страуструпом — автором языка программирования C++ — и является каноническим изложением возможностей этого языка. Помимо подробного описания собственно языка, на страницах книги вы найдете доказавшие свою эффективность подходы к решению разнообразных задач проектирования и программирования. Многочисленные примеры демонстрируют как хороший стиль программирования на С-совместимом ядре C++, так и современный -ориентированный подход к созданию программных продуктов. Третье издание бестселлера было существенно переработано автором. Результатом этой переработки стала большая доступность книги для новичков. В то же время, текст обогатился сведениями и методиками программирования, которые могут оказаться полезными даже для многоопытных специалистов по C++. Не обойдены вниманием и нововведения языка: стандартная библиотека шаблонов (STL), пространства имен (namespaces), механизм идентификации типов во время выполнения (RTTI), явные приведения типов (cast-операторы) и другие. Настоящее специальное издание отличается от третьего добавлением двух новых приложений (посвященных локализации и безопасной обработке исключений средствами стандартной библиотеки), довольно многочисленными уточнениями в остальном тексте, а также исправлением множества опечаток. Книга адресована программистам, использующим в своей повседневной работе C++. Она также будет полезна преподавателям, студентам и всем, кто хочет ознакомиться с описанием языка «из первых рук».

Бьерн Страуструп , Бьёрн Страуструп , Валерий Федорович Альмухаметов , Ирина Сергеевна Козлова

Программирование, программы, базы данных / Базы данных / Программирование / Учебная и научная литература / Образование и наука / Книги по IT