Одна из масштабных тенденций, меняющих ход науки, связана с Большими данными – созданием и использованием гигантских и сложных наборов данных на основе облачных технологий. Масштаб Больших данных почти безграничен: организации непрерывно экспортируют миллионы транзакций в час в базы данных размером в сотни петабайт. Общий объем цифровой информации в мире в настоящее время удваивается примерно каждые 18 месяцев. Но еще до наступления эры Big Data
процессы моделирования и прогнозирования уже превратились в ключевые этапы вычислений в научных процессах, а новые методы, требующиеся для работы с Большими данными, делают традиционный научный метод еще менее релевантным. Наши отношения с информацией изменились. Ранее, в эпоху нехватки информации, любые данные были заметны. К примеру, в календаре каждый элемент информации о назначенной встрече был важен и предполагал какое-то действие. С Большими данными справедливым стало обратное: 99 % данных оказываются ненужными (немедленно, или со временем, или в результате обработки). Теперь наша главная задача – извлечение крупиц релевантной информации из огромных ее массивов, поиск сигналов, аномалий и исключений в шуме – к примеру, геномного полиморфизма. Следующий уровень обработки Больших данных – это распознавание паттернов. Высокая частота выборки позволяет не только точечно тестировать феномены (как это происходило и при традиционном научном методе), но и полностью объяснять их во временно́й динамике и при различных условиях. Впервые мы можем заняться расчетами продолжительных базовых норм, дисперсии, закономерностей и циклического поведения. Но для этого требуется мышление, не ограниченное простыми соображениями причинности (как в традиционном научном методе). Нам необходимы расширенные, системные модели корреляции, ассоциации и оценки отдельных эпизодов-триггеров. Некоторые из самых передовых методов работы с Большими данными включают в себя алгоритмы машинного обучения, нейронные сети, иерархическое представление данных и визуализацию информации.Краудсорсинг – организованная через интернет совместная работа множества участников над каким-то общим процессом – это еще одна тенденция, меняющая форму научных исследований. Различные модели краудсорсинга привели к развитию научной экосистемы, на одной стороне которой может находиться получивший профессиональную подготовку институциональный ученый, пользующийся традиционным научным методом, а на другой – ученый-любитель, изучающий вопросы, интересные лично для него, с помощью огромного количества различных методов. Между этими двумя полюсами располагаются их общие коллеги, в различной степени профессионально организованные и по-разному координирующие свои усилия. Интернет (и постепенное объединение человечества с его помощью – к 2020 году, согласно прогнозам, число пользователей Сети достигнет 5 млрд) – позволяет науке развиваться в совершенно ином масштабе. Дело не только в том, что в краудсорсинговых группах стандартные исследования проводятся быстрее и стоят дешевле: сегодня мы в состоянии проводить исследования, в сотни раз более масштабные и детализированные.
Группа исследователей способна предоставить огромные массивы информации, просто подключив к общей базе свои личные гаджеты, настроенные на сбор данных по принципу «измерения себя» (quantified self
). Ученые-любители принимают участие в простых процессах обработки информации и в других видах сбора и анализа данных через веб-сайты типа Galaxy Zoo. Участников таких проектов подбирают через (также выстроенные по принципу краудсорсинга) площадки найма рабочей силы (первоначально все они были похожи на площадку Mechanical Turk («Механический турок»), принадлежащую Amazon.com, однако теперь всё больше ориентируются на профессиональные навыки кандидатов), соревнования по скорости обработке данных и «игровые» научные проекты (например, в таких областях, как прогнозирование складывания белков и структура РНК). Новые методы науки подкрепляются появлением новых инструментов – работы по принципу DIY («сделай сам»), «измерения себя», биохакинга, трехмерной печати и совместных исследований.