Читаем Неизведанная территория полностью

Данные электронных писем представляют собой мощный ресурс. Они не только документируют детали нашего прошлого, но и позволяют нам понять себя по-новому. Возьмем, к примеру, электронную корреспонденцию одного из нас – авторов данной книги. Простой анализ n-грамов его почтового ящика способен многое сказать о его жизни. Вы можете увидеть, как с годами он все чаще переходит с французского языка на английский, что связано с его переездом из Франции в США. У него появляются и исчезают друзья. Падает уровень юношеского энтузиазма – в переписке все реже можно встретить слово «вечеринка». В то же время мы видим, как постепенно место вечеринок начинает занимать имя любви всей его жизни. Изучая свои собственные n-грамы подобным образом, мы раз за разом открываем вещи, которые когда-то были для нас важными, но потом начали постепенно забываться. Большие данные необязательно должны быть сложными. Они вполне могут стать окном в нашу собственную жизнь, в нашу «количественную» личность.

Человеческие цифровые воспоминания не ограничиваются перепиской. Помимо пятнадцати тысяч электронных писем, обычный человек ежегодно отправляет и получает 5 тысяч приложений к электронным письмам. Он «лайкает» около 140 сообщений и загружает 18 изображений на Facebook и еще два – в Instagram. Он пишет 9 твитов. Он просматривает 20 секунд видео на YouTube. Он добавляет 52 файла в Dropbox. Он взаимодействует с 53 друзьями в социальной сети. И эти впечатляющие средние значения еще не включают в себя все образы, документы, видео и музыку, которые мы создаем, но не выкладываем в общий доступ в сеть Интернет. И, конечно же, не стоит забывать о том, что пока что у почти трех четвертей населения мира отсутствует доступ в Интернет.

Взятый в совокупности, этот материал содержит удивительно подробные данные о жизни миллиардов людей – данные, которые просто не существовали еще десять лет назад[205]. У такой ситуации еще не было прецедента в человеческой истории. Наша цивилизация передает с помощью «Твиттера» больше слов каждый час, чем имеется во всех доживших до наших дней текстах из Древней Греции. В сравнении с обычным человеком наших дней человек типа По выглядит куда более загадочным и непонятным.

Но и сегодняшние люди представляют собой подлинную тайну в сравнении с людьми завтрашнего дня.

Цифровое будущее

В самом начале этой книги мы сказали, что обычный современный человек создает немногим менее одного терабайта данных каждый год. Но некоторые люди превосходят усредненный показатель. Один из таких людей – Дуэйн Рой, младенец, живущий в Бостоне. Он регулярно производит подобный объем данных в течение каждых выходных.

Почему же Дуэйн создает так много битов? Нужно сказать, что он – сын профессора Деба Роя, управляющего работой группы Cognitive Machines в MIT Media Lab, и профессора Рупал Пател, изучающей патологию речи в Северо-Западном университете. Оба родителя Дуэйна с большим интересом изучают то, как дети учатся говорить. Это важно для Пател, поскольку именно это входит в выбранную ею область исследований. Для Роя это важно, поскольку он хочет использовать те же самые принципы для обучения роботов общению на человеческом языке. Супруги поняли, что для понимания того, как дети овладевают речью, нам недостаточно данных. Никто и никогда подробно не документировал того, как развиваются по мере взросления отношения детей и языка.

Когда Пател забеременела, пара решила заняться этой проблемой. Для этого родители стали тщательно фиксировать все, происходящее в первые три года жизни их новорожденного ребенка. Получив грант от Национального научного фонда на проект Human Speechome Project (проект «Речома человека», по аналогии с «геномом»), Рой оснастил свой дом одиннадцатью видеокамерами с высоким разрешением и четырнадцатью микрофонами. Около тысячи километров кабелей соединяют эти устройства с центром обработки данных, расположенным в подвале. Каждый день в этом подвале накапливается более 300 гигабайт информации о Дуэйне. Каждый его шаг, любой производимый им шум, всякий слышимый звук и все, что он видит, фиксируется для научных целей (камеры выключаются, когда ребенок засыпает, и, очевидно, не могут проследить за ним, когда он находится за пределами дома).

Очевидно, что при столь большом объеме входящей информации центр обработки данных, расположенный в подвале, постепенно заполняется до предела. Именно поэтому старшему Рою приходится регулярно вытаскивать из компьютера множество жестких дисков и архивировать эти данные на более мощной компьютерной системе, созданной им на работе. Для отслеживания происходящего с одним маленьким мальчиком он использует целую сеть дорогостоящих процессоров и дисков, способных хранить петабайт, или один миллион гигабайт информации. Название этого проекта в точности отражает его суть: TotalRecall («Вспомнить все») [206].

Перейти на страницу:

Все книги серии Наука XXI век

Неизведанная территория
Неизведанная территория

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Жан-Батист Мишель , Эрец Эйден

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги

Искусство статистики. Как находить ответы в данных
Искусство статистики. Как находить ответы в данных

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики.На русском языке публикуется впервые.

Дэвид Шпигельхалтер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
От болезни тела – к исцелению души. Почему мы болеем?
От болезни тела – к исцелению души. Почему мы болеем?

Все болезни имеют глубокий смысл. Они передают ценнейшие послания психики. Психолог Торвальд Детлефсен и врач Рудигер Дальке помогают нам понять, о чем свидетельствуют инфекционные заболевания, головные боли, несчастные случаи, сердечные приступы и желудочные колики, а также рак и СПИД. Если вы осознаете картину собственной болезни, то сможете найти новый прямой путь к самому себе. Болезнь не является неприятной помехой на этом пути, ибо она сама – путь. Чем сознательнее мы к ней относимся, тем лучше она выполняет свои задачи. Наша цель – не борьба с болезнью, а ее использование для исцеления души.

Рудигер Дальке , Торвальд Детлефсен

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Эзотерика / Здоровье и красота / Дом и досуг