Читаем Неизведанная территория полностью

Использование больших теней дает нам возможность защитить информацию в массиве данных, одновременно давая возможность с ними работать. И это оказывается в интересах не только участвующих в процессе исследователей. Поскольку идеальная тень безобидна с этической и юридической точек зрения, это может убедить осторожных хранителей выпустить ее в общий доступ. Таким образом, большие тени дают нам возможность превратить хорошо защищенные массивы данных во внушительные открытые ресурсы, пользоваться которыми может любой человек с интересной идеей – ученый, предприниматель или студент. В разговоре с компаниями мы обычно упоминаем так называемую цифровую филантропию – пожертвование битов может быть благом ничуть не меньшим, чем пожертвование денег (а кроме того, это определенно дешевле).

В тени Google books

Для простоты давайте представим себе сырые данные Google Books как огромную таблицу, содержащую полный текст каждой книги вместе с информацией о ней, такой как название, имя и дата рождения автора, библиотека, в которой находится книга, и дата публикации. Google Books отбрасывает множество теней, однако не все из них обеспечивают одинаково интересные результаты.

Одна тень состоит из одного лишь названия каждой книги. Эта тень включает около 100 миллионов слов. Это крошечный объем данных по сравнению с полной коллекцией, и он слишком мал, чтобы пробудить к жизни новую науку. Но получить доступ даже к этой информации проблематично – Google считает названия книг внутренней корпоративной информацией, поскольку не хочет, чтобы конкуренты знали, какие книги она отсканировала, а какие – нет. Поэтому названия не могут служить хорошей тенью.

Другая тень – это полный текст всех книг, находящихся в открытом доступе, то есть всех книг, в отношении которых закончился срок копирайта. Этот набор данных по-настоящему интересен и потенциально свободен от сложностей, возникающих при наличии правообладателей. Однако у него есть два недостатка. Во-первых, поскольку копирайт имеет срок давности, в открытом доступе находится совсем немного книг, опубликованных после 1920 года. Это значит, что периоды, в которые больших данных очевидно больше – XX и начало XXI века, – почти не представлены. Во-вторых, устаревшие законы в области копирайта часто не позволяют четко определить статус каждой книги. Подобная проблема преследует подавляющее большинство книг в коллекции Google. А поскольку непонятно, какие книги можно включать, это может значительно усложнить процесс расчета тени.

Итак, что мы могли предложить Норвигу?

Мы вновь подумали о книге Legendary, Lexical, Loquacious Love Карен Реймер. Разве изучение книги Реймер и то, как частота тех или иных слов позволяет увидеть скрытые стороны произведения и мысли его автора, не стало бы еще интереснее, если бы сюжет представлял собой значительную часть исторических записей западной цивилизации, а автором оказался в каком-то смысле каждый?

Чем больше мы думали об этом, тем больше этот алфавитный роман казался нам источником тени, простой и прекрасной, прекрасной, прекрасной, прекрасной, прекрасной. Почему бы нам просто не воспользоваться частотой слов в книгах Google?

Если быть более точными, наша идея состояла в том, чтобы создать теневой массив данных, содержащий одну запись для каждого слова и фразы, появлявшихся в написанных на английском языке книгах.

Эти слова и фразы – в компьютерных науках для этого используется забавный термин n-грам – включают 3.14159 (1-грам), banana split (2-грам) и the United States of America (5-грам). Для каждого слова и каждой фразы запись могла бы состоять из длинного списка чисел, показывающих, насколько часто определенный n-грам появлялся в книгах, год за годом, за последние 5 столетий. Это не просто невероятно интересно, но и стало бы юридически безупречным решением. Насколько мы могли судить, против Реймер никогда не подавались иски за публикацию алфавитной версии чужого произведения.

Однако здесь имелась определенная опасность: что, если какой-нибудь хакер вычислит, как использовать общедоступные данные о частоте слов и фраз для восстановления полного текста всех книг? Сборка огромного текста из крошечных, перекрывающих друг друга кусочков – не такая уж безумная затея. По сути, подобный метод лежит в основе современных работ по секвенированию генома[89].

Перейти на страницу:

Все книги серии Наука XXI век

Неизведанная территория
Неизведанная территория

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Жан-Батист Мишель , Эрец Эйден

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги

Искусство статистики. Как находить ответы в данных
Искусство статистики. Как находить ответы в данных

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики.На русском языке публикуется впервые.

Дэвид Шпигельхалтер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
От болезни тела – к исцелению души. Почему мы болеем?
От болезни тела – к исцелению души. Почему мы болеем?

Все болезни имеют глубокий смысл. Они передают ценнейшие послания психики. Психолог Торвальд Детлефсен и врач Рудигер Дальке помогают нам понять, о чем свидетельствуют инфекционные заболевания, головные боли, несчастные случаи, сердечные приступы и желудочные колики, а также рак и СПИД. Если вы осознаете картину собственной болезни, то сможете найти новый прямой путь к самому себе. Болезнь не является неприятной помехой на этом пути, ибо она сама – путь. Чем сознательнее мы к ней относимся, тем лучше она выполняет свои задачи. Наша цель – не борьба с болезнью, а ее использование для исцеления души.

Рудигер Дальке , Торвальд Детлефсен

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Эзотерика / Здоровье и красота / Дом и досуг