Читаем Неизведанная территория полностью

В этой книге мы показали, как цифровые исторические записи позволяют совершенно по-новому оценить наш коллективный опыт. В наши дни мы не просто считаем овец или головы. Мы способны произвести тщательные замеры важнейших аспектов нашей истории, языка и культуры. Простые графики, продемонстрированные нами, представляют собой верхушку огромного айсберга. В грядущие десятилетия личные, цифровые и исторические данные полностью изменят наше представление о себе и об окружающем нас мире. И перед тем как попрощаться с вами, мы бы хотели поделиться своими соображениями относительно того, что происходит или что будет происходить в будущем с точки зрения науки, обучения и нового зарождающегося общества.

А затем мы зададимся, хотя и ненадолго, последним вопросом: хорошо ли все это? Окажутся ли большие данные очередной землей обетованной? Не приведут ли наши сегодняшние решения к бедствиям в будущем?

Цифровое прошлое

Данные n-грамов, о которых мы вам рассказывали, взяты из миллионов книг. По современным стандартам это действительно большие данные. Но пройдет много лет, и мы станем иначе оценивать происходящее сейчас. В конце концов, пара миллионов книг – это всего лишь крошечный кусочек нашего обширнейшего культурного наследия.

Вспомним хотя бы Эдгара Аллана По[195]. В отличие от многих писателей прежних эпох, По стремился обеспечивать себя исключительно писательским трудом. Однако при отсутствии международного закона об авторских правах это была не самая простая задача для писателя XIX века. Из финансовых соображений По публиковал свои произведения везде, где только мог, и во множестве жанров. Он писал стихи, рассказы, книги, пьесы, новеллы, обзоры, газетные статьи, эссе и письма. Он даже сфабриковал историю о путешествии на воздушном шаре через Атлантику и смог опубликовать ее на первой полосе нью-йоркской газеты Sun.

Когда мы думаем о будущем исторических записей и о том, что с ними станет, если их оцифровать, произведения По заставляют нас сразу же задаться массой вопросов. Какие части его наследия были оцифрованы в первую очередь? Как они оказались в цифровом мире? И что делать со всем остальным? Эти вопросы будут направлять наш короткий, но извилистый путь по историческим записям, имеющимся в настоящее время.

Книги. Поначалу наш Ngram Viewer черпал информацию из 4% всех когда-либо опубликованных книг, или примерно одной из каждых двадцати пяти. В 2012 году мы помогли Юрию Лину, Славу Петрову и другим работникам Google обновить версию Ngram Viewer[196] и включить в базу около 6% всех книг, или одну из каждых семнадцати. Разумеется, мы использовали лишь книги, предоставленные Google. Если же включить все тридцать миллионов оцифрованных на данный момент книг, то мы получим немногим более 20% от общего количества[197]. Что же ждет остальные 80%? Когда они смогут попасть в цифровые архивы?

К счастью, все больше новых книг появляется в цифровой форме и распространяется в электронном виде сразу же с момента публикации. Поскольку сейчас издается больше книг, чем когда-либо прежде в человеческой истории, доля книг, существующих в цифровой форме, значительно увеличивается с каждым днем.

Тем не менее у нас все равно остается проблема старых книг, существующих, к нашему неудобству, лишь в виде физических объектов. Именно здесь должны быть сконцентрированы основные усилия в области оцифровки. Частные корпорации и правительства занимаются этим вопросом, желая как сохранить наше коллективное наследие, так и заработать на нем. Во главе процесса остается Google. Компания уже оцифровала свыше 30 из 130 миллионов книг, существующих в наши дни. По ее расчетам, работа будет завершена к 2020 году. Иными словами, есть основания полагать, что вскоре подавляющее большинство имеющихся книг будет доступно в цифровом формате.

С количественной точки зрения это 25-кратное увеличение базы – с 4 до 100% – окажет огромное влияние на качество наблюдений, доступных для нашего культурного телескопа. Как не вспомнить о Галилее, вытолкнувшем Землю с центрального места во Вселенной с помощью телескопа, который был всего в тридцать раз более зорким, чем невооруженный глаз.

Несмотря на это, у нашего процесса изучения книг имеется целый ряд серьезных трудностей.

Перейти на страницу:

Все книги серии Наука XXI век

Неизведанная территория
Неизведанная территория

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Жан-Батист Мишель , Эрец Эйден

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги

Искусство статистики. Как находить ответы в данных
Искусство статистики. Как находить ответы в данных

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики.На русском языке публикуется впервые.

Дэвид Шпигельхалтер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
От болезни тела – к исцелению души. Почему мы болеем?
От болезни тела – к исцелению души. Почему мы болеем?

Все болезни имеют глубокий смысл. Они передают ценнейшие послания психики. Психолог Торвальд Детлефсен и врач Рудигер Дальке помогают нам понять, о чем свидетельствуют инфекционные заболевания, головные боли, несчастные случаи, сердечные приступы и желудочные колики, а также рак и СПИД. Если вы осознаете картину собственной болезни, то сможете найти новый прямой путь к самому себе. Болезнь не является неприятной помехой на этом пути, ибо она сама – путь. Чем сознательнее мы к ней относимся, тем лучше она выполняет свои задачи. Наша цель – не борьба с болезнью, а ее использование для исцеления души.

Рудигер Дальке , Торвальд Детлефсен

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Эзотерика / Здоровье и красота / Дом и досуг