Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Конечно, Google не единственная компания, которая мечтала перенести богатое письменное наследие мира в эпоху компьютеров. Она далеко не первая решила попробовать это осуществить. Проект «Гутенберг» (общественная инициатива по размещению различных произведений в интернете для общего пользования) был призван сделать тексты доступными людям исключительно для чтения. При этом не предусматривались дополнительные способы использования слов (в качестве данных), то есть не шла речь о повторном использовании. Подобным образом издатели в течение многих лет экспериментировали с электронными версиями книг. Но они тоже видели основную ценность книг в их содержании, а не в данных. На этом строилась их бизнес-модель. Издатели никогда не обращали внимания на данные, присущие тексту книги, и не позволяли этого другим. Они не видели в этом необходимости и попросту недооценивали потенциал данных.

Многие компании сейчас соперничают за успех на рынке электронных книг. Похоже, в этой области с большим отрывом лидирует компания Amazon с ассортиментом своих электронных книг Kindle. Однако стратегии компаний Amazon и Google в этой области значительно разнятся.

Компания Amazon получила в свое распоряжение датифицированные книги, однако не сумела найти новые способы применения текста в качестве данных. Джефф Безос, основатель и главный исполнительный директор компании, убедил сотни издателей выпустить книги в формате Kindle. Книги Kindle представляют собой не изображения страниц (в противном случае никто бы не смог изменить размер шрифта или отобразить страницы как на цветных, так и на черно-белых экранах) — их текст датифицирован, а не просто оцифрован. Компании Amazon удалось совершить с миллионами новых книг то, что Google усердно старается повторить с множеством старых.

Тем не менее книжный бизнес Amazon завязан на содержимом, которое читают, а не на анализе датифицированного текста. Справедливости ради стоит заметить, что компания наверняка сталкивается с ограничениями, которые консервативные издатели накладывают на использование информации, содержащейся в их книгах. В свою очередь компания Google, как хулиганка в области больших данных, стремящаяся выйти за рамки, конечно, не испытывает таких ограничений — хлеб насущный ей обеспечивают клики пользователей, а не доступ к собственности издателей. Однако, не считая замечательной службы «статистически значимых слов» Amazon, которая использует алгоритмы для выявления неочевидных связей между темами книг, этот интернет-магазин так и не распорядился своей сокровищницей слов для анализа больших данных. Пожалуй, будет справедливо отметить, что, по крайней мере сейчас, Amazon осознает ценность оцифровки контента, а Google — ценность его датификации.

Когда местоположение становится данными

Один из самых весомых источников информации в мире, по сути, сам мир. Большую часть истории человечества он не измерялся количественно и не использовался в форме данных. Безусловно, информацию представляет собой географическое положение объектов и людей: гора находится там, человек — тут. Но эту информацию необходимо преобразовать в данные. Для датификации местоположения требуется несколько составляющих: метод измерения площади земного шара вплоть до сантиметра, стандартизированный способ обозначения и инструмент для сбора и записи данных. Территория, координаты, инструменты. Определение количества, стандартизация, сбор. Только тогда мы сможем хранить и анализировать местоположение не как место само по себе, а как данные.

На Западе количественное измерение местоположения придумали греки. Около 200 года до н. э. Эратосфен изобрел систему координат (сродни широте и долготе) для демаркации местоположений. Со временем она утратила практическое применение, как и множество других хороших идей эпохи Античности. Полтора с половиной тысячелетия спустя (около 1400 года) копия птолемеевского труда «Руководство по географии» прибыла во Флоренцию из Константинополя ввиду того, что эпоха Возрождения и морская торговля возбудили живой интерес к науке и древним знаниям. Это стало сенсацией, и старые уроки Птолемея пригодились для решения современных задач в области навигации. С тех пор на картах появились долгота, широта и масштаб. Позже систему улучшил фламандский картограф Герард Меркатор (в 1570 году), что позволило морякам выстраивать прямые маршруты в круглом мире.

Перейти на страницу:

Похожие книги

Ведьмак. История франшизы. От фэнтези до культовой игровой саги
Ведьмак. История франшизы. От фэнтези до культовой игровой саги

С момента выхода первой части на ПК серия игр «Ведьмак» стала настоящим международным явлением. По мнению многих игроков, CD Projekt RED дерзко потеснила более авторитетные студии вроде BioWare или Obsidian Entertainment. Да, «Ведьмак» совершил невозможное: эстетика, лор, саундтрек и отсылки к восточноевропейскому фольклору нашли большой отклик в сердцах даже западных игроков, а Геральт из Ривии приобрел невероятную популярность по всему миру.Эта книга – история триумфа CD Projekt и «Ведьмака», основанная на статьях, документах и интервью, некоторые из которых существуют только на польском языке, а часть и вовсе не публиковалась ранее.В формате PDF A4 сохранен издательский макет книги.

Рафаэль Люка

Хобби и ремесла / Зарубежная компьютерная, околокомпьютерная литература / Зарубежная прикладная литература / Дом и досуг
Внутреннее устройство Microsoft Windows (гл. 1-4)
Внутреннее устройство Microsoft Windows (гл. 1-4)

Книга посвящена внутреннему устройству и алгоритмам работы основных компонентов операционной системы Microsoft Windows — Windows Server 2003, Windows XP и Windows 2000 — и файловой системы NTFS. Детально рассмотрены системные механизмы: диспетчеризация ловушек и прерываний, DPC, APC, LPC, RPC, синхронизация, системные рабочие потоки, глобальные флаги и др. Также описываются все этапы загрузки операционной системы и завершения ее работы. B четвертом издании книги больше внимания уделяется глубокому анализу и устранению проблем, из-за которых происходит крах операционной системы или из-за которых ее не удается загрузить. Кроме того, рассматриваются детали реализации поддержки аппаратных платформ AMD x64 и Intel IA64. Книга состоит из 14 глав, словаря терминов и предметного указателя. Книга предназначена системным администраторам, разработчикам серьезных приложений и всем, кто хочет понять, как устроена операционная система Windows.Названия всех команд, диалоговых окон и других интерфейсных элементов операционной системы приведены как на английском языке, так и на русском.Версия Fb2 редакции — 1.5. Об ошибках просьба сообщать по адресу — general2008@ukr.net.

Дэвид Соломон , Марк Руссинович

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT