Читаем Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры полностью

Затем компании нужно было приобрести и отсканировать каждую книгу. В некоторых случаях издатели отправляли компании книги сразу же после печати. Это позволяло Google сканировать книгу «с разрушением» – сотрудники разделяли книги на отдельные страницы, а затем очень быстро сканировали их одну за другой, сохраняя все изображения в цифровом формате, который можно было легко просматривать на компьютере. В случае всех остальных книг компания обратилась в библиотеки всего мира, проверяя полку за полкой и отдел за отделом. Как обычно, когда дело доходит до библиотек, книги нужно было вовремя вернуть – даже такая компания, как Google, не могла позволить себе платить штрафы за несвоевременный возврат. Поэтому Google разработала неразрушающую технологию. Она наняла на работу небольшую армию переворачивателей страниц, которые, наподобие Пейджа и Майер, целый день переворачивали страницы, в то время как мощные камеры фотографировали их содержимое[81]. За прошлое десятилетие этот эскадрон бесконечного сканирования перевернул примерно миллиард страниц. Время от времени на изображениях можно заметить след от пальца.

Наконец благодаря «оптическому распознаванию текста» (при котором компьютерная программа находит и распознает в изображении буквы и цифры) оцифрованные образы превращаются в сырой текст. В результате появляется текстовый файл (похожий на то, что вы создаете при печати в текстовом редакторе), содержащий всю книгу.

Усилия Google по оцифровке оказались невероятно успешными, и это был подлинный триумф логики 29-летнего миллиардера. Через 10 лет после того, как Пейдж перевернул первые страницы книги с Мариссой Майер, и через 9 лет после его публичного объявления о проекте Google оцифровала свыше 30 миллионов книг[82].

Проанализировать столь гигантскую коллекцию текстов было по силам лишь компьютеру. Если бы ее попытался прочитать один человек, то при умеренном темпе чтения в 200 слов в минуту, без перерыва на еду и сон, ему потребовалось бы не менее 20 000 лет[83].

Эти данные можно представить себе как выборку из общей популяции когда-либо опубликованных книг. Чтобы понять, насколько велика эта выборка, представьте себе, что количество когда-либо изданных книг (130 миллионов) примерно равно количеству избирателей, зарегистрированных в Соединенных Штатах (137 миллионов). В ходе опроса Института Гэллапа, опубликованного за пять дней до президентских выборов 2012 года, было опрошено 2700 потенциальных избирателей, то есть примерно 1 из 50 000[84]. База книг, собранная Google, включает в себя 30 миллионов книг, то есть около 1 из 4. И этот процесс продолжается – и формирует беспрецедентный список культурного наследия человечества.

Психология 29-летнего выпускника университета

Поскольку мы, очевидно, не имели достаточно времени для завершения задачи своими силами, было ясно, что нужно объединить усилия с Google. Но как?

Возможность для этого представилась, когда в 2007 году жену Эреца Авиву Эйден пригласили в Googleplex – штаб-квартиру Google – для вручения награды как одной из женщин, занимающихся компьютерными науками. Эрец отправился с ней и умудрился попасть в кабинет Питера Норвига, знаменитого директора по исследованиям в Google[85].

Норвиг – пионер в области искусственного интеллекта. Он написал классический учебник по этому вопросу. А когда он говорит, люди его слушают. Например, осенью 2011 года Норвиг и Себастьян Тран организовали первый в мире массовый открытый учебный курс в сети Интернет. Этот курс по вопросам искусственного интеллекта, созданный вместе со Стэнфордским университетом, оказался невероятно популярен – на него записалось свыше 160 000 слушателей. И благодаря ему началась подлинная революция в области высшего образования.

И при всем этом у Норвига довольно неожиданный подход к собраниям и встречам. Он не любит много говорить. По сути, распознать, что скрывается за непроницаемым лицом Норвига, слушающего собеседника, даже сложнее, чем прочитать всю коллекцию книг, отсканированных Google. Затем, через некоторое время, он обычно говорит нечто либо очень глубокомысленное, либо совершенно не связанное с ходом вашего повествования. И только тогда вы понимаете, удалось ли вам его убедить.

Выслушав почти часовую презентацию Эреца, Норвиг наконец раскрыл свои карты. «Все это звучит прекрасно, но как мы сможем это реализовать, не нарушая закона об авторских правах?»

Психология юридического отдела компании из рейтинга Fortune 500

Перейти на страницу:

Похожие книги

97 этюдов для архитекторов программных систем
97 этюдов для архитекторов программных систем

Успешная карьера архитектора программного обеспечения требует хорошего владения как технической, так и деловой сторонами вопросов, связанных с проектированием архитектуры. В этой необычной книге ведущие архитекторы ПО со всего света обсуждают важные принципы разработки, выходящие далеко за пределы чисто технических вопросов.?Архитектор ПО выполняет роль посредника между командой разработчиков и бизнес-руководством компании, поэтому чтобы добиться успеха в этой профессии, необходимо не только овладеть различными технологиями, но и обеспечить работу над проектом в соответствии с бизнес-целями. В книге более 50 архитекторов рассказывают о том, что считают самым важным в своей работе, дают советы, как организовать общение с другими участниками проекта, как снизить сложность архитектуры, как оказывать поддержку разработчикам. Они щедро делятся множеством полезных идей и приемов, которые вынесли из своего многолетнего опыта. Авторы надеются, что книга станет источником вдохновения и руководством к действию для многих профессиональных программистов.

Билл де Ора , Майкл Хайгард , Нил Форд

Программирование, программы, базы данных / Базы данных / Программирование / Книги по IT
Программирование. Принципы и практика использования C++ Исправленное издание
Программирование. Принципы и практика использования C++ Исправленное издание

Специальное издание самой читаемой и содержащей наиболее достоверные сведения книги по C++. Книга написана Бьярне Страуструпом — автором языка программирования C++ — и является каноническим изложением возможностей этого языка. Помимо подробного описания собственно языка, на страницах книги вы найдете доказавшие свою эффективность подходы к решению разнообразных задач проектирования и программирования. Многочисленные примеры демонстрируют как хороший стиль программирования на С-совместимом ядре C++, так и современный -ориентированный подход к созданию программных продуктов. Третье издание бестселлера было существенно переработано автором. Результатом этой переработки стала большая доступность книги для новичков. В то же время, текст обогатился сведениями и методиками программирования, которые могут оказаться полезными даже для многоопытных специалистов по C++. Не обойдены вниманием и нововведения языка: стандартная библиотека шаблонов (STL), пространства имен (namespaces), механизм идентификации типов во время выполнения (RTTI), явные приведения типов (cast-операторы) и другие. Настоящее специальное издание отличается от третьего добавлением двух новых приложений (посвященных локализации и безопасной обработке исключений средствами стандартной библиотеки), довольно многочисленными уточнениями в остальном тексте, а также исправлением множества опечаток. Книга адресована программистам, использующим в своей повседневной работе C++. Она также будет полезна преподавателям, студентам и всем, кто хочет ознакомиться с описанием языка «из первых рук».

Бьерн Страуструп , Бьёрн Страуструп , Валерий Федорович Альмухаметов , Ирина Сергеевна Козлова

Программирование, программы, базы данных / Базы данных / Программирование / Учебная и научная литература / Образование и наука / Книги по IT