Читаем Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры полностью

Радж Четти, экономист из Гарварда, обратился к налоговой службе США[22]. Он убедил их поделиться информацией о миллионах учащихся, посещавших учебное заведение в определенном городском районе. Вместе со своими соратниками он сопоставил эту информацию с данными из базы школьного совета (в которой фиксировалась информация о школьных заданиях). Таким образом, команда Четти знала, кто учится у тех или иных учителей. На основании всей полученной информации был проведен ряд интереснейших исследований долгосрочного влияния со стороны хороших учителей, а также политических нововведений. Они обнаружили, что работа хорошего учителя сказывается на желании учащихся продолжить учебу в колледже, на величине их дохода через много лет после окончания школы и даже на том, какова вероятность, что они поселятся в том или ином престижном районе. Затем на основании полученных выводов исследователи сформулировали рекомендации по повышению эффективности работы педагогов. В 2013 году Четти также получил медаль Джона Бейтса Кларка.

А один из основателей знаменитого блога Five Thirty Eight, бывший бейсбольный аналитик по имени Нейт Сильвер, решил выяснить, можно ли применить подход на основе больших данных для предсказания победителей национальных выборов[23]. Сильвер собрал данные, связанные с голосованием, из множества источников: Gallup, Rasmussen, RAND, Mellman, CNN и других. Используя эти данные, он совершенно точно предсказал, что Обама выиграет выборы 2008 года, а также точно спрогнозировал результаты голосования в коллегиях выборщиков 49 штатов и округа Колумбия. Единственным штатом, с которым он ошибся, была Индиана. Улучшать в системе было особенно нечего, однако ему все равно удалось это сделать. Утром в день голосования в 2012 году Сильвер объявил, что Обама с вероятностью 90,9% выиграет у Ромни, и точно предсказал победителя выборов в округе Колумбия и каждом из штатов (включая, конечно же, Индиану).

Этот список можно продолжать до бесконечности. Используя большие данные, исследователи в наши дни проводят эксперименты, о которых их предшественники не могли и мечтать.

Библиотека всего

В настоящей книге описывается история одного из таких экспериментов.

Объектом наших наблюдений были не люди, лягушки, молекулы или атомы. Эксперимент был связан с одним из самых потрясающих массивов данных в истории самой истории – цифровой библиотекой, цель которой (если верить ее создателям) состоит в том, чтобы включить все когда-либо написанные книги[24].

Как же возникла эта замечательная библиотека?

В 1996 году два старшекурсника из Стэнфорда, изучавших компьютерные технологии, работали над приостановленным ныне проектом, известным как Stanford Digital Library Technologies Project[25]. Цель проекта состояла в разработке прототипа библиотеки будущего, способной интегрировать мир книг с миром глобальной Сети. Студенты работали над инструментом, дающим пользователям возможность изучать библиотечные коллекции, перемещаясь от книги к книге в киберпространстве. Однако сделать это на практике было практически невозможно, поскольку в цифровом виде имелось довольно мало книг. Поэтому двое студентов применили свои идеи и навыки для перехода от одного текста к другому (по следу больших данных во Всемирной паутине), а затем превратили свою работу в небольшую поисковую машину, которую назвали Google.

К 2004 году проект, о котором заявляла компания Google – по «упорядочиванию всей имеющейся в мире информации», – уже реализовывался вполне успешно, благодаря чему у основателя компании Ларри Пейджа нашлось достаточно свободного времени, чтобы вернуться к своей первой любви – библиотекам. Как ни печально, но и к тому моменту количество книг, доступных в цифровой форме, оставалось незначительным. Однако изменилось другое – теперь Пейдж стал миллиардером. Поэтому он решил, что Google стоит заняться бизнесом по сканированию и оцифровке книг. И Пейдж подумал, что Google вполне по силам оцифровать все книги в мире.

Слишком смело? Несомненно. Однако компания Google лихо принялась за дело. Через девять лет после публичного заявления о начале проекта Google оцифровала более 30 миллионов книг[26]. Это примерно каждая четвертая когда-либо опубликованная книга. Коллекция Google превышает по своему размеру коллекцию Гарвардского университета (17 миллионов томов), Стэнфорда (9 миллионов), оксфордской Бодлианской библиотеки (11 миллионов) или любой другой университетской библиотеки. В ней больше книг, чем в Российской государственной библиотеке (15 миллионов), Национальной библиотеке Китая (26 миллионов) и Национальной библиотеке Германии (25 миллионов). На момент написания этой книги единственной библиотекой, в которой хранилось еще больше книг, была Библиотека Конгресса США (33 миллиона). Не исключено, что к тому моменту, как вы прочтете эти строки, Google удастся обогнать и ее.

Длинные данные

Перейти на страницу:

Похожие книги

97 этюдов для архитекторов программных систем
97 этюдов для архитекторов программных систем

Успешная карьера архитектора программного обеспечения требует хорошего владения как технической, так и деловой сторонами вопросов, связанных с проектированием архитектуры. В этой необычной книге ведущие архитекторы ПО со всего света обсуждают важные принципы разработки, выходящие далеко за пределы чисто технических вопросов.?Архитектор ПО выполняет роль посредника между командой разработчиков и бизнес-руководством компании, поэтому чтобы добиться успеха в этой профессии, необходимо не только овладеть различными технологиями, но и обеспечить работу над проектом в соответствии с бизнес-целями. В книге более 50 архитекторов рассказывают о том, что считают самым важным в своей работе, дают советы, как организовать общение с другими участниками проекта, как снизить сложность архитектуры, как оказывать поддержку разработчикам. Они щедро делятся множеством полезных идей и приемов, которые вынесли из своего многолетнего опыта. Авторы надеются, что книга станет источником вдохновения и руководством к действию для многих профессиональных программистов.

Билл де Ора , Майкл Хайгард , Нил Форд

Программирование, программы, базы данных / Базы данных / Программирование / Книги по IT
Программирование. Принципы и практика использования C++ Исправленное издание
Программирование. Принципы и практика использования C++ Исправленное издание

Специальное издание самой читаемой и содержащей наиболее достоверные сведения книги по C++. Книга написана Бьярне Страуструпом — автором языка программирования C++ — и является каноническим изложением возможностей этого языка. Помимо подробного описания собственно языка, на страницах книги вы найдете доказавшие свою эффективность подходы к решению разнообразных задач проектирования и программирования. Многочисленные примеры демонстрируют как хороший стиль программирования на С-совместимом ядре C++, так и современный -ориентированный подход к созданию программных продуктов. Третье издание бестселлера было существенно переработано автором. Результатом этой переработки стала большая доступность книги для новичков. В то же время, текст обогатился сведениями и методиками программирования, которые могут оказаться полезными даже для многоопытных специалистов по C++. Не обойдены вниманием и нововведения языка: стандартная библиотека шаблонов (STL), пространства имен (namespaces), механизм идентификации типов во время выполнения (RTTI), явные приведения типов (cast-операторы) и другие. Настоящее специальное издание отличается от третьего добавлением двух новых приложений (посвященных локализации и безопасной обработке исключений средствами стандартной библиотеки), довольно многочисленными уточнениями в остальном тексте, а также исправлением множества опечаток. Книга адресована программистам, использующим в своей повседневной работе C++. Она также будет полезна преподавателям, студентам и всем, кто хочет ознакомиться с описанием языка «из первых рук».

Бьерн Страуструп , Бьёрн Страуструп , Валерий Федорович Альмухаметов , Ирина Сергеевна Козлова

Программирование, программы, базы данных / Базы данных / Программирование / Учебная и научная литература / Образование и наука / Книги по IT