Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Посмотрим, что сделала Google. Эта компания имеет, пожалуй, наиболее полное из современных средств проверки правописания практически для всех языков мира. Система постоянно совершенствуется и непрерывно добавляет новые слова — это результат ненамеренной деятельности людей, ежедневно использующих поисковую систему. Сделали опечатку в слове iPad? Не страшно, система и так поймет. Ввели Obamacare? Запрос принят! Это важнее, чем может показаться. Золотое правило поисковиков звучит так: 10% запросов вводятся с ошибкой. (Поскольку средство проверки правописания Google постоянно совершенствуется, люди не обращают особого внимания на правильный ввод поисковых запросов, ведь Google в любом случае прекрасно справится с их обработкой.)

Компания Google получила свое средство проверки правописания практически «даром». Оно основано на опечатках, которые вводятся в окне поиска среди трех миллиардов запросов, обрабатываемых ежедневно. Продуманная обратная связь указывает системе, что пользователь на самом деле имел в виду. Пользователи могут непосредственно «сообщить» поисковой системе Google ответ на вопрос, отображаемый в верхней части страницы результатов (например: «Вы имели в виду эпидемиология?»), выбрав новый поиск с правильным термином. Или же веб-страница, на которую переходит пользователь, неявно сигнализирует о правильном написании, так как она, вероятно, сильнее коррелирует с правильно написанным словом, чем неправильным.

Система проверки правописания Google демонстрирует, что «плохие», «неправильные» или «дефектные» данные могут быть очень полезными. Интересно, что компания Google не первая загорелась этой идеей проверки правописания. Примерно в 2000 году Yahoo увидела возможность создания средства проверки правописания по опечаткам в запросах пользователей. Но идея не была реализована. Данные старых поисковых запросов рассматривались по большей части как балласт. Популярные когда-то поисковые системы Infoseek и Alta Vista в свое время тоже располагали наиболее полной базой данных слов с ошибками, но недооценили ее значимость. Их системы в ходе процесса, невидимого пользователям, рассматривали опечатки как «связанные термины» и выполняли поиск. Но эти системы были основаны на словарях (которые явно указывали системе, что правильно), а не на живом, динамичном взаимодействии с пользователем.

Только Google удалось разглядеть в отрывочных данных о взаимодействии пользователей поистине золотой песок, который можно было собрать и превратить в драгоценный слиток. Как считает один из ведущих инженеров Google, их средство проверки правописания работает на порядок лучше, чем средство Microsoft (хотя при некотором давлении инженер признал, что не проводил надлежащего исследования). Он высмеял идею «бесплатной» разработки. «Сырье (опечатки), возможно, и дается даром, но у Google на разработку системы ушло наверняка намного больше средств, чем у Microsoft», — сказал он, широко улыбаясь.

Разные подходы двух компаний чрезвычайно показательны. Корпорация Microsoft видела ценность средства проверки правописания только в одном — обработке текстов. Google, напротив, ясно понимала его значение. Используя опечатки, она не только разработала передовое в мире средство проверки правописания, чтобы улучшить поиск, но и применила его ко многим другим службам, таким как «автозаполнение» в поисковой системе, Gmail, Google Диск и даже собственная система машинного перевода.

Для описания цифрового следа, который пользователи оставляют на сайте, был придуман специальный термин — «выбросы данных». Под ним подразумевается побочный продукт взаимодействия пользователей в интернете: где и что они нажимают, как долго смотрят на страницу, где проводят курсором мыши, что печатают и т. д. Многие компании разрабатывают собственные системы, для того чтобы собирать выбросы данных и перерабатывать их для улучшения существующей службы или разработки новой. В этом отношении, как ни странно, лидирует Google. Она применяет принцип рекурсивного «обучения на основе данных» во многих своих службах. Каждое действие пользователя считается «сигналом», который Google анализирует и передает обратно в систему.

Google четко знает, сколько раз пользователи искали тот или иной термин, а также другие связанные с ним термины или же переходили по ссылке, после чего (не найдя ничего ценного) возвращались на страницу поиска, чтобы начать заново. Компания знает, по каким ссылкам переходил пользователь (будь то восьмая ссылка на первой странице или первая ссылка на восьмой странице) и отказался ли он от поиска в целом. Возможно, Google и не была первой, у кого возникла такая идея, зато она реализовала ее с необычайной эффективностью.

Перейти на страницу:

Похожие книги

Ведьмак. История франшизы. От фэнтези до культовой игровой саги
Ведьмак. История франшизы. От фэнтези до культовой игровой саги

С момента выхода первой части на ПК серия игр «Ведьмак» стала настоящим международным явлением. По мнению многих игроков, CD Projekt RED дерзко потеснила более авторитетные студии вроде BioWare или Obsidian Entertainment. Да, «Ведьмак» совершил невозможное: эстетика, лор, саундтрек и отсылки к восточноевропейскому фольклору нашли большой отклик в сердцах даже западных игроков, а Геральт из Ривии приобрел невероятную популярность по всему миру.Эта книга – история триумфа CD Projekt и «Ведьмака», основанная на статьях, документах и интервью, некоторые из которых существуют только на польском языке, а часть и вовсе не публиковалась ранее.В формате PDF A4 сохранен издательский макет книги.

Рафаэль Люка

Хобби и ремесла / Зарубежная компьютерная, околокомпьютерная литература / Зарубежная прикладная литература / Дом и досуг
Внутреннее устройство Microsoft Windows (гл. 1-4)
Внутреннее устройство Microsoft Windows (гл. 1-4)

Книга посвящена внутреннему устройству и алгоритмам работы основных компонентов операционной системы Microsoft Windows — Windows Server 2003, Windows XP и Windows 2000 — и файловой системы NTFS. Детально рассмотрены системные механизмы: диспетчеризация ловушек и прерываний, DPC, APC, LPC, RPC, синхронизация, системные рабочие потоки, глобальные флаги и др. Также описываются все этапы загрузки операционной системы и завершения ее работы. B четвертом издании книги больше внимания уделяется глубокому анализу и устранению проблем, из-за которых происходит крах операционной системы или из-за которых ее не удается загрузить. Кроме того, рассматриваются детали реализации поддержки аппаратных платформ AMD x64 и Intel IA64. Книга состоит из 14 глав, словаря терминов и предметного указателя. Книга предназначена системным администраторам, разработчикам серьезных приложений и всем, кто хочет понять, как устроена операционная система Windows.Названия всех команд, диалоговых окон и других интерфейсных элементов операционной системы приведены как на английском языке, так и на русском.Версия Fb2 редакции — 1.5. Об ошибках просьба сообщать по адресу — general2008@ukr.net.

Дэвид Соломон , Марк Руссинович

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT