Читаем Big data простым языком полностью

В 1965 году одним из первых появился стандарт IPTC-описания фотографий[102] в Ассоциации Новостных Газет Америки. Стандарт включал в файл обязательную информацию – автора, заголовок, дату создания. Когда файл обрабатывали приложения, появившиеся чуть позднее (к примеру, Photoshop), они уже адаптировали этот стандарт, и все изменения сохраняли в файлики с форматом *JPEG, *PNG или *TIFF.

Позднее, в начале 90-х, все это было уже структурировано более изящно и преобразовано в XML, чтобы можно было работать со сложным поиском. Adobe показал миру платформу XMP, которая встраивала мета-информацию в файлы самостоятельно, без участия пользователя в формате, который мог быть воспринят как человеком, так и машиной.

Метаданные стали ключом к поиску. К сложному поиску в больших массивах данных.

Самое важное здесь, конечно же то, что формат данных по-прежнему понятен и человеку, и машине.

Стандарт XMP впоследствии стал открытым стандартом ISO (16684-1). В совокупности такая стандартизация дала возможность:

• Управлять контекстом не только во время путешествия вокруг баз данных, но и обмениваться их в индустрии в целом.

• Организовать полноценный поиск среди разных форматов файлов и различного контекста.

• Управлять и определять взаимосвязями объектов, их жизненного цикла (создание контента и его удаление).

Почему я начал с фото, а не с книг, где метаданные появились в первую очередь? Например, с той же Десятичной Классификации Дьюи[103],которая впоследствии стала основным иерархическим справочником материала для библиотек на добрые полтора века.

Просто потому, что фотографии сыграли ключевую роль в обучении алгоритмов данных. Большая часть нейронный сетей обучалась изначально на большом массиве фотографий, где метаданные были размечены вручную – Image.Net. Собственно, если бы не эта большая работа, алгоритмы не могли бы отличать красное от черного, собак от кошек, человека от унитазного бачка…

Сегодня метаданные к картинкам теперь могут заполнять сами алгоритмы. То есть они прямо анализируют картинку. Пусть, скажем, там изображена собака на прогулке вдоль городской улицы. Алгоритм напишет, что на фотографии – собака, порода – лабрадор, а также там есть дома, пожарный гидрант, и все происходит днем. Теперь это тоже часть метаданных.

Само слово «метаданные» впервые ввел Филипп Бэглей в своей книге «Extension of Programming Language Concepts», опубликованной в 1968 году. Он и ввел понятие «прескрипторы», которые описывали данные кратким и понятным образом.

Теперь такие данные собираются обо всем, начиная с географических карт, заканчивая музыкальными файлами.

В России стал популярен сериал «Карточный домик», он о том, какие нелегкие дела творятся в Белом Доме США. Сериал встал наравне с таким гигантом, как «Игра престолов». Пока я работал в офисах последние несколько лет, за обедом коллеги обсуждали исключительно то, как разворачиваются дела у Фрэнка Андервуда, одного из главных героев политического триллера. Но кто задумывался о том, что Netflix инвестировал в создание этого сериала анализ метаданных от 44 миллионов своих пользователей[104]?

В общем, понятно, что метаданные – это важно, и что на них делают бизнес.

Правда, сегодня существует ряд проблем, связанных с ними. Вот ребята делают исследование. Их больше всего интересует его результат, нежели сделать по итогам исследования правильную архивацию, расставить необходимые метки и признаки[105]. Получается, что исследование есть, а поженить это исследование с другими наборами данных – сложновато.

Порой даже те данные, которые публикуют, представляют собой не полную выборку, а какой-то ее определенный фрагмент для поддержания результатов исследования.

В 2016 году журнал «Science» опросил более полутора тысяч ученых, представляющих ключевые дисциплины (химия, биология, медицина, физика, экология и другое), с целью понять, как именно они используют свои данные: могут ли они их воспроизвести и повторить результат исследования?

Оказалось, что более семидесяти процентов исследователей не смогли воспроизвести результаты других ученых. Как факт 52 процента[106] из них подтвердило, что в науке начался новый кризис воспроизводимости результатов, говорящий о том, что большинство результатов полученных в современной науке невозможно повторить. Одна из названных причин – данные, другая – отчетность, публикуемая в поддержку тех или иных гипотез. Такая отчетность представлена выборочно, то есть команда проекта публикует только те отчеты, которые поддерживают исследование, а не опровергают его.

Перейти на страницу:

Все книги серии Бизнес-бук

Про GOOGLE
Про GOOGLE

Можно ли изменить мир? Конечно! Особенно если у вас есть хорошая идея и желание ее исполнить – на своем примере это доказали два студента Стэнфордского колледжа, Ларри Пейдж и Сергей Брин, которые мечтали изменить мир и собрать всю информацию воедино – в цифровом виде. Идея, которая сейчас кажется такой простой, а тогда была инновационно новой, и казалось бы, невоплощаемой в жизнь. Но именно два студента колледжа создали одну из самых влиятельных компаний нашего времени – Google! А слово «гуглить» (google) вошло во все языки как глагол, который обозначает поиск информации, каким бы поисковиком ни пользовались люди.В книге «Про GOOGLE» вы найдете правдивую историю компании, которая началась как дипломный проект и привела к революции в мире технологий, множество лайфхаков о построении компании, узнаете, как понять, что идея достойна воплощения, и следовать за мечтой.Идеи меняют мир, а эта книга может изменить вашу жизнь, нужна лишь одна идея.

Анна Кроули Реддинг

Карьера, кадры / О бизнесе популярно / Финансы и бизнес
Big data простым языком
Big data простым языком

Наш телефон знает о нас больше, чем мы думаем. Он умеет собирать и анализировать информацию о том, как мы передвигаемся по городу, какие посты лайкаем и какими приложениями пользуемся. Он сообщит о пробках и поторопит на работу, чтобы мы не опоздали; подберет музыку под наше настроение и составит список персональных рекомендаций, чем можно занять себя в течение дня. Телефон – больше не устройство, по которому звонят, это уже средство управления окружающим нас миром. Незаметно мы окружили себя такими интерфейсами, которые создают невидимый барьер между человеком и окружающей средой. Планирование, управление, коммуникация, все теперь строится через эти программы и девайсы. Даже человеческие отношения.Но насколько глубока кроличья нора? Каждому предстоит разобраться в этом самому. Эта книга поможет донести основные принципы проектирования и создания таких интерфейсов управления бизнесом, обществом и окружающим нас миром посредством Больших данных. Читайте, наслаждайтесь и помните: сожжение книг противозаконно.

Алексей Павлович Благирев , Наталья Михайловна Хапаева

Программирование, программы, базы данных
Убедили, беру! 178 проверенных приемов продаж
Убедили, беру! 178 проверенных приемов продаж

В этой книге Вы найдете 178 проверенных приемов, которые уже завтра позволят Вам продавать больше, чаще и дороже. Это просто, для этого Вам не нужен особый талант. Потребуется лишь желание, немного времени – да еще эта книга. Результат гарантирован опытом сотен компаний. Вы узнаете:• Как завоевать доверие покупателя?• Как убеждать клиентов?• Как справляться с возражениями?• Как доводить сделку до оплаты?• Как продать больше товаров и услуг?• Как закрывать сделки быстрее?Автор собирает инструменты продаж по всему миру. В этой книге он поделится с Вами как кейсами из собственной практики, так и приёмами и «фишками» успешных продавцов из десятков стран – от США до Камбоджи, от Израиля до Сингапура, от Турции до Испании.

Александр Михайлович Левитас , Александр М. Левитас

Карьера, кадры / О бизнесе популярно / Финансы и бизнес
Библия босса. Учебник по лидерству и достижению целей. По мотивам легендарного цикла Game of Thrones
Библия босса. Учебник по лидерству и достижению целей. По мотивам легендарного цикла Game of Thrones

«Библия босса» Брюса Крейвена станет настольной книгой для тех, кто хочет научиться быть лидером, добиться успеха в бизнесе, вести за собой людей и победить собственные страхи.Но что может быть хуже скучных и нудных описаний шагов к успеху? В каждой главе «Библии босса» вы найдете отсылки к «Игре престолов»: если вы поймете, как собрать вокруг себя команду, на которую можно положиться, и стать королем или королевой Семи королевств, то сможете решить и любую другую проблему на своем пути. Вы найдете инструменты, которые использовались героями «Игры престолов», чтобы решать те кейсы, которые могут встретиться вам в реальной жизни.Почему люди следуют за Джоном Сноу в бой? Что делает Тириона Ланнистера таким мудрым советником? Как Дейенерис Таргариен смогла превзойти стольких соперников? Каждый день мы сталкиваемся с различными проблемами и трудностями. Но всегда ли мы решаемся выбрать путь, который находится за пределами нашей зоны комфорта?Быть лидером, уметь вести за собой сложно, но необходимо. Чтобы достичь поставленных целей, нужно уметь противостоять вызовам извне и направлять себя и своих коллег к достижению результатов. Готовы ли и вы встать на Путь Лидера?

Брюс Крейвен

Маркетинг, PR / Менеджмент / Финансы и бизнес

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных