Следующим шагом было создание случайной выборки, включавшей 140 000 фотографий из 656 000 (по 20 000 или 30 000 на город). Затем мы воспользовались услугами интернет-платформы Amazon Mechanical Turk, чтобы взять из этой выборки селфи. Несколько работников Amazon Mechanical Turk изучали каждую фотографию, чтобы определить, селфи это или нет. Мы экспериментировали с разными формами вопроса, на который они должны были отвечать, и обнаружили, что самая простая форма – «Представляет ли собой это фото селфи одного человека?» – дала наилучшие результаты.
Затем мы выбрали несколько тысяч фотографий для каждого города (то есть фотографии, которые по меньшей мере два работника определили как селфи с изображением одного человека). После этого мы снова передали эти фотографии в Amazon Mechanical Turk, попросив трех «контролеров» не только удостовериться, что снимок представляет собой селфи одного человека, но также указать пол и примерный возраст автора селфи.
На заключительном этапе все эти фотографии вручную просматривал как минимум один из членов команды проекта. Хотя большинство снимков были определены правильно (очевидно, все работники Mechanical Turk знали, что такое селфи), мы обнаружили несколько ошибок. Мы хотели сохранить размеры баз данных одинаковыми, чтобы анализ и визуализации были сопоставимы, поэтому в итоге, устранив ошибки, мы отобрали по 640 фотографий для каждого города – в общей сложности 3200 снимков.
Компьютерный анализ
. Эта выборка из 3200 селфи была проанализирована с использованием новейшего на тот момент программного обеспечения для распознавания лиц rekognition.com. Программа измеряла и фиксировала более чем 20 параметров лица на каждой фотографии, включая его размер, поворот головы, эмоции, наличие очков, наличие улыбки, открытые или закрытые глаза и т. д.Мы использовали эти параметры двумя способами: сравнивая по выявленным характеристикам лиц города, возрастные и гендерные группы, а также включив некоторые из показателей в интерактивное приложение
Программное обеспечение также определяло пол и возраст человека на каждой фотографии. Мы обнаружили, что эти данные в целом совпадали с интерпретацией снимков работниками Mechanical Turk.
Обычно визуализация данных показывает простые данные, такие как числа. Однако число не может передать всего, что содержит в себе фотография. «Фотография – это не просто данные, а целый мир, насыщенный значениями, эмоциями и визуальными знаками» (Мориц Штефанер, художественный директор и дизайнер визуализаций для
Штефанер создал для этого проекта несколько различных типов визуализаций, которые описаны ниже.
Видеомонтажи
[699]. Каждое видео включает все 640 селфи, сделанные в одном городе, но не в простой последовательности. Несколько селфи накладываются друг на друга на экране в каждый момент времени: новые появляются поверх старых. Лица выравнивались по положению глаз и распределялись по углу наклона головы.Эта визуальная стратегия позволяет выразить напряжение между индивидуальностью каждого селфи и тенденциями, наблюдаемыми в массе снимков. Мы не показываем каждое лицо по отдельности. Но мы и не накладываем друг на друга все изображения, что дало бы только «шаблон» лица, типичный для каждого из городов. Вместо этого мы показываем нечто иное: общую тенденцию и индивидуальные детали одновременно.
Медиавизуализации (Imageplots)
. Перебирая фотографии вручную, можно заметить много интересных деталей, но наш мозг не может представить эти наблюдения в количественных паттернах. Мы создали визуализации-гистограммы, на которых показаны распределения данных о поле, возрасте, а также улыбках в разных городах. Как в обычной визуализации данных, наши гистограммы позволяют вам мгновенно по форме графиков увидеть ключевые тренды. Но поскольку эти столбцы составлены из отдельных фотографий, они также дают возможность по-новому взглянуть на отношения между частным и общим.