Существуют разные типы атрибутов, и для каждого из них подходят разные виды анализа. Их понимание и распознавание является фундаментальным навыком для специалиста по данным. К стандартным типам относятся числовые (включая интервальные и относительные), номинальные и порядковые. Числовые атрибуты описывают измеримые величины, представленные целыми числами или действительными величинами. Числовые атрибуты могут быть измерены как по шкале интервалов, так и по шкале отношений. Интервальные атрибуты измеряются по шкале с фиксированными, но произвольными единицами измерений и произвольным началом отсчета. Примерами интервальных атрибутов могут быть измерения даты и времени. К ним применяют упорядочивание и вычитание. Умножение, деление и прочие операции в этом случае не подходят. Шкала отношений аналогична шкале интервалов с единственным отличием: ее нулевая точка — истинный нуль. Он указывает на то, что количество, которое могло бы быть измерено, отсутствует. Особенность шкалы отношений состоит в том, что мы можем описать любое значение как кратное другому значению. Температура — прекрасный пример для понимания разницы между шкалой интервалов и шкалой отношений{1}. По шкале Цельсия и по шкале Фаренгейта температура измеряется интервально, поскольку значение 0 на любой из этих шкал не указывает на отсутствие тепла. Таким образом, хотя мы и можем вычислить разницу между температурами на этих шкалах и сравнить различия, мы не можем сказать, что 20 °C — это в два раза теплее, чем 10 °C. В отличие от этого, измерение температуры в кельвинах ведется по шкале отношений, поскольку 0 K (абсолютный нуль) — это температура, при которой прекращается всякое тепловое движение. Другие распространенные примеры измерений по шкале отношений: количество денег, вес, рост и экзаменационные отметки (шкала 0–100). В таблице 1 атрибут года является примером атрибута шкалы интервалов, а атрибут цены — примером атрибута шкалы отношений.
Номинальные (также известные как категориальные) атрибуты принимают значения из ограниченного набора. Эти значения являются именами (поэтому они и называются номинальными) для категорий, классов или обстоятельств. Примеры номинальных атрибутов включают семейное положение (холост, женат, разведен) или тип пива (эль, светлый эль, пильзнер, портер, стаут и т. д.). Бинарный атрибут — это особый случай номинального атрибута, у которого набор возможных значений ограничен только двумя. Примером может служить бинарный атрибут «спам», который описывает, является электронная почта спамом (да) или не является (нет). К номинальным атрибутам не могут быть применены упорядочивание или арифметические операции. Обратите внимание, что номинальный атрибут может быть отсортирован в алфавитном порядке, но эта операция не тождественна упорядочиванию. В таблице 1 автор и название являются примерами номинальных атрибутов.
Порядковые атрибуты аналогичны номинальным, но с той разницей, что можно ранжировать значения переменных. Например, атрибут, описывающий ответ на вопрос анкетирования, может принимать значения из области определения: «очень не нравится», «не нравится», «нейтрально», «нравится» и «очень нравится». Существует естественное упорядочивание этих значений — от сильной неприязни к сильной симпатии (или, наоборот, в зависимости от условия). Тем не менее важной особенностью порядковых атрибутов является отсутствие понятия равного расстояния между этими значениями. Например, когнитивное расстояние между неприязнью и нейтральным отношением может быть отличным от расстояния между симпатией и сильной симпатией. В результате неуместно применять арифметические операции (такие, как усреднение) к порядковым атрибутам. В таблице 1 атрибут «издание» является примером порядкового атрибута. Граница между номинальными и порядковыми данными не всегда четкая. Для примера возьмем атрибут, который описывает погоду и может принимать значения «солнечно», «дождливо», «пасмурно». Один человек может сказать, что этот атрибут номинальный, значения которого не упорядочены, в то время как другой будет утверждать, что атрибут является порядковым, при этом рассматривая облачность как промежуточное значение между «солнечно» и «дождливо»{2}.