В эпоху интернет-экономики данные являются новым производственным фактором, основополагающим и имеющим стратегический характер ресурсом и важной производительной силой.
1.1. Правильное понимание больших данных: в реальном мире чисел не существует
[2]
В традиционном понимании «численные данные» – это «обоснованные числа». Числа появились потому, что человек в своей практической деятельности обнаружил: описание существующей реальности с помощью только устного и письменного языка и изображений не является точным и средств этих недостаточно. Так, если на вопрос: «Насколько Яо Мин высокий?» – ответить: «Очень высокий», «Необыкновенно высокий» или «Самый высокий», – спрашивающий о росте баскетболиста сможет составить лишь абстрактное представление, ведь каждый по-разному понимает «очень», да и понятия «необыкновенно» и «самый» тоже являются относительными. При этом ответ «2,26 метра» ни малейшей неопределённости не оставит. Числа не только описывают реальность, но и являются важным инструментом её изменения. Можно сказать, что вся производственная и обменная деятельность человека базируется на численных данных: именно они лежат в основе системы измерения и денежной системы, изобретение и возникновение которых в значительной мере содействовало прогрессу человеческой цивилизации.
Как показано на рисунке 1.1, выделяют такие источники численных данных, как измерение, регистрация и вычисление. Первоначально численные данные получают в ходе измерений, и так называемые «обоснованные числа» – это регистрация результатов измерений объективной реальности, а не что-то произвольным образом возникшее. С древности и до наших дней измерение является ведущим методом научного исследования. Без измерений не было бы науки; можно также сказать, что сущностью науки в целом являются измерения. В этом отношении значение численных Три основные источника численных данных Измерение Регистрация Вычисление данных для науки сопоставимо со значением языка для литературы, нот для музыки, формы и цвета для изобразительного искусства, – в отрыве от численных данных наука невозможна.
Помимо измерения и говорящей самой за себя регистрации данных новые численные данные также появляются из уже имеющихся посредством вычислений. И измерения, и вычисления осуществляются людьми, иными словами, в реальном мире чисел не существует, все данные – это то, что произведено человеком. Значение слова «первичный» в выражении «первичные данные» совсем не то же, что в выражении «первичный лес». «Первичный (первобытный) лес» – это лес, существующий в созданном природой виде, тогда как «первичные данные» – это всего лишь данные, полученные из первоисточника и не изменявшиеся человеком.
Как показано на схеме 1.2, в традиционном понимании, «данные», «информация» и «знания» – это совершенно разные понятия. Данные являются проводником информации, информация представляет собой данные с контекстом, а знания – это конечная информация, обладающая закономерностями, полученными в результате произведённых человеком обобщения и упорядочивания.
В 60-е годы 20 века, когда наблюдался огромный прогресс в теории программного обеспечения, были изобретены базы данных. После этого численные данные, тексты и изображения стали без дифференциации храниться в базах данных компьютеров, единицей, в которой осуществлялось хранение, был «бит», а значение слова «данные» начало расширяться. Понятие «данные» указывает не только на являющиеся результатом измерений числовые значения, то есть «числовые значения измеряемой величины», постепенно оно стало общепринятым обозначением «чисел, текстов, изображений, аудио и видео», то есть синонимом «информации». Поскольку такая информация существует как своего рода свидетельство и базис, её можно назвать «опорными данными».
Исходя из этого автор считает, что определение понятия «большие данные» достаточно ясно и точно выражает следующая формула:
Большие данные = традиционные числовые + современные
значения измерений опорные данные