Под надёжностью теста понимается степень точности, с которой тест измеряет определённое свойство или способ поведения личности. Надёжность теста – это характеристика точности его как измерительного инструмента, его устойчивости к действию помех (как внешних, так и внутренних). Эмпирическое определение надёжности теста является обязательным условием его допуска для использования в практической деятельности психолога.
В психометрике обоснование получили три метода оценки надёжности тестов:
1) метод повторного тестирования (метод тест-ретест);
2) метод тестирования параллельной, или эквивалентной, формой теста;
3) метод деления, или расщепления теста на части. Оценка надёжности по методу повторного тестирования требует, чтобы тест дважды предъявлялся одной и той же выборке испытуемых через какое-то время. Длительность временного промежутка определяется содержанием и характером задач теста.
Второй метод оценки надёжности теста требует наличия параллельной, то есть эквивалентной, формы теста, например формы «А» и «Б». Репрезентативную выборку испытуемых, на которой проверяется надёжность теста, случайным образом делят на две примерно равночисленные группы. Затем первой группе предъявляются задачи формы «А», а второй группе – задачи формы «Б». Через некоторое время (не более одной недели) задачи формы «Б» решает первая группа, а формы «А» – вторая. После этого для всей репрезентативной выборки испытуемых отдельно вычисляются первичные результаты для форм «А» и «Б», которые затем подвергаются корреляции.
Общим недостатком первых двух методов оценки надёжности теста является то, что они зачастую дают заниженные или завышенные коэффициенты надёжности. Дело в том, что дисперсия результатов, на основе которой рассчитывается коэффициент корреляции, неоднородна по своему составу. Наряду с дисперсией действительных индивидуальных различий в неё входят частные дисперсии, обусловленные влиянием как внутренних, психологических, причин (колебания внимания, усталость и др.), так и внешних (уличный шум, поведение и высказывания исследователя и т. п.). При этом сила и сочетание этих причин в первом и во втором тестировании могут быть различными, и оценить их влияние или полностью их нейтрализовать оказывается невозможным.
Поэтому, особенно при проверке надёжности тестов мощности (например, интеллектуальных тестов) и достижений, предпочтение следует отдавать третьему методу, поскольку он предполагает лишь однократное тестирование. Третий метод оценки надёжности включает два различных приёма расчёта: разделение тестовых задач на две части, например по принципу "чётные и нечётные", и расчёт коэффициента консистентности задач теста.
Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивости) получаемых результатов относительно измеряемых свойств объектов, то есть относительно предмета измерения. Отличие понятия «валидности» от «надёжности» измерения удобно раскрывать с помощью различения «объекта» и «предмета» измерения.
Надёжность – это устойчивость процедуры относительно объектов. Надёжность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определённую процедуру измерения, показывает её надёжность – способность устойчиво различать объекты, но вопрос о валидности остаётся открытым.
Устойчивость теста относительно объектов (испытуемых) является необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надёжность является необходимым, но не достаточным условием валидности. Отсюда понятно основное соотношение психометрики: валидность < надёжность.>
Это означает, что валидность теста не может превышать надёжности теста.
Данное соотношение, однако, неверно трактовать как указание на прямо пропорциональную связь валидности и надёжности. Повышение надёжности отнюдь не обязательно приводит к повышению валидности. В терминах Анны Анастази [11] валидность определяется репрезентативностью теста относительно измеряемой области поведения.
При проверке устойчивости распределения общая логика основывается на индуктивном рассуждении: если «половинное» (полученное по половине выборки) распределение хорошо моделирует конфигурацию целого распределения, то можно предположить, что это целое распределение будет также хорошо моделировать распределение генеральной совокупности.
Таким образом, доказательство устойчивости распределения означает доказательство репрезентативности тестовых норм.