Тест А обладает оптимальной надежностью, так как результаты 10 студентов остались прежними: баллы и места учеников не изменились после повторного выполнения теста. Подсчет корреляции результатов первого и второго тестирования даст коэффициент корреляции, равный единице. Тест В абсолютно ненадежен: те, кто имел самые высокие баллы в первом тестировании, получают самые низкие во втором после повторного применения этого же теста. Полное отсутствие воспроизводимости баллов испытуемых указывает на минимальную надежность теста, поэтому (
Таблица 6.8
Ретестовый метод оценки надежности (test-retest reliability) основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения ими одного и того же теста. Обычно повторное тестирование проводится через 1–2 недели, когда испытуемые еще не успели забыть учебный материал и незначительно продвинулись в усвоении новых знаний. При таких условиях повторного предъявления теста низкая корреляция между результатами тестирования будет следствием не изменения состояния испытуемых, а применения ненадежного теста.
Для подсчета коэффициента надежности по методу повторного тестирования используется формула
(6.9)
где (
Для удобства вычисления коэффициента надежности по ретестовому методу данные можно заносить в табл. 6.9.
Пример подсчета по табл. 6.9 можно привести для исходной матрицы. Выбирая ее данные в качестве результатов первого тестирования и добавляя результаты произвольные второго тестирования можно подсчитать коэффициент надежности ретестовым методом (табл. 6.10).
После подстановки чисел из нижней строчки таблицы в формулу (6.9) коэффициент надежности будет
Значение
Применение ретестового метода может привести к ошибочным оценкам надежности в тех случаях, когда проводится слишком близкое по времени повторное применение теста. Студенты запоминают ответы к заданиям и при повторном тестировании значительно повышают свои результаты, что искажает оценку надежности теста.
Таблица 6.9
Таблица 6.10
Другой метод параллельных форм (parallel-form reliability) основан на однократном применении двух параллельных вариантов теста. Он непригоден в тех случаях, когда при тестировании используется один вариант теста.
В некоторых странах, например в США, благодаря соблюдению всех требований к проведению тестирования, применение единственного варианта не снижает необходимый уровень информационной безопасности, зато обеспечивает высокую сопоставимость результатов выполнения теста. Таким образом, если тест только один, то для оценки надежности методом параллельных форм приходится создавать параллельный вариант теста, затем с затратами сил, средств и времени на апробацию доказывать правомерность гипотезы о параллельности и только потом оценивать надежность исходного теста.
В другой ситуации, когда изначально разрабатываются параллельные варианты теста, как в ЕГЭ, оценка надежности методом параллельных форм также требует значительных трудозатрат. Необходима тщательная ротация вариантов в группе испытуемых для обеспечения сходных выборок учащихся на параллельных вариантах теста. Даже при стратификации выборки испытуемых и ротации вариантов достоверность оценок надежности снижается из-за того, что параллельные формы – это, скорее, теория, чем реальность, поскольку на практике, несмотря на все усилия авторов, как правило, обнаруживаются статистически значимые отличия в характеристиках параллельных вариантов.
Для оценки надежности методом параллельных форм используется формула (6.9). В ней