Читаем Тестовый контроль в образовании полностью

Обработка данных начинается с выбора правил оценивания ответов испытуемых на задания теста. В большинстве случаев используется дихотомическая оценка. Оценку выполнения i-м испытуемым j – го задания обозначим Xij.  Она может принимать значения 1 или 0, при этом i = 1, 2, ..., N,, где N – число учащихся или студентов; а j = 1, 2, ..., n, где n – количество заданий в тесте. Из значений Xij составляют матрицу эмпирических данных. Строки матрицы состоят из нулей и единиц, соответствующих ответам разных испытуемых, по столбцам располагаются профили ответов на каждое задание, т.е. столбцов должно быть столько, сколько заданий в тесте – n, а строк – сколько испытуемых – N. Матрицу данных тестирования (столбцы – число правильных ответов на каждое задание теста Rj, строки – правильные ответы тестируемых) упорядочивают, располагая Rj в порядке убывания результата. Строки матрицы меняют так, чтобы верхняя соответствовала обучаемому с минимальным индивидуальным тестовым баллом Xi.

По такой упорядоченной матрице рассчитываются доли правильных рi и неправильных qi ответов испытуемых:

pi= Xi/n, qi= 1 – Pi , где (i= 1, 2, ..., N).

Аналогично рассчитываются доли правильных и неправильных ответов на задания теста:

Pj = Rj /N и qj = 1 – Pj , где (j= 1, 2, ..., n).

Сначала рассчитывается первичный балл каждого тестируемого:


являющийся только начальной оценкой уровня подготовки учащихся или студентов, и определяется число правильных ответов на каждое задание теста:


Это позволяет сделать первичную оценку трудности каждого задания. Следует иметь в виду, что показатель трудности задания Rj удобен до тех пор, пока число испытуемых N в разных группах остается неизменным. Если в группах число испытуемых меняется, то необходимо пользоваться нормированным статистическим показателем трудности Pj , он не зависит от N и характеризует долю правильных ответов:


Оценка латентных параметров в большинстве случаев проводится в предположении нормальности распределения эмпирических данных как по множеству испытуемых, так и по множеству заданий.

Для лучшей наглядности информация о распределении первичных баллов тестируемых может быть представлена в виде гистограммы или кривой распределения. Максимальная частота выбора правильного результата (число тестируемых, набравших соответствующий балл) должна находиться в центре кривой, к краям частота снижается. Проверка нормальности распределения значений индивидуальньж баллов Xi  (мера центральной тенденции) желательна при создании нормативно–ориентированных тестов. Одной из наиболее простых мер проверки центральной тенденции является среднее арифметическое; если его значение соответствует 50% общей суммы баллов для данного теста, то условие нормализации выполнено.

После этого определяются значения дифференцирующей способности j, как это было указано ранее. Найденные для всех заданий значения j позволяют перейти к оценке уровня знаний испытуемых, или уровня подготовленности, – латентного параметра . В качестве начального значения латентного параметра выбирается индивидуальный балл тестируемого Xi.

Аналогично проводится определение начального значения латентного параметра трудности задания j  по значению Rj. Затем вычисляются стандартные ошибки измерений и , строятся характеристические и информационные кривые, рассчитывается показатель эффективности заданий и другие параметры. Расчет статистических показателей заданий теста, как правило, проводится по специальным автоматизированным программам и не требует специальной подготовки [197].

Схематически целевая и эмпирическая функции (для разного числа заданий) в процессе разработки и совершенствования теста за счет добавления заданий показаны на рис. 9. Правило определения длины теста указывает, что в процессе моделирования необходимо собирать статистику и подсчитывать дисперсию индивидуальных баллов тестируемых после каждого удлинения теста, наблюдая за изменением информационной функции теста.

Как только (при удовлетворительном заполнении области под целевой информационной функцией и при высокой содержательной валидности) дисперсия



прекращает изменяться, можно найти оптимальную длину теста (Xi – число правильных ответов i – го испытуемого; N – число испытуемых).



Рис. 9. Динамика информационной функции теста J – информационная функция; – уровень знаний

Апробация теста требует много времени, но обеспечивает высокий уровень качества теста. Верхняя часть кривой отражает стремление разработчиков создать тест, обеспечивающий равную точность оценок испытуемых в заданном интервале оценок на шкале логитов.

Перейти на страницу:
Нет соединения с сервером, попробуйте зайти чуть позже