32. Критерий валидности. Основное психометрическое неравенство. Типы критериев валидности
Соответствие теста измеряемому психическому свойству называется валидностью теста. На валидность теста негативно влияют случайные факторы, поэтому в психометрике принято следующее основное психометрическое неравенство:
Валидность ≤ Надежность,
что означает, что валидность не может превышать надежность теста.
Помимо случайных факторов, на валидность теста влияют систематические факторы. Они привносят систематические искажения в результаты.
В современной психометрике разработаны десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов. Основным элементом этих методов является так называемый «критерий».
Критерий валидности – это независимый от теста, внешний по отношению к тесту источник информации об измеряемом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или заведомо более валидной) информации об измеряемом свойстве – с критерием.
Типы критериев валидности
В научных исследованиях преобладают специальные лабораторные критерии. Например, конструируется компактный тест-опросник на тревожность. В качестве критерия валидности для него используется специальный трудоемкий объективный лабораторный эксперимент, в котором воспроизводится реальная ситуация тревожности (испытуемым-добровольцам угрожают за ошибочные действия ударами тока).
На практике в качестве критерия валидности используются прагматические критерии – показатели эффективности той деятельности, ради прогнозирования которой предпринимается тестирование.
В качестве критерия валидности используется экспертная оценка. Мы хотим убедиться, что короткий тест на измерение уровня дисциплинированности валиден. Для этого проводится опрос учителей об уровне дисциплинированности хорошо известных им учеников. После этого сравниваются результаты теста и экспертный рейтинг учеников по дисциплинированности. Это один из самых простых, популярных методов эмпирического измерения валидности. Это метод «известных групп». В психометрическом эксперименте по проверке валидности теста приглашаются испытуемые, при этом известно, к какой группе по критерию они относятся. В случае с тестом дисциплинированности подбираются ученики, дисциплинированные по данным экспертной оценки учителей («высокая» группа по критерию) и заведомо недисциплинированные («низкая» группа по критерию). Ученики со средними показателями по критерию в тестировании не участвуют.
33. Математическое выражение критерия валидности (коэффициент Гилфорда). Основные схемы валидизации психодиагностических
Меру совпадения (корреляции) между крайними группами по тесту и по критерию оценивают с помощью самого простого Фи-коэффициента Гилфорда:
При численности протестированной группы в 30 человек (это минимальная выборка для проверки валидности) статистически значимую связь теста с критерием мы можем констатировать, Phi› 0,36. Хотя это и низкая валидность, но все же тест в данном случае дает значимо лучшие результаты, чем случайное гадание.
Но метод «известных групп» обладает серьезным недостатком. Он не всегда позволяет использовать тест для прогноза. При формировании «известных групп» оценивается поведение, которое происходило в прошлом, а мы хотим сделать тест для прогноза поведения, которое будет происходить в будущем. Многие тесты, используемые в образовательной психодиагностике, обладают указанным недостатком. Они проходят в лучшем случае проверку по методике «известных групп» и не обладают прогностической валидностью (или валидность экспериментально не доказана).
Решение проблемы прогностической валидности под силу крупным научно-методическим центрам. Ведь к психометрическому исследованию по проверке прогностической валидности надо привлекать на порядок больше испытуемых – не 30, минимум – 300, так как не известно, кто из этих 300 попадет в крайние группы.
Мы хотим использовать тест для прогноза готовности школьников для обучения в вузе. Это типичная прогностическая психодиагностическая задача. Кто-то должен взяться за программу проверки прогностического потенциала этого теста. Нужно протестировать 300 – 500 школьников, а затем подождать, кто из них поступит в вуз и будет успешно там учиться. После 2-3-летнего интервала можно сформировать критериальные группы и подсчитать корреляцию с прежними тестовыми показателями этих бывших школьников. После реализации такой схемы психометрического эксперимента можно утверждать, что тест прошел проверку на прогностическую валидность. Без этого мы исходим только из доверия к научной интуиции разработчика теста и не имеем независимых доказательств того, что тест можно использовать для прогноза.