Сравнивать сопоставимое: на уровне концепции

Разработчики часто говорят  что-то вроде «А у этих тестов общая шкала?», «Эти шкалы связаны» или «У  этих инструментов разные шкалы, их нельзя сравнивать». Чтобы помочь понять идею  приведу сначала пример из знакомой ситуации. Предположим, в некотором вузе есть четыре магистерские программы. Они очень разные по направлению, вступительные испытания разные,  в общем, их абитуриенты друг другу не конкуренты. Но итоговые  баллы взвешивают, чтобы максимумом было 100. Набрав студентов, вуз решил обобщить итоги приема и сделал вот такую табличку. Вопрос: на какую МП легче всего поступить?

Я надеюсь, хотя бы кто-то попался и сказал, что легче всего поступить было на программу 4, у которой самый низкий проходной балл. Это неправильный ответ.

Второй вопрос будет труднее. Почему это неправильный ответ?

Потому что вступительные испытания были РАЗНЫЕ (и в примере это подчеркивалось). То, что баллов максимум 100, – всего лишь условность. Красивое число.

Вопрос третий, еще труднее: а что все-таки можно делать с баллами из таблички? Ответ: принять к сведению. Если вступительные испытания не изменятся на следующий год, то итоги нового набора можно будет сравнить с итогами прошлого года по отдельным программам.  Но не сами программы между собой.

Когда мы говорим о двух тестах, действует та же логика. Если у ребенка 80 баллов за ЕГЭ по математике и 80 баллов за ЕГЭ по русскому, это совершенно не значит, что он знает русский на одинаковом уровне с математикой. И если у него 90 баллов по русскому и 80 баллов по математике, это не означает автоматически, что русский он знает лучше математики.

Теперь еще тоньше:  представим тест из двух вариантов. Пусть это будет тест по физике, в каждом варианте по 20 заданий и баллы начисляются так: сделала правильно 1 балл, неправильно – 0 баллов.  Можно ли сравнивать балл студентов, которые делали разные варианты? Можно ли сделать для обоих вариантов один и тот же проходной балл?

На этот вопрос можно будет ответить «да» или «нет» только после выполнения трех проверок: 1. Задания одного варианта должны быть клонами заданий другого варианта. Это еще называется «подготовлены по единой спецификации», то есть по одному техническому заданию. 2. Выборки учащихся, выполнявших разные варианты, должны быть сопоставимыми (не так, что первый вариант достался сильным ученикам, а второй тем, кто послабее). 3. Статистическая проверка параллельности вариантов показала, что тесты имеют одинаковое среднее, одинаковое стандартное отклонение, одну и ту же надежность и ошибку измерения (я покажу, как это считается, это простые концепции).  Предположим, что у вариантов оказались разные средние баллы, а подгруппы студентов похожи, если судить, например, по результатам статистического анализа. Это упс. Это значит, что один вариант труднее, а другой легче. А должны быть, по идее, одинаковыми (иначе это не варианты).

Конечно все эти процедуры бессмыслены, если это учитель проверяет знания учеников по предмету (формирующее оценивание). А вот если по результатам этого теста спонсорскую стипендию дают (тест высоких ставок) или данные тестирования будут использоваться для статистического анализа, чтобы сделать какие-то важные выводы, проверить гипотезы, то параллельность вариантов жизненно необходима.

И даже если параллельности не обнаружено, психометрики не унывают, потому что у них есть целый арсенал методов для «связывания» шкал. Когда эти методы применяются, результаты учеников по двум вариантам можно сравнивать напрямую и это будет справедливо.

В курсе МАГОЛЕГО «Экспертиза качества тестов и опросников» мы будем много говорить про общие шкалы, про выравнивание и связывание тестовых баллов, про вертикальное выравнивание и горизонтальное выравнивание и кое-что посчитаем ручками. И пост на эту тему тоже будет.

А сухой остаток пока должен быть такой: если вам предлагают что-то сравнить (тестовые баллы, например), сперва уточните, можно ли эти вещи в принципе сопоставлять. Какие вопросы задать, вы уже понимаете.

Поделиться