«Плохие тесты» и «хорошие экзамены»

«Тесты это все ерунда, вот советские экзамены это было хорошо» — от таких заявлений человек с психометрической подготовкой имеет более чем 50% вероятность вскипеть и начать брызгать слюной.  Если меня спросят: «Инна, а что бы ты выбрала – не для себя, а для своего ребенка (о себе у нас часто бывают странные представления) – тест или устный экзамен, тест или сочинение?» я отвечу вопросом. «А какой тест? А как сделан устный экзамен?». Это не попытка уйти от ответа.

Любое оценивание содержит ошибки. И ошибки эти имеют две, так сказать, природы происхождения. Есть ошибка оценивания. Которая складывается из качества теста  – насколько хорошо он сделан, и из случайных вариаций во время тестирования (ну вот не выспался человек в день экзамена, бывает). Такого рода ошибки мы довольно хорошо научились прикидывать статистически. Но есть ошибки «человеческого фактора». Их рассчитать гораздо труднее, иногда невозможно, а зла от них куда больше.

Чтобы я сказала, что тест хороший, я должна посмотреть на свидетельства его надежности и валидности, я хочу посмотреть, как работают его задания, мне нужно убедиться, что если в тесте есть варианты, они параллельны. Качество теста можно установить только с помощью психометрических методик. Не «эти варианты взаимозаменяемы, потому что я так считаю». А «Эти варианты параллельны, потому что мы использовали выравнивание методом общих заданий в рамках IRT» — или каким-то другим методом. А потом я захочу узнать, как устанавливались пороговые баллы, чтобы понимать, можно ли полагаться на интерпретацию результатов.  Все использованные методы и процедуры разработки и анализа обычно описываются в специальном документе: техническом отчете. Хороший тон — публиковать технические отчеты к своему инструменту или делать по нему научную статью.  Наконец, я хочу убедиться, что тестирование проводилось в соответствии со стандартизированной процедурой. Вот тогда у меня будет доверие к результатам.

Устные экзамены и сочинения требуют еще больше напряга при подготовке. Потому что многое зависит от экзаменаторов-оценщиков. Им нужно дать критерии оценивания и провести тренинг. Знаете, как делаются такие тренинги? Будущим экзаменаторам раздают сочинения или показывают записи устного выступления и просят их оценить в соответствии с критериями. А потом сравнивают с «эталонной» оценкой, которую долго обсуждали и писали группа экспертов. Потом дают другое сочинение, для которого тоже есть эталон, и тоже просят его оценить. И опять и опять. Если экзаменатор систематически не совпадает с эталоном, с ним снова разбирают и проговаривают все критерии. И так, пока он не начнет давать оценки близко к эталонным. Некоторые люди вылетают из обучения, не став экзаменатором, потому что они оказываются не способными отделить себя и свое мнение от предложенных им критериев оценивания. Но и это не все. В идеале надо бы проверять согласованность оценок экспертов. Для этого некоторую часть заданий (эссе, например), раздают нескольким экспертам, чтобы можно было сопоставлять их оценки по одному и тому же документу. А потом анализируют данные (есть, например, многофасетный анализ, а на прошлой психометрической школе мои коллеги осваивали для этой цели  многоуровневые регрессии). Результаты такого анализа показывают, насколько согласованными были оценки экспертов, кто завышал, а кто занижал баллы относительно остальных. Но представляете, насколько трудоемко и дорого организовать такое оценивание?

В общем, возвращаясь к гипотетическому вопросу, что я выберу для своего ребенка. Если оценивание сделано хорошо, командой профессиональных измерителей, с техотчетом и всеми нужными процедурами — то без разницы.  А если соблюдались только базовые требования к качеству (например, критерии оценивания сочинений оценщикам раздали, но никакого анализа согласованности не провели, или устный экзамен не записывался на видео) – то лучше в форме теста и чтобы побольше хороших заданий закрытого типа. И поменьше таких, которые требуют экспертной оценки.

А как же проверять higher order thinking skills? Ведь сочинения и устные выступления (performance based items) именно потому получили популярность, что был запрос на оценивание широкого спектра навыков. Тут я снова повторюсь, что следующий скачок психометрической эволюции коснется именно форматов заданий. Автоматический скоринг эссе (когда сочинение проверяет не человек, а алгоритм, и проверяет хорошо!) – это не завтрашний, а уже сегодняшний день. И симуляционные задания (когда на экране  компьютера симулируется какая-то ситуация, например, нужно подобрать все необходимое, чтобы вырастить цветок или поухаживать за рыбками в аквариуме, демонстрируя свою компетентность в биологии и критическом мышлении – их уже делают и проводят на практике. Причем не где-то там, в засекреченных лабораториях, а рядом. А еще есть юное, практически младенческое направление game-based assessment – оценивание в рамках компьютерной игры. И когда младенец подрастет, в оценивании может начаться совсем другая история.

Поделиться