Хороши или плохи задания открытого типа на экзаменах?

ФИПИ устроили большую пресс-конференцию, созвали журналистов и рассказали, как они планируют менять экзамен после 9-го класса. Тот, который ОГЭ. Сейчас девятиклассники сдают четыре ОГЭ. Два обязательных (русский и математика) и два по выбору.

Вообще, это кажется, что ОГЭ не такое серьезное мероприятие как ЕГЭ. Да, ставки чуть ниже, но это тоже выпускной экзамен. Некоторые школы заводят классы специализации в средней школе с прицелом именно на показатели ОГЭ. Делают физико-математический класс (готовят к физике и информатике по выбору), биолого-химический (готовят к биологии и химии), класс социальных наук (чтобы сдавали обществоведение, историю и географию лучше прочих).

С точки зрения концепции, мне нравится, как ФИПИ меняют экзамен. Они декларируют уход от знаниевых вопросов, занимают поляну оценки метакогнитивных навыков и подтягивают экзамены к практической, бытовой стороне жизни. В химии и физике появятся опыты, экзамен по информатике будет компьютеризирован. В географии учащиеся будут анализировать материалы СМИ, чтобы оценить правомерность экономико-географических проблем.

Единственное, что в этом торжестве практико-ориентированного мышления меня настораживает – как будут проверять эти десятки открытых заданий? В психометрике для таких заданий придумано общее название: performance-based tasks. К «перфомансным» заданиям относятся все задания открытого типа (сочинения, эссе, описания, ответы-рассуждения, просто открытые ответы и ответы-решения), а также все задания на демонстрацию каких-то навыков и умений. Презентацию провести – это performance-based задание. Сделать химический опыт или физический эксперимент – тоже. Спеть, станцевать, выточить деталь на станке – все это относится к заданиям такого типа. Очень трудно перевести термин performance-based tasks на русский язык. Я их перевожу описательно как «задания, оцениваемые экспертами». Потому что ключевая черта этих заданий, проверяющих навыки и приближенных к реальной деятельности, — это необходимость, чтобы кто-то проверил их. Таких проверяльщиков называют экспертами. А эксперты – люди. Как и все человеческое, им свойственно ошибаться, быть слишком строгими, слишком добрыми, уставать и демонстрировать прочие «эффекты экспертов».

В истории оценивания все это уже проходили. В конце 80х годов американцы решили, что они слишком сосредоточились на знаниевом компоненте и решили ввести в оценивание higher-order skills. То есть заданий на анализ и рассуждения. То есть стали давать больше открытых заданий. То есть, расширили армию экспертов-проверяльщиков. А в Америке, вы знаете, очень развита судебная система. Чуть сомнения в качестве инструментов – и неблагодарные испытуемые подают иск на разработчиков. Комбинация открытых заданий и судебной системы привела к тому, что в Америке очень мощно разработали теорию создания и анализа заданий, требующих экспертной проверки (тех самых performance-based).

С такими заданиями связываются только в случае крайней необходимости. Потому что они при всех своих достоинствах отягощены трудностями. Меньшая из проблем: необходимость тщательно разработать «рубрики»: системы критериев для оценивания. Потом необходимо потренировать экспертов, причем не просто провести обучение, а чтобы эксперты «сдали экзамен», то есть оценили энное количество заранее подготовленных работ, и их оценки при этом совпали бы с эталонными, загодя подготовленными и согласованными группой разработчиков. Наконец, когда обученные эксперты начнут проверять работы, необходимо доказать, что обучение не прошло даром и показать их межэкспертную согласованность и внутриэкспертную согласованность. По сути дела, межэкспертная согласованность – это степень корреляции оценок разных экспертов по одним и тем же заданиям, а внутриэкспертная согласованность – это как меняется позиция эксперта при оценивании все большего количества работ.  Но чтобы посчитать эту корреляцию, нужно, чтобы разные эксперты проверили группу одних и тех же работ. Это лишняя нагрузка на них. И за перепроверенные работы тоже нужно платить, это накладно. Однако эти расходы и жертвы необходимы, если разработчики стремятся к справедливости оценивания. По результатам проверки межэкспертной согласованности судят, насколько можно доверять отдельным экспертам, а также насколько сопоставимы полученные результаты.

Пока шла презентация, я все думала, спросит ли кто-то из журналистов про экспертов. Дождалась, спросила журналистка из МК Ксения Адамович. Ксения вообще-то работает в нашем Институте образования, поэтому неудивительно, что она задала это лучший (на мой взгляд) вопрос. Мне кажется, прекрасно, когда об образовании пишет человек, непосредственно этим образованием занимающийся.

Ответ, который дали Ксении, был такой: да, разработаны программы подготовки экспертов. В идеале, эксперты должны бы сдать и экзамен после обучения. Но поскольку подготовкой своих экспертов занимаются регионы, трудно говорить о том, как будет выглядеть процедура.

В переводе на простой язык это может означать несколько вещей: результаты ОГЭ между регионами сравнивать будет нельзя. Потому что экзамены будут состоять преимущественно из открытых заданий, а экспертов будут готовить сами регионы. Это мегаважная информация для аналитиков и всяческих образовательных начальников. Ведь всегда есть соблазн зашить результаты важных экзаменов в какой-нибудь рейтинг школ или KPI учителей/регионов.

Достоинства заданий закрытого типа (таких как задания на сопоставление, множественный выбор) в том, что для их проверки не требуются эксперты. Но их слабость – в том, что легко делать только плохие закрытые задания. Хорошие закрытые задания делать очень трудно. Из-за того, что плохих закрытых заданий в нашей жизни больше, их репутация сильно испорчена. Лично я как разработчик не люблю требующих экспертов заданий, лучше уж помучиться и сделать отлично работающее закрытое задание. Правда, на это нужно время, дефицитное при разработке  экзаменов высоких ставок, где задания нужны сотнями.

Все-таки я настроена оптимистично. Думаю, что пройдет еще немного времени, и проверяемыми экспертами задания перестанут быть единственным вариантом для проверки умения рассуждать или  владения какими-то навыками. Сейчас активно развиваются компьютерные интерактивные задания, задания-симуляции, технологии автоматического скоринга – это не завтрашний, а сегодняшний день. Что-то вроде управляемых компьютерных игр или виртуальных химических и физических лабораторий (заодно и проблему стандартизации проведения экзамена решена будет). Просто пока очень дорого. Пока… А потом будет дешевле. Поэтому молодец будет тот, кто займет нишу высокотехнологичного оценивания.

 

 

 

Поделиться