Модели и процедуры измерения и оценивания результатов
критериально-ориентированного тестирования
В статье рассмотрены недостатки существующих методов оценки результатов критериально-ориентированного педагогического контроля знаний и предложены модели и процедуры, обеспечивающие объективность, дифференцированность и критериальную валидность оценки результатов тестирования знаний.
Ключевые слова: критериально-ориентированное тестирование, педагогическое измерение и оценивание результатов, независимые и вложенные тестовые задания.
Педагогическое тестирование определяется как “один из наиболее стандартизованных и объективных методов контроля и оценивания знаний, умений и навыков испытуемого, который лишен таких традиционных недостатков других методов контроля знаний, как неоднородность требований, субъективность экзаменаторов, неопределенность системы оценок и т.п.” [1].
Однако указанное положение об объективности педагогического тестирования не может быть полностью распространено на критериально-ориентированные тесты, позволяющие оценить уровень подготовленности (учебных достижений) испытуемых в конкретной предметной области по несвязанному с процедурой тестирования внешнему критерию. Так, из основных форм закрытых тестовых заданий в современных компьютерных системах тестирования (КСТ) объективно оцениваются только задания в форме “одиночный выбор”, когда испытуемый должен выбрать один вариант ответа из нескольких предложенных. В остальных формах заданий процедура объективного измерения результатов тестирования заменяется процедурой субъективной идентификации этих результатов по правилам, установленным преподавателем или разработчиком теста. К таким формам закрытых критериально-ориентированных тестовых заданий относятся: 1) форма “множественный выбор”, когда испытуемый должен выбрать несколько вариантов ответа из нескольких предложенных; 2) форма “соответствие”, когда тестируемому нужно упорядочить два списка таким образом, что бы они соответствовали друг другу; 3) форма “упорядоченный список”, когда тестируемому нужно упорядочить список в определенном порядке.
Так для формы “множественный выбор” В.С. Аванесов в [2] рекомендует за полностью правильное решение дать три балла, за каждую ошибку снимать один балл. Если ошибок больше трех, то давать 0 баллов. М.Б. Челышкова [3] рекомендует за полностью выполненное задание с выбором нескольких верных ответов давать 1 балл и 0 баллов за, хотя бы один, неверный ответ. В.Ю. Переверзев в [4] описывает метод “частичного балла” (partial credit), в котором за каждый правильно выбранный ответ дается 1 балл, за неправильно выбранный ответ – 0 баллов. Штрафные баллы в этом методе не предусмотрены. По мнению В.С. Кима [5] использование заданий с выбором одного верного ответа предпочтительней и лучше заменять одно задание с выбором нескольких верных ответов на несколько заданий с выбором одного верного ответа. Аналогичные рекомендации имеют место и в отношении тестовых заданий в формах “соответствие” и “упорядоченный список”.
Для устранения указанных выше недостатков процедур измерения результатов критериально-ориентированного тестирования в КСТ предлагается использовать данные теории распознавания образов [6]. Приступая к изложению предлагаемых методов измерения и оценивания результатов выполнения критериально-ориентированных тестов в формах “множественный выбор”, “соответствие” и “упорядоченный список” необходимо отметить, что как перечисленные формы закрытых тестовых заданий, так и производные от них формы, как показано в [9], могут быть сведены к двум базовым формам: МНОЖЕСТВО (неупорядоченное множество) элементов или СПИСОК (упорядоченное множество). Поэтому дальнейшее описание предлагаемых процедур измерения и оценивания результатов критериально-ориентированного тестирования приводится в отношении последних двух базовых форм тестовых заданий.
Постановка задачи оценки ответа типа МНОЖЕСТВО: Пусть дано множество МО (см. рис. 1), характеризующие ответ испытуемого, и множество МЭ, характеризующие эталонный ответ.
Рис. 1. Диаграмма Эйлера-Венна для множеств V, MО, MЭ
Пусть для М1, М2 выполнено условие
,
где: (
),
,
.
Требуется оценить ответ испытуемого в традиционной 4-балльной шкале
Решение задачи: Оценим расстояние r между множествами МО и МЭ. Для этого введем следующую метрику: 1) ; 2)
, если МО и МЭ состоят из одних и тех же элементов, т.е. эквивалентны
(если
и
, то
); 3)
, если
; 4)
, если
.
Тогда расстояние между МО и МЭ может быть определено как
,
где: – число элементов в подмножестве
(число одинаковых элементов в МО и МЭ),
– число элементов в подмножестве
(общее число неповторяющихся элементов подмножеств МО и МЭ).
В теории системно-информационного анализа [7] введено понятие неупорядоченности как меры различия какого-либо выбранного параметра xj в отношении эталона порядка хэт, которая стремится к нулю при xj → хэт. Оценка соответствует этому понятию, что позволяет организовать процедуру оценивания измеренных результатов по схеме, предложенной А.Н. Печниковым в [8]:
1. Абсолютная неупорядоченность ответа испытуемого оценивается как:
.
2. Рассчитывается оценка испытуемого в традиционной 4-балльной шкале:
,
где: qвг — величина q, соответствующая оценке “отлично”; qуог — величина q, соответствующая оценке “неудовлетворительно”; S=25qвг=32qвг — коэффициент, адаптирующий количественное выражение балла оценки к традиционной 4-балльной шкале; ⎯ логические операторы (
при
;
при
;
при
).
В области определения оценки формула примет вид:
.
Применение формул (2-5) обеспечивает возможность настройки балла оценки на систему предпочтений преподавателя за счет изменения qвг или qуог.
Постановка задачи оценки ответа типа СПИСОК: Пусть выборочные ответы XО вида СПИСОК и соответствующий им эталон XЭ определены на исходном множестве V следующим образом:
.
Необходимо определить оценку ответа XО испытуемого в традиционной 4-балльной шкале.
Решение задачи: Для решения подобных задач применяется метод Кендалла [6], который обеспечивает получение оценок , соответствующих понятию расстояния, но работоспособен только при одинаковых числе и номенклатуре элементов в списках) и метод Фора (работоспособен при любом наборе элементов, но неоднозначен и исключает нормирование оценок, т.е. их представление в традиционной 4-балльной шкале). Предлагается метод, базирующийся на модели оценки ответа типа МНОЖЕСТВО, методе Кендалла и процедуре создания пустых элементов, применяемой в методе Фора.
В соответствии с список XО может содержать элементы вида bu, на которых не может быть определено отношение порядка. Поэтому в общем случае расчет оценки предлагается производить в 4 этапа.
Этап 1. Оценка неупорядоченности ответа испытуемого (списка XО) относительно эталона (списка XЭ) по номенклатуре элементов.
Списки XО и XЭ рассматриваются как неупорядоченные множества, а неупорядоченность их номенклатуры оценивается по формулам (2,3).
Этап 2. Оценка неупорядоченности ответа испытуемого (списка XО) относительно эталона (списка XЭ) по упорядоченности элементов.
В соответствии с (6) списки XО и XЭ имеют вид
,
,
где: ,
.
Произведем в списке XО замену всех элементов вида bu на пустой элемент λ (процедура, применяемая в методе Фора), обладающий свойством
,
в случае дополним список XЭ элементами
равными λ, а в случае
— список XО элементами
равными λ.
Списки XО и XЭ примут вид перестановок, которые имеют одинаковый состав элементов, а значит могут быть корректно оценены по методу Кендалла:
1. Определяются коэффициенты сравнения:
, где
.
2. Рассчитывается расстояние (нормированная оценка Кендалла):
.
Оценка по формуле (11) формально и по смыслу соответствуют понятию неупорядоченности, откуда в соответствии с
.
Этап 3. Оценка общей неупорядоченности ответа испытуемого (списка Xj) относительно эталонного ответа (списка X0).
Общая неупорядоченность ответа вида СПИСОК определяется как
.
Этап 4. Определение оценки выборочного ответа типа СПИСОК в традиционной 4-балльной шкале.
Оценка рассчитывается путем подстановки в (4,5) значения q, определенного по.