Интеллектуальное
тестирование как основа контроля качества знаний
Интеллектуальное
тестирование предполагает наличие модели знаний, модели самого процесса
тестирования и оценивания. Так можно охарактеризовать в общем все разработки в
этой области. Рассмотрим некоторые из них более подробно.
Традиционная система
оценивания знаний обучаемых основана на лингвистических оценках, по которым
устанавливается стипендия, производится учет успеваемости, проставляются записи
в зачетных книжках за период обучения и др.
Вместе с тем, такая
новая образовательная процедура как образовательное тестирование по
альтернативному признаку предполагает оценивание уровня знаний в диапазоне от
нуля до ста, что порождает проблему распознавания лингвистического образа
знаний по результатам такого образовательного тестирования.
Под образом уровня
знаний понимаются обучаемые, принадлежащие к множеству (группе), знания которых
по “эталону уровня знаний” отнесены к лингвистическим оценкам
неудовлетворительно (D),
удовлетворительно (C), хорошо (B), отлично (A).
Под распознаванием образа уровня знаний понимается процедура принятия
решения о принадлежности конкретного обучаемого к одному из указанных образов
на основании сравнения его образовательных достижений при тестировании с
характеристиками образа.
При тестировании по
альтернативному признаку используется закрытая форма теста, характеристиками
которой являются: функция плотности распределения неправильных ответов f(d), приемлемый уровень неправильных
ответов q0, неприемлемый уровень
неправильных ответов q1,
риск заниженной оценки знаний a,
риск завышенной оценки знаний b,
функция оценивания знаний f(Q),
объем образовательной информации N,
объем выборки заданий теста n и
критерий принятия решений в виде предельного числа неправильных ответов K.
Перечисленные
характеристики являются взаимозависимыми, но не обладающими достаточным
свойством четкости. В условиях их нечеткости для распознавания образа уровня
знаний обучаемых вполне допустимо для нормально реализованной образовательной
услуги принять модель распределения неправильных ответов по закону редких
случайных событий Пуассона и функцию оценивания уровня знаний сформировать по
этому же закону [1].
Поскольку
образовательная информация в банке заданий теста N в их выборке n
представляется как статистическая совокупность, а задания теста обучаемому в
компьютерном варианте всегда для выполнения выдаются последовательно, то для
распознавания образа уровня знаний возможно воспользоваться последовательным
критерием Вальда. При этом примем дополнительное принципиальное условие, что
задания теста однородны по количеству образовательной информации по конкретной
учебной дисциплине, поскольку аналитических методов классификации заданий по
мере их сложности или трудности пока не разработано.
Будем обозначать
гипотезу о приемлемом уровне знаний H0,
а гипотезу о неприемлемом уровне знаний H1.
Пусть в результате последовательного поступления заданий теста в объеме n получены неправильные ответы d1, d2, d3…dn.
При известной функции оценивания знаний по закону Пуассона последовательный
критерий Вальда позволяет по выборке объемом n классифицировать обучаемых по уровню знаний на три подобраза по
количеству областей принятия решений. Для того, чтобы иметь четыре образа
необходимо произвести для каждой из трех областей повторное последовательное
тестирование [2].
В предлагаемой
процедуре рекомендуется использовать два способа распознавания образа уровня
знаний: нормальный и усиленный. При этом задаются только четыре исходные
характеристики теста q1, q0, a и b.
По нормальному
способу по первой выборке заданий теста n1
производится классификация обучаемых на три предварительные области (уровни):
низкая, нормальная и высокая. По второй выборке заданий теста n2=n1 или n2<n1 для
уровня низкий ужесточаются исходные характеристики q0 и q1
и обучаемые аттестуются по трем образам D,C и B. Для нормального уровня
ужесточаются характеристики a и b и обучаемые аттестуются по трем
образам C,B и A. Для высокого уровня тестирование осуществляется без изменения
исходным q0, q1, a и b и обучаемые
аттестуются на два образа B и A. К достоинствам нормального способа относится
то, что обучаемые по второй выборке могут существенно улучшить свои
образовательные достижения, что отвечает требованиям закона «О защите прав
потребителей продукции и услуг».
По усиленному
способу по первой выборке обучаемые классифицируются только на два уровня:
низкий и высокий. По второй выборке для низкого уровня ужесточаются
характеристики q0 и q1 и обучаемые
аттестуются только на два образа D и C. По второй выборке для высокого уровня
ужесточаются характеристики a и b и обучаемые аттестуются только на
два образа B и A. Достоинством усиленного способа является более уверенное
распознавание образа уровня знаний и поэтому его рекомендуется использовать в
тех случаях, когда снижено доверие к реализуемой образовательной услуге.
Существенным
отличием предлагаемых методов распознавания образа уровня знаний при
тестировании от известных является заранее заданная погрешность распознавания,
заложенная в рисках принятия решений a
и b, использование наиболее
мощного критерия Вальда и достаточно простые и апробированные в статистическом
приемочном контроле способы ужесточения планов тестирования, что позволяет
использовать для решения практических задач распознавания образа уровня знаний
международный стандарт ИСО 8423-91 «Статистические методы. Последовательные
планы выборочного контроля по альтернативному признаку». Это способствует
повышению достоверности компьютерного тестирования, что позволяет использовать
предложенные теоретические разработки для обоснования методов оценивания знаний
в предлагаемом едином экзамене довузовского образования, в процессе
реформирования Российской системы образования [2].
В каждом курсе есть
ключевые моменты, особенно важные темы, без знания которых невозможно усвоение
более сложного материала в процессе учебы или которые будут необходимы в работе
по специальности. На устном экзамене при личном контакте со студентом
преподаватель обязательно оценивает понимание студентом этих тем. При автоматизированном
тестировании можно учесть важность каких-либо разделов курса, увеличив долю
вопросов по этим разделам в общем количестве вопросов. Но это не всегда удобно
для составителя теста, потому что не всегда наиболее важные разделы содержат
больше всего материала.
Предлагаемая
методика предусматривает учет таких параметров, как степень важности и объем
изучаемого материала в разделах курса.
При составлении
теста преподаватель делит курс на темы Т1, T2, … , Tk
и оценивает степень важности Si и объем изучаемого материала Vi
по каждой теме Ti. Количество вопросов ni по каждой теме
Ti должно соответствовать (быть пропорционально) объему изучаемого
материала Vi.
Минимальное
количество вопросов ni по каждой теме Ti определяется в
соответствии с методикой с учетом параметра Vi.
Знания по каждому
разделу курса оцениваются по пятибалльной (а фактически по четырехбалльной)
системе. Оценке «отлично» (5) соответствует вероятность правильного ответа от p3
до 1; оценке «хорошо» (4) соответствует вероятность правильного ответа от p2
до p3; оценке «удовлетворительно» (3) соответствует вероятность
правильного ответа от p1 до p2; оценке
«неудовлетворительно» (2) соответствует вероятность правильного ответа менее p1.
Следует отметить, что вероятности р1, р2 и р3
(0< p1£ p2£ p3<1) задаются
преподавателем с учетом структуры теста и могут быть изменены. Абсолютное
количество (или доля) правильных ответов, достаточное для получения
соответствующей оценки, определяется по специальной методике.
Итак, преподаватель:
-
разбивает курс на темы
(разделы) Т1, Т2, … , Тк;
-
определяет их объемы V1,
V2, … , Vk и степень важности S1, S2,
… , Sk;
-
определяет структуру
теста – количество m вариантов ответов на каждый вопрос;
-
задает р1, р2,
р3 – уровни знаний студента (или вероятности выбора правильного
ответа), соответствующие оценкам: “2” – 0£ p< p1 , “3” — p1<p£
p2 , “4” — p1< p£ p3 , “5” — p3<p£1
.
-
р1 должно
быть заметно больше 1/m – вероятности выбора правильного ответа наугад.
После этого
вычисляется минимальное количество вопросов n, необходимое для того, чтобы при
заданных параметрах m, p1, p2, p3 и заданном
уровне значимости e на основании испытания статистических гипотез можно было
поставить оценку «5», «4», «3» или «2» за определенный раздел курса.
Минимальное
количество вопросов n будет содержать тест по теме с минимальным значением Vj
= min{V1,V2, … , Vk}; nj=n.
Минимальное
количество вопросов по темам Т1, Т2, … , Тк
определяется пропорционально их объемам, V1,V2, … , Vk.
По ответам студента
вычисляется оценка Oi по каждой теме Ti (1 £ i
£k ) как результат испытания статистических гипотез
При вычислении
итоговой отметки за тест (курс) O учитывается степень важности Si
каждого раздела Ti. Получившаяся итоговая оценка О округляется до
целых.
Следует отметить,
что описанная выше методика позволяет давать студентам тест поэтапно, по мере
изучения и усвоения материала отдельных разделов курса, и выводить итоговую
оценку с учетом результатов промежуточного тестирования [3].
Теория
образовательного тестирования должна формироваться на частных законах и
закономерностях таких научных направлений как информациология, общая
статистика, статистический приемочный контроль, квалиметрия, педагогика,
психология, исследование операций, теория принятия решений и др. Прямое
применение теоретических разработок из указанных научных направлений не дает
заметных практических результатов по оцениванию знаний по причине
нематериальности знаний, как объекта исследований. Задачу формирования теории
образовательного тестирования можно сформулировать как задачу поиска
оптимальной структуры специфических законов и закономерностей тестологии,
позволяющую оценить знания с заданной погрешностью.
Для решения задач
подобного класса наиболее успешно используются генетические методы, основанные
на реализации генетических алгоритмов, позволяющих осуществить направленный
перебор частных законов и закономерностей по наиболее приемлемым направлениям
для формирования отечественной теории образовательного тестирования.
В отличие от
традиционного случайного поиска приемлемых решений, алгоритмы генетического
поиска используют аналоги или близость имеющихся решений во многих областях
знаний к поиску оптимального набора специфических законов, обеспечивающих
объективность, достоверность и точность оценивания уровня знаний,
воспроизведенных обучаемыми в процедурах тестирования. Такой направленный
перебор частных законов является эволюционным и имеет очень много сходств с
операторами, применяемыми в генетических алгоритмах и процедурах, происходящих
с живыми организмами в природе.
Рассмотрим
применение генетических алгоритмов для формирования специфического закона о
количестве образовательной информации. Исходные популяции: Государственный
образовательный стандарт, учебная программа, специфическая совокупность учебной
информации, банк тестовых заданий. Репродукция: образовательная совокупность.
Скрещивание: образовательная совокупность, статистическая совокупность.
Мутация: образовательная совокупность информации.
Следующий
генетический алгоритм направлен на поиск единицы образовательной информации.
Исходные популяции: единица статистической совокупности, единица допуска,
информацион. Репродукция: единица образовательной совокупности. Скрещивание:
единица образовательной совокупности, единица допуска, информацион. Мутация:
условная единица образовательной информации конкретной дисциплины.
Формирование
специфического закона тестологии об образовательной информации: образовательная
информация является первичной, поскольку независимо от образовательной услуги,
формы теста, процедур тестирования и уровня подготовки обучаемых знания по
конкретной дисциплине оцениваются только по их соответствию «образу знаний».
Вся остальная информация является вторичной и третичной и не может претендовать
на такую же роль как образовательная информация.
Любая информация, и
в том числе образовательная, для ее последующего применения в заданиях теста
должна быть представлена определенным количеством, рассчитанным с
использованием условной единицы образовательной информации.
Следующий закон о
сохранении образовательной информации определяет, что количество
образовательной информации HQ
и количество ее энтропии IQ
величина всегда постоянная для всех процедур тестирования. Вычисление
количества информации и количества энтропии производится по одной и той же
формуле. При этом HQ
вычисляют только после создания тестов, а IQ до их создания, что позволяет погрешности тестирования
определить априорно. Такие вычисления невозможны без условной единицы
образовательной информации, под которой понимается наиболее типичное и
применяемое понятие в конкретной учебной дисциплине, поскольку обобщенного
понятия пока получить не удается. Например, в материаловедении это «свойство
материала», в технологии машиностроения это «операция». В последующем количество
образовательной информации пересчитывается по аналогии.
Реализация указанных
законов об образовательной информации позволяет с достаточной для практической
цели точностью определять количество информации в банке тестовых заданий, в
одном задании теста, в выборке заданий теста и в выборке выполненных тестов и
обеспечивать соблюдение минимально необходимого соотношения между объемом
выборки и банком тестовых заданий, соответствующего выбранной погрешности
оценивания уровня знаний по образовательным тестам [4].
Основные свойства
образовательных тестов предлагается формировать на популяциях частных законов
таких научных отраслей как: информациология; психология, педагогика и
психодиагностика; логика; теория вероятностей; теория поиска; теория нечетких множеств;
теория игр; теория статистических решений; приемочный выборочный контроль.
Эти популяции
позволяют реализовать информационно-генетический алгоритм и получить новое
поколение специфических законов теории тестирования о (об): первичности
образовательной информации; «образе знаний», воссозданном по первичной
информации; «образе уровня воспроизведенных знаний»; количестве и энтропии
образовательной информации; единстве количества образовательной информации;
минимально допустимом соотношении между количеством образовательной информации
в «образе знаний» и в выборке заданий теста; условной единице образовательной
информации; энтропии нормальной образовательной услуги; не материальности
знаний, как объекта исследований; соответствии формы теста и признака
оценивания; формах существования функции оценивания знаний; характеристиках
доверия к результатам тестирования; правах тестируемых на получение объективной
оценки уровня знаний; защите прав тестируемых при воспроизведении ими знаний по
образовательным тестам; переходе количественных результатов тестирования в
качество «уровня знаний».
В качестве примера
рассмотрим применение информационно-генетических алгоритмов на трансформацию
международных и отечественных стандартов ГОСТ Р50 779.71-99 и ГОСТ Р50 779.72-99
на статистический приемочный контроль, применительно к задачам тестирования,
позволяющих предложить способы выделения «образов уровня знаний» при
тестировании по двум независимым выборкам заданий теста закрытой формы, и
применению традиционных лингвистических оценок: отлично (I), хорошо (II),
удовлетворительно (III) и неудовлетворительно (IV) [12].
Исходные данные для
реализации «образа уровня знаний»: N
– объем банка заданий (образ знаний); n – объем выборки заданий; a — риск занижения оценки; b — риск завышения оценки; AQL(q0) – приемлемый процент неправильных ответов; RQL(q1) – неприемлемый
процент неправильных ответов; С1
– приемлемое число неправильных ответов; степень тестирования – абсолютный объем выборки; уровень тестирования – соотношение
между объемом выборки n и
числом С в зависимости от
предшествующих результатов ответа на задания теста; QL – предельный процент неподготовленных обучаемых, которые
могут получить завышенную оценку.
Для нормальной
образовательной услуги характерен нормальный процесс восприятия и
воспроизведения знаний обучаемыми, нормальный «белый шум». В таких условиях
неправильные ответы на задания теста предпочтительного соотношения 5-1 (пять
ответов, из которых один правильный) вполне оправданно считать как редкие
случайные события и функцию оценивания знаний сформировать по закону Пуассона.
Для конкретного
примера задаем N=250; AQL=10%; RQL=20%; QL£10%; a<b; степень II по ГОСТ Р50 779.72-99. Объем первой выборки n1 =20 и критерии принятия
решений C1<5, C2=6. Для второй выборки
применяем усиленное тестирование n1
=20, C3< 3,
C4=4, а для
нормального тестирования оставляем исходный план n2 =20, C1<
5, C2=6.
По первой выборке
уровень тестирования принят нормальный (классификация), а тестируемые
разделяются на две группы: y —
недостаточная подготовка и Å — достаточная
подготовка. По второй выборке (аттестация) для группы y тестирование производится по усиленному уровню (ужесточенному) и
деление производится на два образа IV и III.
Для группы Å уровень остается нормальным,
но время на выполнение заданий сокращается. Тестируемые делятся на два образа
II и I. Из схемы видно, что по второй выборке тестируемые получают возможность
на улучшение результата, что реально защищает их права на объективность
оценивания уровня знаний. Далее имеем скрещивание частных законов, которые
проявляются в мутации специфического закона тестирования о переходе количества
неправильных ответов в качество знаний, проявляющихся в лингвистической форме.
Риски (ошибки) попадания в образы по второй выборке α=0,03, β=0,16. Предельный процент тестируемых с низким
уровнем знаний, но получивших положительные оценки QL=q0=10%. Разработаны также методы выделения «образов уровня
знаний» и для количественного признака, когда каждое выполненное задание имеет
количественное значение в диапазоне [0, 1000], однако рамки статьи не позволяют
привести такие примеры.
Таким образом,
использование информационно-генетических алгоритмов для выделения необходимых
свойств образовательных тестов в форме законов тестирования и их реализация для
выделения «образа уровня знаний» наглядно показывает необходимость дальнейших
исследований по их применению для решения новых задач по оценке уровня знаний в
предстоящих единых экзаменах с целью повышения их объективности, достоверности,
эффективности и социальной значимости [5].
Список литературы
1.
Моисеев В.Б.,
Пятирублевый Л.Г., Таранцева К.Р. «Информационный подход к выбору решений в
системах адаптивного тестирования». Материалы конференции «Анализ качества
образования и тестирование». 22.03.2001, Москва, МО РФ, МЭСИ
2.
Моисеев В.Б.,
Пятирублевый Л.Г., Таранцева К.Р. «Распознавание образа обучаемых по уровням их
знаний в компьютерном тестировании». Сборник материалов Интернет-конференции
«Проблемы перехода классических университетов в систему открытого образования».
Москва. МЭСИ, 2001
3.
http://ito.edu.ru/2001/ito/VI/VI-0-19.html
4.
http://ito.edu.ru/2001/ito/VI/VI-0-27.html;
5.
http://ito.edu.ru/2001/ito/VI/VI-0-12.html;