Меню
Главная
Авторизация/Регистрация
 
Главная arrow Психология arrow Психодиагностика. Теория и практика

Эмпирическая проверка и экспертиза теста

Тест с прилагаемой к нему таблицей спецификации подлежит экспертизе. В качестве экспертов могут выступить учителя-предметники, методисты, психологи образования.

Самым простым вариантом экспертизы может быть такой, когда экспертам предлагается по трех- или пятибалльной шкале оценить задания с точки зрения:

— соответствия целям тестирования (отвечает — частично отвечает — не отвечает);

- однозначности формулировки (однозначна — не совсем однозначна — неоднозначна);

— пригодности вариантов ответов (подходят — частично подходят — не подходят).

В самом общем виде тестовые задания должны:

- соответствовать содержанию учебного материала;

- быть составленными с учетом соответствующих правил. Экспертизу на соответствие тестовых заданий этим параметрам следует проводить по двум основным разделам. Оценке подлежат как отдельные задания, так и тест в целом. Экспертам выдается специальный оценочный лист, основное содержание которого приведено ниже (для каждого пункта предусматривается осуществление позитивной или негативной оценки).

I. Обоснование и операционализация тестового конструкта.

1. Отвечает ли тест в целом целям, установленным для образовательной программы?

2. Охватывает ли тест необходимые дидактические единицы изучаемой дисциплины?

3. Четко или однозначно определены поведенческие индикаторы тестируемого содержания?

4. Можно ли ответить на вопрос теста, применяя другую форму мыслительной активности (умение, навык, умственное действие)?

5. Обоснована ли степень трудности теста в целом, его отдельных заданий и субтестов?

II. Обоснованность тестовых заданий и их оценки.

1. Подготовлена ли технологическая матрица и отражает ли она тестируемое содержание и виды познавательной деятельности учащегося?

2. Соответствует ли содержанию форма и разнообразие тестовых заданий?

3. Соответствуют ли данные экспертом ответы ключу теста?

4. Предусмотрена ли градация оценок для заданий открытого типа?

5. Ведется ли учет неверных ответов?

После разработки и проведения экспертного анализа заданий подготавливается рабочий вариант теста. Чтобы обеспечить его качество, требуется проведение эмпирической проверки теста на группе испытуемых, имеющих такие же образовательные характеристики, как и у той, для которой предназначен разрабатываемый тест. В ряде случаев, особенно если конструируется стандартизированный тест, осуществляется анализ трудности и различающей способности тестовых заданий с использованием математических методов, который позволяет получить о заданиях информацию, которую не всегда возможно выявить с помощью экспертных методов.

Трудность — это характеристика заданий теста, отражающая статистический уровень ее решаемости в выборке, на которой осуществляется эмпирическая проверка теста.

В тестах учителя она обычно рассчитывается как отношение числа тестируемых, правильно выполнивших задание, к общему числу тестируемых. Этот показатель меняется в пределах от нуля до единицы. Его значения тем больше, чем ниже трудность задания.

Проверка критериально-ориентированного теста (КОРТ) заключается в отборе заданий, адекватно отражающих выполнение учебной задачи. При этом качество задания не определяется тем, будут ли они трудными или легкими, подчиняются ли они нормальному распределению результатов или нет. Если подтверждается, что большинство испытуемых, прошедших определенный этап обучения, справляется с тестовым заданием, а большинство необученных с ним не справляется, то это может служить необходимым основанием для включения этого задания в КОРТ. Необходимым, но не достаточным. Исследователь должен также убедиться, что испытуемые, успешно выполнившие задания, действительно применили навыки, заложенные в критерии, а не просто показали свою способность запомнить нужные термины или механически воспроизвести требуемые алгоритмы действий. Поэтому анализ задания в КОРТ должен быть сосредоточен на тщательной проверке состава выполнения задания, а не только на его статистических свойствах.

Для расчета показателей различающей способности тестовых заданий требуется проведение двух серий измерений: повторного тестирования одной группы учащихся или проведения теста на двух разных группах. Эксперт выбирает из группы тестируемых только тех, про которых он может определенно утверждать, что они очень хорошо владеют материалом и, наоборот, тех, кто плохо знает материал. Они составляют, соответственно, сильную и слабую контрастные группы. Важно, чтобы контрастные группы были, по возможности, гомогенны по составу. Это значит, что в них примерно в одинаковой пропорции должны быть представлены учащиеся обоих полов, с разными социокультурными характеристиками, с разным академическим статусом (успеваемостью).

Самый простой и известный показатель различающей способности (Яр) вычисляется как разность между долей испытуемых из "сильной" группы, правильно выполнивших задание, и долей испытуемых из "слабой" группы, тоже правильно выполнивших задание. Данный показатель высчитывается по следующей формуле:

где Яр — показатель различающей способности; ЛГ( и /У2 — количество испытуемых в "сильной" и "слабой" контрастных группах; И] и П — количество испытуемых в "сильной" и "слабой" контрастных группах, правильно выполнивших задание.

Этот показатель может принимать значения от -1 до +1. Если Яр равно +1, это означает, что задание обладает максимальной различающей способностью. Если Яр равно 0, задание совершенно не различает испытуемых, овладевших и не овладевших учебным материалом. Если Яр равно -1, что практически не встречается, то задание различает испытуемых, но противоположным образом: правильно отвечают неовладевшие предметным содержанием, а овладевшие им отвечают неправильно[1].

Существенным вкладом в эмпирическую проверку теста вносит оценка его надежности и валидности. Под надежностью обычно понимают согласованность результатов тестирования на одной и той же выборке испытуемых при разных условиях. Чаще всего прибегают к так называемой ретестовой надежности, для установления которой на одной и той же группе испытуемых тест проводят два раза и сравнивают полученные тестовые баллы. Основное внимание следует уделять правильному выбору величины временного интервала между двумя испытаниями. Если временной интервал слишком короткий (менее двух месяцев), то испытуемые будут просто помнить свои предыдущие ответы и вероятнее всего повторят их. Если временной интервал большой (свыше 8 месяцев), то измеряемое свойство может измениться под влиянием каких-либо факторов, тогда заметные различия между результатом первого и второго тестирований будут связаны не с низкой надежностью теста, а именно с изменением измеряемого свойства. Проверка валидности основывается на изучении целей обучения, достижение которых тестируют у учащихся. Учебные цели должны также быть целями теста достижений относительно измеряемых знаний, умений, навыков. Этот тип валидности называется валидностью, относящейся к содержанию. Есть и другие виды валидности тестов, но они не столь хорошо применимы к этой категории тестов.

Мерой валидности теста является степень соответствия заданий теста целям тестируемых с их помощью тем, разделов, предметных областей. Сопоставляя задания теста с целями их изучения, разработчик теста должен определить, охватывают ли эти задания, во-первых, все цели, значимые для обучения (так, что никакая цель не остается неизмеренной), и, во-вторых, цели, отвечающие каждому заданию теста, сформулированы таким образом, чтобы в этих формулировках указывалось, какие действия должен совершить ученик, выполняющий задание.

Если, к примеру, в формулировке цели использован глагол "выявить", то задания теста, в котором измеряется достижение этой цели, должны также требовать, чтобы учащийся указал правильный ответ, как это предлагается в задании с множественным выбором. Глагол "описать" потребовал бы ответа в свободной форме, как в эссе-тесте, а глаголы "продемонстрировать" или "построить" — фактического выполнения этих действий по крайней мере на бумаге с помощью карандаша. Валидные задания требуют выполнения тех же действий, которые указаны в измеряемых ими целях.

Чтобы их признали валидными, задания теста также должны соответствовать по своему содержанию той образовательной цели, которую они измеряют. Факт, концепция или правило, названные в цели теста, должны быть теми, что измеряются в задании теста. И это соответствие должно быть по возможности более точным. Если, например, в цели теста сказано "описать типичного представителя класса земноводных", то задания должны выявлять, как формированы знания о земноводных, а не о представителях других зоологических групп.

Вопрос о том, в какой мере задания теста адекватно представляют определенную содержательную область, имеет скорее качественное, чем количественное решение. Вместе с тем, экспертные заключения по содержанию теста могут опираться на некоторые количественные показатели. Обычно в качестве таких показателей применяются:

— процент заданий, соответствующих учебным целям;

- процент заданий, соответствующих целям с высокой оценкой важности;

- конгруэнтность (согласованность и соразмерность) заданий и целей теста.

Последний показатель может использоваться для оценки степени содержательной валидности разработанного теста. Максимально возможная величина оценки конгруэнтности между заданиями и тестируемыми целями, равная 1,0, может быть получена только в том случае, если соразмерность задания и цели указали все эксперты. Если отдельное задание теста относится к разным целям, то его показатель будет ниже 1,0. После надлежащей проверки тест готов к использованию.

Совершенствование теста и анализ результатов его применения

Опыт проведения тестирования, как и любой аспект психологической практики, нуждается в анализе его применения. Если обратиться к отдельным положениям Кодекса справедливой практики тестирования в образовании, подготовленного Объединенным комитетом по практике тестирования США, то можно заметить, что работа по совершенствованию процедуры тестирования и оценки диагностических возможностей теста продолжается после того, как он пущен в оборот.

В соответствии с требованиями упомянутого Кодекса, составляя соответствующие тесты, их разработчики должны:

— определять, что измеряет каждый тест и для чего он должен использоваться;

— точно представлять характеристики, полезность и ограничения тестов по отношению к оценке того, для чего они предназначены;

— объяснять измеряемые понятия и умения на необходимом уровне ясности и в деталях, соответствующих особенностям аудитории, для которой они предназначены;

— описывать процесс разработки тестов, объяснять, па основании чего производился отбор содержания и оцениваемых умений;

— предоставлять очевидные доказательства, что тест измеряет то, для чего он предназначен;

— предоставлять пользователям, имеющим необходимую квалификацию, или образцы всех заданий, или полные их списки с обязательным приложением, включающие перечни ответов, описания и тестовые показатели;

- выявлять и публиковать информацию о любых специальных умениях, необходимых для проведения тестов и интерпретации полученных результатов.

Интерпретируя показатели, разработчик тестов должен:

- вовремя и с готовностью предоставлять полученные показатели, описывающие выполнение тестов с необходимым уровнем четкости и определенности;

— описывать популяцию, представляющую любую норму, или сравнительную группу;

— предоставлять информацию, способную помочь пользователям следовать необходимым процедурам для получения искомых показателей и их пригодности в использовании[2].

Применяемые в тестировании критерии оценивания важно сохранять до следующего использования. Это позволит совершенствовать процесс оценивания и проводить сравнения достижений учащихся на последовательных этапах обучения.

  • [1] Адаптивное тестирование : учеб.-метод. пособие / II. М. Опарина [и др.]. Хабаровск : ДВГУПС, 2007.
  • [2] Elliott S. N.. Kratochwill Т. R., Littlefield J., Trovers J. F. Educational Psychology: Effective Teaching, Effective Learning. 3rd ed. Madison : McGraw Hill, 1999. P. 589-590.
 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Популярные страницы