Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Показатели качества тестов
1. Эмпирические требования к качеству тестовых заданий
Тестовые задания (равно как и задания в тестовой форме) отвечают требованиям наличия цели, краткости, технологичности, логической формы высказывания, наличия определенного места для ответов, одинаковости правил оценки ответов, правильности расположения элементов задания, одинаковости инструкции для всех испытуемых, адекватности инструкции форме и содержанию задания.
С помощью цели можно определить миссию, характеристики задания. Краткость обеспечивается тщательным подбором слов, символов; хорошо, когда задание содержит не более одного придаточного предложения. Под технологичностью понимается компоновка заданий, которая позволяет весь процесс тестирования или его большую часть вести быстро, точно, экономично и объективно. Логическая форма позволяет превратить утверждение ответа учащегося в форму истинного или ложного утверждения. Наличие определенного места для ответов является внешним признаком задания в тестовой форме.
Правильность расположения элементов задания является требованием, помогающим испытуемым не тратить время на определение места для ответов и быстрее зафиксировать свое решение. Одинаковость правил оценки ответов также одно из важных средств организации процесса педагогических измерений. Адекватность инструкции форме и содержанию задания означает взаимное соответствие перечисленных компонентов, что необходимо для выполнения заданием своей функции.
Тестовое задание оценивается по конкретности и абстрактности, глубине обобщенности, полноте знаний. Задание должно быть легко понимаемым, однозначным, по возможности кратким. Без эмпирической проверки задания не могут называться тестовыми. Традиционные вопросы, требующие многословных ответов, не рекомендуется включать в тест.
Чем глубже и полнее отражается в тестовых заданиях содержание учебной дисциплины, тем увереннее можно судить о содержательной валидности. Создать тест, включающий все вопросы дисциплины, трудно и далеко не всегда рационально. В тестовые задания включаются те основные, значимые положения, которые обучаемый должен знать в результате изучения дисциплины.
Содержание тестовых заданий должно соответствовать материалам прочитанных лекций, рекомендуемых учебников, доступных учащимся инструктивно-методических материалов. Это особенно важно для новых методик расчетов, неоднозначно трактуемых понятий, терминов.
При разработке теста необходимо учитывать принципы отбора содержания учебного материала для тестовых заданий: значимость (наиболее важные, ключевые элементы знания); научная достоверность (спорные точки зрения включать в тест не рекомендуется); соответствие уровню современного состояния науки (включение в тест не только достоверного, но и современного научного материала); репрезентативность (полнота содержания, достаточность для контроля); вариативность содержания (изменение теста по мере изменения содержания учебной дисциплины, количества часов, отводимых на ее изучение, разное соотношение простых и трудных заданий для слабых и сильных учебных групп, студентов); возрастающая трудность (от легких заданий, которые верно выполняют большинство обучаемых, до самых трудных). Важно также соотношение теоретических и практических заданий.
При расположении тестового задания важно шрифтовое и цветовое выделение вопроса и ответов. B.C. Аванесов в этой связи рекомендует набирать вопросы прописными буквами, а ответы - строчными. Однако возможны и другие варианты. Общим правилом является то, что шрифтовое и цветовое выделение текста не должно отвлекать внимание от содержания задания. Кроме того, размер шрифта теста, шрифтовое и полиграфическое оформление должны соответствовать возрасту детей, для которых проводится тестирование.
Также важно:
• пространственно отделять ответы посредством отступа, располагать ответы в один или два столбца (более не рекомендуется);
• располагать задание на одной странице;
• обеспечивать достаточное место для ответов в случае задания открытой формы;
• в случае использования невербального материала обеспечить высокое его качество;
• в том случае, если тестирование предполагает несколько частей теста (субтестов), то каждую следующую часть следует начинать с новой нечетной страницы, поместив на четной стороне предупреждение о необходимости перевернуть страницу после сигнала ведущего.
B.C. Аванесов настаивает на утвердительном варианте формулирования задания в тестовой форме. Главный довод такого мнения - в утвердительном тестовом задании информация более краткая, выделяется главное, нет повторения одних и тех же слов, меньше приходится читать неверных сведений.
Тем не менее нельзя не согласиться с А.Н. Майоровым, который утверждает, что хорошо сформулированное задание в вопросительной форме ничем не уступает хорошо сформулированному заданию в форме утверждения. Автор помимо прочего приводит и инструкцию по составлению тестовых заданий Голландского института CITO, в которой прямо указывается на необходимость использования прямых вопросов, представляющих собой полное предложение с вопросительным знаком в конце.
А.Н. Майоров в своих трудах приводит целый ряд требований к составлению тестовых заданий (равно как и заданий в тестовой форме). Среди них следующие требования.
1. Начинайте формулировать вопрос с правильного ответа. Одной из наиболее распространенных ошибок является наличие более одного правильного ответа, или, наоборот, отсутствие правильного ответа как такового. Начиная формулирование вариантов вопросов с подбора верного ответа, разработчик сумеет обойти указанные выше ошибки.
2. Содержание задания должно отвечать программным требованиям и отражать содержание обучения. Встречаются случаи, когда в тестирование пытаются включить задания, правильного ответа на которые просто не существует. Как правило, это вопросы, которые выясняют оценки, мотивацию, мнения и т.д. Использование таких вопросов в тестах, выявляющих уровень обученности учащихся, некорректно.
3. Вопрос должен содержать одну законченную мысль. Тестовое задание должно проверять один элемент знания. В противном случае становится неясным, с каким элементом знаний ученик не справляется, в чем заключена причина невыполнения задания.
4. При составлении вопросов следует особенно внимательно использовать слова «иногда», «часто», «всегда», «все», «никогда». Данные слова часто имеют субъективное понимание, что может приводить к ошибочным ответам. С другой стороны, использование данных слов является скрытой подсказкой для тестируемых.
5. Вопрос должен быть четко сформулирован, исключаются по возможности, слова «большой», «небольшой», «малый», «много», «мало», «меньше», «больше» и т.д.
6. Избегайте вводных фраз или предложений, имеющих мало связи с основной мыслью, не следует прибегать к пространным утверждениям, так как они приводят к правильному ответу, даже если учащийся его не знает.
7. Правильные ответы должны быть разумны, умело подобраны, не должно быть явных неточностей, подсказок.
8. Не следует задавать вопросы с подвохом - скорее всего в заблуждение будут введены наиболее способные или осведомленные учащиеся, которые знают достаточно для того, чтобы попасться в ловушку, а также это противоречит цели - определению уровня знаний и понимания.
9. Все варианты ответов должны быть грамматически согласованы с основной частью задания - в любом случае следует использовать короткие, простые предложения без зависимых или независимых оборотов.
10. Как можно реже использовать отрицание в основной части; с одной стороны, это приводит к противоречиям при чтении задания, с другой - отрицательные знания не так видны, как позитивные. В том случае, если отрицания нельзя избежать или по логике задания они могут усложнить поиск правильного ответа, необходимо выделять эти отрицания, используя курсив, жирный шрифт или подчеркивание. Отрицание часто вводится тогда, когда утвердительный вопрос вызывает слишком много правильных ответов.
11. Правильные и неправильные ответы должны быть однозначны по содержанию, структуре и общему количеству слов; применяйте правдоподобные ошибочные варианты, взятые из опыта. Не рекомендуется приводить явно неверные ответы, которые обучаемый сразу распознает. Неправильные, но правдоподобные задания носят название дистракторов (от англ. to distract - отвлекать).
12. Если ставится вопрос количественного характера (а также если в нем есть степени сравнения, элементы ранжирования), то ответы к нему должны располагаться упорядоченно: от меньшего к большему или наоборот.
13. Лучше использовать длинный вопрос и короткий ответ. В противоположной ситуации на прочтение ответов уходит больше времени, больше сил тратится на анализ высказываний.
Для заданий дополнения А.Н. Майоров приводит следующие требования.
1. Лучше всего использовать один пропуск. В редких случаях - 2. Использование большого количества пропусков затрудняет не поиск правильного ответа, а восприятие задания.
2. Дополнять нужно наиболее важное, то, знание чего нужно проверить.
3. Дополнения лучше ставить в конце предложения.
М.К. Ивлиев в учебном пособии, посвященном созданию компьютерных тестов, обосновывает следующие требования к составлению заданий для автоматизированного контроля. Такие задания составляются с учетом ограничений экрана дисплея (кадра) и используемой системы компьютерного тестирования. Типичный размер кадра - 20 строк по 60-70 знаков (половина страницы печатного текста) и более. Если варианты ответов короткие (типа «Да», «Нет»), а вопрос длинный, то его размещают на двух, трех и более строках. Короткие варианты ответов располагают по центру. Варианты ответов на экране отделяют друг от друга одной или двумя пустыми строками (лучше воспринимается задание). Если в тестовом задании, например, пять вариантов ответов по 2-3 строки текста в каждом, то они отделяются друг от друга одной пустой строкой. Обилие текстовой информации на экране дисплея создает перенасыщенность, рассеивающую внимание обучаемого.
Здесь логично упомянуть, что в разработке педагогических тестов можно выделить три этапа: планирование, написание заданий, анализ заданий. Составитель теста, начинающий с написания задания, скорее всего создаст узконаправленный тест. Без предварительного плана некоторые темы изучаемого предмета могут занять слишком много места, в то время как другие останутся незатронутыми. Обычно по одним темам объективные задания подготовить легче, а по другим - труднее. Так, легче подготовить задания, которые требуют запоминания простых фактов, и труднее - задания на критическую оценку, обобщение различных фактов или на применение изученных принципов к новым ситуациям. Проводившиеся исследования показали, что фактический материал по большей части забывается, а усвоенные основные принципы и их применение в новой ситуации или вообще не забываются, или после завершения обучения обобщаются. Строящийся без плана тест может оказаться перегруженным случайным материалом. Основные критические замечания в адрес плохо построенных объективных тестов связаны с их перегруженностью несущественными деталями и акцентом на механическую память. Во избежание несбалансированности и диспропорции охватываемых тестом тем составлению заданий должна предшествовать его спецификация.
Спецификация - это определение основных характеристик теста. Спецификация включает в себя (В.САванесов):
• название теста;
• общую цель разработки;
• перечисление задач, решаемых с помощью теста;
• общее описание содержания теста (составные части теста и разделы дисциплины, охватываемые им);
• план теста;
• характеристику содержания каждого задания - что оно измеряет;
• среднее время выполнения задания и ориентировочную меру выполнимости (% ожидаемых правильных ответов) в выборочной совокупности испытуемых;
• характеристику ответов к каждому заданию (меру привлекательности каждого задания в заданиях с выбором);
• количество форм, заданий и инструкций (примеры заданий и инструкции к ним);
• оценки за выполнение заданий;
• краткие рекомендации по апробации теста; объем и основные характеристики выборки испытуемых;
• определяемые характеристики качества заданий; методы исследования;
• ожидаемую интерпретацию тестовых результатов (критериально ориентированную, нормативно-ориентированную или содержательную интерпретацию).
2. Выборка стандартизированного педагогического теста
Разработка тестов как измерительных инструментов связана с требованиями к расчету показателей качества тестов и требования к их оснащению. Такими показателями качества являются прежде всего выборка, надежность и валидность тестового инструментария.
Для успешного расчета необходимой выборки стандартизации дидактического теста используется ряд понятий, достаточно тесно взаимосвязанных.
Генеральная совокупность - множество элементов, объединенных общей характеристикой, указывающих на их принадлежность к единой системе и изучаемых в рамках какого-либо обследования и определенных территориально-временных границах.
Генеральная совокупность применительно к педагогической сфере представляет собой именно ту совокупность (школ, учащихся, районов, городов и т.д.), на которую исследователь (диагност) хочет распространить выводы проведенного им педагогического исследования (тестирования).
Выборочная совокупность - часть генеральной совокупности, объекты которой являются основными объектами обследования. Она отбирается с помощью специальных методик и правил таким образом, чтобы ее характеристики отражали основные свойства генеральной совокупности.
В педагогической и психологической диагностике анализ основных характеристик выборочной совокупности, отбор методов ее комплектования имеют большое значение в процессе стандартизации и валидизации тестовых методик при разработке тестовых программ.
Основа выборки - система взаимосвязанных элементов генеральной совокупности, удовлетворяющих требованиям полноты, точности, адекватности. Выборка должна удовлетворять следующим требованиям:
а) полноты - в составе генеральной совокупности должны находиться все ее элементы, иначе выборка будет смещена;
б) точности - информация по каждой единице наблюдения должна быть реальной. Если, например, основой выборки служат списки учащихся, то они должны быть уточнены, чтобы в них не попали выбывшие учащиеся;
в) отсутствия дублирования - каждая единица наблюдения не должна повторяться, т.е. попадать в список дважды;
г) адекватности - основа выборки должна соответствовать целям и задачам обследования. По существу проблема адекватности основы выборки - это проблема правильного определения (конструирования) генеральной совокупности;
д) удобства работы - единицы наблюдения, входящие в генеральную совокупность, необходимо пронумеровать, а фамилии и инициалы четко вписать в общий список.
Объем выборки зависит от числа признаков, относительно которых она производится, и должен быть велик настолько, чтобы в каждую выделенную группировку попало достаточное количество элементов.
3. Надежность теста и проблема угадывания правильного ответа
Достаточно надежный тест позволяет получить устойчивую оценку способностей испытуемых той группы, к которой он применяется.
Надежность теста как средства измерений определяется отсутствием ошибок измерения тестовых баллов и тем, в какой мере результаты измерений воспроизводятся при многократном использовании теста по отношению к данной группе испытуемых. Ошибки измерения возникают в связи с усталостью испытуемого, нервным напряжением, содержанием включенных в тест заданий, ошибочными ответами, неправильной интерпретацией инструкций и попытками угадать ответ. Эти ошибки снижают индивидуальные результаты испытуемого и надежность теста.
А. Анастази выделяет случайные ошибки, вызванные невнимательностью или незнанием учащегося, и истинные ошибки, то есть ошибки, допущенные в конструкции теста. С этой точки зрения надежность показывает, в какой степени индивидуальные различия вызваны истинными, а какие случайными ошибками.
Чтобы оценить вклад различных источников в ошибку измерения, необходимо использовать разные способы оценки надежности. Прежде всего это ретестовая надежность. Для этого тест используют второй раз, и коэффициент надежности в этом случае равен корреляции между результатами, полученными на одних и тех же испытуемых в каждом из случаев проведения теста. Конечно же, какой-то процент колебаний результатов теста может быть вызван не только результатами теста, но и некоторыми отвлекающими моментами: самочувствием, эмоциональным состоянием и т.д. Тем не менее чем выше ретестовая надежность, тем менее чувствительны результаты к обычным изменениям состояния испытуемого и обстановке тестирования.
Ретестовая надежность зависит от интервала времени, в котором она происходит. С увеличением времени данный вид надежности уменьшается. С другой стороны, если промежуток времени невелик, то испытуемые припоминают свои прежние ответы. В этом случае обследуемые указывают примерно одинаковые правильные и неправильные ответы и коэффициент корреляции окажется обманчиво высоким.
Другой способ определения надежности - метод расщепления. В этом случае каждый испытуемый получает два результата при разбивке теста на две сопоставимые части. При такой методике надежность является мерой согласованности выборок содержания. Временная стабильность показателей в ней не представлена, так как применяется только один сеанс тестирования. Благодаря этому метод расщепления иногда называют коэффициентом внутренней согласованности.
Еще одним способом определения надежности является надежность взаимозаменяющих форм. При этом те же самые испытуемые первый раз тестируются с помощью одной формы теста, второй раз - с помощью другой, сравнимой формы. Корреляция между показателями, полученными по этим двум формам, и служит коэффициентом надежности теста. При этом измеряется как временная стабильность теста, так и согласованность ответов по двум выборкам заданий.
Кроме указанных видов надежности можно выделить также метод Кью-дера - Ричардсона.и другие статистические методы, описанные в специальной литературе.
А.Н. Майоров определяет целый ряд факторов, оказывающих влияние на надежность тестового инструментария.
1. Величина теста. Чем длиннее тест, тем он надежнее. Выше отмечалось, что общая оценка теста состоит из истинной составляющей и ошибочной. Истинная составляющая, несомненно, больше ошибочной, и чем больше заданий в тесте, тем скорее сумма истинной составляющей будет возрастать, а ошибочной, соответственно, уменьшаться.
2. Непонятность и двусмысленность заданий. Непонятные и двусмысленные задания приводят к тому, что ответы на них даются случайным образом. То есть в двух тестированиях будут получены разные результаты, таким образом, корреляция между результатами тестирований снизится и, следовательно, надежность будет низкой.
3. Источники, связанные с испытуемыми: невнимательность, состояние здоровья и т.д. Все эти факторы снижают надежность тестирования. Однако в том случае, когда выборка для апробации теста достаточно велика, а инструкция для проведения четко определяет условия проведения, то многого из перечисленного удается избежать.
4. Субъективное оценивание. Результаты выполнения заданий должны оцениваться одинаково разными проверяющими. Другими словами, правильный ответ в тесте должен быть однозначным. В том случае, если это требование будет нарушено, то будут допускаться различия между оценками разных проверяющих и между оценками одного проверяющего в разных случаях. Как следствие различных оценок корреляция между результатами выполнения тестирования будет уменьшена и надежность теста будет невысокой.
5. Ошибки в подсчетах. В том случае, если задания имеют однозначную схему оценивания, причиной неудовлетворительной надежности могут стать случайные ошибки при подсчете баллов, их суммировании.
6. Инструкции для учащихся. В том случае, если задания имеют неясные, двусмысленные инструкции, то результаты двух тестирований будут существенно различаться, а надежность окажется невысокой.
7. Инструкции к тесту могут быть причиной низкой надежности. Инструкции должны обеспечивать одинаковость процедуры проведения тестирования, быть понятными и недвусмысленными. Если условия проведения тестирования в одном случае отличаются от другого, то и корреляция результатов тестирования в этих случаях будет невысокой.
8. Случайное угадывание правильных ответов также является причиной снижения надежности теста.
Остановимся на данной проблеме подробнее.
Один из доводов критиков тестирования заключается в том, что для большинства заданий существует вероятность случайного угадывания правильных ответов. В общем случае это проблема только заданий закрытого типа, и чем меньше возможных альтернатив предлагается испытуемому в рамках одного задания, тем больше вероятность угадывания. Однако для заданий альтернативных ответов, используемых одиночно, вероятность угадывания максимальна и составляет 50%. Исследователи настоятельно не рекомендуют использовать такие задания для тестов школьных достижений. Серия из пяти заданий альтернативных ответов дает вероятность угадывания 0,0313, а из десяти заданий - всего лишь 0,00098.
Проблема угадывания зависит и от времени, выделяемого на тестирование, и в меньшей степени, от мотивации. Чем выше мотивация, тем больше вероятность того, что испытуемый попытается дать ответ случайно на те вопросы, на которые он не успевает ответить, то есть попытается угадать. В свою очередь, количество вопросов, по которым возможно будет угадывание, зависит от времени, выделяемого на тестирование. Чем оно короче, тем больше будет вопросов, на которые распространится случайное угадывание. Таким образом, для времени, выделяемого на тестирование, должен быть найден баланс: недостаток его ведет к угадыванию, избыток - к подсказкам и ослаблению дисциплины.
4. Валидность тестовых результатов
Одной надежности для обоснования качества теста недостаточно. Еще одной важнейшей характеристикой теста является его валидность. Валидность - понятие, которое указывает, что и насколько хорошо тест измеряет. Цель процедуры установления валидности - выявить, как выполнение теста соотносится с другими независимо наблюдаемыми фактами исследуемых характеристик поведения или качеств личности. Конкретных методик определения валидности много. Отечественные и зарубежные исследователи различают три основных вида валидности: валидность по содержанию, конструктивная и критериальная валидность.
Критериальная валидность теста - характеристика теста, которая говорит о том, в какой мере данный тест можно использовать для оценки успеваемости учащегося. Если речь идет о тестах достижений, то критериальная валидность определяется тем, в какой мере результаты данного теста могут быть использованы для выводов об успеваемости испытуемого. Существует несколько видов эмпирических данных, на основании которых можно подтвердить критериальную валидность теста:
• оценки учащегося, его место в списке класса, ранжированность по успеваемости;
• результаты других тестов;
• отзывы педагогов.
Существуют также другие, более сложные способы выражения данного вида корреляции.
Конструктивная валидность теста - гарантия, что тест измеряет то качество, которое имеет реальное психологическое содержание. Интеллект, самоуважение и креативность - примеры таких психологических конструктов. Свидетельства в пользу конструктивной валидности теста могут принимать самые различные формы. Один из подходов состоит в том, чтобы показать, что результаты выполнения заданий, составляющих один тест, взаимозависимы, и, следовательно, в ходе тестирования измеряется одно и то же качество. Для проверки существования связи между заданиями часто используют методы анализа корреляций и факторного анализа. Другой подход состоит в том, чтобы показать, что тест ведет себя так, как должно было бы вести себя измеряемое качество. Например, можно предполагать, что результаты теста на креативность будут сильнее коррелировать с результатами теста на художественную одаренность, чем с результатами теста на академическую успеваемость.
Содержательная валидность теста - степень, в которой задания теста отражают содержание определенной предметной области. О содержательной валидности теста обычно судят по плану теста и методам, которые используются при его разработке. Для определения данного вида валидности уместно задаться следующими вопросами. Была ли разумна процедура отбора, призванная обеспечить включение в тест нужного материала? Обеспечивает ли эта процедура возможность судить по выполнению отобранных заданий об уровне знаний испытуемого в данной области и овладении им специфическими для данной области навыками?