Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Анализ ретестовой надежности тестов невербального интеллекта (на примере теста «Прогрессивные матрицы». Дж. Равена)
Оглавление
Введение |
3 |
|
1 |
Надежность теста как психодиагностическая проблема |
5 |
1.1 |
Понятие «надежность» теста |
5 |
1.2 |
Виды надежности теста. Способы определения надежности |
12 |
1.3 |
Невербальные тесты интеллекта. Общая характеристика |
17 |
2 |
Практическое исследование ретестовой надежности тестов невербального интеллекта |
25 |
2.1 |
Схема исследования, участники исследования |
25 |
2.2 |
Методики исследования |
25 |
2.3 |
Анализ ретестовой надежности тестов невербального интеллекта |
27 |
Заключение |
31 |
|
Литература |
32 |
|
Приложения |
Введение
Проблема оценки уровня интеллектуального развития традиционно занимает центральное место среди проблем психологической диагностики.
Проблема диагностики интеллекта является одной из важнейших в современной психологии и педагогике.Для исследования интеллекта используются стандартизированные и нестандартизированные методики, их выбор зависит от целей обследования, поставленных задач и возраста обследуемых.
Тестирование является одним из основных инструментов психологической диагностики, поэтому каждая методика, применяемая в практике, должна отвечать определенному набору требований. Одним из таких требований является надежность психологического теста. Если тест не отвечает требованиям надежности и устойчивости результатов, то психолог не может быть уверен, что результаты валидны, а не обусловлены посторонними помехами и незначительными факторами. Это делает затруднительным определение дальнейших действий психолога.
Определение ретестовой надежности важно при разработке новой психодиагностической методики, а также при адаптации зарубежных методик в отечественной практике.
Объект исследования: тесты невербального интеллекта (на примере теста «Прогрессивные матрицы». Дж. Равена).
Предмет исследования: ретестовая надежность тестов невербального интеллекта (на примере теста «Прогрессивные матрицы». Дж. Равена).
Цель курсовой работы: анализ ретестовой надежности тестов невербального интеллекта (на примере теста «Прогрессивные матрицы». Дж. Равена).
В соответствии с целью и гипотезой определены следующие задачи:
Методы исследования:
- изучение, обработка и анализ научных источников по проблеме исследования;
- анализ научной литературы, учебников и пособий по психологии, психодиагностики, экспериментальной психологии личности и др.;
- обработка и анализ данных, полученных при тестировании.
В традиционной тестологии термин «надежность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Как пишет А. Анастази, вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу 80[1]. Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место (ранг), занимаемое испытуемым в группе. И в том, и в другом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной группы. Таким образом, можно сказать, что надежность методики это такой критерий, который говорит о точности психологических измерений, т. е. позволяет судить о том, насколько внушают доверие полученные результаты.
Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики являетсявыяснение факторов, снижающих точность измерений. Была сделана попытка составить классификацию таких факторов. Среди них наиболее часто называются следующие:
1) нестабильность диагностируемого свойства;
2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания, как методику предъявлять испытуемым, и т. д.);
3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т. д.);
4) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т. д.);
5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом утомление и т. д.);
6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т. п.).
Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Одним из важнейших средств повышения надежности психодиагностической методики является единообразие процедуры обследования, его строгая регламентация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми, порядок предъявления заданий и т. д. При такой стандартизации процедуры исследования можно существенно уменьшить влияние посторонних случайных факторов на результаты теста и таким образом повысить их надежность.
На характеристику надежности методик большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т. е. если результаты по своим значениям близки друг к другу. В этом случае при повторном обследовании новые результаты также расположатся тесной группой. Возможные изменения ранговых мест испытуемых будут незначительными, и, следовательно, надежность методики будет высокой. Такое же неоправданное завышение надежности может возникнуть при анализе результатов выборки, состоящей из группы, имеющей очень высокие результаты, и из группы с очень низкими оценками по тесту. Тогда эти далеко отстоящие друг от друга результаты не будут перекрываться, даже если и вмешаются в условия эксперимента случайные факторы. Поэтому в руководстве обычно делается описание выборки, на которой определялась надежность методики.
В настоящее времянадежность все чаще определяется на наиболее однородных выборках, т. е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т. п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.
Так какнадежность отражает степень согласованности двух независимо полученных рядов показателей, то математико-статистический прием, с помощью которого устанавливается надежность методики это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем ближе полученный коэффициент корреляции подходит к единице, и наоборот.
К. М. Гуревич, проведя тщательный анализ зарубежной литературы по этой проблеме, предложил толковать надежность как комплексную характеристику, включающую:
- надежность самого измерительного инструмента;
- стабильность изучаемого признака;
- константность, т. е. относительную независимость результатов от личности экспериментатора.
Основные показатели он предложил обозначить следующим образом:
- показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надежности;
- показатель, характеризующий стабильность измеряемого свойства коэффициентом стабильности;
- показатель оценки влияния личности экспериментатора коэффициентом константности [7].
Именно в таком порядке рекомендуется осуществлять проверку методики на надежность: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого, при необходимости, заняться критерием константности.
Остановимся на более подробном рассмотрении этих показателей, характеризующих с разных сторон надежность психодиагностической методики.
Определение надежности измерительного инструмента
От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.
Для проверки надежности измерительного инструмента, говорящего о его однородности (или гомогенности), используется так называемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных рядов коррелируются между собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.
Можно делить задания и другим путем. Например, можно сопоставить первую половину теста со второй, первую и третью четверть со второй и четвертой и т. п. Однако «расщепление» на четные и нечетные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от влияния таких факторов, как врабатываемость, тренировка, утомление и пр.
Методика признается надежной, когда полученный коэффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.
Определение стабильности изучаемого признака
Определить надежность самой методики это не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабильность психологических признаков. В том, что измеряемый признак со временем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что испытуемый по непонятным причинам оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные выводы об уровне представленности измеряемого признака у такого испытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемый характер. Если не ясны причины, по которым происходит резкое колебание, то такой признак не может быть использован в диагностических целях.
Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названиемтест-ретест. Он заключается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.
На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тестирование проводилось в утренние часы, то и повторное должно быть проведено утром; если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это условие также должно быть соблюдено и т. д.
При определении стабильности признака большое значение имеетпромежуток времени между первым и вторым обследованием. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого. Однако тут есть свои сложности: если срок между первым и вторым опытом небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы по памяти и, таким образом, отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассматривать как независимые.
Трудно четко ответить на вопрос, какой срок можно считать оптимальным для повторного эксперимента. Только исследователь, исходя из психологической сущности методики, условий, в которых она проводится, особенностей выборки испытуемых, должен определить этот срок. При этом такой выбор должен быть научно обоснован. В тестологической литературе наиболее часто называются временные интервалы в несколько месяцев (но не более полугода). При обследовании детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких недель.
Коэффициент стабильности методики должен быть достаточно высоким (не ниже 0,80).
Определение константности(относительной независимости результатов от личности экспериментатора).
Поскольку методика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию личности экспериментатора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указывающими, как проводить эксперимент, однако регламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опыту всегда отразит то, как сам экспериментатор к этому опыту относится (допускает небрежность или действует точно в соответствии с требованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т. п.).
Хотя в тестологической практике критерием константности пользуются нечасто, однако это не может служить основанием для его недооценки. Если у авторов методики возникают подозрения по поводу возможного влияния личности экспериментатора на исход диагностической процедуры, то целесообразно проверить методику по этому критерию. При этом важно иметь в виду следующий момент. Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность методики не окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспериментаторе изменили свои порядковые места в выборке.
Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.
Итак, были рассмотрены три показателя надежности психодиагностических методик. Может возникнуть вопрос, нужно ли при создании методик осуществлять проверку каждого из них? На этот вопрос следует дать утвердительный ответ.
Так, авторы «Стандартных требований к педагогическим и психологическим тестам» в главе «Надежность» отмечают, что коэффициент надежности это родовое понятие, включающее в себя несколько видов, и каждый вид имеет свой особый смысл. Разделяет эту точку зрения и К. М. Гуревич. По его мнению, когда говорят о разных способах определения надежности, то имеют дело не с лучшей или худшей мерой, а с мерами разной по существу надежности. В самом деле, чего стоит методика, если не ясно, надежна ли она сама по себе как измерительный инструмент, или не установлена стабильность измеряемого свойства? Чего стоит диагностическая методика, если неизвестно, могут ли изменяться результаты в зависимости от того, кто ведет эксперимент? Каждый в отдельности показатель никак не заменит других способов проверки и, следовательно, не может рассматриваться в качестве необходимой и достаточной характеристики надежности. Только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностико-практического применения [7].
1.2 Виды надежности теста. Способы определения надежности
Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности - надёжность как устойчивость и надёжность как внутреннюю согласованность.
Надёжность как устойчивость.
Устойчивость результатов теста возможность получения одинаковых результатов у испытуемых в различных случаях.
Устойчивость определяется с помощью повторного тестирования (ретеста):
В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток МР это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
Надёжность как внутренняя согласованность
Внутренняя согласованность определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в Противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест.
Для проверки внутренней согласованности применяются:
Метод расщепления или метод автономных частей Метод эквивалентных бланков Альфа Кронбаха
Методрасщепления (Split-half reliability)
Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.
Метод эквивалентных бланков
МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине)
Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.
Альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.
Помимо надежности тестов, есть так же надежность наблюдения межнаблюдательская надежность. МН это процент совпадения результатов наблюдения экспертов друг с другом.
Ретестовая надёжностьхарактеристика надежности психодиагностической методики, получаемая путем повторного обследования испытуемых с помощью одного и того же теста. Надежность в этом случае вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте. Коэффициент надежностисоответствует коэффициенту корреляции между результатами таких обследований. При использовании интервальных шкал применяется коэффициент корреляции произведения моментов Пирсона.
Коэффициент корреляции произведения моментов Пирсона (r):
,
где хi1 тестовый балл i-го испытуемого при первом измерении;
хi2 тестовый балл того же испытуемого при повторном измерении;
n количество испытуемых.
Для шкал порядка в качестве меры устойчивости к перетестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.
Коэффициент ранговой корреляции Спирмена (rs):
где di разность рангов j-гo испытуемого в первом и втором ранговом ряду;
n количество испытуемых.
Коэффициент ранговой корреляции Кендалла (ф):
где Р количество совпадений порядком на признаке xj;
Q количество несовпадений порядка на признаке xj;
N последовательных рангов.
Кроме того, при расчёте ре-тестовой надёжности может использоваться коэффициент φ:
При условии, что переменная принимает значения 1 и 0.
Тогда Рх, Ру доля случаев с единицей по признакам X и У;
qx, qy с нулем по X и У;
q 1 Р; Рху доля случаев с единицей как по X, так и по У.
В таком виде коэффициент rху для номинально дихотомических данных называется коэффициентом ассоциации Пирсона и обозначается φ («фи»).
В случае, если данные представлены в виде частот совпадений событий в четырех возможных вариантах сочетания переменных, коэффициент φ будет иметь вид:
Как отмечает Л.Ф.Бурлачук, при характеристике ретестовой надёжности особое значение имеет временной интервал между первым и вторым обследованиями [3]. С его увеличением показатели корреляции имеют тенденцию к снижению, существенно повышается вероятность воздействия посторонних факторов могут наступить закономерные возрастные изменения измеряемых тестом свойств, произойти различные события, влияющие на состояние и особенности развития исследуемых качеств. По этой причине при определении ретестовой надёжности стараются выбирать непродолжительные временные интервалы (до нескольких месяцев), а при обследовании детей младшего возраста эти интервал должны быть еще меньше, поскольку возрастные изменения и развитие в этом случае происходят значительно быстрее.
Наряду с очевидной простотой, ретестовая надёжность, как метод определения надежности, обладает существенными недостатками. Taк при повторном применении одних и те же заданий, особенно при относительно непродолжительном временном интервале между обследованиями, у испытуемых может сформироваться навык работы с данной психодиагностической методикой, что приводит к улучшению индивидуальных результатов, хотя и не одинаково выраженных у разных лиц. Это неизбежно ведет к заметной перестановке ранговых мест отдельных испытуемых в данной выборке и, соответственно, ухудшению коэффициента надежности. Еще более заметное воздействие на результаты анализа надежности оказывает запоминание испытуемыми отдельных решений, воспроизведение в повторном обследовании предыдущей картины правильных и неправильных решений. В этом случае результаты двух предъявлений теста не будут независимыми и корреляция между ними окажется завышенной.
1.3 Невербальные тесты интеллекта. Общая характеристика
Одним из критериев классификации методик в отечественной психологической диагностике является форма (характер) стимульного материала. По этому критерию выделяютвербальныеиневербальныетесты интеллекта.
Первые состоят из заданий, стимульный материал которых представлен в языковой форме это слова, высказывания, тексты. Содержанием работы испытуемых является установление логико-функциональных и ассоциативных связей в стимулах, опосредованных языковой формой. Невербальные тесты интеллекта состоят из заданий, в которых стимульный материал представлен либо в наглядной форме (в виде графических изображений, рисунков, чертежей), либо в предметной форме (кубики, части объектов и пр.). В этих тестах знание языка требуется только для понимания инструкций, которые намеренно делаются простыми и по возможности короткими.
Таким образом, вербальные тесты интеллекта дают показателисловесного (понятийного) логического мышления, а с помощью невербальных тестов оцениваетсянаглядно-образноеинаглядно-действенное логическое мышление.
В зарубежной психодиагностике иногда применяется несколько отличная от изложенной классификация методик.Выделяются:
- тесты действия;
- неязыковые;
- невербальные тесты.
Тесты действия(performancetests) требуют операций с предметами при минимальном использовании карандаша и бумаги или выполнения заданий посредством каких-либо движений на бумаге (рисование фигуры, вычерчивание пути выхода из лабиринта и пр.).
Неязыковые тесты(nonlanguagetests) разрабатываются так, что не требуют использования языка ни от испытуемого, ни от диагноста. Стимульный материал этих тестов представлен в невербальной форме, а инструкции к ним осуществляются непосредственным показом или жестами, без использования речи (как устной, так и письменной).
Невербальные тесты(nonverbaltests) в излагаемой классификации правильнее называть, как указываетА. Анастази [1], тестами, не требующими умений читать и писать. Их выполнение опирается на применение устных инструкций и общение с диагностом. В заданиях могут быть использованы как предметы и наглядные изображения, так и вербальное содержание. Например, они могут быть направлены на диагностику понимания значений слов, предложений или коротких абзацев, предъявляемых с помощью изобразительных средств (с одновременными устными указаниями но каждому заданию). Поэтому в отличие от неязыковых тестов невербальные (в понимании некоторых западных психологов) непригодны для лиц, говорящих на другом языке, а также для неслышащих индивидов.
Тесты действия, неязыковые и невербальные тесты за рубежом обычно называют тестами для специфических популяций. Это связано с тем, что перечисленные тесты изначально разрабатывались и применяются для диагностики индивидов, которые не могли быть адекватно оценены с помощью обычных, традиционных вербальных тестов. Это:
- дети с неразвитой речью;
- не умеющие читать и писать;
- дети дошкольного возраста с дефектами речи;
- дети с задержками умственного развития;
- неграмотные и не умеющие читать любого возраста;
- иностранцы;
- те, кто длительное время находился в среде с дефицитом общения (заключенные).
Помимо перечисленных групп испытуемых, тесты с невербальным содержанием заданий применяются для диагностики тех индивидов, в отношении которых важно оценить уровень развития наглядного мышления. Это, например, могут быть профессиональные группы (чертежники, конструкторы, художники и пр.).
Рассмотрим некоторые из широко применяемых (в том числе и в нашей стране)невербальных тестов интеллекта.
Примером теста действия являетсятест Доски форм Сегена(SeguinFormBoards), известный в нашей стране под названием Тест воспроизведения прежнего порядка на доске, разработанный французским врачом Э. Сегеном в 1866 г. Он применяется для диагностики детей с умственной отсталостью, начиная с 2 лет. Другое название этой методики Доски форм Сегена связано с характером стимульного материала, состоящего из 5 досок с гнездами, в которых расположены разные фигурки.
Диагностика проводится индивидуально. Перед ребенком располагают первую доску с вставленными в гнезда фигурками и предлагают внимательно рассмотреть ее. Через 10 сек. психолог переворачивает доску, а выпавшие из гнезд фигурки перемешивает, после чего просит ребенка воспроизвести прежний порядок (уложить все фигурки на прежнее место). Делаются три пробы, а показателем является самое короткое время, потребовавшееся ребенку для выполнения задания. Процедура повторяется с каждой из четырех досок. Помимо времени выполнения, фиксируются ошибки, отдельные попытки и особенности действий ребенка, его высказывания, а также характер использования помощи психолога при безуспешных попытках выполнить задания.
Методика Сегена, являясь достаточно простой в использовании, отличается хорошими дифференцирующими возможностями (оценивает разные уровни умственной отсталости) и широко применяется в настоящее время в клинической психодиагностике.
К тестам действия относятсялабиринтные тесты, первый из которых был разработан в 1914 г. С. Д. Портеусом (PorteusMazeTest).. Эти тесты состоят из серий изображенных линиями лабиринтов возрастающей трудности. От испытуемого требуется провести кратчайший путь от входа до выхода из лабиринта, не отрывая карандаша от бумаги. Показателями в этих тестах являются время выполнения и число допущенных ошибок. Они довольно широко используются для диагностики как детей, так и взрослых.
Типичным и широко распространенным невербальным тестом интеллекта являютсяПрогрессивные матрицы(ProgressiveMatrices), разработанные в Великобритании. Авторами первой редакции, появившейся в 1936 г. и предназначенной для диагностики детей, были Л. Пенроуз и Дж. Равен. Впоследствии работу с тестовыми заданиями осуществлялДж. Равен, поэтому рассматриваемую методику иногда называюттестом Равена(Raven'sProgressiveMatrices RPM). Первый вариант для взрослых появился в 1960 г.
Методика основана на теории гештальтпеихологии. Каждое задание рассматривается как определенное целое, состоящее из ряда взаимосвязанных элементов. Предполагается, что вначале испытуемый осуществляет глобальное оценивание матрицы, а затем дифференцирует изображение на отдельные элементы с выделением принципа из интеграции. На заключительном этапе выделенные элементы включаются в целостный образ, что и позволяет обнаружить недостающую часть изображения.
Разработанный в соответствии с традициями английской школы изучения интеллекта, согласно которым наилучшим способом его измерения является выявление отношений между абстрактными фигурами, этот тест многими британскими психологами рассматривается как лучший из существующих измеритель генерального фактора (g-фактора).
Стимульным материалом этой методики являются матрицы композиции с пропущенным элементом. Испытуемый должен выбрать недостающий элемент среди 6-8 предложенных вариантов. В настоящее время используются три формы теста, рассчитанные на разный возраст и разный уровень интеллектуального развития. В каждой из них однотипные, но возрастающей сложности задания организованы в некоторое число серий, трудность которых также повышается от первой к последующим. Усложнение заданий как внутри каждой серии, так и от серии к серии позволяет, по мнению автора, осуществить принцип прогрессивности (с ним связано и название методики Прогрессивные матрицы). Он состоит в том, что выполнение предшествующих заданий является подготовкой испытуемого к выполнению последующих идет процесс обучения.
Проведение теста не ограничено во времени, может быть как индивидуальным, так и групповым. Психометрические параметры высоки и получены на разных как по объему, так и по характеру выборках.
В группу невербальных тестов включаюттесты, разработанные специально для диагностики представителей разных культурных групп. Как уже сообщалось, связь тестирования интеллекта с культурой определенной социальной группы ограничивает сферу применения тестов. Они оказываются неадекватными для обследования лиц, принадлежащих к иной культуре, нежели та, в которой они создавались. Поэтому перед исследователями встала проблема разработки таких интеллектуальных тестов, которые были бы свободны от влияния культуры.
При их создании пытались исключить параметры, по которым чаще всего различаются культуры. Наиболее известный из них язык, другой параметр скорость выполнения теста; еще одно различие между культурами наличие специфичной информации, которая может предоставляться лишь в некоторых культурах. Учет этих параметров различий между культурными группами привел к тому, что тесты, «свободные от влияния культуры» (culture-free, culture-fair), делали невербальными, в них не использовали информацию, специфичную для некоторых культур и старались исключить влияние скорости выполнения.
Первым тестом, свободным от влияния культуры, считаетсяармейский тест Бета, разработанный в США в период первой мировой войны.
Еще один тест такого типа Нарисуй человека(Draw-a-ManTest), разработанный американским психологомФ. Гудинафи описанный в 1926 г., был предназначен для диагностики детей в возрасте от 3 до 13 лет.
Ребенка просили изобразить на листе бумаги мужчину, причем, сделать это как можно лучше. Время рисования не ограничивалось. Оценка уровня интеллектуального развития осуществлялась на основе того, какие части тела и детали одежды изображал испытуемый, как учтены пропорции фигуры, перспектива и т. д. Ф. Гудинаф разработала шкалу, по которой можно оценить 51 элемент рисунка, а также получила статистические нормы для каждой возрастной группы.
Этот тест применялся без изменений с момента создания до 1963 г., когда Д. Харрис пересмотрел его, расширил и опубликовал под названием Тест рисования Гудинаф-Харриса (Goodenough-HarrisDrawingTest).
В этом варианте после завершения рисунка мужчины ребенку предлагалось рисовать женщину. Выполнение оценивалось на основе учета 73 элементов рисунка (для изображения мужчины) и 71 (для изображения женщины). Наряду с оценкой рисунков по элементам была предложена более простая обработка качественная оценка путем их сопоставления с 12 образцами-эталонами (по степени сходства). Нормы были получены для возрастов от 5 до 15 лет. Ретестовая надежность Теста рисования выше, чем у теста Гудинаф (порядка 0,80), а валидность сохранилась на том же уровне. В России эти методики не использовались.
ПрименениеТеста рисованиядля обследования разных культур и этнических групп показало, что его результаты в большей степени зависят от фактора культуры, чем это предполагалось авторами. Проанализировав работы, относящиеся к этому тесту, Ф. Гудинаф и Д. Харрис высказали мнение, что «поиск теста, свободного от влияния культуры, независимо от того, измеряет ли он интеллект, художественные способности, социально-личностные характеристики или любые другие черты, является иллюзорным».
Еще один Интеллектуальный тест, свободный от влияния культуры (Culture-FairIntelligenceTest), был разработанР. Б. Кеттеллом.
Он имеет три варианта. Первый предназначен для детей 4-8 лет и умственно отсталых взрослых; второй для детей 8-13 лет и взрослых, не имеющих высшего образования; третий для детей 10-16 лет и взрослых с высшим образованием.
Тест состоит из двух частей, каждая из которых включает по 4 одинаковых субтеста. Субтест «Серии» состоит из заданий, требующих выбора завершающего серию элемента. В заданиях субтеста «Классификации» следует найти элемент, не подходящий к другим находящимся в ряду. В субтесте «Матрицы» нужно отметить элемент, правильно дополняющий каждую матрицу. В субтесте «Условия» требуется найти среди предлагаемых вариантов тот, для которого соблюдалось условие, заданное в образце.
Все задания представлены в графической форме, а время их выполнения ограничено 3-4 мин. Первичные баллы переводятся в шкальные оценки, по которым устанавливается соответствие испытуемого статистической норме (ее границы 84 и 116 IQ).
Коэффициенты надежности и валидности этого теста находятся на нижнем уровне допустимости, а проверки на выборках из разных стран Европы, Америки, Азии и Африки показали зависимость его результатов от фактора культуры.
В заключение следует отметить, что по данным многих тестологоввалидность тестов, разрабатываемых как «свободные от влияния культуры», низка в любой культуре. Это объясняется тем, что пытаясь исключить из заданий тестов специфичное содержание и оставить только равно известное представителями разных культур, диагносты измеряют с их помощью тривиальные функции, не всегда соотносимые с показателями интеллектуального развития. По существу, устранение культурных различий из тестов интеллекта означает исключение из них интеллектуальных компонентов. Как отметил Дж. Брунер, «свобода от культуры» есть просто «свобода от интеллекта».
Испытуемыми были 10работников библиотек города Кирово-Чепецка Кировской области. Это женщиныв возрасте от 25 до 50 лет. Уровень образования у испытуемых: 5 человек высшее образование, 5 средне-специальное. Исследование было проведено в аудиторных условиях. Исследование проходило в 2 этапа с интервалом 2 недели.
2.2 Методика исследования
Для исследования ретестовой надежности были выбраны Прогрессивные матрицы Равена.
Методика предназначена для изучения логичности мышления. Испытуемому предъявляются рисунки с фигурами, связанными между собой определенной зависимостью. Одной фигуры не достает, а внизу она дается среди 6-8 других фигур. Задача испытуемого - установить закономерность, связывающую между собой фигуры на рисунке, и на опросном листе указать номер искомой фигуры из предлагаемых вариантов.
Тест состоит из 60 таблиц (5 серий). В каждой серии таблиц содержатся задания нарастающей трудности. В то же время характерно и усложнение типа заданий от серии к серии. (Приложение 1)
В серии А использован принцип установления взаимосвязи в структуре матриц. Здесь задание заключается в дополнении недостающей части основного изображения одним из приведенных в каждой таблице фрагментов. Выполнение задания требует от обследуемого тщательного анализа структуры основного изображения и обнаружения этих же особенностей в одном из нескольких фрагментов. Затем происходит слияние фрагмента, его сравнение с окружением основной части таблицы.
Серия В построена по принципу аналогии между парами фигур. Обследуемый должен найти принцип, соответствен но которому построена в каждом отдельном случае фигура и, исходя из этого, подобрать недостающий фрагмент. При этом важно определить ось симметрии, соответственно которой расположены фигуры в основном образце.
Серия С построена по принципу прогрессивных изменений в фигурах матриц. Эти фигуры в пределах одной матрицы все больше усложняются, происходит как бы непрерывное их развитие. Обогащение фигур новыми элементами подчиняется четкому принципу, обнаружив который, можно подобрать недостающую фигуру.
Серия Дпостроена по принципу перегруппировки фигур в матрице. Обследуемый должен найти эту перегруппировку, происходящую в горизонтальном и вертикальном положениях.
Серия Е основана на принципе разложения фигур основного изображения на элементы. Недостающие фигуры можно найти, поняв принцип анализа и синтеза фигур.
Испытуемым была зачитана инструкция (групповая) (Приложение 1).
2.3 Анализ ретестовой надежности тестов невербального интеллекта
Результаты первого тестирования были обобщены в таблице 1
Таблица 1 Уровень невербального интеллекта (1 этап)
Сумма правильных ответов по сериям № матриц |
«сырые баллы» |
IQ |
Уровень интеллекта |
Образование |
|||||
А |
В |
С |
D |
Е |
|||||
1 |
12 |
12 |
8 |
11 |
6 |
49 |
110 |
5 |
В |
2 |
12 |
11 |
8 |
8 |
8 |
47 |
106 |
5 |
С |
3 |
12 |
12 |
10 |
10 |
9 |
53 |
118 |
6 |
В |
4 |
12 |
10 |
9 |
8 |
7 |
46 |
104 |
5 |
С |
5 |
12 |
12 |
7 |
10 |
7 |
48 |
108 |
5 |
В |
6 |
12 |
11 |
7 |
7 |
7 |
44 |
100 |
4 |
С |
7 |
12 |
11 |
8 |
8 |
6 |
45 |
102 |
5 |
С |
8 |
12 |
12 |
8 |
11 |
9 |
52 |
116 |
6 |
В |
9 |
12 |
11 |
8 |
10 |
7 |
48 |
108 |
5 |
С |
10 |
12 |
11 |
8 |
8 |
6 |
45 |
102 |
5 |
В |
11 |
12 |
11 |
8 |
8 |
8 |
47 |
106 |
5 |
С |
12 |
12 |
10 |
9 |
8 |
7 |
46 |
104 |
5 |
С |
13 |
12 |
11 |
7 |
7 |
7 |
44 |
100 |
4 |
С |
14 |
12 |
12 |
8 |
11 |
9 |
52 |
116 |
6 |
В |
15 |
12 |
11 |
8 |
8 |
6 |
45 |
102 |
5 |
В |
16 |
12 |
12 |
8 |
11 |
6 |
49 |
110 |
5 |
В |
17 |
12 |
11 |
8 |
8 |
8 |
47 |
106 |
5 |
С |
18 |
12 |
12 |
10 |
10 |
9 |
53 |
118 |
6 |
В |
19 |
12 |
10 |
9 |
8 |
7 |
46 |
104 |
5 |
С |
20 |
12 |
12 |
7 |
10 |
7 |
48 |
108 |
5 |
В |
21 |
12 |
11 |
7 |
7 |
7 |
44 |
100 |
4 |
С |
22 |
12 |
11 |
8 |
8 |
6 |
45 |
102 |
5 |
С |
23 |
12 |
12 |
8 |
11 |
9 |
52 |
116 |
6 |
В |
24 |
12 |
11 |
8 |
10 |
7 |
48 |
108 |
5 |
С |
25 |
12 |
11 |
8 |
8 |
6 |
45 |
102 |
5 |
В |
26 |
12 |
11 |
8 |
8 |
8 |
47 |
106 |
5 |
С |
27 |
12 |
10 |
9 |
8 |
7 |
46 |
104 |
5 |
С |
28 |
12 |
11 |
7 |
7 |
7 |
44 |
100 |
4 |
С |
29 |
12 |
12 |
8 |
11 |
9 |
52 |
116 |
6 |
В |
30 |
12 |
11 |
8 |
8 |
6 |
45 |
102 |
5 |
В |
Где
4 средний уровень интеллекта; 5 нормальный уровень интеллекта;
6 - уровень интеллекта выше среднего.
Через две недели тест был проведенповторно. Результаты второго тестирования были обобщены в таблице 2.
Таблица 2 Уровень невербального интеллекта (2 этап)
Сумма правильных ответов по сериям № матриц |
«сырые баллы» |
IQ |
Уровень интеллекта |
Образование |
|||||
А |
В |
С |
D |
Е |
|||||
1 |
12 |
12 |
10 |
11 |
7 |
52 |
116 |
6 |
В |
2 |
12 |
11 |
9 |
9 |
8 |
49 |
110 |
5 |
С |
3 |
12 |
12 |
10 |
11 |
9 |
54 |
120 |
6 |
В |
4 |
12 |
10 |
10 |
9 |
7 |
46 |
104 |
5 |
С |
5 |
12 |
12 |
8 |
10 |
8 |
50 |
112 |
6 |
В |
6 |
12 |
11 |
8 |
8 |
7 |
46 |
104 |
5 |
С |
7 |
12 |
11 |
8 |
7 |
6 |
44 |
100 |
4 |
С |
8 |
12 |
12 |
8 |
9 |
10 |
51 |
114 |
6 |
В |
9 |
12 |
11 |
10 |
9 |
8 |
50 |
112 |
6 |
С |
10 |
12 |
11 |
8 |
9 |
6 |
46 |
104 |
5 |
В |
11 |
12 |
11 |
9 |
9 |
8 |
49 |
110 |
5 |
С |
12 |
12 |
10 |
10 |
9 |
7 |
46 |
104 |
5 |
С |
13 |
12 |
11 |
8 |
8 |
7 |
46 |
104 |
5 |
С |
14 |
12 |
12 |
8 |
9 |
10 |
51 |
114 |
6 |
В |
15 |
12 |
11 |
8 |
8 |
6 |
45 |
102 |
5 |
В |
16 |
12 |
12 |
10 |
11 |
7 |
52 |
116 |
6 |
В |
17 |
12 |
11 |
9 |
9 |
8 |
49 |
110 |
5 |
С |
18 |
12 |
12 |
10 |
11 |
9 |
54 |
120 |
6 |
В |
19 |
12 |
10 |
10 |
9 |
7 |
46 |
104 |
5 |
С |
20 |
12 |
12 |
8 |
10 |
8 |
50 |
112 |
6 |
В |
21 |
12 |
11 |
8 |
8 |
7 |
46 |
104 |
5 |
С |
22 |
12 |
11 |
8 |
7 |
6 |
44 |
100 |
4 |
С |
23 |
12 |
12 |
8 |
9 |
10 |
51 |
114 |
6 |
В |
24 |
12 |
11 |
10 |
9 |
8 |
50 |
112 |
6 |
С |
25 |
12 |
11 |
8 |
9 |
6 |
46 |
104 |
5 |
В |
26 |
12 |
11 |
9 |
9 |
8 |
49 |
110 |
5 |
С |
27 |
12 |
10 |
10 |
9 |
7 |
46 |
104 |
5 |
С |
28 |
12 |
11 |
8 |
8 |
7 |
46 |
104 |
5 |
С |
29 |
12 |
12 |
8 |
9 |
10 |
51 |
114 |
6 |
В |
30 |
12 |
11 |
8 |
8 |
6 |
45 |
102 |
5 |
В |
Где
4 средний уровень интеллекта; 5 нормальный уровень интеллекта
6 - уровень интеллекта выше среднего.
Для того, чтобы определить ретестовую надежность теста, необходимо вычислить коэффициент корреляции. Для этого была использована программа SPSSStatistik 21, с помощью которой был определен коэффициент корреляции Спирмена для следующих пар показателей:
«сырые» баллы;
IQ;
уровень интеллекта
Были получены следующие результаты:
Корреляции |
||||
баллы |
баллы2 |
|||
роСпирмена |
баллы |
Коэффициент корреляции |
1,000 |
,943** |
Знч. (2-сторон) |
. |
,000 |
||
N |
30 |
30 |
||
баллы2 |
Коэффициент корреляции |
,943** |
1,000 |
|
Знч. (2-сторон) |
,000 |
. |
||
N |
30 |
30 |
||
**. Корреляция значима на уровне 0.01 (2-сторонняя). |
Корреляции |
||||
iq |
iq2 |
|||
роСпирмена |
iq |
Коэффициент корреляции |
1,000 |
,943** |
Знч. (2-сторон) |
. |
,000 |
||
N |
30 |
30 |
||
iq2 |
Коэффициент корреляции |
,943** |
1,000 |
|
Знч. (2-сторон) |
,000 |
. |
||
N |
30 |
30 |
||
**. Корреляция значима на уровне 0.01 (2-сторонняя). |
Корреляции |
||||
уровень |
уровень2 |
|||
роСпирмена |
уровень |
Коэффициент корреляции |
1,000 |
,650** |
Знч. (2-сторон) |
. |
,000 |
||
N |
30 |
30 |
||
уровень2 |
Коэффициент корреляции |
,650** |
1,000 |
|
Знч. (2-сторон) |
,000 |
. |
||
N |
30 |
30 |
||
**. Корреляция значима на уровне 0.01 (2-сторонняя). |
Как видим, коэффициент корреляции по баллам и IQ составляет 0,943. Корреляция по уровню интеллекта немного ниже и составляет 0,650.
Показателем высокой надежности теста является коэффициент корреляции, близкий к показателям 0,8 0,9, 1. Полученные результаты позволяют сделать вывод о достаточно высокой надежности Прогрессивных матриц Равена для определения невербального интеллекта.
Заключение
Таким образом, в процессе работы мы пришли к следующим выводам.
Надежность методики это такой критерий, который говорит о точности психологических измерений, т. е. позволяет судить о том, насколько внушают доверие полученные результаты.
Так какнадежность отражает степень согласованности двух независимо полученных рядов показателей, то математико-статистический прием, с помощью которого устанавливается надежность методики это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем ближе полученный коэффициент корреляции подходит к единице, и наоборот.
Тесты интеллекта или тесты общих способностей, предназначены для измерения уровня интеллектуального развития человека. Интеллект традиционно исследовался в рамках двух основных направлений: тестологического и экспериментально-психологического. Суть тестологического направления заключается в том, что под интеллектом понимается то, что измеряют тесты интеллекта, а именно совокупность познавательных способностей. Экспериментально-психологические теории интеллекта признают IQ-концепцию, где за IQ стоят внутренние когнитивные процессы: восприятие, память, мышление и т.д.
В процессе эмпирического исследования были получены следующие результаты: коэффициент корреляции по баллам и IQ составляет 0,943, корреляция по уровню интеллекта немного ниже и составляет 0,650.
Показателем высокой надежности теста является коэффициент корреляции, близкий к показателям 0,8 0,9, 1. Полученные результаты позволяют сделать вывод о достаточно высокой надежности Прогрессивных матриц Равена для определения невербального интеллекта.
Литература
1. Анастази, А. Психологическое тестирование / А. Анастази, С. Урбина. СПб.: Питер, 2005. -688с. (Серия «Мастер Психологии»).
2. Бодалев, А.А.Общая психодиагностика / А.А. Бодалев, В.В. Столин, В.С. Аванесов. - СПб.: Речь, 2000. -440 с.
3. Бурлачук, Л.Ф. Психодиагностика: учебник для вузов / Л.Ф. Бурлачук. СПб.: Питер, 2005. 351 с.:ил. (Серия «Учебник нового века»).
4.Дружинин, В.Н. Диагностика общих способностей / В.Н. Дружинин. М., 1995.
5. Немов, Р. С. Психология: В 3 кн. Кн. 3: Психодиагностика / Р.С. Немов. М.: ВЛАДОС, 1998. 632 с.
6. Практикум по общей, экспериментальной и прикладной психологии / Под общ. ред. А.А. Крылова, С.А. Маничева. СПб.: Питер, 2003.
7. Психологическая диагностика: Учебник для вузов / под ред. М.К. Акимовой, К.М. Гуревича. СПб.: Питер, 2008. 652с.