Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
PAGE 2
EMBED Equation.3
Материалы к курсу
«МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ»
ЧАСТЬ 2
@Преподаватель: Голев Сергей Васильевич, адъюнкт-профессор психологии (доцент).
@Ассистент: Голева Ольга Сергеевна, магистр психологии
(ОМУРЧ «Украина» ХФ. 2010 г.)
ИПИС ХГУ - 2010 г. )
В лекциях были использованы материалы и книги следующих авторов:
Годфруа Ж. Что такое психология? М.: Мир, 1996. Т 2 . Куликов Л. В. Психологическое исследование: методические рекомендаций по проведению. - СПб., 1995. Немов Р.С. Психология: Экспериментальная педагогическая психология и психодиагностика. - М., 1999.- Т. 3. Практикум по общей экспериментальной психологии / Под ред. А.А. Крылова. - Л. ЛГУ, 1987. Сидоренко Е.В. Методы математической обработки в психологии. СПб.: ООО «Речь», 2000. -350 с. Шевандрин Н.И. Психодиагностика, коррекция и развитие личности. - М.: Владос, 1998.-С.123. Суходольский Г.В. Математические методы в психологии. Харьков: Изд-во Гуманитарный Центр, 2004. 284 с.
Курс: «Методы математической обработки в психологии»
(Материалы для самостоятельного изучения студентами психологами и социальными работниками)
ТЕМА № 6
ВЫЯВЛЕНИЕ РАЗЛИЧИЙ В РАСПРЕДЕЛЕНИИ ПРИЗНАКА
Вопросы:
1. Обоснование задачи сравнения распределений признака
2. χ2 критерий Пирсона
3. λ критерий Колмогорова-Смирнова
4. Алгоритм выбора критерия для сравнения распределений
Вопрос 1.
Обоснование задачи сравнения распределений
признака
Распределения могут различаться по средним, дисперсиям, асимметрии, эксцессу и по сочетаниям этих параметров. Рассмотрим несколько примеров.
На Рис. 4.1 представлены два распределения признака. Распределение 1 характеризуется меньшим диапазоном вариативности и меньшей дисперсией, чем распределение 2. В распределении 1 чаще встречаются значения признака, близкие к средней, а в распределении 2 чаще встречаются более высокие и более низкие, чем средняя, значения признака.
Рис 4.1. Кривые распределения признака с меньшим диапазоном вариативности признака (1) и большим диапазоном распределений признака (2): х - значения признака; ƒ - относительная частота их встречаемости
Именно такое соотношение может наблюдаться в распределении стенотипических признаков у мужчин (кривая 2) и женщин (кривая 1). Фенотипическая дисперсия мужского пола должна быть больше, чем женского (Геодакян В.А., 1974; 1993). Мужчины - это авангардная часть популяции, ответственная за поиск новых форм приспособления, поэтому у них чаще встречаются редкие крайние значения различных фенотипических признаков. Эти отклонения, по мнению В.А. Геодакяна, носят "футуристический" характер, это "пробы", включающие как будущие возможные пути эволюции, так и ошибки (Геодакян В.А., 1974, с. 381). В то же время женская часть популяции ответственна за сохранение уже накопленных изменений, поэтому у них чаще встречаются средние значения фенотипических признаков.
Анализ реально получаемых в исследованиях распределений может позволить нам подтвердить или опровергнуть данные теоретические предположения.
На Рис. 4.2 представлены два распределения, различающиеся по знаку асимметрии: распределение 1 характеризуется положительной асимметрией (левосторонней), а распределение 2 отрицательной (правосторонней).
Рис. 4.2. Кривые распределения признака с положительной (левосторонней) асимметрией (1) и отрицательной (правосторонней) асимметрией (2); х - значения признаке;
ƒ -относительная частота их встречаемости
Данные кривые могут отражать распределение времени решения простой задачи (кривая 1) и трудной задачи (кривая 2). Простую задачу большинство испытуемых решают быстро, поэтому большая часть значений группируется слева. В то же время сама простота задачи может привести к тому, что некоторые испытуемые будут думать над нею очень, очень долго, дольше даже, чем над сложной. Трудную задачу большинство испытуемых решают в тенденция дольше, чем простую, но в то же время почти всегда находятся люди, которые решают ее мгновенно.
Если мы докажем, что распределения статистически достоверно различаются, это может стать основой для построения классификаций задач и типологий испытуемых. Например, мы можем выявлять испытуемых со стандартным соотношением признаков: простую задачу они решают быстро, а трудную - медленно, и испытуемых с нестандартным соотношением: простую задачу решают медленно, а трудную - быстро и т.п. Далее мы можем сравнить выявленные группы испытуемых по показателям мотивации достижения, так как известно, что лица с преобладанием стремления к успеху предпочитают задачи средней трудности, где вероятность успеха примерно 0.5, а лица с преобладанием стремления избегать неудачи предпочитают либо очень легкие, либо, наоборот, очень трудные задачи (McClelland D.C., Winter D.G., 1969). Таким образом, и здесь сопоставление форм распределения может дать начало научному поиску.
Часто нам бывает полезно также сопоставить полученное эмпирическое распределение с теоретическим распределением. Например, для того, чтобы доказать, что оно подчиняется или, наоборот, не подчиняется нормальному закону распределения. Это лучше делать с помощью машинных программ обработки данных, особенно при больших объемах выборок. Подробные программы машинной обработки можно найти, например, в руководстве Э.В. Ивантер и Л.В. Коросова (1992).
В практических целях эмпирические распределения должны проверяться на "нормальность" в тех случаях, когда мы намерены использовать параметрические методы и критерии. В данном руководстве это относится лишь к методам дисперсионного анализа, поэтому способы проверки совпадения эмпирического распределения с нормальным описаны в Лекции 8, посвященной однофакторному дисперсионному анализу.
Традиционные для отечественной математической статистики критерии определения расхождения или согласия распределений - это метод χ2 К. Пирсона и критерий λ Колмогорова-Смирнова.
Оба эти метода требуют тщательной группировки данных и довольно сложных вычислений. Кроме того, возможности этих критериев в полной мере проявляются на больших выборках (n≥30). Тем не менее, они могут оказаться столь незаменимыми, что исследователю придется пренебречь экономией времени и усилий.
Например, они незаменимы в следующих двух случаях:
Рассмотрим вначале традиционные методы определения расхождения распределений, а затем возможности использования критерия φ* Фишера.
Вопрос 2
χ2 - критерий Пирсона
Назначения критерия
Критерий χ2 применяется в двух целях;
1 На самом деле области применения критерия %2 многообразны (см., например: Суходольский Г.В., 1972, с. 293), но в данном руководстве мы ограничиваемся только этими двумя, наиболее часто встречающимися на практике, целями.
Описание критерия
Критерий χ2 отвечает на вопрос о том, с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в двух и более эмпирических распределениях.
Преимущество метода состоит в том, что он позволяет сопоставлять распределения признаков, представленных в любой шкале, начиная от шкалы наименований. В самом простом случае альтернативного распределения "да - нет", "допустил брак - не допустил брака", "решил задачу - не решил задачу" и т. п. мы уже можем применить критерий χ2.
Допустим, некий наблюдатель фиксирует количество пешеходов, выбравших правую или левую из двух симметричных дорожек на пути из точки А в точку Б (см. Рис. 4.3).
Рис. 4.3. Иллюстрация к примеру о теоретически равновероятном выборе из двух альтернатив - правой и левой дорожек, ведущих из точки А в точку Б
Допустим, в результате 70 наблюдений установлено, что 51 человек выбрали правую дорожку, и лишь 19 - левую. С помощью критерия χ2 мы можем определить, отличается ли данное распределение выборов от равномерного распределения, при котором обе дорожки выбирались бы с одинаковой частотой. Это вариант сопоставления полученного эмпирического распределения с теоретическим. Такая задача может стоять, например, в прикладных психологических исследованиях, связанных с проектированием в архитектуре, системах сообщения и др.
Но представим себе, что наблюдатель решает совершенно другую задачу: он занят проблемами билатерального регулирования. Совпадение полученного распределения с равномерным его интересует гораздо в меньшей степени, чем совпадение или несовпадение его данных с данными других исследователей. Ему известно, что люди с преобладанием правой ноги склонны делать круг против часовой стрелки, а люди с преобладанием левой ноги - круг по ходу часовой стрелки, и что в исследовании коллег2 преобладание левой ноги было обнаружено у 26 человек из 100 обследованных.
2Доброхотова Т. А., Брагина Н. Н. Левши- М.: "Книга", 1994.
С помощью метода χ2 он может сопоставить два эмпирических распределения: соотношение 51:19 в собственной выборке и соотношение 74:26 в выборке других исследователей.
Это вариант сопоставления двух эмпирических распределений по простейшему альтернативному признаку (конечно, простейшему с математической точки зрения, а отнюдь не психологической).
Диалогичным образом мы можем сопоставлять распределения выборов из трех и более альтернатив. Например, если в выборке из 50 человек 30 выбрали ответ (а), 15 человек - ответ (б) и 5 человек - ответ (в), то мы можем с помощью метода χ2 проверить, отличается ли это распределение от равномерного распределения или от распределения ответов в другой выборке, где ответ (а) выбрали 10 человек, ответ (б) -25 человек, ответ (в) - 15 человек.
В тех случаях, если признак измеряется количественно, скажем, в баллах, секундах или миллиметрах, нам, быть может, придется объединить все обилие значений признака в несколько разрядов. Например, если время решения задачи варьирует от 10 до 300 секунд, то мы можем ввести 10 или 5 разрядов, в зависимости от объема выборки. Например, это будут разряды: 0-50 секунд; 51-100 секунд; 101-150 секунд и т. д. Затем мы с помощью метода χ2 будем сопоставлять частоты встречаемости разных разрядов признака, но в остальном принципиальная схема не меняется.
При сопоставлении эмпирического распределения с теоретическим мы определяем степень расхождения между эмпирическими и теоретическими частотами.
При сопоставлении двух эмпирических распределений мы определяем степень расхождения между эмпирическими частотами и теоретическими частотами, которые наблюдались бы в случае совпадения двух этих эмпирических распределений. Формулы расчета теоретических частот будут специально даны для каждого варианта сопоставлений.
Чем больше расхождение между двумя сопоставляемыми распределениями, тем больше эмпирическое значение χ2.
Гипотезы
Возможны несколько вариантов гипотез, в зависимости от задач, которые мы перед собой ставим.
Первый вариант:
H0: Полученное эмпирическое распределение признака не отличается от теоретического (например, равномерного) распределения.
H1: Полученное эмпирическое распределение признака отличается от теоретического распределения.
Второй вариант:
H0: Эмпирическое распределение 1 не отличается от эмпирического распределения 2.
Н1: Эмпирическое распределение 1 отличается от эмпирического распределения 2.
Третий вариант:
H0: Эмпирические распределения 1, 2, 3, ... не различаются между собой.
H1: Эмпирические распределения 1, 2, 3, ... различаются между собой.
Критерий χ2 позволяет проверить все три варианта гипотез.
Графическое представление критерия
Проиллюстрируем пример с выбором правой или левой дорожек на пути из точки А в точку Б. На Рис. 4.4 частота выбора левой дорожки представлена левым столбиком, а частота выбора правой дорожки - правым столбиком гистограммы. На оси ординат отмеряются относительные частоты выбора, то есть частоты выбора той или иной дорожки, отнесенные к общему количеству наблюдений. Для левой дорожки относительная частота, которая называется также частостью, составляет 19/70, то есть 0,27, а для правой дорожки 51/70, то есть 0.73.
Гистограмма - это диаграмма, в которой различная величина частот изображается различной высотой столбиков (Плохинский Н. А., 1970, с. 14.)
Рис. 4.4. Частоты выбора левой и правой дорожек; теоретическая частота представлена в виде горизонтальной планки, стрелками обозначены области расхождения между эмпирическими и теоретическими частотами
Если бы обе дорожки выбирались равновероятно, то половина испытуемых выбрала бы правую дорожку, а половина - левую. Вероятность выбора каждой из дорожек составляла бы 0,50.
Мы видим, что отклонения эмпирических частот от этой величины довольно значительны. Возможно, различия между эмпирическим и теоретическим распределением окажутся достоверными.
На Рис. 4.5 фактически представлены две гистограммы, но столбики сгруппированы так, что слева сопоставляются частоты предпочтения левой дорожки в выборе нашего наблюдателя (1) и в выборке Т.А. Доброхотовой и Н.Н. Брагиной (2), а справа - частоты предпочтения правой дорожки в этих же двух выборках.
Рис. 4.5. Частоты выбора левой и правой дорожек в двух выборках испытуемых
Мы видим, что расхождения между выборками очень незначительны. Критерий χ2 скорее всего, подтвердит совпадение двух распределений.
Ограничения критерия
1. Объем выборки должен быть достаточно большим: n>50. При n<30 критерий χ2 дает весьма приближенные значения. Точность критерия повышается при больших п.
2. Теоретическая частота для каждой ячейки таблицы не должна быть меньше 5: f>5. Это означает, что если число разрядов задано заранее и не может быть изменено, то мы не можем применять метод χ2, не накопив определенного минимального числа наблюдений. Если, например, мы хотим проверить наши предположения о том, что частота обращений в телефонную службу Доверия неравномерно распределяются по 7 дням недели, то нам потребуется 5*7=35 обращений. Таким образом, если количество разрядов (k) задано заранее, как в данном случае, минимальное число наблюдений (nmin) определяется по формуле: nmin = k*5.
3. Выбранные разряды должны "вычерпывать" все распределение, то есть охватывать весь диапазон вариативности признаков. При этом группировка на разряды должна быть одинаковой во всех сопоставляемых распределениях.
4. Необходимо вносить "поправку на непрерывность" при сопоставлении распределений признаков, которые принимают всего 2 значения.
При внесении поправки значение χ2 уменьшается (см. Пример с поправкой на непрерывность).
5. Разряды должны быть неперекрещивающимися: если наблюдение отнесено к одному разряду, то оно уже не может быть отнесено ни к какому другому разряду.
Сумма наблюдений по разрядам всегда должна быть равна общему количеству наблюдений.
Правомерен вопрос о том, что считать числом наблюдений - количество выборов, реакций, действий или количество испытуемых, которые совершают выбор, проявляют реакции или производят действия. Если испытуемый проявляет несколько реакций, и все они регистрируются, то количество испытуемых не будет совпадать с количеством реакций. Мы можем просуммировать реакции каждого испытуемого, как, например, это делается в методике Хекхаузена для исследования мотивации достижения или в Тесте фрустрационной толерантности С. Розенцаейга, и сравнивать распределения индивидуальных сумм реакций в нескольких выборках.
В этом случае числом наблюдений будет количество испытуемых. Если же мы подсчитываем частоту реакций определенного типа в целом по выборке, то получаем распределение реакций разного типа, и в этом случае количеством наблюдений будет общее количество зарегистрированных реакций, а не количество испытуемых.
С математической точки зрения правило независимости разрядов соблюдается в обоих случаях: одно наблюдение относится к одному и только одному разряду распределения.
Можно представить себе и такой вариант исследования, где мы изучаем распределение выборов одного испытуемого. В когнитивно-бихевиоральной терапии, например, клиенту предлагается всякий раз фиксировать точной время появления нежелательной реакции, например, приступов страха, депрессии, вспышек гнева, самоуничижающих мыслей и т. п. В дальнейшем психотерапевт анализирует полученные данные, выявляя часы, в которые неблагоприятные симптомы проявляются чаще, и помогает клиенту строить индивидуальную программу предупреждения неблагоприятных реакций.
Можно ли с помощью критерия χ2 доказать, что некоторые часы являются в этом индивидуальном распределении более часто встречающимися, а другие - менее часто встречающимися? Все наблюдения - зависимы, так как они относятся к одному и тому же испытуемому; в то же время все разряды - неперекрещивающиеся, так как одни и тот же приступ относится к одному и только одному разряду (в данном случае - часу дня). По-видимому, применение метода χ2 будет в данном случае некоторым упрощением. Приступы страха, гнева или депрессии могут наступать неоднократно в течение дня, и может оказаться так, что, скажем, ранний утренний, 6-часовой, и поздний вечерний, 12-часовой, приступы обычно появляются вместе, а один и тот же день: в то же время дневной 3-часовой приступ появляется не ранее как через сутки после предыдущего приступа и не менее чем за двое суток до следующего и т. п. По-видимому, речь здесь может идти о сложной математической модели или вообще о чем-то таком, чего нельзя "поверить алгеброй". И тем не менее в практических целях может оказаться полезным использовать критерий для того, чтобы выявить систематическую неравномерность наступления каких-либо значимых событий, выбора, предпочтений и т. п. у одного и того же человека.
Итак, одно и то же наблюдение должно относиться только к одному разряду. Но считать ли наблюдением каждого испытуемого или каждую исследуемую реакцию испытуемого - вопрос, решение которого зависит от целей исследования (см., напр.,Ганзен В.А., Балин В.Д-. 1991, с.10).
Главное же "ограничение" критерия χ2 то, что но кажется большинству исследователей пугающе сложным.
Попытаемся преодолеть миф о непостижимой трудности критерия χ2. Чтобы оживить изложение, рассмотрим шутливый литературный пример.
Шутливый пример
В гениальной комедии Н. В. Гоголя "Женитьба" у купеческой дочери Агафьи Тихоновны было пятеро женихов. Одного она сразу исключила из рассмотрения, потому что он был купеческого звания, как и она сама. А из остальных она не знала, кого выбрать: "Уж как трудно решиться, так просто рассказать нельзя, как трудно. Если бы губы Никанора Ивановича да приставить к носу Ивана Кузьмича, да взять сколько-нибудь развязности, какая у Балтазара Балтазарыча, да, пожалуй, прибавить к этому еще дородности Ивана Павловича, я бы тогда тотчас решилась. А теперь поди подумай! просто голова даже стала болеть. Я думаю, лучше всего кинуть жребий" (Гоголь Н.В., 1959, с. 487). И вот Агафья Тихоновна положила бумажки с четырьмя именами в ридикюль, пошарила рукою в ридикюле и вынула вместо одного всех!
Ей хотелось, чтобы жених совмещал в себе достоинства всех четверых, и, вынимая все бумажки вместо одной, она бессознательно совершала процедуру выведения средней величины. Но вывести среднюю величину из четверых людей невозможно, и Агафья Тихоновна в смятении. Она влюблена, но не знает, в кого. "Такое несчастное положение девицы, особливо еще влюбленной" (там же, с. 487).
Вся беда в том, что ни Агафья Тихоновна, ни ее тетушка, ни сваха Фекла Ивановна не были знакомы с критерием χ2 ! Именно он мог бы им помочь в решении их проблемы. С его помощью можно было бы попробовать установить, в кого больше влюблена Агафья Тихоновна. Но для этого нам не нужно измерять губы Никанора Ивановича или нос Ивана Кузьмича, или объем талии дородного экзекутора Ивана Павловича; не нужно нам и пускаться на какие-нибудь опасные эксперименты, чтобы определить, насколько далеко простирается развязность Балтазара Балтазарыча. Мы эти их достоинства принимаем как данность потому лишь, что они нравятся Агафье Тихоновне. Мы принимаем их за разряды одного и того же признака, например, направленности взгляда Агафьи Тихоновны: сколько раз она взглянула на губы Никанора Ивановича? На нос Ивана Кузьмича? Благосклонно взирала на дородного Ивана Павловича или развязного Балтазара Балтазаровича? Внимательная сваха или тетушка вполне могла бы этот признак наблюдать. Допустим, за полчаса смотрин ею зафиксированы следующие наблюдения.
Агафья Тихоновна:
сидела с опущенными глазами 25 минут;
благосклонно смотрела на Никанора Ивановича 14 раз;
благосклонно смотрела на Ивана Кузьмича 5 раз;
благосклонно смотрела на Ивана Павловича 8 раз;
благосклонно смотрела на Балтазара Балтазарыча 5 раз.
Представим это в виде таблицы.
Таблица 4.1
Распределение взгляда Агафьи Тихоновны между 4 женихами
Женихи |
Никанор Иванович |
Иван Кузьмич |
Иван Павлович |
Балтазар Балтазарыч |
Всего взглядов |
Количество взглядов |
14 |
5 |
8 |
5 |
32 |
Теперь нам нужно сопоставить полученные эмпирические частоты с теоретическими. Если Агафья Тихоновна никому не отдает предпочтения, то данное распределение показателя направленности ее взгляда не будет отличаться от равномерного распределения: она на всех смотрит примерно с одинаковой частотой. Но если достоинства одного из женихов чаще притягивают ее взор, то это может быть основанием для матримониального решения.
Гипотезы
Н0: Распределение взглядов Агафьи Тихоновны между женихами не отличается от равномерного распределения.
H1: Распределение взглядов Агафьи Тихоновны между женихами отличается от равномерного распределения.
Теперь нам нужно определить теоретическую частоту взгляда при равномерном распределении. Если бы все взгляды невесты распределялись равномерно между 4-мя женихами, то, по-видимому, каждый из них получил бы по ¼ всех её взглядов.
Переведем эти рассуждения на более формализованный язык. Теоретическая частота при сопоставлении эмпирического распределения с равномерным определяется по формуле:
4Все приведенные эмпирические частоты на самом деле пропорциональны количеству благосклонных высказываний невесты о женихах в тексте пьесы.
где n - количество наблюдений;
k - количество разрядов признака.
В нашем случае признак - взгляд невесты, направленный на кого-либо из женихов; количество разрядов признака - 4 направления взгляда, по количеству женихов; количество наблюдений - 32.
Итак, в нашем случае:
Теперь мы будем сравнивать с этой теоретической частотой все эмпирические частоты.
Никанор Иван Иван Балтазар
Иванович Кузьмич Павлович Балтазарыч
Рис. 4.6. Сопоставление эмпирических частот взгляда Агафьи Тихоновны на каждого из женихов (столбики гистограммы) с теоретической частотой {горизонтальная планка); темной штриховкой отмечены области расхождений между эмпирическими и теоретическими частотами
На Рис. 4.6 сопоставления эмпирических частот с теоретической представлены графически. Похоже, что области расхождений достаточно значительны, и Никанор Иванович явно опережает других женихов. Иван Павлович еще может на что-то надеяться, но для Ивана Кузьмича и Балтазара Балтазарыча отставка, по-видимому, неизбежна.
Однако для того, чтобы доказать неравномерность полученного эмпирического распределения, нам необходимо произвести точные расчеты. В методе χ2 они производятся с точностью до сотых, а иногда и до тысячных долей единицы.
Расчеты будем производить в таблице по алгоритму.
АЛГОРИТМ 13
Расчет критерия χ2
1.Занести в таблицу наименования разрядов и соответствующие им эмпирические частоты (первый столбец).
2. Рядом с каждой эмпирической частотой записать теоретическую частоту (второй столбец).
ν=k-1
где k - количество разрядов признака.
Если ν=l, внести поправку на "непрерывность".
Если χ2 эмп меньше критического значения, расхождения между распределениями статистически недостоверны.
Если χ2 эмп критическому значению или превышает его, расхождения между распределениями статистически достоверны.
Все вычисления для данного случая отражены в Табл. 4.2.
Таблица 4.2
Расчет критерия χ2 эмп при сопоставлении эмпирического
распределения взгляда Агафьи Тихоновны между женихами с равномерным распределением
Разряды-женихи |
Эмпирическая частота взгляда (fэj) |
Теоретическая частота (fт) |
(fэj - fт) |
(fэj -fт)2 |
(fэj -fт)/ƒт |
|
1 |
Никанор Иванович |
14 |
8 |
+6 |
36 |
4,500 |
2 |
Иван Кузьмич |
5 |
8 |
-3 |
9 |
1,125 |
3 |
Иван Павлович |
8 |
8 |
0 |
0 |
0 |
4 |
Балтазар Балтазарович |
5 |
8 |
-3 |
9 |
1,125 |
Суммы |
32 |
32 |
0 |
6,750 |
Может показаться, что удобнее суммировать все возведенные в квадрат разности между эмпирическими и теоретическими частотами, а затем уже эту сумму разделить на ƒт. В данном случае это возможно, так как ƒт для всех разрядов одинакова. Однако позже мы увидим, что так бывает далеко не всегда. Нужно быть внимательными или, экономя свое внимание, просто взять за правило всякий раз вычислять (ƒэi ƒт)2 /ƒт до суммирования.
Необходимо также всякий раз убеждаться в том, что сумма разностей между эмпирическими и теоретической частотами (сумма по третьему столбцу) равна 0. Если это равенство не соблюдается, это означает, что в подсчете частот или разностей допущена ошибка. Необходимо найти и устранить её прежде чем переходить к дальнейшим расчетам.
Алгоритм вычислений, таким образом, выражается формулой:
где fэj - эмпирическая частота по j-тому разряду признака; ƒт - теоретическая частота;
j - порядковый номер разряда;
k - количество разрядов признака.
В данном случае:
Для того, чтобы установить критические значения χ2 , нам нужно определить число степеней свободы ν по формуле:
v=k-l
где k - количество разрядов.
В нашем случае ν=4-l=3.
По Табл. IX Приложения 1 определяем:
Построим "ось значимости". Ясно, что чем больше отклонения эмпирических частот от теоретической, тем больше будет величина χ2. Поэтому зона значимости располагается справа, а зона незначимости - слева.
К сожалению, на основании этих данных тетушка не сможет дать Агафье Тихоновне обоснованного ответа:
Χ2эмп < χ2кр.
Ответ: Но принимается. Распределение взгляда Агафьи Тихоновны между женихами не отличается от равномерного распределения.
Но, допустим, тетушка на этом не успокоилась. Она стала внимательно следить за тем, сколько раз племянница упомянет в разговоре каждого из женихов. Допустим, ею получено следующее распределение упоминаний Агафьей Тихоновной женихов и их достоинств:
Никанор Иванович - 15 раз,
Иван Кузьмич - 6 раз,
Иван Павлович - 9 раз,
Балтазар Балтазарыч - 6 раз.
Тетушка уже видит, что, похоже, Никанор Иванович ("уж такой деликатный, а губы, мать моя, - малина, совсем малина") пользуется большей благосклонностью Агафьи Тихоновны, чем все остальные женихи. У нее есть два пути, чтобы это доказать статистически.
1) Суммировать все проявления благосклонности со стороны невесты: взгляды + упоминания в разговоре, - и сопоставить полученное распределение с равномерным. Поскольку количество наблюдений возросло, есть шанс, что различия окажутся достоверными.
2) Сопоставить два эмпирических распределения - взгляда и упоминаний в разговоре, - с тем, чтобы показать, что они совпадают между собой, то есть и во взглядах, и в словах Агафья Тихоновна придерживается одинаковой системы предпочтений.
Проанализируем оба варианта сопоставлений.
В первом случае мы будем решать уже известную нам задачу сопоставления эмпирического распределения с теоретическим. Во втором случае мы будем сопоставлять два эмпирических распределения.
Первый вариант развития шутливого примера: увеличение количества наблюдений
Вначале создадим таблицу эмпирических частот, в которой будут суммированы все замеченные проявления благосклонности невесты.
Таблица 4.3
Распределение проявлений благосклонности невесты между женихами
Женихи |
Никанор Иванович |
Иван Кузьмич |
Иван Павлович |
Балтазар Балтазарыч |
Всего |
Количество проявлений |
29 |
11 |
17 |
11 |
68 |
Теперь сформулируем гипотезы.
Н0: Распределение проявлений благосклонности невесты (взгляды и упоминания в разговоре) не отличается от равномерного распределения.
Н1: Распределение проявлений благосклонности невесты отличается от равномерного распределения.
Все расчеты произведем в таблице по алгоритму.
Таблица 4.4
Расчет критерия X2 при сопоставлении проявлений благосклонности Агафьи Тихоновны с равномерным распределением
Разряды-женихи |
Эмпирическая частота взгляда (fэj) |
Теоретическая частота (fт) |
(fэj - fт) |
(fэj -fт)2 |
(fэj -fт)/ƒт |
|
1 |
Никанор Иванович |
29 |
17 |
12 |
144 |
8,47 |
2 |
Иван Кузьмич |
11 |
17 |
-6 |
36 |
2,12 |
3 |
Иван Павлович |
17 |
17 |
0 |
0 |
0 |
4 |
Балтазар Балтазарович |
11 |
17 |
-6 |
36 |
2,12 |
Суммы |
68 |
68 |
0 |
12,71 |
ƒт=n/k=68/4=17
v=k-l=3
Х2 эмп = 12,71
Х2 эмп >Х2 кр.
Ответ: Но отклоняется, принимается Н1. Распределение проявлений благосклонности невесты между женихами отличается от равномерного распределения (р<0,01).
На этом примере мы убедились, что увеличение числа наблюдений повышает достоверность результата, если, конечно, в новых наблюдениях воспроизводится прежняя тенденция различий.
Второй вариант развития шутливого примера: сопоставление двух эмпирических распределений
Теперь мы должны ответить на вопрос, одинаковая ли система предпочтений проявляется во взгляде Агафьи Тихоновны и ее словах?
Сформулируем гипотезы.
H0: Распределения невербально и вербально выражаемых предпочтений не различаются между собой.
H1: Распределения невербально и вербально выражаемых предпочтений различаются между собой.
Для подсчета теоретических частот нам теперь придется составить специальную таблицу (Табл. 4.5). Ячейки в двух столбцах слева обозначим буквами. Для каждой из них теперь будет подсчитана особая, только к данной ячейке относящаяся, теоретическая частота. Это обусловлено тем, что количества взглядов и словесных отзывов невесты о женихах неравны; взглядов 32, а словесных отзывов - 36. Мы должны всякий раз учитывать эту пропорцию.
Таблица 4.5
Эмпирические и теоретические частоты взглядов и упоминаний о женихах
Разряды-женихи |
Эмпирические частоты |
Суммы |
Теоретические частоты |
|||
Взгляда |
Упоминаний в разговоре |
Взгляда |
Упоминаний в разговоре |
|||
1 |
Ник.Ив. |
14 А |
15 Б |
29 |
13,63 А |
15,37 Б |
2 |
Ив.Куз. |
5 В |
6 Г |
11 |
5,17 В |
5,83 Г |
3 |
Ив.Павл. |
8 Д |
9 Е |
17 |
7,99 Д |
9,01 Е |
4 |
Бал.Бал. |
5 Ж |
6 3 |
11 |
5,17 Ж |
5,83 З |
Суммы: |
32 |
36 |
68 |
32 |
36 |
Рассчитаем эту пропорцию. Всего проявлений благосклонности отмечено 68, из них 32 - взгляды и 36 - словесные высказывания. Доля взглядов составит 32/68=0,47; доля упоминаний - 36/68=0,53.
Итак, во всех строках взгляды должны были бы составлять 0,47 всех проявлений по данной строке, а упоминания в разговоре - 0,53 всех проявлений. Теперь, зная суммы проявлений по каждой строке, мы можем рассчитать теоретические частоты для каждой ячейки
Табл. 4.5.
ƒА теор = 29*0,47=13,63
ƒБ теор = 29*0,53=15,37
ƒВ теор = 11*0,47=5,17
ƒГ теор = 11*0,53=5,83
ƒД теор = 17*0,47=7,99
ƒЕ теор = 17*0,53=9,01
ƒЖ теор = 11*0,47=5,17
ƒЗ теор = 11*0,53=5,83
Ясно, что сумма теоретических частот по строкам будет равняться сумме всех проявлений по данной строке. Например,
ƒА теор + ƒБ теор =13,63+15,37=29
ƒВ теор + ƒГ теор =5,17+5,83=11
ƒД теор + ƒЕ теор =7,99+9,01=17 и.т.д.
При такого рода подсчетах лучше всякий раз себя проверить. Теперь мы можем вывести общую формулу подсчета ƒтеор для сопоставления двух или более эмпирических распределений:
ƒтеор = (Сумма частот по * (Сумма частот по
соответствующей строке) соответствующему столбцу)
(Общее количество наблюдений)
Соответствующими строкой и столбцом будут та строка и тот столбец, на пересечении которых находится данная ячейка таблицы. Теперь нам лучше всего сделать развертку Табл. 4.5, представив все ячейки от А до Ж в виде первого столбца - это будет столбец эмпирических частот. Вторым столбцом будут записаны теоретические частоты. Далее будем действовать по уже известному алгоритму. В третьем столбце будет представлены разности эмпирических и теоретических частот, в четвертом - квадраты этих разностей, а в пятом - результаты деления этих квадратов разностей на соответствующие каждой строке теоретические частоты. Сумма в нижнем правом углу таблицы и будет представлять собой эмпирическую величину χ2 (Табл. 4.6).
Таблица 4.6
Расчет критерия χ2 при сопоставлении распределений невербальных и вербальных признаков благосклонности невесты
Ячейки таблицы частот |
Эмпирическая частота (fэj) |
Теоретическая частота (fт) |
(fэj - fт) |
(fэj -fт)2 |
(fэj -fт)/ƒт |
|
1 |
А |
14 |
13,63 |
+0,37 |
0,14 |
0,01 |
2 |
Б |
15 |
15,37 |
-0,37 |
0,14 |
0,01 |
3 |
В |
5 |
5,17 |
-0,17 |
0,03 |
0,01 |
4 |
Г |
6 |
5,83 |
+0,17 |
0,02 |
0,00 |
5 |
Д |
8 |
7,99 |
+0,01 |
0,00 |
0,00 |
6 |
Е |
9 |
9,01 |
-0,01 |
0,00 |
0,00 |
7 |
Ж |
5 |
5,17 |
-0,17 |
0,03 |
0,01 |
8 |
З |
6 |
5,83 |
+0,17 |
0,02 |
0,00 |
Суммы |
68 |
68 |
0 |
0,04 |
Число степеней свободы при сопоставлении двух эмпирических распределений определяется по формуле:
v=(k-l)*(c-l),
где k - количество разрядов признака (строк в таблице эмпирических частот);
с - количество сравниваемых распределений (столбцов в таблице эмпирических частот).
В данном случае таблицей эмпирических частот является левая, эмпирическая часть таблицы 4.5, а не на ее развертка (Табл. 4.6).
Количество разрядов - это количество женихов, поэтому k=4.
Количество сопоставляемых распределений с=2.
Итак, для данного случая,
v=(4-l)*(2-l)=3
Определяем по Табл. IX Приложения 1 критические значения
Для ν=3:
χ2эмп=0,04
χ2 < χ2 кр
Ответ: Но принимается. Распределения невербально и вербально выражаемых невестой предпочтений не различаются между собой.
Итак, Агафья Тихоновна весьма последовательна в проявлении своих предпочтений, хотя, по-видимому, сама этого пока не замечает.
Иллюстрация 2
Третий вариант развития шутливого примера: сопоставление встречных выборов
К сожалению, в этом пункте мы от комедии вынуждены перейти к драме - истинной драме любви. Ибо, судя по тексту пьесы, проявляемые женихами признаки влюбленности и симпатии по отношению к невесте отнюдь не соответствуют ее собственной системе предпочтений. У Ивана Павловича, а, главное, у Никанора Ивановича, которому невестой отдается столь явное предпочтение, проскальзывают в разговоре по большей части как раз отрицательные и задумчиво-неодобрительные отзывы о невесте: "Нос велик... Нет, не то. Не то... Я даже думаю, что вряд ли она знакома с обхождением высшего общества. Да и знает ли она еще по-французски".
Благосклонных отзывов ("А сказать правду - мне понравилась она потому, что полная женщина" и т. п.) поступило:
от Никанора Ивановича - ни одного;
от Ивана Кузьмича -15;
от Ивана Павловича 6;
от Балтазара Балтазарыча - 18.
Попробуем ответить на вопрос: согласуются ли распределения благосклонных отзывов невесты о женихах и женихов о невесте?
Мы видим, что это действительно особая задача. Мы сопоставляем два эмпирических распределения с совпадающей классификацией разрядов, но в одном случае это распределение реакций одного человека на четверых других, а в другом случае это реакции четырех человек на одного и того же человека.
Такая модель взаимных реакций может использоваться отнюдь не только в области брачных консультаций, но ив решении задач "построения команды", выбора заместителя, подбора пар в тех видах деятельности, где требуется активное постоянное взаимодействие, в исследованиях социальной перцепции и взаимного влияния, в тренинге сенситивности и др.
Сформулируем гипотезы.
Н0: Распределение положительных отзывов невесты совпадает с распределением положительных отзывов женихов.
H1: Распределение положительных отзывов невесты не совпадает с распределением положительных отзывов женихов.
Построим таблицу для подсчета теоретических частот.
Таблица 4.7
Эмпирические и теоретические частоты положительных высказываний невесты о женихах и женихов о невесте
Разряды-женихи |
Эмпирические частоты |
Суммы |
Теоретические частоты |
|||
Положительных высказываний невесты о женихах |
Положительных высказываний женихов о невесте |
Положительных высказываний невесты о женихах |
Положительных высказываний женихов о невесте |
|||
1 |
Ник.Ив. |
15 А |
0 Б |
15 |
7,20 А |
7,80 Б |
2 |
Ив.Куз. |
6 В |
15 Г |
21 |
10,08 В |
10,92 Г |
3 |
Ив.Павл. |
9 Д |
6 Е |
15 |
7,20 Д |
7,80 Е |
4 |
Бал.Бал. |
6 Ж |
18 3 |
24 |
11,52 Ж |
12,48 З |
Суммы: |
36 |
39 |
75 |
36 |
39 |
Теоретические частоты рассчитываем по уже известной формуле:
ƒтеор = (Сумма частот по * (Сумма частот по
соответствующей строке) соответствующему столбцу)
(Общее количество наблюдений)
ƒА теор = 15*36/75=7,20
ƒБ теор = 15*39/75=7,80
ƒВ теор = 21*36/75=10,08
ƒГ теор = 21*39/75=10,92
ƒД теор = 15*36/75=7,20
ƒЕ теор = 15*39/75=7,80
ƒЖ теор = 24*36/75=11,52
ƒЗ теор = 24*39/75=12,48
Суммы теоретических частот по строкам совпадают. Все дальнейшие расчеты выполним в таблице по алгоритму.
Таблица 4.8
Насчет критерия % при сопоставлении распределении высказывании невесты о женихах и женихов о невесте
Ячейки таблицы частот |
Эмпирическая частота (fэj) |
Теоретическая частота (fт) |
(fэj - fт) |
(fэj -fт)2 |
(fэj -fт)/ƒт |
|
1 |
А |
15 |
7,20 |
+7,80 |
60,84 |
8,45 |
2 |
Б |
0 |
7,80 |
-7,80 |
60,84 |
7,80 |
3 |
В |
6 |
10,08 |
-4,08 |
16,65 |
1,65 |
4 |
Г |
15 |
10,92 |
+4,08 |
16,65 |
1,52 |
5 |
Д |
9 |
7,20 |
+1,80 |
3,24 |
0,45 |
6 |
Е |
6 |
7,80 |
-1,80 |
3,24 |
0,42 |
7 |
Ж |
6 |
11,52 |
-5,52 |
30,47 |
2,64 |
8 |
З |
18 |
12,48 |
+5,52 |
30,47 |
2,44 |
Суммы |
75 |
75 |
0 |
25,37 |
Определим число степеней свободы ν по количеству строк k и
столбцов с в левой части Табл. 4.7: (k=4, c=2).
ν=(k-1)*(c-1)=3
Критические значения χ2 для ν =3 нам уже известны:
χ2эмп=25,37
χ2эмп >χ2кр
Omвem: H0 отвергается. Принимается Н1.
Распределение положительных отзывов предпочтений невесты не совпадает с распределением положительных отзывов женихов (р<0,01).
Итак, если бы Иван Кузьмич Подколесин не сбежал, Агафью Тихоновну могло бы ожидать не меньшее разочарование: предпочитаемый ею Никанор Иванович, "тонкого поведения человек", ее отвергает.
Мы не рассмотрели лишь третью группу возможных гипотез в методе χ2. Они, как мы помним, касаются сопоставлений одновременно 3 и более распределений. Принцип расчетов там такой же, как и при сопоставлении двух эмпирических распределений. Это касается и формулы расчета теоретических частот, и алгоритма последующих расчетов.
Рассмотрим особые случаи в применении метода χ2.
Особые случав в применении критерия
5 Поправка на непрерывность при V=l предназначена для корректировки несоответствия между дискретным биномиальным распределением и непрерывным рас- пределением (Рунион Р., 1982, с. 39.)
Особый случай 1: поправка на непрерывность для признаков, которые принимают всего 2 значения
Поправка на непрерывность вносится при следующих условиях:
а) когда эмпирическое распределение сопоставляется с равномерным распределением, и количество разрядов признака k=2, a v=k1=1;
6) когда сопоставляются два эмпирических распределения, и количество разрядов признака равно 2, т.е. и количество строк k=2. и количество столбцов с=2, и v=(k1)*(с1)=1.
Вариант "а": поправка на непрерывность при сопоставлении эмпирического распределения с равномерным. Это тот случай сопоставлений, когда мы, говоря простым языком, проверяем, поровну ли распределились частоты между двумя значениями признака.
Пример с поправкой на непрерывность.
В исследовании порогов социального атома6 профессиональных психологов просили определить, с какой частотой встречаются в их записной книжке мужские и женские имена коллег-психологов. Попытаемся определить, - отличается ли распределение, полученное по записной книжке женщины-психолога X, от равномерного распределения. Эмпирические частоты представлены в Табл. 4.9
6 Социальный атом "... состоит из всех отношений между человеком и окружающими его людьми, которые в данный момент тем или иным образом с ним связаны" (Moreno J. L, 1951.)
Таблица 4.9
Эмпирические частоты встречаемости имен мужчин и женщин в записной книжке психолога X
Мужчин |
Женщин |
Всего человек |
22 |
45 |
67 |
Сформулируем гипотезы.
H0: Распределение мужских и женских имен в записной книжке X не отличается от равномерного распределения.
H1: Распределение мужских и женских имен в записной книжке X отличается от равномерного распределения.
Количество наблюдений n=67; количество значений признака k=2.
Рассчитаем теоретическую частоту: ƒтеор = n/k=33.5
Число степеней свободы v=k1=1.
Далее все расчеты производим по известному алгоритму, но с одним добавлением: перед возведением в квадрат разности частот мы должны уменьшить абсолютную величину этой разности на 0,5 (см. Табл. 4.10, четвертый столбец).
Таблица 4.10
Расчет критерия χ2 при сопоставлении эмпирического распределения имен с теоретическим равномерным распределением
Разряды принадлежность к тому или иному полу |
Эмпирическая частота (ƒэj) |
Теоретическая частота (ƒт) |
(ƒэj-ƒт) |
(ƒэj-ƒт-0.5) |
(ƒэj-ƒт-0.5)2 |
(ƒэj-ƒт-0.5)2 |
|
(ƒт) |
|||||||
1 |
Мужчины |
22 |
33,5 |
-11,5 |
11 |
121 |
3,61 |
2 |
Женщины |
45 |
33,5 |
+11,5 |
11 |
121 |
3,61 |
Суммы: |
67 |
67 |
0 |
7,22 |
Для v=l определяем по Табл. IX Приложения 1 критические значения:
χ2эмп=7,22
χ2эмп >χ2кр
Ответ: Но отклоняется, принимается Н1. Распределение мужских и женских имен в записной книжке психолога X отличается от равномерного распределения (р<0,01).
Вариант "б": поправка на непрерывность при сопоставлении двух эмпирических распределений
Попытаемся определить, различаются ли распределения мужских и женских имен у психолога X и психолога С, тоже женщины. Эмпирические частоты приведены в Табл. 4.11.
Таблица 4.11
Эмпирические частоты встречаемости имен мужчин и женщин в записных книжках психолога X, и психолога С.
Мужчин |
Женщин |
Всего человек |
|
Психолог X. Психолог С. |
22 А 59 В |
45 Б 109 Г |
67 168 |
Суммы |
81 |
154 |
235 |
Сформулируем гипотезы. H0: Распределения мужских и женских имен в двух записных книжках не различаются.
H1: Распределения мужских и женских имен в двух записных книжках различаются между собой.
Теоретические частоты рассчитываем по уже известной формуле:
ƒтеор = (Сумма частот по * (Сумма частот по
соответствующей строке) соответствующему столбцу)
(Общее количество наблюдений)
А именно, для разных ячеек таблицы эмпирических частот,
ƒА теор = 67*81/235=23,09
ƒБ теор = 67*154/235=43,91
ƒВ теор = 168*81/235=57,91
ƒГ теор = 168*154/235=110,09
Число степеней свободы v=(kl)*(c1)=1
Все дальнейшие расчеты проводим по алгоритму (Табл. 4.12)
Таблица 4.12
Расчет критерия при сопоставлении двух эмпирических распределений мужских и женских имен
Ячейки таблицы эмпирических частот |
Эмпирическая частота (ƒэj) |
Теоретическая частота (ƒт) |
(ƒэj-ƒт) |
(ƒэj-ƒт-0.5) |
(ƒэj-ƒт-0.5)2 |
(ƒэj-ƒт-0.5)2 |
|
(ƒт) |
|||||||
1 |
А |
22 |
23,09 |
-1,09 |
0,59 |
0,35 |
0,015 |
2 |
Б |
45 |
43,91 |
+1,09 |
0,59 |
0,35 |
0,008 |
3 |
В |
59 |
57,91 |
+1,09 |
0,59 |
0,35 |
0,006 |
4 |
Г |
109 |
110,09 |
-1,09 |
0,59 |
0,35 |
0,03 |
Суммы: |
235 |
235,00 |
0 |
0,032 |
Критические значения χ2 при ν=1 нам известны по предыдущему примеру:
χ2эмп=0,03
χ2эмп < χ2кр
Ответ: H0 принимается. Распределения мужских и женских имен в записных книжка двух психологов совпадают.
Поправки на непрерывность и всех остальных подсчетов можно избежать, если использовать по отношению к подобного рода задачам метод ф* Фишера (см. параграф 5.4).
Особый случай 2; укрупнение разрядов признака, который варьирует в широкой диапазоне значений
Если признак варьирует в широком диапазоне значений, например, от 10 до 140 сек или от 0 до 100 мм и т. п., то вряд ли мы сможем принимать каждое значение признака за самостоятельный разряд: 10 сек, 11 сек, 12 сек и т. д. до 100 сек. Одно из ограничений критерия X2 состоит в том, что теоретически на каждый разряд должно приходиться не менее 5 наблюдений: ƒтеор >5. Если у признака 90 значений, и каждое из них принимается за самостоятельный разряд, то необходимо иметь не менее 5*90=450 наблюдений! Если же наблюдений меньше 450, то придется укрупнять разряды до тех пор, пока на каждый разряд не будет приходиться по 5 наблюдений. Это не означает, что в каждом разряде реально должно быть 5 наблюдений; это означает, что теоретически на каждый разряд их приходится по 5. Рассмотрим это на примере.
Пример с укрупнением разрядов признака
Тест Мюнстерберга для измерения избирательности перцептивного внимания в адаптированном варианте М.Д. Дворяшиной (1976) предъявлялся студентам факультета психологии Ленинградского университета (n1=156) и артистам балета Мариинского театра (n2=85). Материал методики состоит из бланка с набором букв русского алфавита, в случайном порядке перемежающихся. Среди этого фона скрыто 24 слова разной степени сложности: "факт", "хоккей", "любовь", "конкурс", "психиатрия" и т.п. Задача испытуемого возможно быстрее отыскать их и подчеркнуть (Дворяшина М.Д., 1976, с. 124). Совпадают ли распределения количества ошибок (пропусков слов) в двух выборках (Табл. 4.13)?
Таблица 4.13
Эмпирические частоты пропуска слов в тесте Мюнстерберга в двух выборках испытуемых (по данным М.Д. Дворяшиной, Е.В. Сидоренко, 1973)
Разряды |
Эмпирические частоты пропусков слов |
|||
В группе студентов (n1 =156) |
В группе артистов балета (n2 =85) |
Суммы |
||
1 |
0 пропусков |
93 |
22 |
115 |
11 |
1 пропуск |
27 |
20 |
47 |
111 |
2 пропуска |
11 |
16 |
27 |
1У |
3 пропуска |
15 |
4 |
19 |
У |
4 пропуска |
5 |
3 |
8 |
У1 |
5 пропусков |
3 |
11 |
14 |
У11 |
6 пропусков |
2 |
3 |
5 |
У111 |
7 пропусков |
0 |
3 |
3 |
1Х |
8 пропусков |
0 |
2 |
2 |
Х |
9 пропусков |
0 |
1 |
1 |
Суммы |
156 |
85 |
241 |
Сформулируем гипотезы.
H0: Распределения ошибок (пропусков слов) в выборках студентов и артистов балета не различаются между собой.
H1: Распределения ошибок (пропусков слов) в выборках студентов и артистов балета различаются между собой.
Прежде чем перейти к расчету теоретических частот, обратим внимание на последние 4 значения признака, от 6 пропусков и ниже. Очевидно, что ƒтеор для любой из ячеек последних 4 строк таблицы будет меньше 5. Например, для ячейки, отмеченной кружком:
ƒтеор = (Сумма частот по * (Сумма частот по
соответствующей строке) соответствующему столбцу)
(Общее количество наблюдений)
ƒтеор=5*85/241=1,763
Полученная теоретическая частота меньше 5.
Для того, чтобы решить, какие разряды нам следует укрупнить,
чтобы ƒтеор была не меньше 5, выведем формулу расчета минимальной суммы частот по строке по формуле:
Минимальная (ƒтеор минимальная)*(общее количество наблюдений)
сумма = ______________________________________________
по строке сумма частот по столбцу с наименьшим n
В данном случае столбцом с наименьшим количеством наблюдений является столбец, относящийся к выборке артистов балета (n=85).
Определим минимальную сумму частот для каждой строки:
Минимальная сумма по строке =5*241/85=14,16
Мы видим, что для получения такой суммы нам недостаточно объединения последних 4 строк Табл. 4.13, так как сумма частот по ним меньше 14 (5+3+2+1=11), а нам необходима сумма частот, превышающая 14. Следовательно, придется объединять в один разряд пять нижних строк Табл. 4.13: теперь любое количество пропусков от 5 до 9 будет составлять один разряд.
Однако это еще не все. Мы видим, далее, что в строке "4 пропуска" сумма составляет всего 8. Значит, ее необходимо объединить со следующей строкой. Теперь и 3, и 4 пропуска будут входить в один разряд. Все остальные суммы по строкам больше 14, поэтому мы не нуждаемся в дальнейшем укрупнении разрядов.
Эмпирические частоты по укрупненным разрядам представлены в Табл. 4.14
Таблица 4.14
Эмпирические частоты пропуска слов по укрупненным разрядам в двух выборках испытуемых
Разряды |
Эмпирические частоты пропуска слов |
Суммы |
||||
В группе студентов (n1=156) |
В группе артистов (n2=85) |
|||||
1 |
0 пропусков |
93 |
А |
22 |
Б |
115 |
11 |
1 пропуск |
27 |
В |
20 |
Г |
47 |
111 |
2 пропуска |
11 |
Д |
16 |
Е |
27 |
1У |
3-4 пропуска |
20 |
Ж |
7 |
З |
27 |
У |
5-9 пропусков |
5 |
И |
20 |
К |
25 |
Суммы |
156 |
85 |
241 |
Исследователю бывает огорчительно терять информацию, заведомо утрачиваемую при укрупнении разрядов. Например, в данном случае нас может интересовать, удалось ли сохранить специфический для второй выборки спад частот на 3 и 4 пропусках и резкий их подъем на 5 пропусках (Рис. 4.7).
Сравним графики на Рис. 4.7 и Рис. 4.8. Мы видим, что спад частот во второй выборке на 3-х и 4-х пропусках сохранился, а спад на 2-х пропусках в первой выборке стал еще более заметным. В то же время все возможные различия в частотах в диапазоне от 5-и до 9-и пропусков теперь оцениваются только глобально, по
Рис.4.7. Графики изменения эмпирических частот пропусков по «естественным»разрядам: а) в выборке студентов; б) в выборке артистов балета.
соотношению общих сумм частот в этих диапазонах. По графику на Рис. 4.8 мы уже не можем определить, какое максимальное количество пропусков встречается в первой группе и какое - во второй. Сопоставление распределений на этом конце становится более грубым.
Рис. 4.8. Графики изменения эмпирических частот по укрупненным разрядам: а) в выборке студентов; 6) в выборке артистов балета
Если бы у нас было больше испытуемых в выборке артистов балета, то, возможно, удалось бы сохранить подъем частоты на 5-и пропусках. Сейчас же нам придется довольствоваться сопоставлением по данным укрупненным разрядам.
Перейдем к подсчету теоретических частот для каждой ячейки Табл. 4.14
ƒА теор = 115*156/241=74,44
ƒБ теор = 115*85/241=40,56
ƒВ теор = 47*156/241=30,41
ƒГ теор = 47*85/241=16,59
ƒД теор = 27*156/241=17,47
ƒЕ теор = 27*85/241=9,53
ƒЖ теор = 27*156/241=17,47
ƒЗ теор = 27*85/241=9,53
ƒИ теор 25*156/241=16,18
ƒК теор 25*85/241=8,82
Определим количество степеней свободы ν по формуле:
v=(k-l)*(c-l)
где k - количество строк (разрядов),
с - количество столбцов (выборок).
Для данного случая:
v=(5-l)*(2-l)=4
Все дальнейшие расчеты произведем в таблице по Алгоритму 13. Поправка на непрерывность не требуется, так как V>1.
Таблица 4.15
Расчет критерия X2 при сопоставлении двух эмпирических распределений пропусков слов в тесте Мюнстерберга (n1=156; n2 =85)
Ячейки таблицы частот |
Эмпирическая частота (fэj) |
Теоретическая частота (fт) |
(fэj - fт) |
(fэj -fт)2 |
(fэj -fт)/ƒт |
|
1 |
А |
93 |
74,44 |
18,56 |
344,47 |
4,63 |
2 |
Б |
22 |
46,56 |
-18,56 |
344,47 |
8,49 |
3 |
В |
27 |
30,41 |
-3,41 |
11,63 |
0,38 |
4 |
Г |
20 |
16,59 |
3,41 |
11,63 |
0,70 |
5 |
Д |
11 |
17,47 |
-6,47 |
41,86 |
2,40 |
6 |
Е |
16 |
9,53 |
6,47 |
41,86 |
4,40 |
7 |
Ж |
20 |
17,47 |
2,53 |
6,401 |
0,37 |
8 |
З |
7 |
9,53 |
-2,53 |
6,401 |
0,67 |
9 |
И |
5 |
16,18 |
-11,18 |
124,99 |
7,72 |
10 |
К |
20 |
8,82 |
11,18 |
124,99 |
14,17 |
Суммы |
241 |
241 |
0,00 |
43,95 |
По Табл. IX Приложения 1 определяем критические значения при ν=4:
χ2эмп=43,95
χ2эмп > χ2кр
Ответ: Но отвергается. Принимается H1. Распределения пропусков слов в выборках студентов и артистов балета различаются между собой (р<0,01).
В распределении ошибок у артистов балета можно заметить два выраженных максимума (0 пропускав и 5 пропусков), что может указывать на два возможных источника ошибок7.
7Целесообразно было бы проверить совпадение распределения ошибок в обеих выборках с распределением Пуассона. Закону Пуассона подчиняются распределения редких событий, приходящихся 0, 1, 2,... раз на сотни и тысячи наблюдений. Однако в данном случае эта модель неприменима: средняя и дисперсия не равны друг другу и составляют, соответственно, 0,91 и 1,96 в первой выборке и 2,29 и 5,43 во второй выборке.
Вопрос 3
λ - критерий Колмогорова-Смирнова
Назначение критерия
Критерий λ предназначен для сопоставления двух распределений:
а) эмпирического с теоретическим, например, равномерным или нормальным;
б) одного эмпирического распределения с другим эмпирическим распределением.
Критерий позволяет найти точку, в которой сумма накопленных расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения.
Описание критерия
Если в методе χ2 мы сопоставляли частоты двух распределений отдельно по каждому разряду, то здесь мы сопоставляем сначала частоты по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т. д. Таким образом, мы сопоставляем всякий раз накопленные к данному разряду частоты.
Если различия между двумя распределениями существенны, то в какой-то момент разность накопленных частот достигнет критического значения, и мы сможем признать различия статистически достоверными. В формулу критерия λ включается эта разность. Чем больше эмпирическое значение λ, тем более существенны различия.
Гипотезы -
Н0: Различия между двумя распределениями недостоверны (судя по точке максимального накопленного расхождения между ними).
H1: Различия между двумя распределениями достоверны (судя по точке максимального накопленного расхождения между ними).
Графическое представление критерия
Рассмотрим для иллюстрации распределение желтого (№4) цвета в 8-цветном тесте М. Люшера. Если бы испытуемые случайным образом выбирали цвета, то желтый цвет, так же, как и все остальные, равновероятно мог бы занимать любую из 8-и позиции выбора. На практике, однако, большинство испытуемых помещают этот цвет, "цвет ожидания и надежды" на одну из первых позиций ряда.
На Рис. 4.9 столбиками представлены относительные частоты8 попадания желтого цвета сначала на 1-ю позицию (первый левый столбик), затем на 1-ю и 2-ю позицию (второй столбик), затем на 1-ю, 2-ю и 3-ю позиции и т. д. Мы видим, что высота столбиков постоянно возрастает, так как они отражают относительные частоты, накопленные к данной позиции. Например, столбик на 3-й позиции имеет высоту 0,51. Это означает, что на первые три позиции желтый цвет помещают 51% испытуемых.
8 Относительная частота, или частость, - это частота, отнесенная к общему количеству наблюдении; в данном случае это частота попадания желтого цвета на данную позицию, отнесенная к количеству испытуемых. Например, частота попадания желтого цвета на 1-ю позицию ƒ=24; количество испытуемых n=102; относительная частота ƒ*=ƒ/n=О,235.
Прерывистой линией на Рис. 4.9 соединены точки, отражающие накопленные частоты, которые наблюдались бы, если бы желтый цвет с равной вероятностью попадал на каждую из 8-и позиций. Сплошными линиями обозначены расхождения между эмпирическими и теоретическими относительными частотами. Эти расхождения обозначаются как d.
Рис 4.9. Сопоставления в критерии λ: стрелками отмечены расхождения между эмпирическими и теоретическими накоплениями относительными частотами по каждому разряду
Максимальное расхождение на Рис. 4.9 обозначено как dmax Именно эта, третья позиция цвета, и является переломной точкой, определяющей, достоверно ли отличается данное эмпирическое распределение от равномерного. Мы проверим это при рассмотрении Примера 1.
Ограничения критерия λ
1. Критерии требует, чтобы выборка была достаточно большой. При сопоставлении двух эмпирических распределений необходимо, чтобы n1,2 >50. Сопоставление эмпирического распределения с теоретическим иногда допускается при n>5 (Ван дер Варден Б.Л., 1960; Гублер Е.В., 1978).
2. Разряды должны быть упорядочены по нарастанию или убыванию какого-либо признака. Они обязательно должны отражать какое-то однонаправленное его изменение. Например, мы можем за разряды принять дни недели, 1-й, 2-й, 3-й месяцы после прохождения курса терапии, повышение температуры тела, усиление чувства недостаточности и т. д. В то же время, если мы возьмем разряды, которые случайно оказались выстроенными в данную последовательность, то и накопление частот будет отражать лишь этот элемент случайного соседства разрядов. Например, если шесть стимульных картин в методике Хекхаузена разным испытуемым предъявляются в разном порядке, мы не вправе говорить о накоплении реакций при переходе от картины №1 стандартного набора к картине №2 и т. д. Мы не можем говорить об однонаправленном изменении признака при сопоставлении категорий "очередность рождения", "национальность", "специфика полученного образования" и т.п. Эти данные представляют собой номинативные шкалы: в них нет никакого однозначного однонаправленного изменения признака.
Итак, мы не можем накапливать частоты по разрядам, которые отличаются лишь качественно и не представляют собой шкалы порядка. Во всех тех случаях, когда разряды представляют собой не упорядоченные по возрастанию или убыванию какого-либо признака категории, нам следует применять метод χ2 .
Пример 1: Сопоставление эмпирического распределения с теоретическим
В выборке здоровых лиц мужского пола, студентов технических и военно-технических вузов в возрасте от 19-ти до 22 лет, средний возраст 20 лет, проводился тест Люшера в 8-цветном варианте. Установлено, что желтый цвет предпочитается испытуемыми чаще, чем отвергается (Табл. 4.16). Можно ли утверждать, что распределение желтого цвета по 8-и позициям у здоровых испытуемых отличается от равномерного распределения?
Таблица 4.16
Эмпирические частоты попадания желтого цвета на каждую из 8 позиций (n=102)
Разряды |
Позиции желтого цвета |
Сумма |
||||||
1 |
2 |
3 4 |
5 |
6 |
7 |
8 |
||
Эмпирические частоты |
24 |
25 |
13 | 8 |
15 |
10 |
9 |
8 |
102 |
Сформулируем гипотезы.
H0: Эмпирическое распределение желтого цвета по восьми позициям не отличается от равномерного распределения.
H1: Эмпирическое распределение желтого цвета по восьми позициям отличается от равномерного распределения.
Теперь приступим к расчетам, постепенно заполняя результатами таблицу расчета критерия λ. Все операции лучше прослеживать по Табл. 4.17, тогда они будут более понятными.
Занесем в таблицу наименования (номера) разрядов и соответствующие им эмпирические частоты (первый столбец Табл. 4.17).
Затем рассчитаем эмпирические частости ƒ* по формуле:
ƒ*j = ƒ*/n
где fj - частота попадания желтого цвета на данную позицию; n - общее количество наблюдений;
j - номер позиции по порядку.
Запишем результаты во второй столбец (см. Табл. 4.17).
Теперь нам нужно подсчитать накопленные эмпирические частости ∑ƒ*. Для этого будем суммировать эмпирические частости ƒ*. Например, для 1-го разряда накопленная эмпирическая частость будет равняться эмпирической частости 1-го разряда, Eƒ*1=0,2359 .
Для 2-го разряда накопленная эмпирическая частость будет представлять собой сумму эмпирических частостей 1-го и 2-го разрядов:
Eƒ*1+2=O,235+0,147=0,382
Для 3-го разряда накопленная эмпирическая частость будет представлять собой сумму эмпирических частостей 1-го, 2-го и 3-го разрядов:
Eƒ*1+2+3=0,235+0,147+0,128=0,510
Мы видим, что можно упростить задачу, суммируя накопленную эмпирическую частость предыдущего разряда с эмпирической частостью данного разряда, например, для 4-го разряда:
Eƒ*1+2+3+4=0,510+0,078=О,588
Запишем результаты этой работы в третий столбец.
Теперь нам необходимо сопоставить накопленные эмпирические частости с накопленными теоретическими частостями. Для 1-го разряда теоретическая частость определяется по формуле:
f*теор=1/k
9Все формулы приведены для дискретных признаков, которые могут быть выражены целыми числами, например: порядковый номер, количество испытуемых, количественный состав группы и т.п.
где k - количество разрядов (в данном случае - позиций цвета).
Для рассматриваемого примера:
f*теор =1/8=0,125
Эта теоретическая частость относится ко всем 8-и разрядам. Действительно, вероятность попадания желтого (или любого другого) цвета на каждую из 8-и позиций при случайном выборе составляет 1/8, т.е. 0,125.
Накопленные теоретические частости для каждого разряда определяем суммированием.
Для 1-го разряда накопленная теоретическая частость равна теоретической частости попадания в разряд:
f*т1=0,125
Для 2-го разряда накопленная теоретическая частость представляет собой сумму теоретических частостей 1-го и 2-го разрядов:
f*т1+2=0,125+0,125=0,250
Для 3-го разряда накопленная теоретическая частость представляет собой сумму накопленной к предыдущему разряду теоретической частости с теоретической частостью данного разряда:
f*т1+2+3=0,250+0,125=0,375
Можно определить теоретические накопленные частости и путем умножения:
S f*тj= f*теор*j
где f*теор - теоретическая частость;
j - порядковый номер разряда.
Занесем рассчитанные накопленные теоретические частости в четвертый столбец таблицы (Табл. 4.17).
Теперь нам осталось вычислить разности между эмпирическими и теоретическими накопленными частостями (столбцы 3-й и 4-й). В пятый столбец записываются абсолютные величины этих разностей, обозначаемые как d.
Определим по столбцу 5, какая из абсолютных величин разности является наибольшей. Она будет называться dmax. В данном случае dmax =0,135.
Теперь нам нужно обратиться к Табл. X Приложения 1 для определения критических значений dmax при n=102.
Таблица 4.17
Расчет критерия при сопоставлении распределения выборов желтого цвета с равномерным распределением (n=102)
Позиция желтого цвета |
Эмпирическая частота |
Эмпирическая частость |
Накопленная эмпирическая частость |
Накопленная теоретическая частость |
Разность |
1 |
24 |
0,235 |
0,235 |
0,125 |
0,110 |
2 |
15 |
0,147 |
0,382 |
0,250 |
0,132 |
3 |
13 |
0,128 |
0,510 |
0,375 |
0,135 |
4 |
8 |
0,078 |
0,588 |
0,500 |
0,088 |
5 |
15 |
0,147 |
0,735 |
0,625 |
0,110 |
6 |
10 |
0,098 |
0,833 |
0,750 |
0,083 |
7 |
9 |
0,088 |
0,921 |
0,875 |
0,046 |
8 |
8 |
0,079 |
1,000 |
1,000 |
0,000 |
Суммы |
102 |
1,000 |
Для данного случая, следовательно,
Очевидно, что чем больше различаются распределения, тем больше и различия в накопленных частостях. Поэтому нам не составит труда распределить зоны значимости и незначимое™ по соответствующей оси:
dэмп =0,135
dэмп- dкр
Ответ: Но отвергается при р=0,05. Распределение желтого цвета по восьми позициям отличается от равномерного распределения. Представим все выполненные действия в виде алгоритма
АЛГОРИТМ 14
Расчет абсолютной величины разности d между эмпирическим и равномерным распределениями
1. Занести в таблицу наименования разрядов и соответствующие им эмпирические частоты (первый столбец).
2. Подсчитать относительные эмпирические частоты (частости) для каждого разряда по формуле:
ƒ*эмп = ƒэмп /n
где ƒэмп - эмпирическая частота по данному разряду;
п - общее количество наблюдений.
Занести результаты во второй столбец.
3. Подсчитать накопленные эмпирические частости ∑f*j по формуле:
∑f*j=∑f*j -1+f*j
где ∑f*j -1 - частость, накопленная на предыдущих разрядах;
j - порядковый номер разряда;
f*j:- эмпирическая частость данного j-ro разряда.
Занести результаты в третий столбец таблицы.
4. Подсчитать накопленные теоретические частости для каждого разряда по формуле:
∑f*тj=∑f*тj -1+f*тj
где =∑f*тj -1 - теоретическая частость, накопленная на предыдущих разрядах;
j - порядковый номер разряда;
ƒ*тj : - теоретическая частость данного разряда. Занести результаты в третий столбец таблицы.
Если dmax равно критическому значению d или превышает его, различия между распределениями достоверны.
Пример 2: сопоставление двух эмпирических распределений
Интересно сопоставить данные, полученные в предыдущем примере, с данными обследования X. Кларом 800 испытуемых (Klar H., 1974, р. 67). X. Кларом было показано, что желтый цвет является единственным цветом, распределение которого по 8 позициям не отличается от равномерного. Для сопоставлений им использовался метод χ2. Полученные им эмпирические частоты представлены в Табл. 4.18.
Таблица 4.18
Эмпирические частоты попадания желтого цвета на каждую из 8 позиций в исследовании X. Клара (по: Klar H., 1974) (п=800)
Разряды-позиции желтого цвета |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
Сумма |
Эмпирические частоты |
98 |
113 |
116 |
87 |
91 |
112 |
97 |
86 |
800 |
Сформулируем гипотезы.
Н0: Эмпирические распределения желтого цвета по 8 позициям в отечественной выборке и выборке X. Клара не различаются.
H1: Эмпирические распределения желтого цвета по 8 позициям в отечественной выборке и выборке X. Клара отличаются друг от друга.
Поскольку в данном случае мы будем сопоставлять накопленные эмпирические частости по каждому разряду, теоретические частости нас не интересуют.
Все расчеты будем проводить в таблице по алгоритму 15.
АЛГОРИТМ 15
Расчет критерия λ при сопоставления двух эмпирических распределений
ƒ*э=ƒэ/n1
где ƒэ - эмпирическая частота в данном разряде;
n1[ - количество наблюдений в выборке.
Занести эмпирические частости распределения 1 в третей столбец.
3. Подсчитать эмпирические частости по каждому разряду для распределения 2 по формуле:
ƒ*э=ƒэ/n2
где ƒэ - эмпирическая частота в данном разряде;
n2 - количество наблюдений во 2-й выборке.
Занести эмпирические частости распределения 2 в четвертый столбец таблицы.
4. Подсчитать накопленные эмпирические частости для распределения 1 по формуле:
∑ƒ*j =∑ƒ*j-1 +ƒ*j
где ∑ƒ*j-1 - частость, накопленная на предыдущих разрядах;
j - порядковый номер разряда;
ƒ*j-1 - частости данного разряда.
Полученные результаты записать в пятый столбец.
4пах-
8. Подсчитать значение критерия λ по формуле:
где n1 - количество наблюдений в первой выборке;
n2 - количество наблюдении во второй выборке.
9. По Табл. XI Приложения 1 определить, какому уровню статистической значимости соответствует полученное значение λ.
Если λэмп > 1,36, различия между распределениями достоверны.
Последовательность выборок может быть выбрана произвольно, так как расхождения между ними оцениваются по абсолютной величине разностей. В нашем случае первой будем считать отечественную выборку, второй - выборку Клара.
Таблица 4.19
Расчет критерия при сопоставлении эмпирических распределений
желтого цвета в отечественной выборке (n1=102)
и выборке Клара (п2=:800)
Позиция желтого цвета |
Эмпирические частоты |
Эмпирические частости |
Накоплены эмпирические частности |
Разность ∑ƒ*1-∑ƒ*2 |
|||
ƒ1 |
ƒ2 |
ƒ*1 |
ƒ*2 |
∑ƒ*1 |
∑ƒ*2 |
||
1 |
24 |
98 |
0,235 |
0,123 |
0,235 |
0,123 |
0,112 |
2 |
15 |
113 |
0,147 |
0,141 |
0,382 |
0,264 |
0,118 |
3 |
13 |
116 |
0,128 |
0,145 |
0,510 |
0,409 |
0,101 |
4 |
8 |
87 |
0,078 |
0,109 |
0,588 |
0,518 |
0,070 |
5 |
15 |
91 |
0,147 |
0,114 |
0,735 |
0,632 |
0,103 |
6 |
10 |
112 |
0,098 |
0,140 |
0,833 |
0,772 |
0,061 |
7 |
9 |
97 |
0,088 |
0,121 |
0,921 |
0,893 |
0,028 |
8 |
8 |
86 |
0,079 |
0,107 |
1,000 |
1,000 |
0 |
Суммы |
102 |
800 |
1,000 |
1,000 |
Максимальная разность между накопленными эмпирическими частостями составляет 0,118 и падает на второй разряд.
В соответствии с пунктом 8 алгоритма 15 подсчитаем значение λ:
По Табл. XI Приложения 1 определяем уровень статистической
значимости полученного значения: р=0,16 :
Построим для наглядности ось значимости.
На оси указаны критические значения λ соответствующие принятым уровням значимости: λ0,05=1,36, λ0,01=1,63.
Зона значимости простирается вправо, от 1,63 и далее, а зона незначимости влево, от 1,36 к меньшим значениям.
λ эмп < λкр
Ответ: Но принимается. Эмпирические распределения желтого цвета по 8 позициям в отечественной выборке и выборке X. Клара совпадают. Таким образом, распределения желтого цвета в двух выборках не различаются, но в то же время они по-разному соотносятся с равномерным распределением: у Клара отличий от равномерного распределения не обнаружено, а 8 отечественной выборке различия обнаружены (р<0,05). Возможно, картину могло бы прояснить применение другого метода?
Е.В. Гублер (1978) предложил сочетать использование критерия λ с критерием φ* (угловое преобразование Фишера).
Об этих возможностях сочетания методов λ и φ* мы поговорим в следующей лекции.
.5. Алгоритм выбора критерия для сравнения распределений
Курс: «Математические методы в психологии»
(Материалы для самостоятельного изучения студентам психологам и социальным работникам)
ТЕМА № 7
МНОГОФУНКЦИОНАЛЬНЫЕ СТАТИСТИЧЕСКИЕ КРИТЕРИИ
Вопросы:
1. Понятие многофункциональных критериев.
2. Критерий φ* - угловое преобразование Фишера.
3. Биноминальный критерий m.
4. Многофункциональные критерии как эффективные
заменители традиционных.
Вопрос 1
Понятие многофункциональных критериев
Многофункциональные статистические критерии - это критерии, которые могут использоваться по отношению к самым разнообразным данным, выборкам и задачам.
Это означает, что данные могут быть представлены в любой шкале, начиная от номинативной (шкалы наименований).
Это означает также, что выборки могут быть как независимыми, так и "связанными", то есть мы можем с помощью многофункциональных критериев сравнивать и разные выборки испытуемых, и показатели одной и той же выборки, измеренные в разных условиях. Нижние границы выборок - 5 наблюдений, но возможно применение критериев и по отношению к выборкам с n=2, с некоторыми оговорками (см. разделы "Ограничения критерия φ* и "Ограничения биномиального критерия m").
Верхняя граница выборок задана только в биномиальном критерии - 50 человек. В критерии φ* Фишера верхней границы не существует - выборки могут быть сколь угодно большими.
Многофункциональные критерии позволяют решать задачи сопоставления уровней исследуемого признака, сдвигов в значениях исследуемого признака и сравнения распределений.
К числу многофункциональных критериев в полной мере относится критерий φ* Фишера (угловое преобразование Фишера) и, с некоторыми оговорками - биномиальный критерий m.
Многофункциональные критерии построены на сопоставлении долей, выраженных в долях единицы или в процентах. Суть критериев состоит в определении того, какая доля наблюдений (реакций, выборов, испытуемых) в данной выборке характеризуется интересующим исследователя эффектом и какая доля этим эффектом не характеризуется.
Таким эффектом может быть:
а) определенное значение качественно определяемого признака - например:
*выражение согласия с каким-либо предложением;
*выбор правой дорожки из двух симметричных дорожек;
*отнесенность к определенному полу;
*присутствие фигуры отца в раннем воспоминании и др.;
б) определенный уровень количественно измеряемого признака, например:
*получение оценки, превосходящей проходной балл;
*решение задачи менее чем за 20 сек;
*факт работы в команде, по численности превышающей 4-х человек;
*выбор дистанции в разговоре, превышающей 50 см, и др.;
в) определенное соотношение значений или уровней исследуемого признака, например:
*более частый выбор альтернатив А и Б по сравнению с альтернативами В и Г;
*преимущественное проявление крайних значений признака, как самых высоких, так и самых низких;
*преобладание положительных сдвигов над отрицательными и др.
Итак, путем сведения любых данных к альтернативной шкале "Есть эффект - нет эффекта" многофункциональные критерии позволяют решать все три задачи сопоставлений - сравнения "уровней", оценки "сдвигов" и сравнения распределений.
Критерий φ* применяется в тех случаях, когда *обследованы две выборки испытуемых, биномиальный критерий m - в тех случаях, когда
*обследована лишь одна выборка испытуемых.
Правила выбора одного из этих критериев отражены в Алгоритме 19.
Вопрос 2
Критерий φ* угловое преобразование Фишера
Данный метод описан во многих руководствах (Плохинский НА., 1970; Гублер Е.В., 1978; Ивантер Э.В., Коросов А.В., 1992 и др.) Настоящее описание опирается на тот вариант метода, который был разработан и изложен Е.В. Гублером.
Назначение критерия φ*
Критерий Фишера предназначен для сопоставления двух выборок по частоте встречаемости интересующего исследователя эффекта.
Описание критерия φ*
Критерий оценивает достоверность различий между процентными долями двух выборок, в которых зарегистрирован интересующий нас эффект.
Суть углового преобразования Фишера состоит в переводе процентных долей в величины центрального угла , который измеряется в радианах1. Большей процентной доле будет соответствовать больший угол φ*, а меньшей доле - меньший угол, но соотношения здесь не линейные:
1. Подробнее об этом см. в Математическим сопровождении в клонце данной темы.
где Р - процентная доля, выраженная в долях единицы (см. Рис. 5.1).
При увеличении расхождения между углами φ*1 и φ*2 и увеличения численности выборок значение критерия возрастает. Чем больше величина φ*, тем более вероятно, что различия достоверны.
Гипотезы
H0: Доля лиц, у которых проявляется исследуемый эффект, в выборке
1 не больше, чем в выборке 2.
Н1: Доля лиц, у которых проявляется исследуемый эффект, в выборке
1 больше, чем в выборке 2.
Графическое представление критерия φ*
Метод углового преобразования несколько более абстрактен, чем остальные критерии.
Формула, которой придерживается Е. В. Гублер при подсчете значений φ*, предполагает, что 100% составляют угол φ=3,142, то есть округленную величину ή=3,14159... Это позволяет нам представить сопоставляемые выборки в виде двух полукругов, каждый из которых символизирует 100% численности своей выборки. Процентные доли испытуемых с "эффектом" будут представлены как секторы, образованные центральными углами φ. На Рис. 5.2 представлены два полукруга, иллюстрирующие
Пример 1. В первой выборке 60% испытуемых решили задачу. Этой процентной доле соответствует угол φ=1,772. Во второй выборке 40% испытуемых решили задачу. Этой процентной доле соответствует угол φ=1,369.
Рис. 5.2. Графическое представление углов, образованных процентными долями испытуемых, решивших задачу в группе 1 (слева) и в группе 2 (справа); отсчет углов идет справа налево.
Критерий φ* позволяет определить, действительно ли один из углов статистически достоверно превосходит другой при данных объемах выборок.
Ограничения критерия φ*
Ни одна из сопоставляемых долей не должна быть равной нулю. Формально нет препятствий для применения метода φ в случаях, когда доля наблюдений в одной из выборок равна 0. Однако в этих случаях результат может оказаться неоправданно завышенным (Гублер Е.В., 1978, с. 86).
Верхний предел в критерии φ отсутствует - выборки могут быть сколь угодно большими.
Нижний предел - 2 наблюдения в одной из выборок. Однако должны соблюдаться следующие соотношения в численности двух выборок:
а) если в одной выборке всего 2 наблюдения, то во второй должно быть не менее 30:
n1 =2 → n2 ≥ 30;
б) если в одной из выборок всего 3 наблюдения, то во второй
должно быть не менее 7:
n1 =3 → n2 ≥7;
в) если в одной из выборок всего 4 наблюдения, то во второй
должно быть не менее 5:
n1 =4 → n2 ≥5;
г) при n1, n2 ≥5 возможны любые сопоставления.
В принципе возможно и сопоставление выборок, не отвечающих этому условию, например, с соотношением n1=2, n2=15, но в этих случаях не удастся выявить достоверных различий.
Других ограничений у критерия φ* нет.
Рассмотрим несколько примеров, иллюстрирующих возможности критерия φ*.
Пример 1: сопоставление выборок по качественно
определяемому признаку.
Пример 2: сопоставление выборок по количественно
измеряемому признаку.
Пример 3: сопоставление выборок и по уровню, и по
распределению признака.
Пример 4: использование критерия φ* в сочетании с критерием λ Колмогорова-Смирнова в целях достижения максимально точного результата.
Пример 1 - сопоставление выборок по качественно
определяемому признаку
В данном варианте использования критерия мы сравниваем процент испытуемых в одной выборке, характеризующихся каким-либо качеством, с процентом испытуемых в другой выборке, характеризующихся тем же качеством.
Допустим, нас интересует, различаются ли две группы студентов по успешности решения новой экспериментальной задачи. В первой группе из 20 человек с нею справились 12 человек, а во второй выборке из 25 человек - 10. В первом случае процентная доля решивших задачу составит 12/20*100%=60%, а во второй 10/25*100%=40%. Достоверно ли различаются эти процентные доли при данных n1 и n2?
Казалось бы, и "на глаз" можно определить, что 60% значительно выше 40%. Однако на самом деле эти различия при данных n1, n2 недостоверны.
Проверим это. Поскольку нас интересует факт решения задачи, будем считать "эффектом" успех в решении экспериментальной задачи, а отсутствием эффекта - неудачу в ее решении.
Сформулируем гипотезы.
Но: Доля лиц, справившихся с задачей, в первой группе не больше, чем во второй группе.
H1: Доля лиц, справившихся с задачей, в первой группе больше, чем во второй группе.
Теперь построим так называемую четырехклеточную, или четырехпольную таблицу, которая фактически представляет собой таблицу эмпирических частот по двум значениям признака: "есть эффект" - "нет эффекта".
Таблица 5.1
Четырехклеточная таблица для расчета критерия при сопоставлении двух групп испытуемых по процентной доле решивших задачу.
Группы |
«Есть эффект»: задача решена |
«Нет эффект»: задача не решена |
Сум-мы |
||||
Количество испытуемых |
% доля |
Количество испытуемых |
% доля |
||||
1 группа |
12 |
(60%) |
A |
8 |
(40%) |
Б |
20 |
2 группа |
10 |
(40%) |
B |
15 |
(60%) |
Г |
25 |
Суммы |
22 |
23 |
45 |
В четырёхклеточной таблице, как правило, сверху размечаются столбцы "Есть эффект" и "Нет эффекта", а слева - строки "1 группа" и "2 группа". Участвуют в сопоставлениях, собственно, только поля (ячейки) А и В, то есть процентные доли по столбцу "Есть эффект".
По Табл. XII Приложения 1 определяем величины φ, соответствующие процентным долям в каждой из групп.
φ 1 (6О%)=1,772
φ 2 (4О%) =1,369
Теперь подсчитаем эмпирическое значение φ* по формуле:
где φ1 - угол, соответствующий большей % доле;
φ2 - угол, соответствующий меньшей % доле;
n1- количество наблюдений в выборке 1;
n2- количество наблюдений в выборке 2.
В данном случае:
φ1 угол, соответствующий большей %-й доле;
φ2 - угол, соответствующий меньшей %-й доле;
n1 количество наблюдений в выборке 1;
n2 - количество наблюдений в выборке 2.
В данном случае:
По Табл. ХШ Приложения 1 определяем, какому уровню значимости соответствует φ*эмп=1,34:
Р=0,09
Можно установить и критические значения φ*, соответствующие принятым в психологии уровням статистической значимости:
φэмп=1,34
φэмп< φкр
Построим «ось значимости».
Полученное эмпирическое значение φ* находится в зоне незначимости.
Ответ: Но принимается. Доля лиц, справившихся с задачей, в первой группе не больше, чем во второй группе.
Можно лишь посочувствовать исследователю, который считает существенными различия в 20% и даже в 10%, не проверив их достоверность с помощью критерия φ*. В данном случае, например, достоверными были бы только различия не менее чем в 24,3%.
Похоже, что при сопоставлении двух выборок по какому-либо качественному признаку критерий φ может нас скорее огорчить, чем обрадовать. То, что казалось существенным, со статистической точки зрения может таковым не оказаться.
Гораздо больше возможностей порадовать исследователя появляется у критерия Фишера тогда, когда мы сопоставляем две выборки по количественно измеренным признакам и можем варьировать "эффект".
Пример 2 - сопоставление двух выборок по количественно измеряемому признаку
В данном варианте использования критерия мы сравниваем процент испытуемых в одной выборке, которые достигают определенного уровня значения признака, с процентом испытуемых, достигающих этого уровня в другой выборке.
В исследовании Г. А. Тлегеновой (1990) из 70 юношей - учащихся ПТУ в возрасте от 14 до 16 лет было отобрано по результатам обследования по Фрайбургскому личностному опроснику 10 испытуемых с высоким показателем по шкале Агрессивности и 11 испытуемых с низким показателем по шкале Агрессивности. Необходимо определить, различаются ли группы агрессивных и неагрессивных юношей по показателю расстояния, которое они спонтанно выбирают в разговоре с сокурсником. Данные Г. А. Тлегеновой представлены в Табл. 5.2. Можно заметить, что агрессивные юноши чаще выбирают расстояние в 50 см или даже меньше, в то время как неагрессивные юноши чаще выбирают расстояние, превышающее 50 см.
Теперь мы можем рассматривать расстояние в 50 см как критическое и считать, что если выбранное испытуемым расстояние меньше или равно 50 см, то "эффект есть", а если выбранное расстояние больше 50 см, то "эффекта нет". Мы видим, что в группе агрессивных юношей эффект наблюдается в 7 из 10, т. е. в 70% случаев, а в группе неагрессивных юношей - в 2 из 11, т. е. в 18,2% случаев. Эти процентные доли можно сопоставить по методу φ*, чтобы установить достоверность различий между ними.
Таблица 5.2
Показатели расстояния (в см), выбираемого агрессивными и
неагрессивными юношами в разговоре с сокурсником
(по данным Г.А. Тлегеновой, 1990)
Группа 1: юноши с высокими показателями по шкале Агрессивности FPI-R2 (n1=10) |
Группа 2: юноши с низкими значениями по шкале Агрессивности FPI-R (n2=11) |
|||
d(см) |
% доля |
d(см) |
% доля |
|
«Есть эффект» d≤50см |
30 |
|||
40 |
||||
40 |
||||
45 |
||||
50 |
70% |
18,2% |
||
50 |
||||
50 |
||||
50 |
||||
50 |
||||
«нет эффекта» d>50см |
65 |
|||
70 |
||||
75 |
||||
75 |
||||
75 |
||||
75 |
||||
80 |
30% |
81,8% |
||
90 |
||||
100 |
||||
100 |
||||
100 |
||||
100 |
||||
Суммы |
560 |
100% |
850 |
100% |
Средние |
56,0 |
77.3 |
2 FPI-R - Фрайбургский личностный опросник
Сформулируем гипотезы.
Но- Доля лиц, которые выбирают дистанцию d≤50см, в группе агрессивных юношей не больше, чем в группе неагрессивных юношей.
H1: Доля лиц, которые выбирают дистанцию d≤50см , в группе агрессивных юношей больше, чем в группе неагрессивных юношей. Теперь построим так называемую четырехклеточную таблицу.
Таблица 5.3
Четырехклеточная таблица для расчета критерия ф* при сопоставлении групп агрессивных (n1=10) и неагрессивных юношей (п2=11)
Группы |
«Есть эффект»: d≤50см |
«Нет эффекта»: d>50см |
|||||
Количество испытуемых |
( %доля) |
Количество испытуемых |
( %доля) |
Суммы |
|||
1 группа - агрессивные юноши |
7 |
(70%) |
А |
3 |
(30%) |
Б |
10 |
2 группа - неагрессивные юноши |
2 |
(18,2%) |
В |
9 |
(81,8%) |
Г |
11 |
Сумма |
9 |
12 |
21 |
По Табл. XII Приложения 1 определяем величины φ, соответствующие процентным долям "эффекта" в каждой из групп.
φ*(70%) =1,982
φ*(18,2%)=0,881
Подсчитаем эмпирическое значение φ *:
Критические значения φ* нам уже известны:
Построим для наглядности «ось значимости».
Полученное эмпирическое значение φ* находится в зоне значимости.
Ответ: H0 отвергается. Принимается Н1.
Доля лиц, которые выбирают дистанцию в беседе меньшую или равную 50 см, в группе агрессивных юношей больше, чем в группе неагрессивных юношей (р<0,01).
На основании полученного результата мы можем сделать заключение, что более агрессивные юноши чаще выбирают расстояние менее полуметра, в то время как неагрессивные юноши чаще выбирают большее, чем полметра, расстояние. Мы видим, что агрессивные юноши общаются фактически на границе интимной (046 см) и личной зоны (от 46 см). Мы помним, однако, что интимное расстояние между партнерами является прерогативой не только близких добрых отношений, но и рукопашного боя (Hall E.T., 1959).
Пример 3 - сопоставление выборок и по уровню, и по распределению признака.
В данном варианте использования критерия мы вначале можем проверить, различаются ли группы по уровню какого-либо признака, а затем сравнить распределения признака в двух выборках. Такая задача может быть актуальной при анализе различий в диапазонах или форме распределения оценок, получаемых испытуемыми по какой-либо новой методике.
В исследовании Р. Т. Чиркиной (1995) впервые использовался опросник, направленный на выявление тенденции к вытеснению из памяти фактов, имен, намерений и способов действия, обусловленному личными, семейными и профессиональными комплексами. Опросник был создан при участии Е. В. Сидоренко на основании материалов книги 3. Фрейда "Психопатология обыденной жизни". Выборка из 50 студентов Педагогического института, не состоящих в браке, не имеющих детей, в возрасте от 17 до 20 лет, была обследована с помощью данного опросника, а также методики Менестера-Корзини для выявления интенсивности ощущения собственной недостаточности, или "комплекса неполноценности" (Manaster G, J., Corsini R. J., 1982).
Результаты обследования представлены в Табл. 5.4.
Можно ли утверждать, что между показателем энергии вытеснения, диагностируемым с помощью опросника, и показателями интенсивности ощущения собственной недостаточности существуют какие-либо значимые соотношения?
Таблица 5.4
Показатели интенсивности ощущения собственной недостаточности в группах студентов с высокой (п1=18) и низкой (п2=24) энергией вытеснения
Группа 1: энергия вытеснения от 19 до 31 балла (n1=18) |
Группа 2: энергия вытеснения от 7 до 13 баллов (n2=24) |
|
0, 0, 0, 0, 0 |
0, 0, |
|
5, 5, 5, 5 |
||
10, 10, 10, 10, 10, 10 |
||
15, 15 |
||
20, 20 |
20, 20, 20, 20 |
|
30, 30, 30, 30, 30, 30, 30 |
30, 30, 30, 30, 30, 30 |
|
50, 50 |
||
60, 60 |
||
Суммы |
470 |
370 |
Средние |
26,11 |
15,42 |
Несмотря на то, что средняя величина в группе с более энергичным вытеснением выше, в ней наблюдаются также и 5 нулевых значений. Если сравнить гистограммы распределения оценок в двух выборках, то между ними обнаруживается разительный контраст (Рис. 5.3).
Рис.5.3. Гистограммы распределения показателен интенсивности ощущения недостаточности 8 группе с более энергичным вытеснением (а) и менее энергичным вытеснением (б)
Для сравнения двух распределений мы могли бы применить критерий χ2 или критерий λ, но для этого нам пришлось бы укрупнять разряды, а кроме того, в обеих выборках n<30.
Критерии ф* позволит нам проверить наблюдаемый на графике эффект несовпадения двух распределений, если мы условимся считать, что "эффект есть", если показатель чувства недостаточности принимает либо очень низкие (0), либо, наоборот, очень высокие значения (>30), и что "эффекта нет", если показатель чувства недостаточности принимает средние значения, от 5 до 25.
Сформулируем гипотезы.
H0: Крайние значения показателя недостаточности (либо 0, либо 30 и более) в группе с более энергичным вытеснением встречаются не чаще, чем в группе с менее энергичным вытеснением.
H1: Крайние значения показателя недостаточности (либо 0, либо 30 и более) в группе с более энергичным вытеснением встречаются чаще, чем в группе с менее энергичным вытеснением.
Создадим четырехклеточную таблицу, удобную для дальнейшего расчета критерия ф*.
Таблица 5.5
Четырехклеточная таблица для расчета критерия ф* при сопоставлении групп с большей и меньшей энергией вытеснения по соотношению
показателей недостаточности
Группы |
"Есть эффект": показатель недостаточности равен 0 или >30 |
"Нет эффекта": показатель недостаточности от 5 до 25 |
Суммы |
||
1 группа - с большей энергией вытеснения |
16 |
(88,9%) |
2 |
(11,1%) |
18 |
2 группа - с меньшей энергией вытеснения |
8 |
(33,3%) |
16 |
(66,7%) |
24 |
Суммы |
24 |
18 |
423 |
По Табл. XII Приложения 1 определим величины φ, соответствующие сопоставляемым процентным долям:
φ 1(88,9%)=2,462
φ 2(33,3%)=1.230
Подсчитаем эмпирическое значение φ*:
3. В первоначальной выборке было 50 человек, но 8 из них были исключены из рассмотрения как имеющие средний балл по показателю энергии вытеснения (14-15). Показатели интенсивности чувства недостаточности у них тоже средние: 6 значений по 20 баллов и 2 значения по 25 баллов.
Критические значения φ* при любых n1, n2, как мы помним из предыдущего примера, составляют:
φ*эмп=3,951
φ*эмп > φ*кр (p≤0.01)
Табл. XIII Приложения 1 позволяет нам и более точно определить уровень значимости полученного результата: р<0,001.
Ответ: H0 отвергается. Принимается H1. Крайние значения показателя недостаточности (либо 0, либо 30 и более) в группе с большей энергией вытеснения встречаются чаще, чем в группе с меньшей энергией вытеснения.
Итак, испытуемые с большей энергией вытеснения могут иметь как очень высокие (30 и более), так и очень низкие (нулевые) показатели ощущения собственной недостаточности. Можно предположить, что они вытесняют и свою неудовлетворенность, и потребность в жизненном успехе. Эти предположения нуждаются в дальнейшей проверке.
Полученный результат, независимо от его интерпретации, подтверждает возможности критерия φ* в оценке различий в форме распределения признака в двух выборках.
В мощных возможностях критерия φ* можно убедиться, подтвердив совершенно иную гипотезу при анализе материалов данного примера. Мы можем доказать, например, что в группе с большей энергией вытеснения показатель недостаточности все же выше, несмотря на парадоксальность его распределения в этой группе.
Сформулируем новые гипотезы.
H0: Наиболее высокие значения показателя недостаточности (30 и более) в группе с большей энергией вытеснения встречаются не чаще, чем в группе с меньшей энергией вытеснения.
H1: Наиболее высокие значения показателя недостаточности (30 и более) в группе с большей энергией вытеснения встречаются чаще, чем в группе с меньшей энергией вытеснения. Построим четырехпольную таблицу, используя данные Табл. 5.4.
Таблица 5.6
Четырехклеточная таблица для расчета критерия φ* при
Сопоставлении групп с большей и меньшей энергией вытеснения по уровню показателя недостаточности
Группы |
"Есть эффект": показатель недостаточности больше или равен З0 |
"Н «Нет эффекта»: показатель недостаточности меньше 30 |
Суммы |
||
1 группа - с большей энергией вытеснения |
11 |
(61,1%) |
7 |
(38,9%) |
18 |
2 группа - с меньшей энергией вытеснения |
6 |
(25,0%) |
18 |
(75,0%) |
24 |
Суммы |
17 |
25 |
42 |
По Табл. XII Приложения 1 определяем величины φ*:
φ*1(61,1%)=1,795
φ*2(25,0%)=1,047
Подсчитываем эмпирическое значение φ*:
По Табл. XIII Приложения 1 определяем, что этот результат соответствует уровню значимости р=0,008.
Ответ: H0 отвергается. Принимается Н1: Наиболее высокие показатели недостаточности (30 и более баллов) в группе с большей энергией вытеснения встречаются чаще, чем в группе с меньшей энергией вытеснения (р=0,008).
Итак, нам удалось доказать и то, что в группе с более энергичным вытеснением преобладают крайние значения показателя недостаточности, и то, что больших своих значений этот показатель достигает именно в этой группе.
Теперь мы могли бы попробовать доказать, что в группе с большей энергией вытеснения чаще встречаются и более низкие значения показателя недостаточности, несмотря на то, что средняя величина в этой группе больше (26,11 против 15,42 в группе с меньшим вытеснением).
Сформулируем гипотезы.
Н0: Самые низкие показателя недостаточности (нулевые) в группе с большей энергией вытеснения встречаются не чаще, чем в группе с меньшей энергией вытеснения.
Н1: Самые низкие показатели недостаточности (нулевые) встречаются в группе с большей энергией вытеснения чаще, чем в группе с менее энергичным вытеснением. Сгруппируем данные в новую четырехклеточную таблицу.
Таблица 5.7
Четырехклеточная таблица для сопоставления групп с разной энергией вытеснения по частоте нулевых значений показателя недостаточности
Группы |
"Есть эффект": показатель недостаточности равен 0 |
"Нет эффекта": показатель недостаточности не равен 0 |
Суммы |
||
1 группа - с большей энергией вытеснения |
5 |
(27,8%) |
13 |
(72,2%) |
18 |
2 группа - с меньшей энергией вытеснения |
2 |
(8,3%) |
22 |
(91,7%) |
24 |
Суммы |
7 |
35 |
42 |
Определяем величины (р и подсчитываем значение φ*:
φ*1(27,8%)=1,111
φ*2(8,3%)=0,584
φ*эмп >φ*кр (p≤0.05)
Ответ: H0 отвергается. Самые низкие показатели недостаточности (нулевые) в группе с большей энергией вытеснения встречаются чаще, чем в группе с меньшей энергией вытеснения (р<0,05).
В сумме полученные результаты могут рассматриваться как свидетельство частичного совпадения понятий комплекса у З.Фрейда и А.Адлера.
Существенно при этом, что между показателем энергии вытеснения и показателем интенсивности ощущения собственной недостаточности в целом по выборке получена положительная линейная корреляционная связь (г=+0,491, р<0,01). Как мы можем убедиться, применение критерия φ* позволяет проникнуть в более тонкие и содержательно значимые соотношения между этими двумя показателями.
Пример 4 - использование критерия φ* в сочетании с критерием λ Колмогорова-Смирнова в целях достижения максимально точного результата
Если выборки сопоставляются по каким-либо количественно измеренным показателям, встает проблема выявления той точки распределения, которая может использоваться как критическая при разделении всех испытуемых на тех, у кого "есть эффект" и тех, у кого "нет эффекта".
В принципе точку, по которой мы разделили бы группу на подгруппы, где есть эффект и нет эффекта, можно выбрать достаточно произвольно. Нас может интересовать любой эффект и, следовательно, мы можем разделить обе выборки на две части в любой точке, лишь бы это имело какой-то смысл.
Для того, чтобы максимально повысить мощность критерия φ*, нужно, однако, выбрать точку, в которой различия между двумя сопоставляемыми группами являются наибольшими. Точнее всего мы сможем сделать это с помощью алгоритма расчета критерия λ, позволяющего, обнаружить точку максимального расхождения между двумя выборками.;
Возможность сочетания критериев φ* и λ описана Е.В. Гублером-(1978, с. 85-88). Попробуем использовать этот способ в решении следующей задачи.
В совместном исследовании М.А. Курочкина, Е.В. Сидоренко и Ю.А. Чуракова (1992) в Великобритании проводился опрос английских общепрактикующих врачей двух категорий: а) врачи, поддержавшие медицинскую реформу и уже превратившие свои приемные в фондодержащие организации с собственным бюджетом; б) врачи, чьи приемные по-прежнему не имеют собственных фондов и целиком обеспечиваются государственным бюджетом. Опросники были разосланы выборке из 200 врачей, репрезентативной по отношению к генеральной совокупности английских врачей по представленности лиц разного пола, возраста, стажа и места работы - в крупных городах или в провинции.
Ответы на опросник прислали 78 врачей, из них 50 работающих в приемных с фондами и 28 - из приемных без фондов. Каждый из врачей должен был прогнозировать, какова будет доля приемных с фондами в следующем, 1993 году. На данный вопрос ответили только 70 врачей из 78, приславших ответы. Распределение их прогнозов представлено в Табл. 5.8 отдельно для группы врачей с фондами и группы врачей без фондов.
Различаются ли каким-то образом прогнозы врачей с фондами и врачей без фондов?
Таблица 5.8
Распределение прогнозов общепрактикующих врачей о том, какова будет доля приемных с фондами в 1993 году
№№ |
Прогнозируемая доля приёмных с фондами |
Эмпирические частоты выбора данной категории прогноза |
||
Врачами с фондом (n=45) |
Врачами без фонда (n=25) |
Суммы |
||
1 |
От 0 до 20% |
4 |
5 |
9 |
2 |
От 21 до 40% |
15 |
11 |
26 |
3 |
От 41 до 60% |
18 |
5 |
23 |
4 |
От 61 до 80% |
7 |
4 |
11 |
5 |
От 81 до 100% |
1 |
0 |
1 |
Суммы |
45 |
25 |
70 |
Определим точку максимального расхождения между двумя распределениями ответов по Алгоритму 15 из п. 4.3 (см. Табл, 5.9).
Таблица 5.9
Расчет максимальной разности накопленных частостей в распределениях прогнозов врачей двух групп
№№ |
Прогнозируемая доля приемных с фондом (%) |
Эмпирические частоты выбора данной категории ответа |
Эмпирические частости |
Накопленные эмпирические частости |
Разно-сть (d) |
|||
Врача-ми с фондом (n1=45) |
Врачами без фонда (n2=25) |
ƒ*э1 |
ƒ*э2 |
∑ƒ*э1 |
∑ƒ*э2 |
|||
1 |
От 0 до 20% |
4 |
5 |
0,089 |
0,200 |
0,089 |
0,200 |
0,111 |
2 |
От 21 до 40% |
15 |
11 |
0,333 |
0,440 |
0,422 |
0,640 |
0,218 |
3 |
От 41 до 60% |
18 |
5 |
0,400 |
0,200 |
0,822 |
0,840 |
0,018 |
4 |
От 61 до 80% |
7 |
4 |
0,156 |
0,160 |
0,978 |
1,000 |
0,022 |
5 |
От 81 до 100% |
1 |
0 |
0,022 |
0 |
1,000 |
1,000 |
0 |
Максимальная выявленная между двумя накопленными эмпирическими частостями разность составляет 0,218.
Эта разность оказывается накопленной во второй категории прогноза. Попробуем использовать верхнюю границу данной категории в качестве критерия для разделения обеих выборок на подгруппу, где "есть эффект" и подгруппу, где "нет эффекта". Будем считать, что "эффект есть", если данный врач прогнозирует от 41 до 100% приемных с фондами в 1993 году, и что "эффекта нет", если данный врач прогнозирует от 0 до 40% приемных с фондами в 1993 году. Мы объединяем категории прогноза 1 и 2, с одной стороны, и категории прогноза 3, 4 и 5, с другой. Полученное распределение прогнозов представлено в Табл. 5.10.
Таблица 5.10
Распределение прогнозов у врачей с фондами и врачей без фондов
№№ |
Прогнозируемая доля приёмных с фондами (%) |
Эмпирические частоты выбора данной категории прогноза |
Суммы |
|
Врачами с фондом (n1=45) |
Врачами без фонда (n2=25) |
|||
1 |
От 0 до 40% |
19 |
16 |
35 |
2 |
От 41 до 100% |
26 |
9 |
35 |
Суммы |
45 |
25 |
70 |
Полученную таблицу (Табл. 5.10) мы можем использовать, проверяя разные гипотезы путем сопоставления любых двух ее ячеек. Мы помним, что это так называемая четырехклеточная, или четырехпольная, таблица.
В данном случае нас интересует, действительно ли врачи, уже располагающие фондами, прогнозируют больший размах этого движения в будущем, чем врачи, не располагающие фондами. Поэтому мы условно считаем, что "эффект есть", когда прогноз попадает в категорию от 41 до 100%. Для упрощения расчетов нам необходимо теперь повернуть таблицу на 90°, вращая ее по направлению часовой стрелки. Можно сделать это даже буквально, повернув книгу вместе с таблицей. Теперь мы можем перейти к рабочей таблице для расчета критерия φ* - углового преобразования Фишера.
Таблица 5.11
Четырехклеточная таблица для подсчета критерия ф* Фишера для выявления различий в прогнозах двух групп общепрактикующих врачей
№№ |
Группа |
«Есть эффект» - прогноз от 41 до 100% |
«Нет эффекта» - прогноз от 0 до 40% |
Всего |
1 |
1 группа врачи, взявшие фонд |
26 (57,8%) |
19 (42,2%) |
45 |
2 |
2 группа врач, не взявшие фонд |
9 (36,0%) |
16 (64,0%) |
25 |
Всего |
35 |
35 |
70 |
Сформулируем гипотезы.
H0: Доля лиц, прогнозирующих распространение фондов на 41%-100% всех врачебных приемных, в группе врачей с фондами не больше, чем в группе врачей без фондов.
H1: Доля лиц, прогнозирующих распространение фондов на 41%-100% всех приемных, в группе врачей с фондами больше, чем в группе врачей без фондов.
Определяем величины φ1 и φ2 по Таблице XII приложения 1, Напомним, что φ1 - это всегда угол, соответствующий большей процентной доле.
φ1(57,2%)=1.727
φ2(36.0%)=1.287
Теперь определим эмпирическое значение критерия φ*:
По Табл. ХШ Приложения 1 определяем, какому уровню значимости соответствует эта величина: р=0,039.
По той же таблице Приложения 1 можно определить критические значения критерия φ*:
Для наглядности можем построить "ось значимости":
Ответ: H0 отвергается (р=0,039). Доля лиц, прогнозирующих распространение фондов на 41-100% всех приемных, в группе врачей, взявших фонд, превышает эту долю в группе врачей, не взявших фонда.
Иными словами, врачи, уже работающие в своих приемных на отдельном бюджете, прогнозируют более широкое распространение этой практики в текущем году, чем врачи, пока еще не согласившиеся перейти на самостоятельный бюджет.
Интерпретации этого результата многозначны. Например, можно предположить, что врачи каждой из групп подсознательно считают свое поведение более типичным. Это может означать также, что врачи, уже перешедшие на самостоятельный бюджет, склонны преувеличивать размах этого движения, так как им нужно оправдать свое решение. Выявленные различия могут означать и нечто такое, что вовсе выходит за рамки поставленных в исследовании вопросов.
Например, что активность врачей, работающих на самостоятельном бюджете, способствует заострению различий в позициях обеих групп. Они проявили большую активность, когда согласились взять фонды, они проявили большую активность, когда взяли на себя труд ответить на почтовый опросник; они проявляют большую активность, когда прогнозируют большую активность других врачей в получении фондов.
Так или иначе, мы можем быть уверены, что выявленный уровень статистических различий - максимально возможный для этих реальных данных. Мы установили с помощью критерия "к точку максимального расхождения между двумя распределениями и именно в этой точке разделили выборки на две части.
АЛГОРИТМ 17
Расчет критерия φ*
Определить те значения признака, которые будут критерием для разделения испытуемых на тех, у кого "есть эффект" и тех, у кого "нет эффекта". Если признак измерен количественно, использовать критерий λ для поиска оптимальной точки разделения.
Начертить четырехклеточную таблицу из двух столбцов и двух строк. Первый столбец - "есть эффект"; второй столбец - "нет эффекта"; первая строка сверху - 1 группа (выборка); вторая строка - 2 группа (выборка).
Подсчитать количество испытуемых в первой группе, у которых "есть эффект», и занести это число в левую верхнюю ячейку таблицы.
Подсчитать количество испытуемых в первой выборке, у которых "нет эффекта", и занести это число в правую верхнюю ячейку таблицы. Подсчитать сумму по двум верхним ячейкам. Она должна совпадать с количеством испытуемых в первой группе.
Подсчитать количество испытуемых во второй группе, у которых "есть эффект", и занести это число в левую нижнюю ячейку таблицы.
Подсчитать количество испытуемых во второй выборке, у которых "нет эффекта", и занести это число в правую нижнюю ячейку таблицы. Подсчитать сумму по двум нижним ячейкам. Она должна совпадать с количеством испытуемых во второй группе (выборке).
Определить процентные доли испытуемых, у которых "есть эффект", путем отнесения их количества к общему количеству испытуемых в данной группе (выборке). Записать полученные процентные доли соответственно в левой верхней и левой нижней ячейках таблицы в скобках, чтобы не перепутать их
с абсолютными значениями.
Проверить, не равняется ли одна из сопоставляемых процентных долей нулю. Если это так, попробовать изменить это, сдвинув точку разделения групп в ту или иную сторону. Если это невозможно или нежелательно, отказаться от критерия φ* и использовать критерий χ2.
Определить по Табл. XII Приложения 1 величины углов φ для каждой из сопоставляемых процентных долей.
10. Подсчитать эмпирическое значение φ* по формуле:
где: φ1 - угол, соответствующий большей процентной доле;
φ2 - угол, соответствующий меньшей процентной доле;
n1 - количество наблюдений в выборке 1;
n2 - количество наблюдений в выборке 2.
Сопоставить полученное значение φ* с критическими значениями: φ*<1,64 (р≤0,05) и φ*≤2,31 (р<0,01).
Если φ*эмп > φ*кр., Но отвергается.
При необходимости определить точный уровень значимости полученного φ*эмп по Табл. XIII Приложения 1.
Вопрос 3
Биномиальный критерий m
Назначение критерия m
Критерий предназначен для сопоставления частоты встречаемости какого-либо эффекта с теоретической или заданной частотой его встречаемости.
Он применяется в тех случаях, когда обследована лишь одна выборка объемом не более 300 наблюдений, в некоторых задачах - не больше 50 наблюдений.
Описание критерия
Биномиальный критерий m позволяет оценить, насколько эмпирическая частота интересующего нас эффекта превышает теоретическую, среднестатистическую или какую-то заданную частоту, соответствующую вероятности случайного угадывания, среднему проценту успешности в выполнении данного задания, допустимому проценту брака и т.п.
Биномиальный критерий незаменим, если налицо 2 условия:
а) обследована лишь одна выборка испытуемых, и нет возможности или смысла делить эту выборку на две части с целью дальнейшего применения критерия φ*, так как для нас по каким-то причинам важно исследовать частоту встречаемости признака в выборке в целом;
б)в обследованной выборке менее 30 испытуемых, что не позволяет нам применить критерий χ2.
Если в нашей выборке больше 30 испытуемых, мы все же можем использовать критерий m и тем самым сэкономить время на подсчете χ2.
Эмпирическая частота наблюдений, в которых проявляется интересующий нас эффект, обозначается как т. Это и есть эмпирическое значение критерия m.
Если mэмп равен или превышает mкр. то различия достоверны.
Гипотезы
H0: Частота встречаемости данного эффекта в обследованной выборке не превышает теоретической (заданной, ожидаемой, предполагаемой).
Н1: Частота встречаемости данного эффекта в обследованной выборке превышает теоретическую (заданную, ожидаемую, предполагаемую).
Графическое представление биномиального критерия
Критерии определяет, достаточно ли эмпирическая частота встречаемости признака превышает заданную, "перевешивает" ее. Можно представить себе это как взвешивание эмпирической и теоретической частот на чашечных весах (Рис. 5.4). Весы реагируют только на такие различия s весе, которые соответствуют по крайней мере минимальному уровню значимости р≤0,05.
Рис. 5.4. Сравнение эмпирической и теоретической частот как взвешивание на чашечных весах: а) эмпирическая частота не перевешивает теоретической, весы неподвижны; 6) эмпирическая частота "перевешивает* теоретическую, левая чаша весов опускается.
Ограничения биномиального критерия
В выборке должно быть не менее 5 наблюдений. В принципе возможно применение критерия и при 2≤n<5, но лишь в отношении определенного типа задач (см. Табл. XV Приложения 1).
Верхний предел численности выборки зависит от ограничении, определяемых пп.3-8 и варьирует в диапазоне от 50 до 300 наблюдений, что определяется имеющимися таблицами критических значений.
Биномиальный критерий m позволяет проверить лишь гипотезу о том, что частота встречаемости интересующего нас эффекта в обследованной выборке превышает заданную вероятность Р. Заданная вероятность при этом должна быть: Р≤0,50.
Если мы хотим проверить гипотезу о том, что частота встречаемости интересующего нас эффекта достоверно ниже заданной вероятности, то при Р=0,50 мы можем сделать это с помощью уже известного критерия знаков G, при Р>0,50 мы должны преобразовать гипотезы в противоположные, а при Р<0,50 придется использовать критерий χ2.
По Табл. 5.12 легко определить, какой из путей для нас доступен.
Таблица 5.12
Выбор критерия для сопоставлений эмпирической частоты с
теоретической при разных вероятностях исследуемого эффекта Р
и разных гипотезах.
Заданные вероятности |
Н1: ƒэмп достоверно выше ƒтеор |
Н1: ƒэмп достоверно ниже ƒтеор |
P<0.50 |
А m для 2≤n≤50 |
Б χ2 для n≥50 |
P=0.50 |
Б m для 5≤n≤300 |
Г G для 5≤n≤300 |
P<0.50 |
Д χ2 для n≥50 |
Е m для 2≤n≤50 |
Пояснения к Табл. 5.12
A) Если заданная вероятность Р<0,50, а ƒэмп >ƒтеор (например, допустимый уровень брака - 15%, а в обследованной выборке получено значение в 25%), то биномиальный критерий применим для объема выборки 2≤n≤50.
Б) Если заданная вероятность Р<0,50, а ƒэмп<ƒтеор (например, допустимый уровень брака - 15%, а в обследованной выборке наблюдается 5% брака), то биномиальный критерий неприменим и следует применять критерий χ2 (см. Пример 2).
B) Если заданная вероятность Р=0,50, а ƒэмп>ƒтеор (например, вероятность выбора каждой из равновероятных альтернатив Р=0,50, а в обследованной выборке одна из альтернатив выбирается чаще, чем в половине случаев), то биномиальный критерий применим для объема выборки 5≤n≤300.
Г) Если заданная вероятность Р=0,50, а ƒэмп<ƒтеор (например, вероятность выбора каждой из равновероятных альтернатив Р=0,50, а в обследованной выборке одна из альтернатив наблюдается реже, чем в половине случаев), то вместо биномиального критерия применяется критерий знаков G, являющийся "зеркальным отражением" биномиального критерия при Р=0,50. Допустимый объем выборки: 5≤n≤300.
Д) Если заданная вероятность Р>0,50, а ƒэмп>ƒтеор (например, среднестатистический процент решения задачи - 80/о, а в обследованной выборке он составляет 95%), то биномиальный критерий неприменим и следует применять критерий χ2 (см. Пример 3).
Е) Если заданная вероятность Р>0,50, а ƒэмп<ƒтеор (например, среднестатистический процент решения задачи 80%, а в обследованной выборке он составляет 60%), то биномиальный критерий применим при условии, что в качестве "эффекта" мы будем рассматривать более редкое событие - неудачу в решении задачи, вероятность которого Q=lР=10,80=0,20 и процент встречаемости в данной выборке: 100%75%=25%. Эти преобразования фактически сведут данную задачу к задаче, предусмотренной п. А. Допустимый объем выборки: 5≤n≤300 (см. пример 3).
Пример 1
В процессе тренинга сенситивности в группе из 14 человек выполнялось упражнение "Психологический прогноз". Все участники должны были пристально вглядеться в одного и того же человека, который сам пожелал быть испытуемым в этом упражнении. Затем каждый из участников задавал испытуемому вопрос, предполагавший два заданных варианта ответа, например: "Что в тебе преобладает: отстраненная наблюдательность или включенная эмпатия?" "Продолжал бы ты работать или нет, если бы у тебя появилась материальная возможность не работать?" "Кто тебя больше утомляет - люди нахальные или занудные?" и т. п. Испытуемый должен был лишь молча выслушать вопрос, ничего не отвечая. Во время этой паузы участники пытались определить, как он ответит на данный вопрос, и записывали свои прогнозы. Затем ведущий предлагал испытуемому дать ответ на заданный вопрос. Теперь каждый участник мог определить, совпал ли его прогноз с ответом испытуемого или нет. После того, как было задано 14 вопросов (13 участников + ведущий), каждый сообщил, сколько у него получилось точных прогнозов. В среднем было по 7-8 совпадений, но у одного из участников их было 12, и группа ему спонтанно зааплодировала. У другого участника, однако, оказалось всего 4 совпадения, и он был очень этим огорчен.
Имела ли группа статистические основания для аплодисментов? Имел ли огорченный участник статистические основания для грусти?
Начнем с первого вопроса.
По-видимому, группа будет иметь статистические основания для аплодисментов, если частота правильных прогнозов у участника А превысит теоретическую частоту случайных угадываний. Если бы участник прогнозировал ответ испытуемого случайным образом, то, в соответствии с теорией вероятностей, шансы случайно угадать или не угадать ответ на данный вопрос у него были бы равны P=Q=0,5. Определим теоретическую частоту правильных случайных угадывании:
где n - количество прогнозов;
Р - вероятность правильного прогноза при случайном угадывании.
ƒтеор =14*0,5=7
Итак, нам нужно определить, "перевешивают" ли 12 реально данных правильных прогнозов 7 правильных прогнозов, которые могли бы быть у данного участника, если бы он прогнозировал ответ испытуемого случайным образом.
Требования, предусмотренные ограничением 3, соблюдены: Р=0.50; ƒэмп>ƒтеор. Данный случай относится к варианту "В" Табл. 5.12.
Мы можем сформулировать гипотезы.
H0: Количество точных прогнозов у участника А не превышает частоты, соответствующей вероятности случайного угадывания.
Н1: Количество точных прогнозов у участника А превышает частоту, соответствующую вероятности случайного угадывания.
По Табл. XIV Приложения 1 определяем критические значения критерия m при n=14, Р=0,50:
Мы помним, что за эмпирическое значение критерия m принимается эмпирическая частота:
mэмп=ƒэмп =12
mэмп≥ mкр (р≤0,01)
Построим "ось значимости".
Зона значимости простирается вправо, в область более высоких значений m (более "весомых", если использовать аналогию с весами), а зона незначимости - в область более низких, "невесомых", значений т.
Ответ: H0 отвергается. Принимается H1. Количество точных прогнозов у участника А превышает (или по крайней мере равняется) критической частоте вероятности случайного угадывания (р≤0,01). Группа вполне обоснованно ему аплодировала!
Теперь попробуем ответить на второй вопрос задачи.
По-видимому, основания для грусти могут появиться, если количество правильных прогнозов оказывается достоверно ниже теоретической частоты случайных угадываний. Мы должны определить, 4 точных прогноза участника Б - это достоверно меньше, чем 7 теоретически возможных правильных прогнозов при случайном угадывании или нет?
В данном случае Р=0,50; ƒэмп<ƒтеор. В соответствии с ограничением 4, в данном случае мы должны применить критерий знаков, который по существу является зеркальным отражением или "второй стороной" одностороннего биномиального критерия (вариант "Г" Табл. 5.12).
Вначале нам нужно определить, что является типичным событием для участника Б. Это неправильные прогнозы, их 10. Теперь мы определяем, достаточно ли мало у него нетипичных правильных прогнозов, чтобы считать перевешивание неправильных прогнозов достоверным.
Сформулируем гипотезы.
H0: Преобладание неправильных прогнозов у участника Б является случайным.
Н1: Преобладание неправильных прогнозов у участника Б не является случайным.
По Табл. V Приложения 1 определяем критические значения критерия знаков G для n=14:
Построим "ось значимости". Мы помним, что в критерии знаков зона значимости находится слева, а зона незначимости - справа, так как чем меньше нетипичных событий, тем типичные события являются более достоверно преобладающими.
Эмпирическое значение критерия G определяется как количество нетипичных событий. В данном случае:
GЭМП=4
GЭМП > GТЕОР
Эмпирическое значение критерия G попадает в зону незначимости.
Ответ: H0 принимается. Преобладание неправильных прогнозов у участника Б является случайным.
Участник Б не имел достаточных статистических оснований для огорчения. Дело, однако, в том, что психологическая "весомость" отклонения его оценки значительно перевешивает статистическую. Всякий практикующий психолог согласится, что повод для огорчения у участника Б все же был.
Важная особенность биномиального критерия и критерия знаков состоит в том, что они превращают уникальность, единственность и жизненную резкость произошедшего события в нечто неотличимое от безликой и всепоглощающей случайности. Учитывая это, лучше использовать биномиальный критерий для решения более отвлеченных, формализованных задач, например, для уравновешивания выборок по признаку пола, возраста, профессиональной принадлежности и т. п.
При оценке же личностно значимых событий оказывается, что статистическая сторона дела не совпадает с психологической больше, чем при использовании любого из других критериев.
Пример 2
В тренинге профессиональных наблюдателей допускается, чтобы наблюдатель ошибался в оценке возраста ребенка не более чем на 1 год в ту или иную сторону. Наблюдатель допускается к работе, если он совершает не более 15% ошибок, превышающих отклонение на 1 год. Наблюдатель Н допустил 1 ошибку в 50-ти попытках, а наблюдатель К - 15 ошибок в 50-ти попытках. Достоверно ли отличаются эти результаты от контрольной величины?
Определим частоту допустимых ошибок при n = 50:
ƒтеор =n*P=50*0.15=7.5
Для наблюдателя Н ƒэмп<ƒтеор, для наблюдателя К ƒэмп >ƒтеор.
Сформулируем гипотезы для наблюдателя Н.
H0: Количество ошибок у наблюдателя Н не меньше, чем это предусмотрено заданной величиной.
H1: Количество ошибок у наблюдателя Н меньше, чем это предусмотрено заданной величиной.
В данном случае Р=0,15<0,50; ƒэмп<ƒтеор.
Этот случай попадает под вариант Б Табл. 5. 12. Нам придется применить критерий χ2, сопоставляя полученные эмпирические частоты ошибочных и правильных ответов с теоретическими частотами, составляющими, соответственно, 7,5 для ошибочного ответа и (50-7,5)=42,5 для правильного ответа. Подсчитаем χ2 по формуле, включающей поправку на непрерывность4:
4.Поправка на непрерывность вносится во всех случаях, когда признак принимает всего два значения и число степеней свободы поэтому равно 1 (см. параграф 4.2)
По Табл. IX Приложения 1 определяем критические значения χ2 при V=1:
χ2эмп> χ2кр (р≤0,05)
Ответ: Н0 отвергается. Количество ошибок у наблюдателя Н меньше, чем это предусмотрено заданной величиной (р≤0,05).
Сформулируем гипотезы для наблюдателя К.
H0: Количество ошибок у наблюдателя К не больше, чем это предусмотрено заданной величиной.
Н1: Количество ошибок у наблюдателя К больше, чем это предусмотрено заданной величиной.
В данном случае Р=0,15<0,5; ƒэмп >ƒтеор. Этот случай подпадает под вариант А Табл. 5.12. Мы можем применить биномиальный критерий, поскольку n=50.
По Табл. XV Приложения 1 определяем критические значения при n=50, P=15, Q=0,85:
mэмп =fэмп =15
mэмп >mкр (р≤0,05)
Ответ: H0 отвергается. Количество ошибок у наблюдателя К больше, чем это предусмотрено заданной величиной (р<0,05).
Пример 3
В примере 1 параграфа 5.2 мы сравнивали процент справившихся с экспериментальной задачей испытуемых в двух группах. Теперь мы можем сопоставить процент успешности каждой группы со среднестатистическим процентом успешности. Данные представлены в Табл. 5.13.
Таблица 5.13.
Количество испытуемых, решивших задачу |
Количество испытуемых, не решивших задачу |
Суммы |
|
1 группа (n1=20) |
12 (60%) |
8 (40%) |
20 |
1 группа (n2=25) |
10 (40%) |
15 (60%) |
25 |
Суммы |
22 |
23 |
45 |
Среднестатистический показатель успешности в решении этой задачи - 55%. Определим теоретическую частоту правильных ответов для групп 1 и 2:
ƒтеор 1 = n1*P=20*0.55=11.00
ƒтеор 2 = n2*P=25*0.55=13.75
Для группы 1, следовательно, Р=0,55>0,50; ƒэмп=12>ƒтеор Этот случай соответствует варианту "Д" Табл. 5.12. Мы должны были бы применить критерий χ2, но у нас всего 20 наблюдений: n<30. Ни биномиальный критерий, ни критерий χ2 неприменимы. Остается критерий ф* Фишера, который мы сможем применить, если узнаем, сколько испытуемых было в выборке, по которой определялся среднестатистический процент.
Далее, для группы 2: Р=0,55>0,50; ƒэмп=10<ƒтеор. Этот случай соответствует варианту "Е" Табл. 5.12. Мы можем применить биномиальный критерий, если будем считать "эффектом" неудачу в решении задачи. Вероятность неудачи Q=lР=10,55=0,45. Новая эмпирическая частота составит: ƒэмп =25-10=15.
Сформулируем гипотезы.
H0. Процент неудач в обследованной выборке не превышает заданного процента неудач.
H1: Процент неудач в обследованной выборке превышает заданный процент неудач.
По Табл. XV Приложения 1 определяем критические значения для n=25, P=0,45, Q=0.55 (мы помним, что Р и Q поменялись местами):
mэмп =fэмп =15
mэмп <mкр
Ответ: H0 принимается. Процент неудач в обследованной выборке не превышает заданного процента неудач.
Сформулируем общий алгоритм применения критерия m.
АЛГОРИТМ 18
Применение биномиального критерия m
1. Определить теоретическую частоту встречаемости эффекта по формуле:
ƒтеор =n*Р,
где n - количество наблюдений в обследованной выборке;
Р - заданная вероятность исследуемого эффекта.
По соотношению эмпирической и теоретической частот и заданной вероятности Р определить, к какой ячейке Табл. 5,12 относится данный случай сопоставлений.
Если биномиальный критерий оказывается неприменимым, использовать тот критерий, который указан в соответствующей ячейке Табл. 5.12
Если критерий m применим, то определить критические значения m по Табл. XVI (при Р=0,50) или по табл. XV (при Р<0,50) для данных n и Р,
Считать тэмп эмпирическую частоту встречаемости эффекта в об
следованной выборке: тэмп =ƒэмп
Если тэмп , превышает критические значения, это означает, что эмпирическая частота достоверно превышает частоту, соответствующую заданной вероятности.
Вопрос 4
Многофункциональные критерии как эффективные заменители традиционных критериев
Как было показано в предыдущих параграфах, многофункциональные критерии, главным образом критерий φ*, применим к решению всех трех типов задач, рассмотренных в Темах 3-5: сопоставление уровней, определение сдвигов и сравнение распределений признака. В тех случаях, когда обследованы две выборки испытуемых, критерий φ* может эффективно заменять или, по крайней мере, эффективно дополнять традиционные критерии: Q - критерий Розенбаума, U - критерий Манна-Уитни, критерий χ2 Пирсона и критерий λ Колмогорова-Смирнова.
В особенности полезна такая замена в следующих случаях:
Случай 1. Другие критерия неприменимы
Часто бывает так, что критерий Q неприменим вследствие совпадения диапазонов двух выборок, а критерий U неприменим вследствие того, что количество наблюдений п>60.
В качестве примера сошлемся на задачу сравнения сдвигов оценок в экспериментальной и контрольной группах после просмотра видеозаписи и чтения текста о пользе телесных наказании (см. параграф 2 Темы 4).
Сдвиги в двух группах являются показателями, полученными независимо в двух группах испытуемых. Задача сравнения таких показателей сдвига - это частный случай задачи сопоставления двух групп по уровню значений какого-либо признака. Такие задачи решаются с помощью критериев Q Розенбаума и U Манна-Уитни (см. Табл. 3.1). Сводные данные по сдвигам в двух группах представлены в Табл. 5.14.
Таблица 5.14
Эмпирические частоты сдвигов разной интенсивности и направления в экспериментальной и контрольной группах после предъявления видеозаписи или письменного текста
Значения сдвига |
Количество сдвигов в экспериментальной группе (гн=1б) |
Количество сдвигов в контрольной группе (п-»=23) |
Суммы |
+5 +2 +1 |
0 3 19 |
1 5 11 |
1 8 30 |
0 |
38 |
65 |
103 |
-1 -2 |
4 0 |
8 2 |
12 2 |
Суммы |
64 |
92 |
156 |
В экспериментальной группе значения сдвигов варьируют от 2 до +2, а в контрольной группе от 2 до +5. Критерий Q неприменим. Критерий U неприменим, поскольку количество наблюдений (сдвигов) в каждой группе больше 60.
Применяем критерий φ*. Построим вначале четырехклеточную таблицу для положительных сдвигов, а затем - для нулевых.
Таблица 5.15
Четырехклеточная таблица для подсчета критерия φ* при сопоставлении долей положительных сдвигов в экспериментальной и контрольной
группах
Группы |
«Есть эффект": сдвиг положительный |
"Нет аффекта*: сдвиг отрицательный или нулевой |
Суммы |
Группа 1 экспериментальная |
22 (34,4%) |
42 (65,6%) |
64 |
Группа 2 контрольная |
17 (18,5%) |
75 (81,5%) |
92 |
Суммы |
39 |
117 |
156 |
Сформулируем гипотезы.
H0: Доля положительных сдвигов в экспериментальной группе не больше, чем в контрольной.
Н1: Доля положительных сдвигов в экспериментальной группе больше, чем в контрольной.
Далее действуем по Алгоритму 17.
φ1(34,4%)=1.254
φ2(18,5%)=0,889
Мы можем и точно определить уровень статистической значимости полученного результата по Табл. ХШ Приложения 1:
при φ* эмп=2,242 р=0,013.
Ответ: H0 отклоняется. Принимается Н1. Доля положительных сдвигов в экспериментальной группе больше, чем в контрольной (p<0.013)
Теперь перейдем к вопросу о меньшей доле нулевых сдвигов в экспериментальной группе.
Таблица 5.16
Четырехклеточная таблица для подсчета критерия φ* при сопоставлении долей нулевых сдвигов в экспериментальной и контрольной группах
Группы |
"Есть эффект": сдвиг равен 0 |
"Нет эффекта": сдвиг не равен 0 |
Суммы |
Группа 1 экспериментальная |
38 (59.4%) |
26 (40,6%) |
64 |
Группа 2 контрольная |
65 (70,7%) |
27 (29,3%) |
92 |
Суммы |
103 |
53 |
156 |
Сформулируем гипотезы.
Но: Доля нулевых сдвигов в контрольной группе не больше, чем в экспериментальной.
H1: Доля нулевых сдвигов в контрольной группе больше, чем в экспериментальной.
Далее действуем по Алгоритму 17.
φ1(70,7%)=1.998
φ2(59,4%)=1.760
φ*эмп < φ*кр
Ответ: H0 принимается. Доля нулевых сдвигов в контрольной группе не больше, чем в экспериментальной.
Итак, доля положительных сдвигов в экспериментальной группе больше, но доля нулевых сдвигов - примерно такая же, как и в контрольной группе. Отметим, что в критерии знаков G все нулевые сдвиги были исключены из рассмотрения, поэтому полученный результат дает дополнительную информацию, которую не мог дать критерий знаков.
Случай 2. Другие критерии неэффективны или слишком громоздки
В качестве примера можно указать на задачу с сопоставлением показателей недостаточности в группах с большей и меньшей энергией вытеснения (см. Табл. 5,4).
Критерий Q дает незначимый результат:
Q =S1 +S2=4+0=4
Критерий U в данном случае применим и даже дает значимый результат (Uэмп=l54,5; р≤0,05), однако ранжирование показателей, многие из которых имеют одно и то же значение (например, значение 30 баллов встречается 13 раз), представляет определенные трудности.
Как мы помним, с помощью критерия φ* удалось доказать, что наиболее высокие показатели недостаточности (30 и более баллов) встречаются в группе с большей энергией вытеснения чаще, чем в группе с меньшей энергией вытеснения (р=0,008) и что, с другой стороны, самые низкие (нулевые) показатели встречаются чаще также в этой группе (р≤0,05).
Другим примером может служить задача сопоставления распределения выборов желтого цвета в отечественной выборке и в выборке Х.Клара (см. параграф 4.3).
Критерий λ не выявил достоверных различий между двумя распределениями, однако позволил нам установить точку максимального накопленного расхождения между ними. Из Табл. 4.19 следует, что такой точкой является вторая позиция желтого цвета. Построим четырехклеточную таблицу, где "эффектом" будет считаться попадание желтого цвета на одну из первых двух позиций.
Таблица 5.17
Четырехклеточная таблица для расчета φ* при сопоставлении отечественной выборки (n1=102) и выборки Х.Клара (n2=800) по положению желтого цвета в ряду предпочтений
Выборки |
"Есть эффект": желтый цвет на первых двух позициях |
"Нет эффекта": желтый цвет на позициях 3-8 |
Суммы |
Выборка 1 -отечественная |
39 (38.2%) |
63 (61,8%) |
102 |
Выборка 2 - Х-Клара |
211 (26,4%) |
589 (73,6%) |
800 |
Суммы |
250 |
652 |
902 |
Сформулируем гипотезы.
Но: Доля лиц, помещающих желтый цвет на одну из первых двух позиций, в отечественной выборке не больше, чем в выборке Х.Клара.
H1: Доля лиц, поместивших желтый цвет на одну из первых двух позиции, в отечественной выборке больше, чем в выборке X. Клара.
Далее действуем по Алгоритму 17.
φ1(38,2%)=1.333
φ2(26,4%)=1,079
Как мы помним,
φ*эмп > φ*кр
Ответ: H0 отклоняется. Принимается Н1: Доля лиц, поместивших желтый цвет на одну из первых двух позиций, в отечественной выборке больше, чем в выборке X.Клара (р≤0,01).
Мы еще раз столкнулись с тем случаем, когда критерий X сам по себе не выявляет достоверных различий, но помогает максимально использовать возможности критерия φ*.
Случай 3. Другие критерии слишком трудоемки
Этот случай чаще всего относится к критерию χ2. Заменить его критерием φ* можно при условии, если сравниваются распределения признака в двух выборках, а сам признак принимает всего два значения5.
5.В принципе признак может принимать и большее количество значении, так как любую шкалу, как мы убедились, можно свести к альтернативной шкале "Есть эффект" - "Нет эффекта".
В качестве примера можно привести задачу с соотношением мужских и женских имен в записных книжках двух психологов (см. п. 4.2, Табл. 4.11).
Преобразуем Табл. 4.11 в четырехклеточную таблицу, где "эффектом* будем считать мужские имена.
Таблица 5.18
Четырехклеточная таблица для подсчета φ* при сопоставлении записных книжек двух психологов по соотношению мужских и женских имен
Группы |
«Есть эффект»: мужские имена |
«Нет эффекта»: женские имена |
Суммы |
Группа 1 выборка имён в книжке Х. |
22 (32,8%) |
45 (67,2%) |
67 |
Группа 2 выборка имён в книжке С. |
59 (35,1%) |
108 (64,9%) |
168 |
Суммы |
81 |
154 |
235 |
Сформулируем гипотезы.
Н0: Доля мужских имен в записной книжке С. не больше, чем в записной книжке X.
H1: Доля мужских имен в записной книжке С. больше, чем в записной книжке X.
Далее действуем по алгоритму.
φ1(35,1%)=1.268
φ2(32,8%)=1,220
По Табл. XIII Приложения 1 определяем, какому уровню достоверности соответствует это значение. Мы видим, что такого значения вообще нет в таблице.
Построим "ось значимости".
Полученное эмпирическое значение - далеко в "зоне незначимости».
φ*эмп > φ*кр
Ответ: Но принимается. Доля мужских имен в записной книжке психолога С. не больше, чем в записной книжке психолога X.
Исследователь сам может решить для себя, какой метод ему в данном случае удобнее применить χ2 или φ*. Похоже, что во втором случае меньше расчетов, хотя чуда не произошло: различия по-прежнему недостоверны.
Итак, мы убедились, что критерий φ* Фишера может эффективно заменять традиционные критерии в тех случаях, когда их применение невозможно, неэффективно или неудобно по каким-то причинам.
Биномиальный критерий m может служить заменой критерия χ2 в случае альтернативных распределений или в случае, когда признак может принимать одно из нескольких значений и вероятность того, что он примет определенное значение, известна.
Курс: «Математические методы в психологии»
(Материалы для самостоятельной работы студентам психологам и социальным работникам)
Лекция № 8
МЕТОД РАНГОВОЙ КОРРЕЛЯЦИИ
Вопросы:
1. Обоснование задачи исследования согласованных изменений.
2. Коэффициент ранговой корреляции rs Спирмена.
Вопрос 1 Обоснование задачи исследования согласованных изменений
Первоначальное значение термина "корреляции" - взаимная связь (Oxford Advanced Learner's Dictionary of Current English, 1982). Когда говорят о корреляции, используют термины "корреляционная связь" и "корреляционная зависимость".
Корреляционная связь - это согласованные изменения двух признаков или большего количества признаков (множественная корреляционная связь). Корреляционная связь отражает тот факт, что изменчивость одного признака находится в некотором соответствии с изменчивостью другого (Плохинский Н.А., 1970, с. 40). "Стохастическая1 связь имеется тогда, когда каждому из значений одной случайной величины соответствует специфическое (условное) распределение вероятностей значений другой величины, и наоборот, каждому из значений этой другой величины соответствует специфическое (условное) распределение вероятностей значений первой случайной величины" (Суходольский Г.В., 1972, с. 178).
1.Стохастическая означает вероятностная. Связи между случайными явлениями называют вероятностными ,или стохастическими связями (Суходольскнй Г. В., 1972, с. 52). Этот термин подчеркивает их отличие от детерминированных или функциональных связей а физике или математике (связь площади треугольника с его высотой и основанием, связь длины окружности с ее радиусом и т. п.). В функциональных связях каждому значению первого признака всегда соответствует (в идеальных условиях) совершенно определенное значение другого признака (Плохинский Н.А., 1970, с. 41). В корреляционных связях каждому значению одного признака может соответствовать определенное распределение значений другого признака, но не определенное его значение.
Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.
Оба термина - корреляционная связь и корреляционная зависимость - часто используются как синонимы (Плохинский Н.А.,1970; Суходольский Г.В.,1972; Артемьева Е.Ю., Мартынов Е.М.,1975 и др.). Между тем, согласованные изменения признаков и отражающая это корреляционная связь между ними может свидетельствовать не о зависимости этих признаков между собой, а зависимости обоих этих признаков от какого-то третьего признака или сочетания признаков, не рассматриваемых в исследовании.
Зависимость подразумевает влияние, связь - любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной связи, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого, но находится ли причина изменений в одном из признаков или она оказывается за пределами исследуемой пары признаков, нам неизвестно.
Говорить в строгом смысле о зависимости мы можем только в тех случаях, когда сами оказываем какое-то контролируемое воздействие на испытуемых или так организуем исследование, что оказывается возможным точно определить интенсивность не зависящих от нас воздействий. Воздействия, которые мы можем качественно определить или даже измерить, могут рассматриваться как независимые переменные. Признаки, которые мы измеряем и которые, по нашему предположению, могут изменяться под влиянием независимых переменных, считаются зависимыми переменными. Согласованные изменения независимой и зависимой переменной действительно могут рассматриваться как зависимость.
Однако, учитывая, что число градаций, или уровней, зависимой переменной обычно невелико, целесообразнее применять в такого рода исследованиях не корреляционный метод, а методы выявления тенденций изменения признака при изменении условий, например, критерии тенденций Н Крускала-Уоллиса и L Пейджа (см. Главы 2 и 3) или метод дисперсионного анализа (см. Темы 8 и 9).
Если в исследование включены независимые переменные, которые мы можем по крайней мере учитывать, например, возраст, то можно считать выявляемые между возрастом и психологическими признаками корреляционные связи корреляционными зависимостями. В большинстве же случаев нам трудно определить, что в рассматриваемой паре признаков является независимой, а что - зависимой переменной.
Учитывая, что термин "зависимость" явно или неявно подразумевает влияние, лучше пользоваться более нейтральным термином "корреляционная связь".
Корреляционные связи различаются по форме, направлению и степени (силе).
По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (см. Рис. 6.1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.
Рис. 6.1. Связь между эффективностью решения задачи и силой мотивационной тенденции (по j.W. Atkinson. I974. р.200)
По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной").
При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого (см. Рис. 6.2).
При отрицательной корреляции соотношения обратные.
Рис. 6.2. Схема прямолинейных корреляционных связей;
А - положительная (прямая) корреляционная связь;
В - отрицательная (обратная) корреляционная связь
*При положительной корреляции коэффициент корреляции имеет положительный знак, например r=+0,207,
*при отрицательной корреляции - отрицательный знак, например r= - 0,207.
Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции.
Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции. Максимальное возможное абсолютное значение коэффициента корреляции r=1,00; минимальное r=0.
Используется две системы классификации корреляционных связей по их силе: общая и частная.
Общая классификация корреляционных связей (по Ивантер Э.В., Коросову А.В., 1992):
Частная классификация корреляционных связей:
1) высокая значимая корреляция - при г, соответствующем уровню статистической значимости р<0,01;
2)значимая корреляция - при r, соответствующем уровню
статистической значимости р<0,05;
3) тенденция достоверной связи при г, соответствующем уровню статистической значимости р<0,10;
4)незначимая корреляция - при r , не достигающем уровня статистической значимости.
Две эти классификации не совпадают.
*Первая ориентирована только на величину коэффициента корреляции, а
*вторая определяет, какого уровня значимости достигает данная величина коэффициента корреляции при данном объеме выборки. Чем больше объем выборки, тем меньшей величины коэффициента корреляции оказывается достаточно, чтобы корреляция была признана достоверной. В результате при малом объеме выборки может оказаться так, что сильная корреляция окажется недостоверной. В то же время при больших объемах выборки даже слабая корреляция может оказаться достоверной.
Обычно принято ориентироваться на вторую классификацию, поскольку она учитывает объем выборки. Вместе с тем, необходимо помнить, что сильная, или высокая, корреляция - это корреляция с коэффициентом r>0,70, а не просто корреляция высокого уровня значимости.
В качестве мер корреляции используются:
1) эмпирические меры тесноты связи, многие из которых были получены еще до открытия метода корреляции, а именно:
а) коэффициент ассоциации, или тетрахорический показатель связи;
б) коэффициенты взаимной сопряженности Пирсона и Чупрова;
в) коэффициент Фехнера;
г) коэффициент корреляции рангов;
3)корреляционное отношение ή
4)множественные коэффициенты корреляции и др.
Подробное описание этих мер можно найти в руководствах Венецкого И.Г., Кильдишева Г.С.(1968), Плохинского Н.А.(1970), Суходольского f.B.(1972), Ивантер Э.В., Коросова А.В.(1992) и др.
В психологических исследованиях чаще всего применяется коэффициент линейной корреляции r Пирсона. Однако этот метод является параметрическим и поэтому не лишен недостатков, свойственных параметрическим методам (см. параграф 1.8). Параметрическими являются также методы определения корреляционного отношения и подсчета множественных коэффициентов корреляции. Кроме того, эти методы, как правило, требуют машинной обработки данных. По этим причинам они остаются за пределами нашего рассмотрения.
Все эмпирические меры тесноты связи, кроме коэффициента ранговой корреляции, могут быть заменены методами сопоставления и сравнения, изложенными в Темах 3-6.
Ведь что, в сущности, мы доказываем, когда обосновываем различия в долях двух выборок, характеризующихся исследуемым эффектом? Мы показываем, что если испытуемый относится к одной из выборок, то, скорее всего, он будет характеризоваться какими-то определенными значениями исследуемого признака, а если он относится к другой из двух выборок, то он будет характеризоваться (с большой степенью вероятности) другими значениями исследуемого признака. Фактически мы исследуем сопряженные изменения двух признаков: отнесенность к той или иной выборке и определенные значения исследуемого признака.
Что мы доказываем, с другой стороны, когда два распределения признака оказываются сходными или, наоборот, статистически достоверно различающимися между собой? Мы доказываем, что в обеих выборках частоты встречаемости разных значении признака распределяются согласованно или, наоборот, несогласованно.
Мы, правда, скорее определяем меру рассогласованности, чем согласованности, но все же часто метод χ2 относится к числу методов, выявляющих степень согласованности или даже связи.
Методы выявления тенденций уже напрямую заменяют меры эмпирической сопряженности, позволяя нам проследить возрастание значений признака при изменении условий. Фактически мы отвечаем на вопрос о том, согласованно ли изменяются условия и значения исследуемого признака.
Быть может, современному психологу не очень просто отказаться от метода подсчета корреляций. Это очень привычно - подсчитывать корреляции. Исторически сложилось так, что этот метод является одним из основных методов статистической обработки. Главное преимущество корреляционного анализа состоит в том, что можно сразу провести множественное сопоставление признаков.
Например, нам необходимо определить, с чем связана успешность в какой-либо деятельности. Исследователь может предполагать, что она связана с уровнем интеллектуального развития, с некоторыми из личностных факторов 16-факторного опросника Кеттелла, а может быть, с уровнем эмпатии, тревожности или фрустрационной толерантности, с возрастом самого испытуемого или возрастом матери в момент его рождения и т.д. и т.п. В итоге он получает связи, отражающие среднегрупповые тенденции сопряженного изменения признаков. Но дело как раз в том, что у каждого отдельного испытуемого успешность в данном виде деятельности может определяться разными психологическими характеристиками или разными их сочетаниями. Метод корреляций отдает предпочтение группе, а не отдельному индивиду.
Против этого можно возразить, что и все остальные статистические методы отдают предпочтение среднегрупповым, а не индивидуальным тенденциям. Однако это не совсем так. Например, метод тенденций L Пейджа определяет степень согласованности индивидуальных тенденций, критерий χ2r, Фридманастепень совпадения или несовпадения индивидуальных соотношений рангов, биномиальный критерий m -степень отклонения индивидуальных значений от заданных или среднестатистических и т.п.
Прежде чем переходить к корреляциям, исследователю необходимо проанализировать полученные данные с помощью критериев сравнения и сопоставления еще и по другой причине. Возможно, размах вариативности признака в обследованной выборке окажется слишком узким, чтобы можно было распространять полученную корреляцию на весь возможный диапазон его значений. Например, может оказаться так, что в обследованной группе по какому-либо из факторов 16-факторного личностного опросника Кеттелла получены лишь низкие и средние значения, и в то же время выявлена значимая положительная связь этого личностного фактора с успешностью профессиональной деятельности. Не учитывая истинного размаха значений в данной выборке, можно экстраполировать полученную связь и на высокие значения фактора, что может оказаться ошибкой.
Во-первых, связь данного фактора с успешностью деятельности может на самом деле быть криволинейной, как в рассмотренном выше случае связи уровня мотивации с эффективностью выполнения задания (см. Рис. 6.1).
Во-вторых, не исключено, что самым важным результатом исследования является как раз факт низких и средних значений данного личностного фактора в обследованной выборке, а исследователь не обратил на него внимания, привычно отдав предпочтение корреляционной матрице, а не таблице первичных данных.
Математическая обработка должна начинаться с использования "самых простых приемов с совершенно понятной для исследователя сутью производимых преобразований" (Дворяшнна М.Д., Пехлецкий И.Д., 1976, с. 45). Учитывая большие возможности методов первичной обработки данных, изложенных в Темах 3-6, не исключено, что этими приемами математическая обработка может и заканчиваться. Эти методы дают и основание для достоверных выводов, и материал для выдвижения новых гипотез, и стимул к новым размышлениям.
И все же, если исследователь хочет применить метод корреляций, в настоящем пособии предлагается использовать коэффициент ранговой корреляции Спирмена.
Основанием для выбора этого коэффициента служат:
а) его универсальность;
б) простота;
в) широкие возможности в решении задач сравнения индивидуальных или групповых иерархий признаков.
Универсальность коэффициента ранговой корреляции проявляется в том, что он применим к любым количественно измеренным или ранжированным данным. Простота метода позволяет подсчитывать корреляцию "вручную". Уникальность метода ранговой корреляции состоит в том, что он позволяет сопоставлять не индивидуальные показатели, а индивидуальные иерархии, или профили, что недоступно ни одному из других статистических методов, включая метод линейной корреляции (Плохинский Н.А., 1970, с. 167).
Коэффициент ранговой корреляции рекомендуется применять в тех случаях, когда нам необходимо проверить, согласованно ли изменяются разные признаки у одного и того же испытуемого и насколько совпадают индивидуальные ранговые показатели у двух отдельных испытуемых или у испытуемого и группы.
Вопрос 2
Коэффициент ранговой корреляции
rs Спирмена
Назначение рангового коэффициента корреляции
Метод ранговой корреляции Спирмена позволяет определить тесноту (силу) и направление корреляционной связи между двумя признаками или двумя профилями (иерархиями) признаков.
Описание метода
Для подсчета ранговой корреляции необходимо располагать двумя рядами значений, которые могут быть проранжированы.
Такими рядами значений могут быть:
3) две групповые иерархии признаков;
4) индивидуальная и групповая иерархии признаков.
Вначале показатели ранжируются отдельно по каждому из признаков. Как правило, меньшему значению признака начисляется меньший ранг.
Рассмотрим случай 1 (два признака).
Здесь ранжируются индивидуальные значения по первому признаку, полученные разными испытуемыми, а затем индивидуальные значения по второму признаку.
Если два признака связаны положительно, то испытуемые, имеющие низкие ранги по одному из них, будут иметь низкие ранги и по другому, а испытуемые, имеющие высокие ранги по одному из признаков, будут иметь по другому признаку также высокие ранги. Для подсчета rs необходимо определить разности (d) между рангами, полученными данным испытуемым по обоим признакам. Затем эти показатели d определенным образом преобразуются и вычитаются из 1. Чем меньше разности между рангами, тем больше будет rs, тем ближе он будет к +1,
Если корреляция отсутствует, то все ранги будут перемешаны и между ними не будет никакого соответствия. Формула составлена так, что в этом случае rs окажется близким к 0.
В случае отрицательной корреляции низким рангам испытуемых по одному признаку будут соответствовать высокие ранги по другому признаку, и наоборот.
Чем больше несовпадение между рангами испытуемых по двумя переменным, тем ближе rs к -1.
Рассмотрим случай 2 (два индивидуальных профиля).
Здесь ранжируются индивидуальные значения, полученные каждым из 2-х испытуемым по определенному (одинаковому для них обоих) набору признаков. Первый ранг получит признак с самым низким значением; второй ранг - признак с более высоким значением и т.д. Очевидно, что все признаки должны быть измерены в одних и тех же единицах, иначе ранжирование невозможно.
Например, невозможно проранжировать показатели по личностному опроснику Кеттелла (16PF), если они выражены в "сырых" баллах, поскольку по разным факторам диапазоны значений различны: от 0 до 13, от 0 до 20 и от 0 до 26. Мы не можем сказать, какой из факторов будет занимать первое место по выраженности, пока не приведем все значения к единой шкале (чаще всего это шкала стенов).
Если индивидуальные иерархии двух испытуемых связаны положительно, то признаки, имеющие низкие ранги у одного из них, будут иметь низкие ранги и у другого, и наоборот. Например, если у одного испытуемого фактор Е (доминантность) имеет самый низкий ранг, то и у другого испытуемого он должен иметь низкий ранг, если у одного испытуемого фактор С (эмоциональная устойчивость) имеет высший ранг, то и другой испытуемый должен иметь по этому фактору высокий ранг и т.д.
Рассмотрим случай 3 (два групповых профиля).
Здесь ранжируются среднегрупповые значения, полученные в 2-х группах испытуемых по определенному, одинаковому для двух групп, набору признаков. В дальнейшем линия рассуждений такая же, как и в предыдущих двух случаях.
Рассмотрим случай 4 (индивидуальный и групповой профили).
Здесь ранжируются отдельно индивидуальные значения испытуемого и среднегрупповые значения по тому же набору признаков, которые получены, как правило, при исключении этого отдельного испытуемого - он не участвует в среднегрупповом профиле, с которым будет сопоставляться его индивидуальный профиль. Ранговая корреляция позволит проверить, насколько согласованы индивидуальный и групповой профили.
Во всех четырех случаях значимость полученного коэффициента корреляции определяется по количеству ранжированных значений N.
*В первом случае это количество будет совпадать с объемом выборки п.
*Во втором случае количеством наблюдений будет количество признаков, составляющих иерархию.
*В третьем и *четвертом случае N - это также количество сопоставляемых признаков, а не количество испытуемых в группах.
Подробные пояснения даны в примерах.
Если абсолютная величина rs достигает критического значения или превышает его, корреляция достоверна.
Гипотезы
Возможны два варианта гипотез. Первый относится к случаю 1, второй - к трем остальным случаям.
Первый вариант гипотез
H0: Корреляция между переменными А и Б не отличается от нуля.
H1: Корреляция между переменными А и Б достоверно отличается от нуля.
Второй вариант гипотез
H0: Корреляция между иерархиями А и Б не отличается от нуля. H1: Корреляция между иерархиями А и Б достоверно отличается от нуля.
Графическое представление метода ранговой корреляции
Чаще всего корреляционную связь представляют графически в виде облака точек или в виде линий, отражающих общую тенденцию размещения точек в пространстве двух осей: оси признака А и признака Б (см. Рис. 6.2).
Попробуем изобразить ранговую корреляцию в виде двух рядов ранжированных значений, которые попарно соединены линиями (Рис. 6.3). Если ранги по признаку А и по признаку Б совпадают, то между ними оказывается горизонтальная линия, если ранги не совпадают, то линия становится наклонной. Чем больше несовпадение рангов, тем более наклонной становится линия. Слева на Рис. 6.3 отображена максимально высокая положительная корреляция (rs=+l,0) - практически это «лестница". В центре отображена нулевая корреляция - плетенка с неправильными переплетениями. Все ранги здесь перепутаны. Справа отображена максимально высокая отрицательная корреляция (rs= -1,0) - паутина с правильным переплетением линий.
Рис. 6.3. Графическое представление ранговой корреляции:
а) высокая положительная корреляция;
б) нулевая корреляция;
в) высокая отрицательная корреляция
Ограничения коэффициента ранговой корреляции
Пример 1 - корреляция между двумя признаками
В исследовании, моделирующем деятельность авиадиспетчера (Одерышев Б.С, Шамова Е.П., Сидоренко Е.В., Ларченко Н.Н., 1978), группа испытуемых, студентов физического факультета ЛГУ проходила подготовку перед началом работы на тренажере. Испытуемые должны были решать задачи по выбору оптимального типа взлетно-посадочной полосы для заданного типа самолета. Связано ли количество ошибок, допущенных испытуемыми в тренировочной сессии, с показателями вербального и невербального интеллекта, измеренными по методике Д. Векслера?
Таблица 6.1
Показатели количества ошибок в тренировочной сессии и показатели уровня вербального и невербального интеллекта у студентов-физиков
(№=10)
Испытуемый |
Количество ошибок |
Показатель вербального интеллекта |
Показатель невербального интеллекта |
|
1 |
Т.А. |
29 |
131 |
106 |
2 |
ПА. |
54 |
132 |
90 |
3 |
Ч.И. |
13 |
121 |
95 |
4 |
Ц.А. |
8 |
127 |
116 |
5 |
См.А. |
14 |
136 |
127 |
6 |
К.Е. |
26 |
124 |
107 |
7 |
КА |
9 |
134 |
104 |
8 |
Б.Л. |
20 |
136 |
102 |
9 |
И.А. |
2 |
132 |
111 |
10 |
Ф.В. |
17 |
136 |
99 |
Суммы |
192 |
1309 |
1057 |
|
Средние |
19,2 |
130,9 |
105,7 |
Сначала попробуем ответить на вопрос, связаны ли между собой показатели количества ошибок и вербального интеллекта.
Сформулируем гипотезы.
H0: Корреляция между показателем количества ошибок в тренировочной сессии и уровнем вербального интеллекта не отличается от нуля.
H1: Корреляция между показателем количества ошибок в тренировочной сессии и уровнем вербального интеллекта статистически значимо отличается от нуля.
Далее нам необходимо проранжировать оба показателя, приписывая меньшему значению меньший ранг, затем подсчитать разности между рангами, которые получил каждый испытуемый по двум переменным (признакам), и возвести эти разности в квадрат.
Произведем все необходимые расчеты в таблице.
В Табл. 6.2 в:
*первой колонке слева представлены значения по показателю количества ошибок;
*в следующей колонке - их ранги.
*В третьей колонке слева представлены значения по показателю вербального интеллекта;
*в следующем столбце - их ранги.
*В пятом слева представлены разности d между рангом по переменной А (количество ошибок) и переменной Б (вербальный интеллект). В последнем столбце представлены квадраты разностей d2.
Таблица 6.2
Расчет d2 для рангового коэффициента корреляции Спирмена rs
При сопоставлении показателей количества ошибок и вербального интеллекта у студентов-физиков (N=10)
Испытуемый |
Переменная А: количество ошибок |
Переменная Б: вербальный интеллект |
d (ранг А - ранг Б) |
d2 |
|||
Индивидуальные значения |
Ранг |
Индивидуальные значения |
Ранг |
||||
1 |
Т.А. |
29 |
9 |
131 |
4 |
5 |
25 |
2 |
П.А. |
54 |
10 |
132 |
5,5 |
4,5 |
20,25 |
3 |
Ч.И. |
13 |
4 |
121 |
1 |
3 |
9 |
4 |
Ц.А. |
8 |
2 |
127 |
3 |
-1 |
1 |
5 |
См.А. |
14 |
5 |
136 |
9 |
-4 |
16 |
6 |
К.Е. |
26 |
8 |
124 |
2 |
6 |
36 |
7 |
К.А. |
9 |
3 |
134 |
7 |
-4 |
16 |
8 |
Б.Л. |
20 |
7 |
136 |
9 |
-2 |
4 |
9 |
И.А. |
2 |
1 |
132 |
5,5 |
-4,5 |
20,25 |
10 |
Ф.В. |
17 |
6 |
136 |
9 |
-3 |
9 |
Суммы |
55 |
55 |
0 |
156,5 |
Коэффициент ранговой корреляции Спирмена подсчитывается по формуле:
где d - разность между рангами по двум переменным для каждого испытуемого;
N - количество ранжируемых значений, в данном случае количество испытуемых.
Рассчитаем эмпирическое значение rs:
Полученное эмпирическое значение rs близко к 0. И все же определим критические значения rs при N=10 по Табл. XVI Приложения 1:
rs эмп < rs кр
Ответ: Но принимается. Корреляция между показателем количества ошибок в тренировочной сессии и уровнем вербального интеллекта не отличается от нуля.
Теперь попробуем ответить на вопрос, связаны ли между собой показатели количества ошибок и невербального интеллекта.
Сформулируем гипотезы.
H0: Корреляция между показателем количества ошибок в тренировочной сессии и уровнем невербального интеллекта не отличается от 0.
Н1: Корреляция между показателем количества ошибок в тренировочной сессии и уровнем невербального интеллекта статистически значимо отличается от 0.
Результаты ранжирования и сопоставления рангов представлены в Табл. 6.3.
Таблица 6.3
Расчет d2 для рангового коэффициента корреляции Спнрмена rs при сопоставлении показателей количества ошибок и невербального интеллекта у студентов-физиков (N=10)
Испытуемый |
Переменная А: количество ошибок |
Переменная Б: невербальный интеллект |
d (ранг А - ранг Б) |
d2 |
|||
Индивидуальные значения |
Ранг |
Индивидуальные значения |
Ранг |
||||
1 |
Т.А. |
29 |
9 |
106 |
6 |
3 |
9 |
2 |
П.А. |
54 |
10 |
90 |
1 |
9 |
81 |
3 |
Ч.И. |
13 |
4 |
95 |
2 |
2 |
4 |
4 |
Ц.А. |
8 |
2 |
116 |
9 |
-7 |
49 |
5 |
См.А. |
14 |
5 |
127 |
10 |
-5 |
25 |
6 |
К.Е. |
26 |
8 |
107 |
7 |
1 |
1 |
7 |
К.А. |
9 |
3 |
104 |
5 |
-2 |
4 |
8 |
Б.Л. |
20 |
7 |
102 |
4 |
3 |
9 |
9 |
И.А. |
2 |
1 |
111 |
8 |
-7 |
49 |
10 |
Ф.В. |
17 |
6 |
99 |
3 |
3 |
9 |
Суммы |
55 |
55 |
0 |
240 |
Рассчитаем эмпирическое значение rs:
Критические значения те же, что и в предыдущем
Мы помним, что для определения значимости rs неважно, является ли он положительным или отрицательным, важна лишь его абсолютная величина. В данном случае:
rs эмп < rs кр
Ответ: H0 принимается. Корреляция между показателем количества ошибок в тренировочной сессии и уровнем невербального интеллекта случайна, rs не отличается от 0.
Вместе с тем, мы можем обратить внимание на определенную тенденцию отрицательной связи между этими двумя переменными. Возможно, мы смогли бы ее подтвердить на статистически значимом уровне, если бы увеличили объем выборки.
Пример 2 - корреляция между индивидуальными профилями
В исследовании, посвященном проблемам ценностной реориентации, выявлялись иерархии терминальных ценностей по методике М. Рокича у родителей и их взрослых детей (Сидоренко Е.В., 1996). Ранги терминальных ценностей, полученные при обследовании пары мать-дочь (матери - 66 лет, дочери - 42 года) представлены в Табл. 6.4. Попытаемся определить, как эти ценностные иерархии коррелируют друг с другом.
Таблица 6.4
Ранги терминальных ценностей по списку М.Рокича в индивидуальных иерархиях матери и дочери
Ряд1: |
РЯД 2; |
|||
Терминальные ценности |
Ранг ценностей в |
Ранг ценностей в |
d |
D2 |
иерархии матери |
иерархии дочери |
|||
1 Активная деятельная жизнь |
15 |
15 |
0 |
0 |
2 Жизненная мудрость |
1 |
3 |
-2 |
4 |
3 Здоровье |
7 |
14 |
-7 |
49 |
4 Интересная работа |
8 |
12 |
-4 |
16 |
5 Красота природы и искусство |
16 |
17 |
-1 |
1 |
6 Любовь |
11 |
10 |
1 |
1 |
7 Материально обеспеченная жизнь |
12 |
13 |
-1 |
1 |
8 Наличие хороших и верных друзей |
9 |
11 |
-2 |
4 |
9 Общественное признание |
17 |
5 |
12 |
144 |
10 Познание |
5 |
1 |
4 |
16 |
11 Продуктивная жизнь |
2 |
2 |
0 |
0 |
12 Развитие |
6 |
8 |
-2 |
4 |
13 Развлечения |
18 |
18 |
0 |
0 |
14 Свобода |
4 |
6 |
-2 |
4 |
15.Счастливая семейная жизнь |
13 |
4 |
9 |
81 |
16 Счастье других |
14 |
16 |
-2 |
4 |
17 Творчество |
10 |
9 |
1 |
1 |
18 Уверенность в себе |
3 |
7 |
-4 |
16 |
Суммы |
171 |
171 |
0 |
346 |
Сформулируем гипотезы.
Н0: Корреляция между иерархиями терминальных ценностей матери и дочери не отличается от нуля.
Н1: Корреляция между иерархиями терминальных ценностей матери и дочери статистически значимо отличается от нуля.
Поскольку ранжирование ценностей предполагается самой процедурой исследования, нам остается лишь подсчитать разности между рангами 18 ценностей в двух иерархиях2. В 3-м и 4-м столбцах Табл. 6.4 представлены разности d и квадраты этих разностей d2.
2. Обычно рекомендуется всегда меньшему значению приписывать меньший ранг (си. Пример 1). В данном случае самая значимая ценность подучает меньший рант. Для подсчета коэффициента это несущественно. Главное, чтобы ранжирование было в обоих рядах однонаправленным.
Определяем эмпирическое значение rs по формуле:
где d - разности между рангами по каждой из переменных, в данном случае по каждой из терминальных ценностей;
N - количество переменных, образующих иерархию, в данном случае количество ценностей.
Для данного примера:
По Табл. XVI Приложения 1 определяем критические значения:
rs эмп > rs кр (р<0.01)
Ответ: H0 отвергается. Принимается H1. Корреляция между иерархиями терминальных ценностей матери и дочери статистически значима (р<0,01) и является положительной.
По данным Табл. 6.4 мы можем определить, что основные расхождения приходятся на ценности "Счастливая семейная жизнь", "Общественное признание" и "Здоровье", ранги остальных ценностей достаточно близки.
Пример 3 - корреляция между двумя групповыми иерархиями
Джозеф Вольпе в книге, написанной совместно с сыном (Wolpe J., Wolpe D., 1981) приводит упорядоченный перечень из наиболее часто встречающихся у современного человека "бесполезных", по его обозначению, страхов, которые не несут сигнального значения и лишь мешают полноценно жить и действовать. В отечественном исследовании, проведенном М.Э. Раховой (1994) 32 испытуемых должны были по 10-балльной шкале оценить, насколько актуальным для них является тот или иной вид страха из перечня Вольпе3. Обследованная выборка состояла из студентов Гидрометеорологического и Педагогического институтов Санкт-Петербурга: 15 юношей и 17 девушек в возрасте от 17 до 28 лет, средний возраст 23 года.
3. В исследовании М.Э. Раховой были выявлены виды страха, отсутствующие в перечне Вольпе, например, страх за благополучие близких (1-й ранг), неизвестности (5-й ранг), нападения (8-й ранг) и др. Однако в данном примере в ранжировании участвуют только 20 страхов из перечня Вольпе, поскольку мы можем подсчитывать коэффициент корреляции лишь между теми признаками, которые измерены в обеих выборках.
Данные, полученные по 10-балльной шкале, были усреднены по 32 испытуемым, и средние проранжированы. В Табл. 6.5 представлены ранговые показатели, полученные Дж. Вольпе и М Э. Раховой. Совпадают ли ранговые последовательности 20 видов страха?
Сформулируем гипотезы.
H0: Корреляция между упорядоченными перечнями видов страха в американской и отечественных выборках не отличается от нуля.
Н1: Корреляция между упорядоченными перечнями видов страха в американской и отечественной выборках статистически значимо отличается от нуля.
Все расчеты, связанные с вычислением и возведением в квадрат разностей между рангами разных видов страха в двух выборках, представлены в Табл. 6.5,
Таблица 6.5
Расчет d2 для рангового коэффициента корреляции Спирмена при сопоставлении упорядоченных перечней видов страха в американской и отечественной выборках
Виды страха |
Ранг в американский выборке |
Ранг в российской выборке |
d |
D2 |
|
1 |
Страх публичного выступлении |
1 |
7 |
-6 |
36 |
2 |
Страх полета |
2 |
12 |
-10 |
100 |
3 |
Страх совершить ошибку |
3 |
10 |
-7 |
49 |
4 |
Страх неудачи |
4 |
6 |
-2 |
4 |
5 |
Страх неодобрения |
5 |
9 |
-4 |
16 |
6 |
Страх отвержения |
6 |
2 |
4 |
16 |
7 |
Страх злых людей |
7 |
5 |
2 |
4 |
8 |
Страх одиночества |
8 |
1 |
7 |
49 |
9 |
Страх крови |
9 |
16 |
-7 |
49 |
10 |
Страх открытых ран |
10 |
13 |
-3 |
9 |
11 |
Страх дантиста |
11 |
3 |
8 |
64 |
12 |
Страх уколов |
12 |
19 |
-7 |
49 |
13 |
Страх прохождения тестов |
13 |
20 |
-7 |
49 |
14 |
Страх полиции (милиции) |
14 |
17 |
-3 |
9 |
15 |
Страх высоты |
15 |
4 |
11 |
121 |
16 |
Страх собак |
16 |
11 |
5 |
25 |
17 |
Страх пауков |
17 |
18 |
-1 |
1 |
18 |
Страх искалеченных людей |
18 |
8 |
10 |
100 |
19 |
Страх больниц |
19 |
15 |
4 |
16 |
20 |
Страх темноты |
20 |
14 |
6 |
36 |
Суммы |
210 |
210 |
0 |
802 |
Определяем эмпирическое значение rs по формуле:
где d - разности между рангами по каждой из переменных, в данном случае по каждой из терминальных ценностей;
N - количество переменных, образующих иерархию, в данном случае количество ценностей.
Для данного примера:
По Табл. XVI Приложения 1 определяем критические значения rs при N=20:
rs эмп < rs кр
Ответ: H0 принимается. Корреляция между упорядоченными перечнями видов страха в американской и отечественной выборках не достигает уровня статистической значимости, т. е. значимо не отличается от нуля.
Пример 4 - корреляция между индивидуальным и
среднегрупповым профилями
Выборке петербуржцев в возрасте от 20 до 78 лет (31 мужчина, 46 женщин), уравновешенной по возрасту таким образом, что лица в возрасте старше 55 лет составляли в ней 50%4 , предлагалось ответить на вопрос: "Какой уровень развития каждого из перечисленных ниже качеств необходим для депутата Городского собрания Санкт-Петербурга?" (Сидоренко Е.В., Дерманова И.Б., Анисимова О.М., Витенберг Е.В., Шульга А.П., 1994). Оценка производилась по 10-балльной шкале. Параллельно с этим обследовалась выборка из депутатов и кандидатов в депутаты в Городское собрание Санкт-Петербурга (n=14). Индивидуальная диагностика политических деятелей и претендентов производилась с помощью Оксфордской системы экспресс-видеодиагностики по тому же набору личностных качеств, который предъявлялся выборке избирателей.
4.Введение этого условия диктовалось тем, что в непосредственно предшествовавших исследованию выборах 52% электората составляли лица старше 55 лет.
В Табл. 6.6 представлены средние значения, полученные для каждого из качеств в выборке избирателей ("эталонный ряд") и индивидуальные значения одного из депутатов Городского собрания.
Попытаемся определить, насколько индивидуальный профиль депутата К-ва коррелирует с эталонным профилем.
Таблица 6.6
Усредненные эталонные оценки избирателей (n=77) и индивидуальные показатели депутата К-ва по 18 личностным качествам экспресс-видеодиагностики
Наименование качества |
Усредненные эталонные оценки избирателей |
Индивидуальные показатели депутата К-ва |
1. Общий уровень культуры |
8,64 |
15 |
2. Обучаемость |
7,89 |
7 |
3. Логика |
8.38 |
12 |
4. Способность к творчеству нового |
6,97 |
5 |
5. Самокритичность |
8,28 |
14 |
6. Ответственность |
9,56 |
18 |
7. Самостоятельность |
8,12 |
13 |
8. Энергия, активность |
8,41 |
17 |
9. Целеустремленность |
8,00 |
19 |
10. Выдержка, самообладание |
8,71 |
9 |
11. Стойкость |
7,74 |
16 |
12. Личностная зрелость |
8,10 |
11 |
13. Порядочность |
9,02 |
12 |
14.Гуманизм |
7.89 |
10 |
15.Умение общаться с людьми |
8.74 |
8 |
16. Терпимость к чужому мнению |
7,84 |
6 |
17. Гибкость поведение |
7,67 |
4 |
18.Способность производить благоприятное впечатление |
7,23 |
8 |
Таблица 6.7
Расчет d2 для рангового коэффициента корреляции Спирмена между эталонным и индивидуальным профилями личностных качеств депутата
Наименование качества |
Ряд1: ранг качества в эталонном профиле |
Ряд 2: ранг качества в индивидуальном профиле |
d |
D2 |
1 Ответственность |
1 |
2 |
-1 |
1 |
2 Порядочность |
2 |
8,5 |
-6.5 |
42.25 |
3 Умение общаться с людьми |
3 |
13.5 |
-10.5 |
110,25 |
4 Выдержка, самообладание |
4 |
12 |
-8 |
64 |
5 Общий уровень культуры |
5 |
5 |
0 |
0 |
6 Энергия, активность |
6 |
3 |
3 |
9 |
7 Логика |
7 |
8,5 |
-1.5 |
2.25 |
8 Самокритичность |
8 |
6 |
2 |
4 |
9 Самостоятельность |
9 |
7 |
2 |
4 |
10 Личностная зрелость |
10 |
10 |
0 |
0 |
11 Целеустремленность |
11 |
1 |
10 |
100 |
12 Обучаемость |
12.5 |
15 |
-2,5 |
6.25 |
13 Гуманизм |
12.5 |
11 |
1.5 |
2,25 |
14 Терпимость к чужому мнению |
14 |
16 |
-2 |
4 |
15 Стойкость |
15 |
4 |
11 |
121 |
16 Гибкость поведения |
16 |
18 |
-2 |
4 |
17 Способность производить благоприятное впечатление |
17 |
13,5 |
3.5 |
12,25 |
13 Способность к творчеству нового |
18 |
17 |
1 |
1 |
Суммы |
171 |
171 |
0 |
487,5 |
Как видно из Табл. 6.6, оценки избирателей и индивидуальные показатели депутата варьируют в разных диапазонах. Действительно, оценки избирателей были получены по 10-балльной шкале, а индивидуальные показатели по экспресс-видеодиагностике измеряются по 20-балльной шкале. Ранжирование позволяет нам перевести обе шкалы измерения в единую шкалу, где единицей измерения будет 1 ранг, а максимальное значение составит 18 рангов.
Ранжирование, как мы помним, необходимо произвести отдельно по каждому ряду значений. В данном случае целесообразно начислять большему значению меньший ранг, чтобы сразу можно было увидеть, на каком месте по значимости (для избирателей) или по выраженности (у депутата) находится то или иное качество.
Результаты ранжирования представлены в Табл. 6.7. Качества перечислены в последовательности, отражающей эталонный профиль.
Сформулируем гипотезы.
H0: Корреляция между индивидуальным профилем депутата К-ва и эталонным профилем, построенным по оценкам избирателей, не отличается от нуля.
Н1: Корреляция между индивидуальным профилем депутата К-ва и эталонным профилем, построенным по оценкам избирателей, статистически значимо отличается от нуля.
Поскольку в обоих сопоставляемых ранговых рядах присутствуют группы одинаковых рангов, перед подсчетом коэффициента ранговой корреляции необходимо внести поправки на одинаковые ранги Та и Тb:
Та =∑(а3 а)/12
Тb =∑(b3 b)/12
где а - объем каждой группы одинаковых рангов в ранговом ряду А,
b - объем каждой группы одинаковых рангов в ранговом ряду В.
В данном случае, в ряду А (эталонный профиль) присутствует одна группа одинаковых рангов - качества "обучаемость" и "гуманизм" имеют один и тот же ранг 12,5; следовательно, а=2.
Та = (23-2)/12=0,50.
В ряду В (индивидуальный профиль) присутствует две группы одинаковых рангов, при этом Ь1=2 и b2=2.
Тb = [(23-2)+(23-2)]/12=l,00
Для подсчета эмпирического значения rs используем формулу
В данном случае:
Заметим, что если бы поправка на одинаковые ранги нами не вносилась, то величина rs была бы лишь на (на 0,0002) выше:
При больших количествах одинаковых рангов изменения rs, могут оказаться гораздо более существенными. Наличие одинаковых рангов означает меньшую степень дифференцированности упорядоченных переменных и, следовательно, меньшую возможность оценить степень связи между ними (Суходольский Г.В., 1972, с.76).
По Табл.ХУ1 Приложения 1 определяем критические значения rs при N=18:
rs эмп > rs кр (p< 0.05)
Ответ: H0 отвергается. Корреляция между индивидуальным профилем депутата К-ва и эталонным профилем, отвечающим требованиям избирателей, статистически значима (р<0,05) и является положительной.
Из Табл. 6.7 видно, что депутат К-в имеет более низкий ранг по шкалам «Умения общаться с людьми» и более высокие ранги по шкалам «Целеустремленности» и «Стойкости», чем это предписывается избирательским эталоном. Этими расхождениями, главным образом, и объясняется некоторое снижение полученного rs.
Сформулируем общий алгоритм подсчета rs.
АЛГОРИТМ 20
Расчет коэффициента ранговой корреляции Спирмена rs.
1. Определить, какие два признака или две иерархии признаков будут участвовать в сопоставлении как переменные А и В.
2. Проранжировать значения переменной А, начисляя ранг 1 наименьшему значению, в соответствии с правилами ранжирования (см. п.2.3). Занести ранги в первый столбец таблицы по порядку номеров испытуемых или признаков.
3. Проранжнровать значения переменной В, в соответствии с теми же правилами. Занести ранги во второй столбец таблицы по порядку номеров испытуемых или признаков.
4. Подсчитать разности d между рангами А и В по каждой строке таблицы и занести в третий столбец таблицы.
5. Возвести каждую разность в квадрат: d2. Эти значения занести в четвертый столбец таблицы.
6. Подсчитать сумму квадратов ∑d2 ,
7. При наличии одинаковых рангов рассчитать поправки:
Та =∑(а3 а)/12
Тb =∑(b3 b)/12
где а - объем каждой группы одинаковых рангов в ранговом ряду А;
b - объем каждой группы одинаковых рангов в ранговом ряду В.
8. Рассчитать коэффициент ранговой корреляции rs по формуле:
а) при отсутствии одинаковых рангов
б) при наличии одинаковых рангов
где ∑d2 - сумма квадратов разностей между рангами;
Та и Тb - поправки на одинаковые ранги;
N - количество испытуемых или признаков, участвовавших в ранжировании,
9. Определить по Табл. XVI Приложения 1 критические значения rs для данного N. Если rs превышает критическое значение или по крайней мере равен ему, корреляция достоверно отличается от 0.
Курс: «Математические методы в психологии»
(Материалы для самостоятельного изучения студентам психологам и социальным работникам)
Лекция № 9
ДИСПЕРСИОННЫЙ АНАЛИЗ
Вопросы:
1. Понятие дисперсионного анализа.
2. Подготовка данных к дисперсионному анализу.
3. Однофакторный дисперсионный анализ для
несвязанных выборок.
4. Однофакторный дисперсионный анализ для
связанных выборок.
Вопрос 1
Понятие дисперсионного анализа
Дисперсионный анализ - это анализ изменчивости признака под влиянием каких-либо контролируемых переменных факторов. В зарубежной литературе дисперсионный анализ часто обозначается как ANOVA, что переводится как анализ вариативности (Analysis of Variance), Автором метода является Р. А. Фишер (Fisher R.A., 1918, 1938).
Задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака вычленить вариативность троякого рода:
а) вариативность, обусловленную действием каждой из исследуемых независимых переменных;
б) вариативность, обусловленную взаимодействием исследуемых независимых переменных;
в) случайную вариативность, обусловленную всеми другими неизвестными переменными.
Вариативность, обусловленная действием исследуемых переменных и их взаимодействием, соотносится со случайной вариативностью.
Показателем этого соотношения является критерий F Фишера1.
1 Критерии F Фишера и метод углового преобразования Фишера, дающий нам критерий φ*, - это совершенно различные методы, имеющие разное предназначение и разные способы вычисления.
Fэмп А= Вариативность, обусловленная переменной А
Случайная вариативность
Fэмп Б = Вариативность, обусловленная переменной Б
Случайная вариативность
Fэмп АБ = Вариативность, обусловленная взаимодействием переменных А и Б
Случайная вариативность
В формулу расчета критерия F входят оценки дисперсий, то есть параметров распределения признака, поэтому критерии F является параметрическим критерием.
Чем в большей степени вариативность признака обусловлена исследуемыми переменными (факторами) или их взаимодействием, тем выше эмпирические значения критерия F.
В дисперсионном анализе исследователь исходит из предположения, что одни переменные могут рассматриваться как причины, а другие - как следствия.
*Переменные первого рода считаются факторами,
а *переменные второго рода - результативными признаками.
В этом отличие дисперсионного анализа от прямолинейного корреляционного анализа, в котором мы исходим из предположения, что изменения одного признака просто сопровождаются определенными изменениями другого.
В дисперсионном анализе возможны два принципиальных пути разделения всех исследуемых переменных на независимые переменные (факторы) и зависимые переменные (результативные признаки).
Первый путь состоит в том, что мы совершаем какие-либо воздействия на испытуемых или учитываем какие-либо не зависящие от нас воздействия на них, и именно эти воздействия считаем независимыми переменными, или факторами, а исследуемые признаки рассматриваем как зависимые переменные, или результативные признаки.
Например, возраст испытуемых или способ предъявления им информации считаем факторами, а обучаемость или эффективность выполнения задания - результативными признаками.
Второй путь предполагает, что мы, не совершая никаких воздействий, считаем, что при разных уровнях развития одних психологических признаков другие проявляются тоже по-разному. По тем или иным причинам мы решаем, что одни признаки могут рассматриваться скорее как факторы, а другие - как результат действия этих факторов.
Например, уровень интеллекта или мотивации достижения начинаем считать факторами, а профессиональную компетентность или социометрический статус - результативными признаками.
Второй путь весьма уязвим для критики. Допустим, мы предположили, что настойчивость - значимый фактор учебной успешности студентов. Мы принимаем настойчивость за воздействующую переменную (фактор), а учебную успешность - за результативный признак. Против этого могут быть выдвинуты сразу же два возражения. Во-первых, успех может стимулировать настойчивость; во-вторых, как, собственно, измерялась настойчивость? Если она измерялась с помощью метода экспертных оценок, а экспертами были соученики или преподаватели, которым известна учебная успешность испытуемых, то не исключено, что это оценка настойчивости будет зависеть от известных экспертам показателей успешности, а не наоборот.
Допустим, что в другом исследовании мы исходим из предположения, что фактор социальной смелости (фактор Н) из 16-факторного личностного опросника Р.Б. Кеттелла - это та независимая переменная, которая определяет объем заключенных торговым представителем договоров на поставку косметических товаров. Но если объем договоров определялся по какому-то периоду работы, скажем трехмесячному, а личностное обследование проводилось в конце этого периода или даже после его истечения, то мы не можем со всей уверенностью отделить здесь причину от следствия. Есть очень сильное направление в психологии и психотерапии, которое утверждает, что личностные изменения начинаются с действий и поступков: "Начни действовать, и постепенно станешь таким, как твои поступки". Таким образом, психолог, представляющий это направление, возможно, стал бы утверждать, что причиной должен считаться достигнутый объем договорных поставок, а результатом - повышение социальной смелости.
Только наше исследовательское чутье может подсказать нам, что должно рассматриваться как причина, а что - как результат. Однако не всегда эти ощущения у разных исследователей совпадают, поэтому нужно быть готовым к тому, что наши выводы могут быть оспорены другими специалистами, которые рассматривают данный предмет с иной точки зрения и видят в нем иные перспективы. Впрочем, спорность выводов - постоянный спутник психологического исследования.
Постараемся быть оптимистичными и представим себе, что существует все же какое-то совпадение взглядов на психологические причины и следствия. На Рис. 7.1 представлены два варианта рассеивания показателей учебной успешности в зависимости от уровня развития кратковременной памяти.
Из Рис. 7.1(а) мы видим, что при низком уровне развития кратковременной памяти оценки по английскому языку, похоже, несколько ниже, чем при среднем, а при высоком уровне выше, чем при среднем. Похоже, что кратковременная память может рассматриваться как фактор успешности овладения английским языком.
С другой стороны, Рис. 7.1(6) свидетельствует о том, что успешность в чистописании вряд ли так же определенно зависит от уровня развития кратковременной памяти.
О том, верны ли наши предположения, мы сможем судить только после вычисления эмпирических значении критерия F.
Рис. 7.1. Рассеивание индивидуальных средних оценок по английскому языку (а) и чистописанию (б) у учеников с низким, средним и высоким уровнями развития кратковременной памяти
Низкий, средний и высокий уровни развития кратковременной памяти можно рассматривать как градации фактора кратковременной памяти.
Нулевая гипотеза в дисперсионном анализе будет гласить, что средние величины исследуемого результативного признака во всех градациях одинаковы.
Альтернативная гипотеза будет утверждать, что средние величины результативного признака в разных градациях исследуемого фактора различны.
В зарубежных руководствах чаще говорят о переменных, действующих в разных условиях, а не о факторах и их градациях (Greene J., D'Olivera M., 1982, р. 91-93).
Дело в том, что градация подразумевает ступень, стадию, уровень развития. Говоря о градациях фактора, мы явно или неявно подразумеваем, что сила его возрастает при переходе от градации к градации. Между тем, схема дисперсионного анализа применима и в тех случаях, когда градации фактора представляют собой номинативную шкалу, то есть отличаются лишь качественно.
Например, градациями фактора могут быть:
*параллельные формы экспериментальных заданий;
*цвет окраски стимулов;
*жанр музыкальных произведений, сопровождающих
процесс работы;
*традиционные или специально подобранные православные тексты в сеансах аутогенной тренировки;
*разные формы заболевания;
*разные экспериментаторы;
*разные психотерапевты и т. д.
Если градации фактора различаются лишь качественно, их лучше называть условиями действия фактора или переменной. Например, действие аутогенной тренировки при условии использования текстов православных молитв2 или эффективность психокоррекционных воздействий при разных формах хронических заболеваний у детей3.
2. См. исследование Е. Б. Кулевой, 1991.
3 См.исследование Н.В.Корольковой, 1994.
Экспериментальные данные, представленные по градациям фактора, называются дисперсионным комплексом. Данные, относящиеся к отдельным градациям - ячейками комплекса.
Дисперсионный анализ позволяет нам констатировать изменение признака, но при этом не указывает направление этих изменений. Нам необходимо специально графически представлять полученные данные по градациям фактора, чтобы получить наглядное представление о направлении изменений.
Подобного рода задачи, как мы помним, позволяют решать непараметрические методы сравнения выборок или условий измерения, а именно критерий Н. Крускала-Уоллиса и критерий χ2r Фридмана.
Однако это касается только тех задач, в которых исследуется действие одного фактора, или одной переменной. Задачи однофакторного дисперсионного анализа, действительно, могут эффективным образом решаться с помощью непараметрических методов.
Метод дисперсионного анализа становится незаменимым только когда мы исследуем одновременное действие двух (или более) факторов, поскольку он позволяет выявить взаимодействие факторов в их влиянии на один и тот же результативный признак. Именно эти возможности двухфакторного дисперсионного анализа послужили причиной, по которой изложение этого метода включено в наш курс «Методы математической обработки в психологии».
Несмотря на то, что нас интересует прежде всего двухфакторный дисперсионный анализ, который нельзя заменить другими методами, начнем рассмотрение мы с однофакторного дисперсионного анализа:
*во-первых, для того, чтобы выдержать определенную последовательность и логику в изложении;
*во-вторых, для того, чтобы на реальном примере продемонстрировать возможность замены этого метода непараметрическими методами.
Итак, начнем рассмотрение дисперсионного анализа с простейшего случая, когда исследуется действие только одной переменной (одного фактора). Исследователя интересует, как изменяется определенный признак в разных условиях действия этой переменной.
Например, как изменяется время решения задачи
*при разных условиях мотивации испытуемых (низкой, средней, высокой) или
*при разных способах предъявления задачи (устно, письменно, в виде текста с графиками и иллюстрациями),
*в разных условиях работы с задачей (в одиночестве, в одной комнате с экспериментатором, в одной комнате с экспериментатором и другими испытуемыми) и т.п.
*В первом случае переменной, влияние которой исследуется, является мотивация,
*во втором - степень наглядности,
*в третьем - фактор публичности.
Преимущество однофакторного дисперсионного анализа по сравнению с непараметрическими методами Н Крускала-Уоллиса и χ2r Фридмана - неограниченность в объемах выборок. Ограничения дисперсионного анализа достаточно условны. Например, требование нормальности распределения признака можно обойти по крайней мере двумя путями: при слишком скошенном, островершинном или плосковершинном распределении можно,
во-первых, нормализовать данные, а
во-вторых... просто вообще по этому поводу "не волноваться", как советуют, например, А.К. Kurtz и S.T. Мауо (1979, р.417).
Вопрос 2
Подготовка данных к дисперсионному анализу
1) Создание комплексов
Лучше всего для каждого испытуемого создать отдельную карточку, куда были бы занесены данные по всем исследованным признакам. Дело в том, что в процессе анализа у исследователя могут измениться гипотезы. Потребуется создавать, быть может, не один, а множество дисперсионных комплексов, различающихся как по факторам, так и по результативным признакам. Карточки помогут нам быстро создавать новые дисперсионные комплексы. Благодаря карточкам мы сразу увидим, равномерно ли распределяются данные по градациям в случае, если за фактор мы решили принять один из исследованных психологических признаков. С помощью карточек мы можем помочь себе выделить три, четыре или более градаций этого фактора, например, уровни мотивации, настойчивости, креативности и др.
2) Уравновешивание комплексов
Комплекс, в котором каждая ячейка представлена одинаковым количеством наблюдений, называется равномерным. Равномерность комплекса позволяет нам обойти требование равенства дисперсий в каждой из ячеек комплекса (Шеффе Г., 1980).
Равномерные комплексы позволяют также избежать значительных трудностей, которые неизбежно возникают при обсчете неравномерных, или неортогональных, комплексов. В настоящем методическом пособии приведены алгоритмы расчета лишь для равномерных комплексов. С методами обсчета неравномерных комплексов можно ознакомиться у Н.А. Плохинского (1970), Г.В. Суходольского (1972), Г. Шеффе (1980).
В случае, если в разных градациях комплекса оказалось неравное количество наблюдений, необходимо отсеять некоторые из них. Если в комплексе со связанными выборками кто-либо из испытуемых не был подвергнут одному из условий действия переменной (градаций фактора), то его данные исключаются. Если же комплекс включает независимые выборки, каждая из которых была подвергнута определенному условию воздействия (градации фактора), то "лишние" испытуемые в какой-либо из ячеек комплекса отсеиваются путем случайного выбора необходимого количества карточек.
3) Проверка нормальности распределения результативного признака.
Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда известно или доказано, что распределение признака является нормальным (Суходольский Г.В., 1972; Шеффе Г., 1980 и др.). Строго говоря, перед тем, как применять дисперсионный анализ, мы должны убедиться в нормальности распределения результативного признака. Нормальность распределения результативного признака можно проверить путем расчета показателей асимметрии и эксцесса и сопоставления их с критическими значениями (Пустыльник Е,И., 1968* Плохинский Н.А., 1970 и др.).
Произведем необходимые расчеты на примере вопроса 3 Темы №9, в котором анализируется длительность мышечного волевого усилия.
Действовать будем по следующему алгоритму:
а) определим показатели асимметрии и эксцесса по формулам Н.А.Плохинского и сопоставим их с критическими значениями, указанными Н.А. Плохинским;
б) рассчитаем критические значения показателей асимметрии и эксцесса по формулам Е.И. Пустыльника и сопоставим с ними эмпирические значения;
в) если эмпирические значения показателей окажутся ниже критических, сделаем вывод о том, что распределение признака не отличается от нормального.
Таблица 7.1
Вычисление показателей асимметрии и эксцесса по показателю длительности попыток решения анаграмм
№ |
xi |
(xi xср) |
(xi xср)2 |
(xi xср)3 |
(xi xср)4 |
1 |
11 |
0,94 |
0,884 |
0,831 |
0,781 |
2 |
13 |
2,94 |
8,644 |
25,412 |
74,712 |
3 |
12 |
1,94 |
3,764 |
7,301 |
14,165 |
4 |
9 |
-1,06 |
1,124 |
-1,191 |
1,262 |
5 |
10 |
-0,06 |
0,004 |
-0,000 |
0,000 |
6 |
11 |
0,94 |
0,884 |
0,831 |
0,781 |
7 |
8 |
-2,06 |
4,244 |
-8,742 |
18,009 |
8 |
10 |
-0,06 |
0,004 |
-0,000 |
0,000 |
9 |
15 |
4,94 |
24,404 |
120,554 |
595,536 |
10 |
14 |
3.94 |
15,524 |
61,163 |
240,982 |
11 |
8 |
-2,06 |
4,244 |
-8,742 |
18,009 |
12 |
7 |
-3.06 |
9,364 |
-28,653 |
87,677 |
13 |
10 |
-0,06 |
0,004 |
-0.000 |
0,000 |
14 |
10 |
-0,06 |
0,004 |
-0,000 |
0,000 |
15 |
5 |
-5,06 |
25,604 |
-129,554 |
655,544 |
16 |
8 |
-2,06 |
4,244 |
-8,742 |
18,009 |
Суммы |
161 |
102,944 |
30,468 |
1725,467 |
Для расчетов в Табл. 7.1 необходимо сначала определить среднюю арифметическую по формуле:
где xi ; - каждое наблюдаемое значение признака;
п - количество наблюдений.
В данном случае:
Стандартное отклонение (сигма) вычисляется по формуле:
где xi - каждое наблюдаемое значение признака;
xср - среднее значение (среднее арифметическое);
n - количество наблюдений.
В данном случае:
Показатели асимметрии и эксцесса с их ошибками репрезентативности определяются по следующим формулам:
где (xi xср) центральные отклонения;
σ стандартное отклонение
n количество испытуемых
В данном случае:
Показатели асимметрии и эксцесса свидетельствуют о достоверном отличии эмпирических распределений от нормального в том случае, если они превышают по абсолютной величине свою ошибку репрезентативности в 3 и более раз:
В данном случае:
Мы видим, что оба показателя не превышают в три раза свою ошибку репрезентативности, из чего мы можем заключить, что распределение данного признака не отличается от нормального.
Теперь произведем проверку по формулам Е.И. Пустыльника. Рассчитаем критические значения для показателей А и Е:
где n количество наблюдений.
Аэмп =0,106
Аэмп < Акр
Еэмп = -0,711
Еэмп < Екр
Итак, оба варианта проверки, по Н.А. Плохинскому и по Е.И. Пустыльнику, дают один и тот же результат: распределение результативного признака в данном примере не отличается от нормального распределения.
Можно выбрать любой из двух предложенных вариантов проверки и придерживаться его. При больших объемах выборки, по-видимому, стоит производить расчет первичных статистик (оценок параметров) на ЭВМ.
4) Преобразование эмпирических данных с целью упрощения расчетов
НА. Плохинский указывает на возможность следующих преобразований:
например перевести показатели из миллиметров в сантиметры и т.п.;
При всех этих преобразованиях результативного признака показатели соотношения дисперсий получаются точными и не требуют никаких поправок.
Средние величины изменяются, но их можно восстановить, умножая среднюю величину на число k или деля ее на k (варианты 1 и 2) или прибавляя к средней число А (вариант 3) и т. п. Стандартное отклонение изменяется только при введении множителя или делителя; полученный результат затем придется либо разделить на число k, либо умножить на него (Плохинский Н.А.,1964, с.34-36; Плохинский Н.А., 1970, с.71-72).
В последующих трех параграфах будет рассмотрен метод однофакторного анализа в двух вариантах:
а) для дисперсионных комплексов, представляющих данные одной и той же выборки испытуемых, подвергнутой влиянию разных условий (разных градаций фактора);
б) для дисперсионных комплексов, в которых влиянию разных условий (градаций фактора) были подвергнуты разные выборки испытуемых.
Первый вариант называется однофакторным дисперсионным анализом для связанных выборок, второй - для несвязанных выборок.
Все предложенные алгоритмы расчетов предназначены для равномерных комплексов, где в каждой ячейке представлено одинаковое число наблюдений.
Вопрос 3
Однофакторный дисперсионный анализ для несвязанных выборок
Назначение метода
Метод однофакторного дисперсионного анализа применяется в тех случаях, когда исследуются изменения результативного признака под влиянием изменяющихся условий или градаций какого-либо фактора. В данном варианте метода влиянию каждой из градаций фактора подвергаются разные выборки испытуемых. Градаций фактора должно быть не менее трех4.
4.Градаций может быть и две, но в этом случае мы не сможем установить нелинейных зависимостей и более разумным представляется использование более простых критериев (см. темы 3 и 4).
Непараметрическим вариантом этого вида анализа является критерий Н Крускала-Уоллиса.
Описание метода
Работу начинаем с того, что представляем полученные данные в виде столбцов индивидуальных значений. Каждый из столбцов соответствует тому или иному из изучаемых условий (см. Табл. 7.2).
После этого нам нужно просуммировать индивидуальные значения по столбцам и суммы возвести в квадрат.
Суть метода состоит в том, чтобы сопоставить сумму этих возведенных в квадрат сумм с суммой квадратов всех значений, полученных во всем эксперименте.
Гипотезы
H0: Различия между градациями фактора (разными условиями) являются не более выраженными, чем случайные различия внутри каждой группы.
H1: Различия между градациями фактора (разными условиями) являются более выраженными, чем случайные различия внутри каждой группы.
Графическое представление метода для несвязанных выборок
На Рис. 7.2 показана кривая изменения объема воспроизведения слов при разной скорости их предъявления (см. Пример). Метод дисперсионного анализа позволяет определить, что перевешивает - тенденция, выраженная этой кривой, или вариативность признака внутри групп, которая на графике схематически изображена в виде диапазонов изменения признака от минимального значения к максимальному значению в каждой группе.
Рис. 7.2. Кривая изменения объема воспроизведения при повышении скорости предъявления слов; по каждому условию показаны диапазоны изменения признака (по данным Greene J.. D'Olivera M, 1989)
Ограничения метода однофакторного дисперсионного анализа для несвязанных выборок
Правда, обычно не указывается, идет ли речь о распределении признака во всей обследованной выборке или в той ее части, которая составляет дисперсионный комплекс.
Характерно, что зарубежные руководства, в общем, ссылаясь на необходимость нормального распределения данных для дисперсионного анализа, при рассмотрении конкретных схем и примеров к этому вопросу уже не возвращаются и никаких данных о распределении признака в выборке в целом или в тон ее части, которая составляет дисперсионный комплекс, не приводят (см. McCall R., 1970; Welkowitz J., Ewen R.B., Cohen J., 1982; Greene J., D'Olivera M-, 1989).
Рассмотрим схему дисперсионного однофакторного анализа для несвязанных выборок, предлагаемую в руководстве J.Greene, M.D'Olivera (1989) с использованием примера этих авторов.
Пример
Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Результаты представлены в Табл. 7.2.
Таблица 7.2.
Количество воспроизведенных слов
(по: J.Greene, M.D'Olivera, 1989,p.99)
№ испытуемого |
Группа 1: низкая скорость |
Группа 2: средняя скорость |
Группа 3: высокая скорость |
1 |
8 |
7 |
4 |
2 |
7 |
8 |
5 |
3 |
9 |
5 |
3 |
4 |
5 |
4 |
6 |
5 |
6 |
6 |
2 |
6 |
8 |
7 |
4 |
Суммы |
43 |
37 |
24 |
Средние |
7,17 |
6,17 |
4,00 |
Общая сумма |
104 |
Поскольку сопоставляются разные группы, любые различия в показателях между разными условиями предъявления слов - это в то же время различия между группами испытуемых. Однако всякие различия между испытуемыми внутри каждой группы объясняются какими-то другими, не относящимися к делу переменными, будь то индивидуальные различия между отдельными испытуемыми или неконтролируемые факторы, заставляющие их реагировать различным образом. Критерий F позволяет проверить гипотезы:
Но: Различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы.
Н1: Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы.
Используя экспериментальные значения, представленные в Табл. 7.2, установим некоторые величины, которые будут необходимы для расчета критерия F.
Таблица 7.3.
Расчет основных величин для однофакторного дисперсионного анализа
Обозначение |
Расшифровка обозначения |
Экспериментальные значения |
Tc |
Суммы индивидуальных значений по каждому из условия |
43; 37; 24 |
∑(T2c) |
Сумма квадратов суммарных значений по каждому из условий |
∑(T2c)=432+372+242 |
C |
Количество условий (градаций фактора) |
c=3 |
n |
Количество испытуемых в каждой группе (в каждом из условий) |
n=6 |
N |
Общее количество индивидуальных значений |
N=18 |
(∑xi)2 |
Квадрат общей суммы индивидуальных значений |
(∑xi)2 =1042 |
Константа, которую нужно вычесть из каждой суммы квадратов |
= |
|
xi |
Каждое индивидуальное значение |
|
∑(xi2) |
Сумма квадратов индивидуальных значений |
Отметим разницу между (∑xi2), в которой все индивидуальные значения сначала возводятся в квадрат, а потом суммируются, и (∑xi)2, где индивидуальные значения сначала суммируются для получения общей суммы, а потом уже эта сумма возводится в квадрат.
Последовательность расчетов представлена в Табл. 7.4.
Часто встречающееся в этой и последующих таблицах обозначение SS - сокращение от "суммы квадратов" (sum of squares). Это сокращение чаще всего используется в переводных источниках (см., например: Гласе Дж., Стенли Дж., 1976).
SSфакт означает вариативность признака, обусловленную действием исследуемого фактора; SSобщ - общую вариативность признака; SSсл -вариативность, обусловленную неучтенными факторами, "случайную" или "остаточную" вариативность.
MS - "средний квадрат", или математическое ожидание суммы квадратов, усредненная величина соответствующих SS.
df - число степеней свободы, которое при рассмотрении непараметрических критериев мы обозначили греческой буквой V.
Таблица 7.4
Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок
Примечание (см.Приложение 1).
Вывод: Н0 отклоняется. Принимается H1. Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (р<0,01). Итак, скорость предъявления слов влияет на объем их воспроизведения5.
Вернемся к графику на Рис. 7.2. Мы видим, что, скорее всего, значимость различий объясняется тем, что показатель воспроизведения при самой высокой скорости предъявления слов (условие 3) гораздо ниже соответствующих показателей при средней и низкой скорости.
5 Г.В. Суходольским (1972) предложена формула расчета дисперсионного отношения, которая позволяет получить более строгий результат: Fэмп = (n*MSфакт+MSсл)/MSсл
где n - среднее количество наблюдений в каждой градации.
В данном случае Fэмп =6,942 (p<О,01). Эта величина действительно ниже, чем в цитируемом примере. Однако для первого знакомства с дисперсионным анализом исследователям, обрабатывающим свои данные самостоятельно, в практических целях достаточно использовать приведенный алгоритм расчетов, используемый и в большинстве других руководств (Плохинский Н.А., 1960; Венецкий И.Г., Кильдишев Г.С., 1968; Ивантер Э.В., Коросов А.В.; 1992, Kurtz A.K., Mayo S.T, 1979 и др.).
Вопрос 4
Дисперсионный анализ для связанных выборок
Назначение метода
Метод дисперсионного анализа для связанных выборок применяется в тех случаях, когда исследуется влияние разных градаций фактора или разных условий на одну и ту же выборку испытуемых.
Градаций фактора должно быть не менее трех.
Непараметрический вариант этого вида анализа - критерий Фридмана χ2r.
Описание метода
В данном случае различия между испытуемыми - возможный самостоятельный источник различий. В схеме однофакторного анализа для несвязанных выборок различия между условиями в то же время отражали различия между испытуемыми. Теперь различия между условиями могут проявиться только вопреки различиям между испытуемыми.
Фактор индивидуальных различий может оказаться более значимым, чем фактор изменения экспериментальных условий. Поэтому нам необходимо учитывать еще одну величину - сумму квадратов сумм индивидуальных значений испытуемых.
Графическое представление метода
На Рис. 7.3 представлена кривая изменения времени решения анаграмм разной длины: четырехбуквенной, пятибуквенной и шестибуквенной. Однофакторный дисперсионный анализ для связанных выборок позволит определить, что перевешивает - тенденция, выраженная этой кривой, или индивидуальные различия, диапазон которых представлен на графике в виде вертикальных линий от минимального до максимального значения.
Рис. 7.3. Изменение времени работы над разными анаграммами у тати испытуемых; вертикальными линиями отображены диапазоны изменчивости признака е разных условиях от минимального значения (снизу) до максимального значения (сверху)
Ограничения метода дисперсионного анализа для связанных выборок
В приводимом ниже примере показатели асимметрии и эксцесса составляют:
А=218
тА=0,632;
tA =2,18/0,632=3,45;
E=4,17;
ME =l,264;
tE =4,17/1,264=3,30.
Таким образом, распределение показателей 5-тй- человек, составляющих дисперсионный комплекс, несколько отличается от нормального: tA>3; tE>3. Однако в целом по выборке распределение нормальное:
n=22;
A=1,26;
тА=0,522
tA=2,41<3;
E=2,29;
mE=1,044;
tE=2,19<3.
По-видимому, необходимо удовлетвориться тем, что в выборке в целом результативный признак распределен нормально. Случайно отобранные 5 человек распределением своих оценок демонстрируют некоторое отклонение. Однако, если бы мы выбирали испытуемых таким образом, чтобы распределение их оценок подчинялось нормальному закону, это нарушило бы правило рандомизации - случайности отбора объектов без учета значений результативного признака при отборе (Плохинский Н.А. 1970).
Данные этого примера нам уже знакомы. Они использовались для иллюстрации непараметрического критерия Фридмана χ2r. Использование здесь этого же примера позволит нам сопоставить результаты, получаемые с помощью непараметрических и параметрических методов.
Пример
Группа из 5 испытуемых была обследована с помощью трех экспериментальных заданий, направленных на изучение интеллектуальной настойчивости (Сидоренко Е. В., 1984). Каждому испытуемому индивидуально предъявлялись последовательно три одинаковые анаграммы: четырехбуквенная, пятибуквенная и шестибуквенная. Можно ли считать, что фактор длины анаграммы влияет на длительность попыток ее решения?
Сформулируем гипотезы.
Наборов гипотез в данном случае два.
Набор А.
Но(А): Различия в длительности попыток решения анаграмм разной длины являются не более выраженными, чем различия, обусловленные случайными причинами.
Н1(А): Различия в длительности попыток решения анаграмм разной длины являются более выраженными, чем различия, обусловленные случайными причинами. Набор Б.
Но(Б): Индивидуальные различия между испытуемыми являются не более выраженными, чем различия, обусловленные случайными причинами.
Н1(Б): Индивидуальные различия между испытуемыми являются более выраженными, чем различия, обусловленные случайными причинами.
Таблица 7.5
Длительность попыток решения анаграмм (сек)
Код имени испытуемого |
Условие 1: |
Условие 2. |
Условие 3: |
Суммы го испытуемым |
Четырехбуквенная анаграмма |
пятибуквенная анаграмма |
шести буквенная анаграмма |
||
1. Л-в |
5 |
235 |
7 |
247 |
2. П-о |
7 |
604 |
20 |
631 |
3. К-в |
2 |
93 |
5 |
100 |
4. Ю-ч |
2 |
171 |
8 |
181 |
5. Р-о |
35 |
141 |
7 |
183 |
Cvmmы по столбцам |
51 |
1244 |
47 |
1342 |
Установим все промежуточные величины, необходимые для расчета критерия F.
Таблица 7.6
Расчет промежуточных величин для критерия F в примере об анаграммах
Обозначение |
Расшифровка обозначения |
Экспериментальное значение |
Тс |
суммы индивидуальных значений по каждому из условий (столбцов) |
51; 1244; 47 |
∑T2c |
сумма квадратов суммарных значений по каждому из условий |
∑T2c =512+12442+472 |
n |
количество испытуемых |
n=5 |
c |
количество значений у каждого испытуемого (т. е. количество условий) |
c=5 |
N |
общее количество значений |
N=15 |
Tи |
суммы индивидуальных значений по каждому испытуемому |
247; 631; 100; 181; 183 |
∑T2и |
сумма квадратов сумм индивидуальных значений по испытуемым |
247г+6312+1002+181г+1832 |
(∑xi)2 |
квадрат общей суммы индивидуальных значений |
(∑xi)2=13422 |
1 *(∑xi)2 N |
константа, которую нужно вычесть из каждой суммы квадратов |
1/N*(∑xi)2 = 1*13422 15 |
xi |
каждое индивидуальное значение |
|
∑x2i |
сумма квадратов индивидуальных значений |
Мы по-прежнему помним разницу между квадратом суммы и суммой квадратов!
Последовательность расчетов приведена в Табл. 7.7.
Таблица 7.7.
Последовательность операций в однофакторной модели дисперсионного анализа для связанных выборок
Последовательность операций в однофакторной модели
Примечание: (См.Приложение 2).
Вывод:
Но(А) отклоняется. Различия в объеме воспроизведения слов в разных условиях являются более выраженными, чем различия, обусловленные случайными причинами (р<0,05).
Но(Б) принимается: Индивидуальные различия между испытуемыми являются не более выраженными, чем различия, обусловленные случайными причинами.
Однако, судя по Рис. 7.3, мы не можем утверждать, что срабатывает фактор длины анаграммы. Более значимыми оказываются качественные, а не количественные различия между анаграммами. Как мы уже имели возможность убедиться (см. параграфы 3.4 и 3.5), непараметрический L - критерий Пейджа подтверждает тенденцию увеличения индивидуальных показателей при переходе от анаграммы КРУА к анаграмме ИНААМШ, а затем к анаграмме АЛСТЬ (р<0,01). Значимые различия были получены и с помощью критерия Фридмана χ2r
(р=0,0085).
Итак, непараметрические критерии позволяют нам констатировать более высокий уровень значимости различий между условиями!
Зачем же тогда использовать достаточно сложный дисперсионный анализ? Для того, чтобы подобрать существенные факторы, которые могут стать основой для формирования двух-, трех- и более факторных дисперсионных комплексов, позволяющих оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие.
Приложение 1
Таблица 7.4.
Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок
Операция |
Формула расчёта |
Расчёт по экспериментальным данным |
1.Подсчитать SSфакт |
SSфакт=(432+372+242)/6-1042/18=31,44 |
|
2.Подсчитать SSобщ |
SSобщ=82+72+92+52+62+82+72+82+52 +42+62+72 +42+52+32+62+22+42-1042/18=63,11 |
|
3. Подсчитать случайную (остаточную) величину SSсл |
SSсл = SSобщ - SSфакт |
SSсл=63,11-31,44=31,67 |
4.Определить число степеней свободы |
dfфакт=с-1 dfобщ=N-1 dfсл = dfобщ dfфакт |
dfфакт=3-1=2 dfобщ=18-1=17 dfсл = 17-2=15 |
5.Разделить каждую SS на соответствующее число степеней свободы |
MSфакт= SSфакт/ dfфакт MSсл =SSсл/ dfсл |
MSфакт= 31,44/2=15,72 MSсл =31,67/15=2,11 |
6.Подсчитать значение Fэмп |
Fэмп= MSфакт /MSсл |
Fэмп(2,15)= 15,72/2,11=7,45 |
7.Определить критическое значение по Таблице ХУ11 Приложения 1 |
Для df1= 2df2 =15 |
|
8.Сопоставить эмпирическое и критическое значение F |
При Fэмп ≥Fкр Н0 отклоняется |
Fэмп >Fкр → Н0 отклоняется |
Приложение 2
Таблица 7.7.
Последовательность операций в однофакторном дисперсионном анализе для связанных выборок
Операция |
Формула расчёта |
Расчёт по экспериментальным данным |
1.Подсчитать SSфакт |
SSфакт= *(512 +12442 +472)- * 13422 =*1552346-*1800964=190405 |
|
2.Подсчитать SSисп |
SSисп= *(247+631+100+181+183)*1342 *535420- *1800964=58409 |
|
3. Подсчитать случайную (остаточную) величину SSобщ |
SSобщ = ∑х2i-*(∑х2i) |
SSобщ=52 +72 +22+22+35 2+2352 +6042 +932 +1712 +1412 +72 +202 +52 +82 +72 -*1800964=479706-120064,26=359642 |
4.Подсчитать SSсл |
SSсл =SSобщ -SSфакт -SSисп |
SSсл =359642-190405-58409=110828 |
5.Подсчитать число степеней свободы |
dfфакт=с-1 dfисп=n-1 dfобщ = N-1 dfсл =dfобщ -dfфакт dfисп |
dfфакт=3-1=2 dfисп=5-1=4 dfобщ = 15-1=14 dfсл = 14-2-4=8 |
6.Разделить каждую SS на число степеней свободы |
MSфакт= SSфакт /dfфакт MSисп = SSисп /dfисп MSсл = SSсл /dfсл |
MSфакт= 190405/2=95202,5 MSисп = 58409/4=14602,2 MSсл = 110827/8=13853,4 |
7.Подсчитать значения F и определить им df1 по числителю и df2 по знаменателю |
Fфакт=MSфакт /MSсл Fисп=MSисп /MSсл |
Fфакт(2,8)=95202,5/13853,4=6,872 Fисп(4,8)=14602,2/13853,4=1,054 |
8.Определить критические значения F по Табл.ХУ11 Приложения 1 |
Для df1 =2 и df2=8 Для df1 =4 и df2=8 |
|
9.Сопоставить эмпирические значения F с критическим |
При Fэмп <Fкр Н0 принимается При Fэмп >Fкр Н0 отклоняется |
Fфакт >Fкр → Н0(А) отклоняется Fфакт <Fкр → Н0(Б) принимается |
Курс «Методы математической обработки в психологии»
(Материалы для самостоятельного изучения студентам психологам и социальным работникам)
Лекция № 10
ДИСПЕРСИОННЫЙ ДВУХФАКТОРНЫЙ АНАЛИЗ
Вопросы:
1. Обоснование задачи по оценке взаимодействия двух факторов
2. Двухфакторный дисперсионный анализ для несвязанных выборок
3. Двухфакторный дисперсионный анализ для связанных выборок
Вопрос 1.
Обоснование задачи по оценке взаимодействия двух факторов
Двухфакторный дисперсионный анализ позволяет нам оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие. Может оказаться, что одна переменная значимо действует на исследуемый признак только при малых (или, напротив, больших) значениях другой переменкой.
Например,
*повышение вознаграждения может повышать скорость решения задач у высокоинтеллектуальных испытуемых и
понижать ее у низкоинтеллектуальных.
*Усиление наказания может снижать количество агрессивных реакций у девочек и повышать его у мальчиков.
*Или, скажем, внушение может влиять на младших школьников, но не влиять на подростков.
Итак, один фактор может "заморозить" или, напротив, "катализировать" действие другого.
В исследовании К.А. Harris и К.В. Morrow изучалась такая личностная черта, как доминантность взрослых мужчин и женщин: Авторы предполагали, что доминантность должна быть выше у людей, которые были первенцами в своих семьях, и ниже у средних и тем более младших детей. Оказалось, что влияние каждого из двух исследуемых факторов - пола и порядка рождения - незначимо, а взаимодействие факторов значимо (см. Рис. 8.1). У мужчин доминантность, как и предполагалось, с увеличением порядка рождения снижается, а у женщин, напротив, повышается. Авторы объясняют это двояко: тем, что младшие девочки в семьях могут пользоваться особым предпочтением остальных членов семьи или тем, что повышенной доминантностью они отвечают на свое подчиненное положение в детстве (Harris K.A., Morrow K.B., 1992).
Рис. 6.1. Изменения показателей Доминантности (шкала Калифорнийского личностного опросника) в зависимости от порядка рождения у мужчин (сплошная линия) и женщин (пунктирная линия) (по: Harm А. К., Morrow К. В.. 1992, р. 115)
Если нами установлено значимое взаимодействие факторов, то это зачастую важнее, чем действие каждого из факторов в отдельности. Некоторые исследователи предлагают вообще игнорировать в таких случаях "основные эффекты" каждого из взаимодействующих факторов и рассматривать только взаимодействие (McCall R-, 1970, р. 250).
Специалист по возрастной и дифференциальной психологии знает, что "основных эффектов", или общих закономерностей, в действительности достаточно мало. Почти всегда требуется поправка на возраст испытуемых, их пол, профессиональную принадлежность, способ восприятия, тип энергетической мобилизации и т.п. Петербургская-ленинградская школа психологии благодаря, в первую очередь, Б.Г. Ананьеву, никогда не была "бесполой" или "вневозрастной" (см., например, Ананьев Б.Г., 1968). Именно поэтому дисперсионный анализ в большей степени отвечает ленинградскому дифференциально-психологическому подходу в экспериментальных исследованиях. Он помогает нам выявлять все более и более частные и точные закономерности и приближает нас к установлению закономерностей индивидуальных стилей.
Двухфакторный дисперсионный анализ предъявляет особые требования к формированию комплексов. Комплекс должен представлять собой симметричную систему: каждой градации фактора А должно соответствовать одинаковое количество градаций фактора В. Например, Для исследования А.К. Harris, K.B. Morrow (см. Рис. 8.1) это означает, что и среди мужчин должны были быть старшие, средние и младшие дети, и среди женщин должны быть старшие, средние и младшие дети, причем для равномерного комплекса необходимо, чтобы в каждой ячейке комплекса было одинаковое количество испытуемых. Понятно, конечно же, что это значительно усложняет исследование и требует тщательного предварительного планирования его.
Подробности работы лучше рассматривать на примерах, поэтому перейдем к моделям двухфакторного дисперсионного анализа:
а) для несвязанных выборок;
б) для связанных выборок.
Вопрос 2.
Двухфакторный дисперсионный анализ для несвязанных выборок
Назначение метода
Данный вариант двухфакторного дисперсионного анализа применяется в тех случаях, когда исследуется одновременное действие двух факторов на разные выборки испытуемых, т, е. когда разные выборки испытуемых оказываются под воздействием разных сочетаний двух факторов. Количество выборок определяется количеством ячеек дисперсионного комплекса.
Описание метода
Суть метода остается прежней, но в двухфакторном дисперсионном анализе мы можем проверить большее количество гипотез. Расчеты гораздо сложнее, чем в однофакторных комплексах.
Используемый в данном руководстве алгоритм расчетов предназначен только для равномерных комплексов. Если комплекс получился неравномерным, необходимо случайным образом отсеять несколько испытуемых.
Работу начинаем с построения специальной таблицы, отражающей весь дисперсионный комплекс. Подробности лучше сразу рассматривать на примере.
Пример
Рассмотрим пример из руководства J.Greene, M.D.Olivera (1989).
Четырем группам испытуемых предъявлялись списки из 10 слов:
группе 1 - короткие слова с большой скоростью;
группе 2 - короткие слова с медленной скоростью;
группе 3 - длинные слова с большой скоростью;
группе 4 - длинные слова с медленной скоростью.
В каждой группе было по 4 испытуемых, всего N=16. Предсказывалось, что между факторами длины слов и скоростью их предъявления будет наблюдаться значимое взаимодействие: при большой скорости предъявления лучше будут запоминаться короткие слова, а при медленной скорости - длинные слова. Результаты экспериментов представлены в Табл. 8.1.
Таблица 8.1
Количество воспроизведенных слов при разной длине слов и разной скорости их предъявления (по J.Greene, M.D'Olivera, 1989)
Переменная (фактор) В скорость предъявления слов |
Переменная (фактор) А длина слов |
Суммы по переменной В (ТВ ) |
|||
А1 короткие слова |
А2 длинные слова |
||||
В1 (большая скорость) |
9 8 6 7 |
30 |
5 3 3 4 |
15 |
45 |
В2 (малая скорость) |
4 3 3 5 |
15 |
7 5 6 7 |
25 |
40 |
Суммы по переменной А (ТА ) |
45 |
40 |
85 |
Заметим, что в отечественных руководствах чаще предлагается другая, более привычная для нас, форма таблиц для двухфакторных дисперсионных комплексов (Табл. 8.2). При такой форме легче "увидеть" комплекс в целом.
Таблица 8.2
Двухфакторный дисперсионный комплекс по оценке влияния
фактора А (длина слов) и фактора В (скорость предъявления слов)
на количество воспроизведенных слов
Градации фактора А |
А1 короткие слова |
А2 длинные слова |
||
Градации фактора В |
В1 |
В2 |
В1 |
В2 |
9 |
4 |
5 |
7 |
|
8 |
3 |
3 |
5 |
|
6 |
3 |
3 |
6 |
|
7 |
5 |
4 |
7 |
|
Суммы по ячейкам |
30 |
15 |
15 |
25 |
Суммы по градациям фактора А |
ТА1=45 |
ТА2=40 |
||
Суммы по градациям фактора В |
ТВ1=30+15+=45 |
ТВ2=15+25=40 |
Как видим, при такой форме таблицы легче подсчитать суммы по ячейкам (в столбик), но труднее разобраться с суммами по градациям каждого из факторов. В данном случае оказалось, что они совпали: ТА1= ТВ1; ТА2 =Тв2
В дальнейшем при использовании алгоритма расчетов будем опираться на Табл. 8.1.
Сформулируем гипотезы.
Это будут гипотезы, касающиеся влияния фактора А отдельно от фактора В (как бы при "усредненных" его значениях), гипотезы о влиянии фактора В отдельно от фактора А и гипотезы о влиянии взаимодействия градаций факторов А и В.
1 комплект гипотез
Но: Различия в объеме воспроизведения слов, обусловленные действием фактора А, являются не более выраженными, чем случайные различия между показателями.
H1: Различия в объеме воспроизведения слов, обусловленные действием фактора А, являются более выраженными, чем случайные различия между показателями.
2 комплект гипотез
Н0: Различия в объеме воспроизведения слов, обусловленные действием фактора В, являются не более выраженными, чем случайные различия между показателями.
Н1: Различия в объеме воспроизведения слов, обусловленные действием фактора В, являются более выраженными, чем случайные различия между показателями.
3 комплект гипотез
H0: Влияние фактора А на объем воспроизведения слов одинаково при разных градациях фактора В, и наоборот.
H1: Влияние фактора А на объем воспроизведения слов различно при разных градациях фактора В, и наоборот.
Используя экспериментальные значения, представленные в Табл. 8.1, установим некоторые величины, которые будут необходимы для расчета критериев F.
Таблица 8.3
Величины, необходимые для расчета критериев F в двухфакторном дисперсионном анализе для несвязанных выборок
Напомним, что при подсчете ∑хi2 все индивидуальные значения сначала возводятся в квадрат, а потом суммируются, а при подсчете (∑хi)2 все индивидуальные значения сначала суммируются, а затем их общая сумма возводится в квадрат.
Последовательность расчетов представлена в Табл. 8.4.
Таблица 8.4
Последовательность операций в двухфакторном дисперсионном анализе для несвязанных выборок
Вывод: Но принимается в комплектах гипотез 1 и 2.
Различия в объеме воспроизведения слов, обусловленные в отдельности факторами А и В, не являются более выраженными, чем случайные различия между показателями.
H0 отвергается для взаимодействия факторов (3 комплект).
Принимается Н1. Влияние фактора А на объем воспроизведения слов различно при разных градациях фактора В, и наоборот (р≤0,01).
Итак, оказывается, что факторы длины слов и скорости их предъявления в отдельности не оказывают значимого действия на объем воспроизведения. Значимым оказывается именно взаимодействие факторов: короткие слова лучше запоминаются при быстрой скорости предъявления, а длинные - при медленной скорости предъявления (см. Рис. 8.2). Таким образом, предположение, высказанное авторами, нашло статистически значимое подтверждение (р≤0,001).
Рис. 8.2. Кривые изменении объема воспроизведении при повышении скорости предъявления коротких (сплошная линия) н длинных слов (пунктирная линия)
Ограничения двухфакторного дисперсионного анализа для несвязанных выборок
6. Факторы должны быть независимыми. В рассмотренном примере скорость предъявления слов и их длина - внешне независимые факторы. В других случаях независимость факторов может быть подтверждена отсутствием корреляционной связи между переменными, выступающими в качестве факторов.
Вопрос 3
Двухфакторный дисперсионный анализ для связанных выборок
Назначение метода
Данный вариант двухфакторного дисперсионного анализа применяется в тех случаях, когда исследуется действие двух факторов на одну и ту же выборку испытуемых.
Описание метода
Допустим, мы измерили одни и те же показатели у одних и тех же испытуемых несколько раз - в разное время, в разных условиях, с помощью параллельных форм методики и т. п., и нам необходимо провести множественное сравнение показателей, изменяющихся при переходе от условия к условию. Критерий L Пейджа для анализа тенденций изменения признака и критерий χ2r Фридмана неприменимы, так как необходимо определить тенденцию изменения признака под влиянием двух факторов одновременно. Это позволяет сделать только дисперсионный анализ.
Фактически в данной модели дисперсионного двухфакторного анализа проверяются 4 гипотезы:
*о влиянии фактора А,
*о влиянии фактора В,
*о влиянии взаимодействия факторов А и В и
*о влиянии фактора индивидуальных различий.
В данном варианте дисперсионного анализа нам потребуются две рабочие таблицы, которые позволят рассчитывать сумму по разным комбинациям ячеек комплекса. Рассмотрим это на примере, являющемся продолжением примера из п. 3.3.
Пример
В выборке курсантов военного училища (юноши в возрасте от 18 до 20 лет) измерялась способность к удержанию физического волевого усилия на динамометре.
В первый день эксперимента у них, наряду с другими показателями, измерялась мышечная сила каждой из рук.
На второй день эксперимента им предлагалось выдерживать на динамометре мышечное усилие, равное 72 максимальной мышечной силы данной руки.
На третий день эксперимента испытуемым предлагалось проделать то же самое в парном соревновании на глазах у всей группы.
Пары соревнующихся были подобраны таким образом, чтобы сила обеих рук у них примерно совпадала. Результаты экспериментов представлены в Табл. 83. Можно ли считать, что фактор соревнования в группе каким-то образом влияет на продолжительность удержания усилия? Подтверждается ли предположение о том, что правая рука более "социальна"?
Таблица 5.5
Длительность удержания усилия (сек/10) на динамометре правой и левой руками в разных условиях измерения (n=4)
№№ |
Код имени испытуемого |
Наедине с экспериментатором (А1) |
В группе сокурсников (А2) |
||
Правая рука |
Левая рука |
Правая рука |
Левая рука |
||
1 |
Л-в |
11 |
10 |
15 |
10 |
2 |
С-с |
13 |
11 |
14 |
10 |
3 |
С-в |
12 |
8 |
8 |
5 |
4 |
К-в |
9 |
10 |
7 |
8 |
Заметим, что единицы измерения в Табл. 8.5 - это секунды, но в каждом случае количество секунд уменьшено в 10 раз. Это законный способ преобразования индивидуальных значений, направленный на облегчение расчетов. Для того, чтобы не оперировать трехзначными числами, мы можем разделить их на какую-либо константную величину или уменьшить их на какую-либо константную величину (подробнее см. вопрос2 в Теме 8.
Преобразуем таблицу индивидуальных значений в две рабочие таблицы двухфакторного дисперсионного комплекса для связанных выборок (Табл. 8.6 и 8.7). Мы видим, что здесь приведены суммы индивидуальных значений отдельно по градациям фактора А (вне группы - в группе) и по градациям фактора В (правая рука - левая рука), по сочетаниям градаций A1B1, A1В2, A2В1, А2В2 , а также суммы всех индивидуальных значений каждого испытуемого и общие суммы.
Таблица 8.6
Двухфакторный дисперсионный комплекс по оценке влияния
фактора А (вне группы - в группе) и фактора В (правая - левая рука) на длительность удержания физического волевого усилия (сек/10) - вариант I
№№ п/п |
Код имени испытуе-мого |
А1 вне группы |
А2 в группе |
Индивидуаль-ные суммы всех 4-х значений |
||||
В1 |
В2 |
Индивидуаль-ные суммы по А1 (В1+В2) |
В1 |
В2 |
Индивидуаль-ные суммы по А2 (В1+В2) |
|||
1 |
Л-в |
11 |
10 |
21 |
15 |
10 |
25 |
46 |
2 |
С-с |
13 |
11 |
24 |
14 |
10 |
24 |
48 |
3 |
С-в |
12 |
8 |
20 |
8 |
5 |
13 |
33 |
4 |
К-в |
9 |
10 |
19 |
7 |
8 |
15 |
34 |
Суммы по ячейкам |
45 |
39 |
44 |
33 |
||||
Суммы по градациям А1 и А2 |
84 |
77 |
||||||
Общая сумма |
161 |
Таблица 8.7
Двухфакторный дисперсионный комплекс по оценке влияния
факторов А и В на длительность физического волевого усилия
(сек/10) - вариант II
№№ п/п |
Код имени испытуе-мого |
В1 правая рука |
В2 левая рука |
Индивидуаль-ные суммы всех 4-х значений |
||||
А1 |
А2 |
Индивидуаль-ные суммы по В1 (А1+А2) |
А1 |
А2 |
Индивидуаль-ные суммы по В2 (А1+А2) |
|||
1 |
Л-в |
11 |
15 |
26 |
10 |
10 |
20 |
46 |
2 |
С-с |
13 |
14 |
27 |
11 |
10 |
21 |
48 |
3 |
С-в |
12 |
8 |
20 |
8 |
5 |
13 |
33 |
4 |
К-в |
9 |
7 |
16 |
10 |
8 |
18 |
34 |
Суммы по ячейкам |
45 |
44 |
39 |
33 |
||||
Суммы по градациям В1 и В2 |
89 |
72 |
||||||
Общая сумма |
161 |
Мы видим, что в Табл. 8.7 фактически только две ячейки комплекса поменялись местами: А1В2 и А2В1. Это позволяет нам с большей легкостью подсчитать суммы по градациям В1 и В2.
Если бы мы пользовались только Табл. 8.6, то нам пришлось бы подсчитывать их "через столбец" и, кроме того, трудно было бы их куда-то подходящим образом записать. В дальнейшем при расчетах мы всякий раз будем указывать, к какой таблице лучше обратиться для извлечения нужных сумм, первой (I) или второй (II).
Установим некоторые величины, которые будут необходимы для расчета критериев F.
Таблица 8.8
Величины, необходимые для расчета критериев F в двухфакторном дисперсионном анализе для связанных выборок
Теперь при расчетах будем лишь подставлять уже подсчитанные значения тех или иных величин. В случае, если какой-то из шагов в алгоритме расчетов будет не вполне ясен, можно вернуться к Табл. 8.8 и восстановить процедуры расчетов, или к Табл. 8.6 и Табл. 8.7, для того, чтобы вспомнить, почему мы подставляем в формулу ту или иную конкретную величину.
*1. На самом деле в эксперименте участвовало 20 человек. В дисперсионный комплекс случайным образом отобраны 4 из ник в целях упрощения расчетов. Результаты дисперсионного анализа по такой "усеченной" выборке совпадают с данными обработки всей выборки с помощью критерия χ2r.
Таблица 8.9
Последовательность операций в двухфакторном дисперсионном анализе для связанных выборок
Мы видим, что влияние факторов А и В, как каждого в отдельности, так и в их взаимодействии, незначимо. В то же время фактор индивидуальных различий между испытуемыми (FИ) оказался значимым (р<0,05). Мы видим из формы приведенного алгоритма, что этот индивидуальный источник вариативности с самого начала учитывается практически как третий фактор вариативности признака. Критерий F для факторов А и В вычисляется как отношение вариативности между градациями факторов к вариативности между испытуемыми в этих градациях.
На Рис. 8.3 индивидуальные изменения величин длительности физического волевого усилия представлены графически.
Рис. 8.3. Индивидуальные изменения длительности физического волевого усилия по четырем испытуемым
Как видно из Рис. 8.3, у одного испытуемого выше показатели по левой руке, у трех других - по правой. При измерении вне группы индивидуальные кривые ближе друг к другу, при измерениях в группе они расходятся. Можно было бы говорить об увеличении разброса индивидуальных значений при измерении длительности физического волевого усилия в группе, в атмосфере соревнования. Однако, несмотря на название, дисперсионный анализ выявляет влияние фактора не на рассеивание индивидуальных значений, а на среднюю их величину. Влияние же фактора на рассеивание признака можно уловить с помощью других критериев, в том числе непараметрических (Суходольский Г.В., 1972, с.341).
И все же представим полученный результат в принятой форме изменения средних значений по градациям факторов (Рис. 8.4).
Рис. 8.4. Изменения средних величин длительности физического волевого усилия при переходе от индивидуальных замеров к групповым (правая рука - сплошная линия, левая рука - пунктирная линия)
Если исследователя интересует в большей степени второй вопрос данной задачи, связанный с проверкой предположения о том, что правая рука более "социальна", то он может представить данные в иной группировке (Рис. 8.5).
Рис. 8.5. Изменения средних величин длительности физического волевого усилия при переходе от правой руки к левой (сплошная линия - измерения вне группы, пунктирная линия - измерении в группе)
Мы видим, что во втором, групповом, замере снижаются показатели и по правой, и по левой руке, но все же правая рука "держится" почти на уровне первого замера, в то время как левая рука в большей степени "сдается" под влиянием усталости в группе, чем вне группы. Можно было бы подтвердить предположение о большей "социальности" правой руки, большая стабильность которой, возможно, отражает стремление поддержать "лицо" в ситуации соревнования в группе, но выявленные тенденции, как мы убедились, незначимы.
Ограничения двухфакторного дисперсионного анализа для связанных выборок
Все ограничения такие же, как и в модели для несвязанных выборок, с одним уточнением. Все испытуемые должны пройти все сочетания градаций двух факторов. Этим достигается равномерность комплекса.
Итак, мы убедились, что двухфакторный дисперсионный анализ действительно позволяет нам оценить влияние двух факторов в их взаимодействии. Мы показали, что влияние одного фактора может оказаться различным при разных уровнях другого фактора, иногда различным вплоть до противоположности. Так, в примере о влиянии скорости предъявления слов и их длины на объем воспроизведения мы убедились в том, что фактор скорости при предъявлении коротких слов повышает результаты, а при предъявлении длинных слов - снижает результаты испытуемых.
Дисперсионный анализ позволяет также доказать, что влияние индивидуальных различий может оказаться сильнее экспериментальных или иных факторов, как это было продемонстрировано в последнем из примеров.
Более сложные схемы дисперсионного анализа позволяют анализировать совокупное действие трех, четырех и более факторов и получить еще более глубокие результаты.
Приложение 1
Таблица 8.3
Величины, необходимые для расчёта критериев F в двухфакторном дисперсионном анализе для несвязанных выборок
Обозначение |
Расшифровка обозначения |
Экспериментальные значения |
ТА |
Суммы по градациям фактора А |
45, 40 |
∑Т2А |
Суммы квадратов этих сумм |
∑Т2А=452+402 |
ТВ |
Суммы по градациям фактора В |
45, 40 |
∑Т2В |
Суммы квадратов этих сумм |
∑Т2В=452+402 |
ТАВ |
Суммы по «ячейкам» |
30, 15, 15, 25 |
∑Т2АВ |
Суммы квадратов этих сумм |
∑Т2АВ=302, 152, 152, 252 |
n |
Количество испытуемых в каждой ячейке |
n=4 |
a |
Количества градаций фактора А |
a=2 |
b |
Количества градаций фактора В |
b=2 |
N |
Общее количество индивидуальных значений |
n-16 |
xi |
Каждое индивидуальное значение |
|
∑xi |
Общая сумма всех индивидуальных значений |
∑xi=85 |
(∑xi)2 |
Квадрат общей суммы |
(∑xi)2=852 |
1/N*(∑xi)2 |
Константа, которая начинается из всех SS |
1/N*(∑xi)2=852/16 |
∑xi2 |
Сумма квадратов индивидуальных значений |
Курс «Математические методы в психологии»
(Материалы для самостоятельного изучения студентам психологам и социальным работникам)
Лекция № 11
СПОСОБЫ ТАБЛИЧНОГО И ГРАФИЧЕСКОГО ПРЕДСТАВЛЕНИЯ РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА
Результаты психолого-педагогического эксперимента, или психологического тестирования, кроме их текстового описания, можно представить в виде таблиц, схем, графиков, рисунков и т.п.
ТАБЛИЦЫ
Таблицы представляют собой упорядоченные по горизонтали и по вертикали наборы количественных и качественных данных, заключенных в рамки или без них. Таблицы могут иметь и не иметь названия, подзаголовки, указывающие на то, какие данные в них содержатся.
Таблицы строятся и оформляются не произвольно, а в соответствии с определенными правилами. Рассмотрим эти правила.
Таблицы, если их более двух-трех в тексте, нумеруются. Слово «таблица» обычно пишется справа или в середине вверху над таблицей. Непосредственно под ним располагается, если оно есть, название таблицы. Иногда для этого делаются примечания, касающиеся некоторых особенностей материала, содержащегося в таблице. Такие примечания помещаются, как правило, непосредственно под таблицей. Таблица имеет заголовки, которые указывают на то, что представлено в отдельных столбцах, а также рубрикацию по строкам, где обозначены особенности представляемого материала.
Рассмотрим в качестве примеров формы и способы построения типичных таблиц:
- не имеющей названия, без общего заголовка и примечаний (табл. 36);
разграфленной, с названием и заголовком (табл. 37);
разграфленной, с названием, заголовками и примечанием
(табл. 38).
В таблице, построенной по образцу табл. 36, нет общего заголовка, который объединил бы названия всех столбцов, а есть только названия частных подзаголовков, относящиеся к отдельным столбцам. Нет также общего названия таблицы, так как содержание представленных в ней данных ясно само по себе. Имеются названия отдельных строк таблицы без них было бы непонятно, что характеризуют собой цифры, имеющиеся в строках
Таблица 36
Начальные |
Средние |
Старшие |
|
классы, |
классы, |
классы, |
|
I-V |
VIVIII |
IX-XI |
|
Количество учащихся |
120 |
130 |
100 |
Средний возраст (в годах) |
10,5 |
12,5 |
15 |
Успеваемость (средняя оценка) |
3,8 |
3,5 |
4,0 |
Уровень интеллектуального |
|||
развития (IQ) |
102% |
104% |
105% |
таблицы. Подобного рода таблицы рекомендуется строить тогда, когда общее количество данных, представляемых в столбцах и строках таблицы, относительно невелико (не более четырех различных видов данных по столбцам и строкам, т.е. не более четырех столбцов и четырех строк). Во всех других случаях рекомендуется строить разграфленные таблицы с названиями, общими и частными подзаголовками (табл. 37).
Таблица 37
Результаты обследования шестилетних и семилетних детей
с точки зрения их психологической готовности к обучению в школе
(данные представлены в десятибалльной шкале оценок)
Возраст детей. Место их обучения и воспитания до поступления в школу |
Основные показатели психологической готовности детей к обучению в школе |
|||||||||
интеллектуальные |
личностные |
Межличност-ные |
||||||||
Внима-ние |
Вооб-ражение |
Памя-ть |
речь |
Мы- шление |
Мот-ивы учения |
Характер |
Спо- собности |
Общи тельность |
Кон- тактность |
|
Шестилетные дети, посещавшие детский сад |
7,2 |
7,6 |
7,9 |
7,1 |
8,0 |
6,2 |
7,2 |
8,0 |
8,4 |
8,4 |
Шестилетные дети, воспитанные дома |
7,6 |
7,4 |
7,9 |
7,4 |
8,3 |
7,4 |
6,9 |
8,3 |
7,7 |
7,6 |
Семилетные дети, посещавшие детский сад |
7,9 |
8,0 |
8,1 |
8,3 |
8,4 |
8,2 |
7,3 |
8,6 |
8,9 |
9,0 |
Семилетные дети, воспитанные дома |
7,8 |
7,9 |
8,0 |
8,5 |
8,6 |
8,7 |
7,0 |
8,8 |
8,1 |
8,3 |
В тех случаях, когда в таблице необходимо представить очень большое количество данных, которые невозможно полностью описать в подзаголовках столбцов или строк из-за громоздкости самих названий, обращаются к таблицам третьего типа (табл. 38), где соответствующие названия закодированы, а их расшифровка дается в примечании к таблице.
Таблица 38
Данные комплексного обследования детей из X классов средней школы
Условные обозначения детей |
Показатели обследования |
|||||||||||
1 |
11 |
111 |
||||||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
|
А |
||||||||||||
Б |
||||||||||||
В |
||||||||||||
. . . |
Примечание. А Иванов, Б Петров, В Сидоров,,..; I социально-демографические данные о детях; II успеваемость по отдельным предметам. III данные о психологическом развитии; 1 возраст, 2 пол, 3 социальное происхождение, 4 место жительства, 5 математика, 6 физика, 7 история, 8 география, 9 внимание, 10 память, 11 мышление, 12 речь..
ГРАФИК
Другой способ представления экспериментальных данных графический.
График на плоскости представляет собой некоторую линию, которая изображает зависимость между двумя переменными, а график в пространстве плоскость, представляющую зависимость между тремя переменными.
При использовании двумерного графика по горизонтальной линии на плоскости обычно размещают независимую переменную ту, которая изменяется по намерению экспериментатора и рассматривается в качестве возможной искомой причины.
По вертикали располагают зависимую переменную ту, которая является или рассматривается в качестве предполагаемой причины.
Рис. 76. График зависимости между способностями и успеваемостью учащихся.
Рис. 77. Трехмерное распределение экспериментальных данных.
По оси X уровень эмоционального возбуждения, по оси Y уровень тревожности, по оси Z продуктивность деятельности.
Если речь идет о трехмерном, пространственном графике, то
по линиям X и Y в его горизонтальной плоскости чаще всего размещают независимые, а по линии Z в вертикальной плоскости зависимую переменную. Однако могут быть отступления от этого правила. Они имеют место, например, тогда, когда в эксперименте изучаются одна независимая и две зависимые переменные.
В этом случае данные, касающиеся независимых переменных,
размещаются вдоль вертикальной оси X, а данные, относящиеся
к зависимым переменным, вдоль осей У и Z.
Рис. 78. Виды гистограмм на плоскости. А гистограмма распределения оценок в классе. Б гистограмма распределения показателей готовности детей разного возраста к обучению в школе.
Рис. 79. Пример объёмной, или трёхмерной, гистограммы.
Рассмотрим два примера.
На рис. 76 представлен плоскостной, а на рис. 77 пространственный графики.
Графики могут строиться по отдельным точкам (рис. 76) или представлять собой непрерывные линии (плоскости, рис. 77).
ГИСТОГРАММА
Особую разновидность графических изображений экспериментальных результатов представляют собой гистограммы. Это столбчатые диаграммы (рис. 78), состоящие из вертикальных прямоугольников, расположенных основаниями на одной прямой. Их высота отражает степень или уровень развитости того или иного качества у испытуемого. Цифры, указывающие на частоту встречаемости качества в выборке испытуемых, размещаются или внутри столбцов гистограммы, или над ними, или по вертикальной оси графика. Иногда для наглядности, особенно в том случае, если гистограмма соответствует трехмерному пространству, ее изображают как объемную (рис. 79).
1. Готтсданкер Р. Основы психологического эксперимента. М:
МГУ, 1982. - 464 с. (Корреляционные исследования: 378-424.)
2. Закс Л. Статистическое оценивание. М., 1976.
(Что такое статистика: 37-39. Нормальная кривая и нормальное распределение: 63-71. Арифметическое среднее и стандартное отклонение: 72-79. Медиана и мода: 91-94. Распределение Стъюдента: 129-136. Хи-квадрат распределение: 136-150. Распределение Фишера: 150-153. Сравнение двух выборочных дисперсий из нормальных совокупностей: 241-245. Сравнение двух выборочных средних из нормальных совокупностей: 245-270. Проверка распределений по хи-квадрат критерию согласия: 295-296. Коэффициент ранговой корреляции Спирмена: 368-372. Оценивание прямой регрессии: 371-381. Проверка равенства нескольких дисперсий: 448-453).
3. Кулагин Б.В. Основы профессиональной психодиагностики. Л.,
1984.-216 с. (Измерение в психодиагностике: 13-20. Корреляция и факторный анализ: 20-33.)
4. Фресс П., Пиаже Ж. Экспериментальная психология. Вып. I и П. М., 1966. (Измерение в психологии: 197-229. Проблема надежности измерения: 229-231).
5. Практикум по общей психологии / Под ред. А.И. Щербакова. М., 1990. -287 с. [Методы психологии (с элементами математической статистики): 20-39].
6. Психодиагностические методы (в комплексном лонгитюдном
исследовании студентов) / Под ред. А.А. Бодалева, М.Д. Дворяшиной, И.М. Палея. Л., 1976. - 248 с. (Основные математические процедуры психодиагностического исследования: 35-51.)