Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
25 Дисперсионный анализ
Дисперсионный анализ анализ изменчивости признака под влиянием каких-либо контролируемых переменных факторов.
(В зарубежной литературе именуется ANOVA «Analisis of Variance»)
Обобщенно задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить три частные вариативности:
- Вариативность, обусловленную действием каждой из исследуемых независимых переменных.
- Вариативность, обусловленную взаимодействием исследуемых независмых переменных.
- Вариативность случайную, обусловленную всеми неучтенными обстоятельствами.
Вариативность, обусловленная действием исследуемых переменных и их взаимодействием соотносится со случайной вариативностью. Показателем этого соотношения является F критерий Фишера (метод, не имеющий ничего общего, кроме автора, с «угловым преобразованием Фишера»).
FэмпА = Вариативность, обусловленная действием переменной А / Случайная вариативность
FэмпБ = Вариативность, обусловленная действием переменной Б / Случайная вариативность
FэмпАБ = Вариативность, обусловленная взаимодействием А и Б / Случайная вариативность
В формулу расчета критерия F взодят оценки дисперсий, и, следовательно, этот метод относится к разряду параметрических. Чем в большей степени вариативность признака обусловлена исследуемыми переменными или их взаимодействием, тем выше эмпирические значения критерия F.
В отличие от корреляционного анализа, в дисперсионном исследователь исходит из предположения, что одни переменные выступают как влияющие (именуемые факторами или независимыми переменными), а другие (результативные признаки или зависимые переменные) подвержены влиянию этих факторов. Хотя такое допущение и лежит в основе математических процедур расчета, оно, однако, требует осторожности рассуждений об источнике и объекте влияния.
Например, если мы выдвигаем гипотезу о зависимости успешности работы должностного лица от фактора Н (социальной смелости по Кэттелу), то не исключено обратное: социальная смелость респондента как раз и может возникнуть (усилиться) вследствие успешности его работы это с одной стороны. С другой: следует отдать себе отчет в том, как именно измерялась «успешность»? Если за ее основу взяты были не объективные характеристики (модные нынче «объемы продаж» и проч.), а экспертные оценки сослуживцев, то имеется вероятность того, что «успешность» может быть подменена поведенческими или личностными характеристиками (волевыми, коммуникативными, внешними проявлениями агрессивности etc.)
Представим смысл дисперсионного анализа графически.
В примере, взятом из (1), иллюстрируется исследование зависимости учебной успеваемости школьников от развития кратковременной памяти. В качестве фактора рассматривался уровень развития кратковременной памяти, а в качестве результативных признаков успеваемость по предмету. Видно, например, что фактор, по-видимому, оказывает существенное влияние при обучении иностранному языку, и незначим для чистописания, что, впрочем, вполне согласуется со здравым смыслом.
Приведенный пример обращает внимание также и на то, какими именно должны быть факторы?
Здесь фактор имел градации, то есть его величина изменялась при переходе от одной градации к другой. Следует знать, что такое условие отнюдь не обязательно: фактор может иметь градации, никак не связанные между собой количественным отношением, и может быть представлен хоть в номинальной шкале. В общем (и это точнее) говорят не о градациях фактора, а о различных условиях его действия. Возможность количественной градации фактора, таким образом, лишь частный случай.
В качестве иллюстрации этого положения скажем, что если отыщется исследователь, желающий определить зависимость яйценоскости от цвета курицы, то ничто не помешает ему применить дисперсионный анализ, и в качестве условий действия фактора «цвет» избрать, скажем, черных, белых и пестрых кур.
Формулировка гипотез в дисперсионном анализе.
Нулевая гипотеза:
«Средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы».
Альтернативная гипотеза:
«Средние величины результативного признака в разных условиях действия фактора различны».
Виды дисперсионного анализа.
Дисперсионный анализ схематически можно подразделить на несколько категорий. Это деление осуществляется, смотря по тому, сколько, во-первых, факторов принимает участие в рассмотрении, во-вторых, - сколько переменных подвержены действию факторов, и, в-третьих, - по тому, как соотносятся друг с другом выборки значений.
При наличии одного фактора, влияние которого исследуется, дисперсионный анализ именуется однофакторным, и распадается на две разновидности:
- Анализ несвязанных (то есть различных) выборок. Например, одна группа респондентов решает задачу в условиях тишины, вторая в шумной комнате. (В этом случае, к слову, нулевая гипотеза звучала бы так: «среднее время решения задач такого-то типа будет одинаково в тишине и в шумном помещении», то есть не зависит от фактора шума.)
- Анализ связанных выборок. То есть: двух замеров, проведенных на одной и той же группе респондентов в разных условиях. Тот же пример: в первый раз задача решалась в тишине, второй сходная задача в условиях шумовых помех. (На практике к подобным опытам следует подходить с осторожностью, поскольку в действие может вступить неучтенный фактор «научаемость», влияние которого исследователь рискует приписать изменению условий, а именно, - шуму.)
В случае, если исследуется одновременное воздействие двух или более факторов, мы имеем дело с многофакторным дисперсионным анализом, который также можно подразделить по типу выборки.
Если же воздействию факторов подвержено несколько переменных, - речь идет о многомерном анализе.
Ограничения дисперсионного анализа и подготовка данных.
Дисперсионный анализ следует применять тогда, когда известно (установлено), что распределение результативного признака является нормальным.
Для проверки следует провести расчеты ассимметрии и эксцесса по следующим формулам:
A = Σ (xi xср)3 / n3
mA= √6/n
E = (Σ (xi xср)4 / n4 ) - 3
mE= 2√6/n ,
где А и Е ассимметрия и эксцесс, а mA и mE их ошибки репрезентативности. После подстановки значений не должно оказаться так, чтобы ассимметрия и эксцесс превышали более, чем втрое свои ошибки репрезентативности. При соблюдении этого требования, распределение можно считать нормальным.
Будем называть данные, относящиеся к одному условию действия фактора (к одной градации) дисперсионным комплексом.
Дисперсионный анализ требует также, чтобы между комплексами соблюдалось равенство дисперсий. В литературе по этому вопросу предлагается (и доказана правомочность предложения) удовлетворять такое требование уравниванием числа значений в каждом из комплексов. Иными словами, если в тихой аудитории решали задачу 10 человек, то и в шумную мы должны посадить столько же; если белых кур набралось 100, черных 80, а пестрых 70, - мы обязаны взять только по 70 кур каждого цвета. Причем, отбор следует осуществлять случайным образом.
(В SPSS эта возможность представлена так: Данные Выбор регистров Случайный образец регистров (радиокнопка) Образец… (кнопка)).
Однофакторный дисперсионный анализ для несвязанных выборок.
Назначение метода.
Метод однофакторного дисперсионного анализа применяется в тех случаях, когда исследуются изменения результативного признака (зависимой переменной) под влиянием изменяющихся условий или градаций какого-либо фактора.
Влиянию каждой из градаций фактора подвержены разные выборки.
Должно быть не менее трех градаций фактора и не менее двух наблюдений в каждой градации.
Описание метода.
Расчеты начинаются с расстановки всех данных по столбцам, относящимся к каждому из факторов соответственно.
Следующим действием будет нахождение сумм значений по столбцам (то есть градациям) и возведение их в квадрат.
Фактически метод состоит в сопоставлении каждой из полученных и возведенных в квадрат сумм с суммой квадратов всех значений, полученных во всем эксперименте.
Графическое представление метода.
На рисунке схематически представлены три градации какого-либо фактора. Дисперсионный анализ позволяет определить, что преобладает: влияние фактора или случайная вариативность внутри групп (тенденция, выраженная кривой или размах отрезков, ограниченных кружками)?
Алгоритм расчета.
Промежуточные величины.
Tc |
суммы индивидуальных значений по каждому из условий |
Σ(T2c) |
сумма квадратов суммарных значений по каждому из условий |
с |
количество условий (градаций фактора) |
n |
количество значений в каждом комплексе (испытуемых в каждой группе) |
N |
общее количество индивидуальных значений |
(Σxi)2 |
квадрат общей суммы индивидуальных значений |
Σ(xi)2 / N |
константа, необходимая для вычитания из каждой суммы квадратов |
xi |
каждое индивидуальное значение |
Σ(xi)2 |
сумма квадратов индивидуальных значений |
Принятые в литературе сокращения:
СК или SS сумма квадратов
SSфакт. вариативность, обусловленная действием исследуемого фактора
SSобщ. общая вариативность
SSсл. случайная вариативность
MS «средний квадрат» (математическое ожидание суммы квадратов, усредненная величина соответствующих SS)
df число степеней свободы.
Основные вычисления.
Подсчитать SSфакт. |
SSфакт. = 1/n ΣT2c 1/n (Σxi)2 |
Подсчитать SSобщ. |
SSобщ. = Σx2i 1/N (Σxi)2 |
Подсчитать случайную остаточную величину SSсл. |
SSсл. = SSобщ. SSфакт. |
Определить число степеней свободы |
dfфакт. = с 1 dfобщ. = N 1 dfсл. = dfобщ. dfфакт. |
Разделить каждую SS на соответствующее число степеней свободы |
MSфакт. = SSфакт. / dfфакт. MS сл. = SS сл. / df сл. |
Подсчитать значение Fэмп. |
Fэмп. = MSфакт. / MS сл. |
Определить по таблицам критические значения F и сопоставить с ним полученное эмпирическое значение |
При Fэмп. >= Fкр. H0 отклоняется. |
Однофакторный дисперсионный анализ для связанных выборок.
Назначение метода.
Метод применяется в тех случаях, когда исследуется влияние разных условий действия фактора (градаций фактора) на одну и ту же выборку. (Одни и те же респонденты в разных условиях.)
Условий (градаций) должно быть не менее трех.
Индивидуальных значений по каждому условию должно быть не менее двух.
Описание метода.
В этом случае различия могут быть вызваны не только влиянием фактора, но и индивидуальными различиями между испытуемыми. При анализе несвязанных выборок это обстоятельство не оказывало воздействия за счет того, что выборки были различны, и сводилось к случайным причинам различий, - здесь же индивидуальные различия между элементами выборки (респондентами) необходимо особо учитывать. (Индивидуальные различия могут оказаться более значимыми, чем изменение условий действия фактора.) Исходя из сказанного, в расчеты вводятся дополнительные компоненты суммы квадратов сумм индивидуальных значений.
Графическое представление.
Рисунок иллюстрирует пример решения анаграмм различной длины одними и теми же респондентами. Исследователей интересовало влияние длины анаграммы на время ее решения. (Выяснилось, что наибольшие трудности, что видно из диапазона времени, затраченного на решение, и его среднего значения, вызвала анаграмма из пяти букв.)
Расчет промежуточных величин.
Tc |
Суммы индивидуальных значений по каждому из условий |
ΣT2c |
Сумма квадратов суммарных значений по каждому из условий |
с |
Количество значений у каждого респондента, то есть количество условий |
n |
Количество респондентов |
N |
общее количество значений |
Tn |
Суммы индивидуальных значений по каждому респонденту |
ΣT2n |
Сумма квадратов сумм индивидуальных значений по респондентам |
xi |
каждое индивидуальное значение |
(Σxi)2 |
квадрат общей суммы индивидуальных значений |
1/N(Σxi)2 |
константа, необходимая для вычитания из каждой суммы квадратов |
Σ(xi)2 |
сумма квадратов индивидуальных значений |
Основные вычисления.
Подсчитать SSфакт. |
SSфакт. = 1/n ΣT2c 1/n (Σxi)2 |
Подсчитать SSресп. |
SSресп. =1/c ΣT2n 1/N (Σxi)2 |
Подсчитать SSобщ. |
SSобщ. = Σx2i 1/N (Σxi)2 |
Подсчитать случайную остаточную величину SSсл. |
SSсл. = SSобщ. SSфакт. SSресп. |
Определить число степеней свободы |
dfфакт. = с 1 dfресп. = n 1 dfобщ. = N 1 dfсл. = dfобщ. dfфакт. dfресп. |
Разделить каждую SS на соответствующее число степеней свободы |
MSфакт. = SSфакт. / dfфакт. MS респ. = SS респ. / df респ. MS сл. = SS сл. / df сл. |
Подсчитать значения F |
Fфакт.= MSфакт. / MS сл. Fресп.= MSресп. / MS сл. |
Определить по таблицам критические значения F и сопоставить с ними полученные эмпирические значения |
При Fэмп. >= Fкр. H0 отклоняется. |