Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

простые параметрические методы сравнения средних

Работа добавлена на сайт samzan.net:


Глава 4. Сравнение средних, корреляции

4.3. Compare Means - простые параметрические методы сравнения средних. 

Параметрические методы при формулировании нулевых гипотез о равенстве средних предполагают нормальность распределения анализируемых переменных или остатков в моделях дисперсионного анализа, сравнения групп и т.д. Это условие при анализе анкетной информации выполняется весьма редко. Вероятно, наиболее удобны для такого анализа переменные, полученные усреднением множества независимых случайных величин: по центральной предельной теореме такие переменные должны иметь близкое к нормальному распределение.

На практике нередко для больших совокупностей эти методы все-же используются и для другого рода распределений, если распределение "не слишком сильно" отклоняется от нормального. "Не слишком сильно" - неопределенное понятие, обычно это определяется визуально при рассмотрении гистограммы распределения.

Взгляните, например, на распределение населения по душевому доходу - рис. 4.1. Распределение имеет длинный хвост в направлении больших доходов, нормальная кривая недостаточно хорошо огибает гистограмму. Если использовать вместо этой переменной логарифм доходов:

compute lnv14=ln(v14).

получаем более приемлемое распределение (см.рис. 4.2).

Основные формулы и идеи параметрических методов анализа средних и дисперсий рассматриваются в курсе математической статистики; и здесь, по ходу изложения материала, мы коротко напомним отдельные моменты этой теории.

Одновыборочный тест (One sample T-test).

Одновыборочный тест предназначен для проверки гипотезы о равенстве математического ожидания переменной заданной величине (в общепринятых обозначениях H0: =0). Напомним, что для проверки этой гипотезы используется статистика .

Команда для проверки гипотезы выдает также двусторонний доверительный интервал.

Примеры применения одновыборочного T-теста.

Пример 1. Для устранения влияния текущего уровня цен, инфляции на выводы об уровне жизни населения уровень доходов нормируют на средние значения или медиану. Целесообразно и нам использовать промедианный доход.

Почти одновременно с моментом сбора данных на аналогичной выборке очень большего объема была получена оценка медианы душевых доходов населения (200 руб.). Если допустить, что логарифм доходов имеет нормальное распределение, то среднее промедианных доходов должно незначимо отличаться от нуля (поскольку нормальное распределение симметрично относительно математического ожидания). Проверим это:

compute lnv14m=ln(v14/200).

Variable labels lnv14m "логарифм промедианного дохода".

T-TEST /TESTVAL=0 /VARIABLES=lnv14m /CRITERIA=CIN (.95) .

Таблица 4.1. Одновыборочный t-тест. Средний промедианный доход незначимо отличается от нуля.

T

Df

Sig. (2-tailed)

Mean Difference

95% Confidence Interval of the Difference

Lower

Upper

LNV14M

-0.831

672

0.406

-0.017

-0.058

0.023

В нашем примере 0=0 (TESTVAL=0), отклонение среднего равно -0.017, наблюдаемая значимость - 0.406 (почти в 40% случаев большее отклонение от ожидаемого значения может быть получено случайно), поэтому гипотеза о равенстве нулю матожидания логарифма промедианного дохода не отклоняется. Об этом же говорит и тот факт, что 95% доверительный интервал покрывает ожидаемое значение.

Пример. Есть предположение, что малообразованное население имеет средний логарифм доходов, существенно меньший среднего по совокупности объектов. В нашей анкете образование закодировано следующим образом:

1 Высшее;

2 незак/высш;

3 среднее спец;

4 ПТУ,ФЗУ;

5 10-11кл;

6 7-9 кл.;

7 4-6 кл.;

8 менее 4-х классов;

9 нет образования.

Проверим предположение, воспользовавшись временной выборкой данных о респондентах, имеющих образование не выше среднего.

compute f= (v10>3).

*формирование переменной фильтра.

filter f.

T-TEST /TESTVAL=0 / VARIABLES=lnv14  /CRITERIA=CIN (.95) .

filter off.

Таблица 4.2. Одновыборочный T-тест. Средний промедианный доход в группе с относительно низким образованием отличается от нуля при уровне значимости 5%.

T

Df

Sig. (2-tailed)

Mean Difference

95% Confidence Interval of the Difference

Lower

Upper

LNV14

-2.0316

162

0.0438

-0.0956

-0.1886

-0.0027

двухвыборочный t-тест (independent sample T-TEST) 

Вариант команды для выполнения процедуры T-TEST для сравнения средних в двух выборках имеет следующий вид:

T-TEST/GROUPS V4(1,3)/VARIABLES = V9 lnV14m.

Подкоманда GROUPS указывает переменную группирования; в скобках задаются два значения этой переменной, определяющие группы. Например, приведенная команда будет выполняться только для групп объектов, у которых V4 принимает указанные значения 1 и 3. VARIABLES задает сравниваемые (зависимые) переменные для выделенных групп объектов. Объекты можно также разбить на две группы, указав в параметре GROUPS одно значение:

T-TEST /GRO v9(30)/VAR V9 lnV14m.

В этом случае вся совокупность будет разделена на те объекты, на которых указанная переменная не больше заданного значения (v930), и те, у которых она больше (v9>30).

Процедурой T-TEST проверяется гипотеза равенства средних, при этом предполагается нормальность распределения генеральной совокупности. Процедура подсчитывает средние для пары групп, стандартные ошибки, статистики и их значимость. При сравнении двух выборок нас интересует, насколько случайный характер носит различие средних - отличаются ли они значимо?

В зависимости от предположения о равенстве дисперсий испльзуются разные варианты t-статистик.

Если не предполагается равенство дисперсий в группах, то для сравнения средних принято использовать статистику , которая в условиях гипотезы равенства матожиданий и нормальности X имеет распределение Стьюдента, число степеней которого оценивается на основе оценок дисперсий.

Если заранее известно о равенстве дисперсий в группах, то предпочтительнее статистика .

При определении ее величины предварительно вычисляется объединенная дисперсия

.

Из теории известно, что при условии равенства дисперсий вычисляемая величина Sp есть несмещенная оценка дисперсии, и статистика t также имеет распределение Стьюдента.

Для проверки равенства дисперсий используется статистики Ливиня, имеющая распределение Фишера.

Двусторонней наблюдаемой значимостью, вычисляемой процедурой T-TEST, является вероятность случайно получить различия средних, такие, что │t-теоретическое│>│t-выборочного│. Если значимость близка к 0, делаем вывод о неслучайном характере различий.

Результат выдается в двух таблицах. В первой размещены средние и характеристики разброса в группах, во второй - результаты их сравнения.

Таблица 4.3. T-тест, описательные статистики по группам

 

 

 

Таблица 4.4. T-тест, сравнение средних и дисперсий в группах

 

V9   Возраст

N

Mean

Std. Deviation

Std. Error Mean

LNV14M

>= 30

521

0.019

0.517

0.023

 

< 30

133

-0.177

0.593

0.051

Levene's Test for Equality of Variances

T

Df

Sig. (2-tailed)

Mean Difference

Std. Error Difference

95% Confidence Interval of the Difference

F

Sig.

Lower

Upper

Equal variances assumed

2.47

0.1162

3.78

652

0.000

0.196

0.052

0.094

0.298

Equal variances not assumed

3.48

186.42

0.001

0.196

0.056

0.085

0.307

В таблицах 4.3 и 4.4 приведен пример сравнения средних логарифмов душевых доходов в группах населения до 30 лет и старше 30. Статистика Ливиня в этом случае свидетельствует, что гипотеза равенства дисперсий не отвергается (sig=0.1162). Поэтому, для сравнения средних можно воспользоваться строкой" Equal variances assumed" - "Предполагаются равные дисперсии". Соответствующая статистика показывает, что средние различиются существенно (sig=0.000). Впрочем, даже если мы не удовлетворены статистикой Ливиня, в данном случае и без предположения равенства дисперсий мы можем утверждать то же самое (sig=0.001). Кроме того, это подтверждает и доверительный интервал, не включающий нуля.

двухвыборочный t-тест для связанных выборок (Paired sample T-TEST) 

Если на одних и тех же объектах дважды измеряется некоторое свойство, то проверка значимости различия средних по измеренным переменным - для этого теста. Пример задания команды:

T-TEST  PAIRS= x  WITH y (PAIRED) /CRITERIA=CIN(.95).

Переменные X и Y могут быть характеристиками мужа и жены при исследовании семей; по данным RLMS - измерениями, связанными с потреблением напитков в 1996 и 1998 году и т.п. Поэтому данная процедура полезна для анализа панельных данных.

Почему же здесь нельзя воспользоваться таким же анализом, как и для двух несвязанных выборок, считая, что имеются две выборки одинакового объема?

Проверка значимости различия матожиданий X и Y эквивалентна проверке гипотезы о равенстве нулю математического ожидания разности X-Y. Дисперсия разности X-Y равна D(X-Y)=D(X)+D(Y)-2cov(X,Y). Отсюда точность оценки матожидани Х-Y связана с ковариацией X и Y.

Поэтому наряду с соответствующей статистикой в выдачу по этому тесту входит и коэффициент корреляции этих переменных и наблюдаемая значимость.

Для примера взгляните на выдачу, в которой сравниваются вес 1995 и 1996 г. женщин от 30 до 40 лет (в 1995), таблицы 4.5-7, данные RLMS.

Таблица 4.5. T-тест на связанных выборках, описательные статистики

Mean

N

Std. Deviation

Std. Error Mean

AM1  Вес 1995

67.59

793

13.72

0.49

BM1  Вес 1996

68.12

793

14.22

0.50

Таблица 4.6. T-тест на связанных выборках, корреляции

N

Correlation

Sig.

AM1   Вес 1995 & BM1   Вес 1996

793

0.914

0.0000

Таблица 4.7. T-тест на связанных выборках, сравнение средних

Paired Differences Mean

Std. Deviation

Std. Error Mean

95% Confidence Interval of the Difference

t

Df

Sig. (2-tailed)

Lower

Upper

AM1   Вес 1995 & BM1   Вес 1996

-0.53

5.81

0.21

-0.93

-0.12

-2.547

792

0.011

Женщины в среднем набрали по полкилограмма веса и этот прирост статистически значим. Значим и коэффициент корреляции - вес в целом имеет свойство сохраняться.

Команда MEANS - сравнение характеристик числовой переменной по группам.

Процедура вычисляет одномерные статистики в группах - все описательные статистики, которые вычислялись командами Descriptives и Frequencies, а также гармоническое среднее, среднее геометрическое, проценты сумм значений переменных в группах и др. - всего 20 характеристик. Поэтому имя команды Means (Средние) сохранилось лишь исторически, пришло из ранних версий SPSS, где действительно ее назначением было сравнение средних. В диалоговом окне для назначения статистик используется кнопка "Options". Проводится также одномерный дисперсионный анализ.

MEANS TABLES=v14 BY v11 BY v8 /CELLS MEAN STDDEV MEDIAN COUNT /STATISTICS ANOVA.

В команде указывается список зависимых переменных, BY и список переменных, определяющих группы. Каждое дополнительное слово BY порождает следующий нижний уровень группирования, в диалоговом режиме слову BY соответствует кнопка NEXT.

Таблица 4.8. Среднемессячный душевой доход в семье

V11 Cостояние в браке

V8 Пол

Mean

Std. Deviation

Median

N

1  женат

1  муж.

228.4

152.9

200

271

2  жен.

225.7

140.8

200

242

Total

227.1

147.2

200

513

2  вдовец

1  муж.

276.0

111.0

270

5

2  жен.

192.8

112.7

155

20

Total

209.4

115.1

168

25

3  разведен

1  муж.

331.9

230.0

295

16

2  жен.

195.9

86.1

180

25

Total

249.0

169.7

200

41

4  не был

1  муж.

263.3

223.0

200

41

2  жен.

212.2

118.6

200

34

Total

240.2

183.9

200

75

Total

1  муж.

238.4

167.8

200

333

2  жен.

219.9

133.4

200

321

Total

229.3

152.0

200

654

Анализ результатов позволяет сделать следующие выводы.  Самый высокий среднемесячный доход (332 руб.) имеют разведенные мужчины, при этом он значительно превосходит среднемесячный  доход, полученный всеми разведенными (249 руб.) и всеми мужчинами (238 руб.). На втором месте по доходам находится вдовцы (276 руб.), но их всего 5 человек, поэтому цифра ненадежна. Среди женщин наиболее высокие среднемесячные доходы (226 руб.) у состоящих в браке, что почти равно доходам женатых мужчин. Это естественно - ведь это же душевой доход в семье.

Мы можем сколько угодно описывать эту таблицу, но описание не будет доказательством какой-либо истины, пока оно не подтверждено статистическим выводом. Такая таблица может быть источником гипотез о взаимосвязи, которые в дальнейшем следует проверить.

Одномерноый дисперсионный анализ здесь проводится только по переменным первого уровня задания групп.

Напомним, что суть этого анализа состоит в вычислениии межгруппового квадратичныого разброса зависимой переменной SSв (Between groups) и внутригруппового разброса, обозначается SSw (Within groups). Величина SSв характеризует, насколько сильно отклонились от общего среднего средние между группами, а SSw - отклонения от центров групп. Статистика  в условиях гипотезы равенства средних и дисперсий распределения при нормальном распределении X в группах имеет распределение Фишера. F представляет собой в определенном смысле расстояние наблюдаемой от таблицы, в которой нет никаких зависимостей - средние в группах совпадают. Чем больше F, тем существеннее зависимость, однако сама по себе величина F ни о чем не говорит. Ответ на вопрос дает, как обычно, величина наблюдаемой значимости F - критерия: SIGNIFICANCE - вероятность случайно получить значение F, большее выборочного SIG=P{F>Fвыб}.

Еще раз обратим внимание на то, что в таком анализе используется предположение о нормальности распределения зависимой переменной. Не следует проводить непосредственно дисперсионный анализ переменных с существенно отличающимся от нормального распределением. Например, переменную "душевой доход"

В таблице4.9. приведена выдача одномерного дисперсионного анализа после выполнения команды

MEANS TABLES=lnv14m  BY v11  BY v8 /STATISTICS ANOVA .

Наблюдаемый уровень значимости 0.707 свидетельствуе о том, что на наших данных указанным методом связь не обнаруживается.

Таблица 4.9. Результаты однофакторного дисперсионного анализа

Sum of Squares

df

Mean Square

F

Sig.

LNV14M Логарифм душевого дохода * V11   Cостояние в браке

Between Groups

0.40

3

0.13

0.465

0.707

Within Groups

188.51

650

0.29

Total

188.92

653

Одномерный дисперсионный анализ (ONEWAY)

Данная процедура позволяет проводить одномерный дисперсионный анализ, ее преимущества перед командой Means в возможности исследования равенства дисперсий в группах, исследовании полиномиальных трендов, проведения множественных сравнений:

ONEWAY lnv14m BY w10 /STATISTICS HOMOGENEITY

/POSTHOC = BTUKEY SCHEFFE BONFERRONI ALPHA(.05).

Задается тестируемая переменная, служебное слово "BY", переменная группирования, список значений в скобках. Проверка однородности дисперсий задается подкомандой /STATISTICS HOMOGENEITY, множественные сравнения - подкомандой /POSTHOC = ….

Контрасты. Контрастом называется линейная комбинация средних в группах , где . С помощью контрастов можно проверять гипотезы об определенных соотношениях между математическими ожиданиями переменной в группах. В частности, если задать ai=-aj=1, можно проверять гипотезу о равенстве i-го и j-го среднего, можно подобрать контрасты для проверки линейного или полиномиального изменения средних (см. Руководство по применению SPSS). В условиях равенства матожиданий маловероятно существенное их отклонение от нуля.

МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ

Множественные сравнения являются одной из труднейших проблем в математической статистике. В действительности при анализе данных исследователи сталкиваются с ними на каждом шагу.

Пусть, например, мы рассматриваем 100 независимых таблиц сопряженности пар переменных, отбирая среди них "интересные" для анализа с использованием критических значений хи-квадрат 5%-го уровня значимости. Тогда при отсутствии связи переменных мы будем в среднем в таких испытаниях получать 5 "интересных" (значимых) таблиц, даже если связь между всеми переменными отсутствует. Таким образом, какие бы ни были плохие данные, мы что-либо будем интерпретировать. Но при повторном сборе данных - мы можем получить противоположные результаты. Вот что значит множественные сравнения!

Сравнение групповых средних это одна из немногих задач, где удалось справиться с этой проблемой.

Суть задачи состоит в отборе значимых различий множества пар групп, определяемых переменной группирования. Сравнение пары средних мы научились делать с помощью процедуры T-TEST и, казалось бы, можно, задавшись уровнем значимости, пропустить через этот тест все пары групп и отобрать различающиеся по за данному уровню. Однако, перебирая группы, мы перебираем множество случайных чисел, и, благодаря этому, можем наткнуться на значимое отличие с гораздо большей вероятностью, чем при рассмотрении одной пары групп. В частности, если группы независимы и не связаны с тестируемой переменной, при 10 сравнениях по уровню значимости 0.05 мы с вероятностью 1-(1-0.05)10=0.4 случайно получим хотя бы одно "значимое" различие.

Для пояснения механизма работы тестов множественных сравнений остановимся на 3-х из 20 тестах, реализованных в SPSS.

Согласно методу Бонферрони, в случае множественных сравнений назначается более строгий уровень значимости для попарных сравнений. Он определяется так: задается уровень значимости для множественных сравнений m и в качестве попарного уровня значимости берется =(1/k)m., где k - число сравнений. Пусть Ai - событие, состоящее в том, что мы в i-том сравнении выявили существенное отличие средних, когда средние совпадают, тогда, в соответствии с заданным уровнем значимости, P{Ai}<. Ясно, что P{A1+A2+…+Ak}≤P{A1}+P{A2}+…+P{Ak}<k=m, поэтому метод Бонферрони гарантирует нас от ошибки с вероятностью, не меньшей m. В независимых сравнениях неравенство P{A1+A2+…+Ak}<k, будет выполняться почти точно, так как 1-(1-)kk. Критерий несколько жестче, чем необходимо, так как средние в группах связаны - их взвешенная сумма равна общему среднему.

Метод Шеффе построен на контрастах. С его помощью проверяется гипотеза равенства нулю сразу всех контрастов, не только тех, что сравнивают пары групп. В результате он часто оказывается еще строже, чем критерий Бонферрони.

Таблица 4.10. Oneway, сравнение среднего промедианного логарифма доходов.

N

Mean

Std. Deviation

Std. Error

95% Confidence Interval for Mean

Minimum

Maximum

Lower Bound

Upper Bound

1.00  Высшее

251

0.048

0.511

0.032

-0.016

0.111

-1.050

2.015

2.00  н/высш

37

-0.248

0.606

0.100

-0.450

-0.046

-1.386

1.099

3.00  ср спец

220

0.009

0.479

0.032

-0.055

0.073

-1.386

1.740

4.00  среднее

130

-0.093

0.619

0.054

-0.200

0.015

-2.254

1.504

5.00  ниже сред.

33

-0.107

0.530

0.092

-0.295

0.081

-0.916

1.099

Total

671

-0.016

0.534

0.021

-0.057

0.024

-2.254

2.015

Таблица 4.11. Oneway, проверка однородности дисперсий

Levene Statistic

df1

df2

Sig.

2.282

4

666

0.059

Таблица 4.12. Oneway, обычный дисперсионный анализ

Sum of Squares

df

Mean Square

F

Sig.

Between Groups

4.187

4

1.047

3.724

0.005

Within Groups

187.202

666

0.281

Total

191.389

670

Таблица 4.13. Oneway, группы неразличимых средних

W10  образование

1

2

Tukey HSD

2.00  н/высш

37

-0.248

5.00  ниже среднего

33

-0.107

-0.107

4.00  среднее

130

-0.093

-0.093

3.00  ср спец

220

0.009

1.00  Высшее

251

0.048

Sig.

0.429

0.436

Scheffe

2.00  н/высш

37

-0.248

5.00  ниже среднего

33

-0.107

-0.107

4.00  среднее

130

-0.093

-0.093

3.00  ср спец

220

0.009

0.009

1.00  Высшее

251

0.048

Sig.

0.093

0.579

Критерий Тьюки основан на одновременных доверительных интервалах разности матожиданий в группах. Этот критерий из трех рассматриваемых, пожалуй, наиболее разумен. Предположение об одновременном равенстве разностей всех групповых матожиданий - слишком сильное предположение, в критерии Тьюки такого не предполагается.

Таблица 4.14. Oneway, множественные попарные сравнения

Mean Difference (I-J)

Std. Error

Sig.

95% Confidence Interval

(I) W10  образование

(J) W10  образование

Lower Bound

Upper Bound

Tukey HSD

1.00  Высшее

2.00  н/высш

0.296*

0.093

0.013

0.041

0.551

3.00  ср спец

0.039

0.049

0.934

-0.095

0.172

4.00  среднее

0.140

0.057

0.102

-0.016

0.297

5.00  ниже среднего

0.154

0.098

0.516

-0.113

0.422

2.00  н/высш

1.00  Высшее

-0.296*

0.093

0.013

-0.551

-0.041

3.00  ср спец

-0.257

0.094

0.050

-0.514

0.000

4.00  среднее

-0.155

0.099

0.515

-0.425

0.114

5.00  ниже среднего

-0.142

0.127

0.799

-0.488

0.205

3.00  ср спец

1.00  Высшее

-0.039

0.049

0.934

-0.172

0.095

2.00  н/высш

0.257

0.094

0.050

0.000

0.514

4.00  среднее

0.102

0.059

0.412

-0.058

0.262

5.00  ниже среднего

0.116

0.099

0.769

-0.154

0.386

4.00  среднее

1.00  Высшее

-0.140

0.057

0.102

-0.297

0.016

2.00  н/высш

0.155

0.099

0.515

-0.114

0.425

3.00  ср спец

-0.102

0.059

0.412

-0.262

0.058

5.00  ниже среднего

0.014

0.103

1.000

-0.268

0.296

5.00  ниже среднего

1.00  Высшее

-0.154

0.098

0.516

-0.422

0.113

2.00  н/высш

0.142

0.127

0.799

-0.205

0.488

3.00  ср спец

-0.116

0.099

0.769

-0.386

0.154

4.00  среднее

-0.014

0.103

1.000

-0.296

0.268

В качестве примера рассмотрим различие среднего промедианного логарифма доходов в группах по образованию, группы которого несколько укрупнены:

recode v10 (4 5 =4) (6 7 8=5) (else=copy) into w10.

var lab w10 "образование".

value lab w10 1 "Высшее" 2 "н/высш" 3 "ср. спец" 4 "среднее" 5 "ниже среднего".

ONEWAY lnv14m BY w10 /STATISTICS DESCRIPTIVES HOMOGENEITY /POSTHOC = BTUKEY SCHEFFE BONFERRONI ALPHA(.05).

На основании полученной выдачи видим, что:

  •  доверительные интервалы для высшего и неполного высшего образования не пересекаются (см. табл.4.10);
  •  дисперсии в группах различаются не существенно (см. тест Ливиня, табл.4.11);
  •  в целом наблюдается связь душевого дохода с образованием (гипотеза о равенстве средних - отвергается, см. таблицу 4.12);
  •  выделились следующие две группы по образованию с неразличимыми средними: 2 н/высшее, 5 ниже среднего, 4 среднее и 5 ниже среднего, 4 среднее, 3 среднее спец, 1 высшее (табл.4.13);
  •  попарные множественные сравнения показали, что единственная пара отличающихся по средним групп - это группы с неполным высшим и респондентов с высшим образованием (наблюдаемая значимость - 0.013, таблица 4.14).

Следует заметить, что мы не показали здесь часть таблицы попарных сравнений с результатами для метода Бонферрони и Шеффе; результаты аналогичны, но для указанной пары групп значимость различия по Шеффе - 0.041, по Бонферрони - 0.016. Это показывает большую чуствительность теста Тьюки.

4.4. Корреляции (CORRELATIONS)

Раздел CORRELATIONS содержит команды для получения парных (Bivariate…) и частных (Partial…) корреляций.

Парные корреляции

Команда Bivariate… меню производит вычисление таблицы коэффициентов Пирсона, характеризующего степень линейной связи, а также коэффициентов ранговой корреляции BTAU и Спирмена (Spearman). В синтаксисе эта команда имеет вид:

CORRELATIONS /VARIABLES=v9 lnv14m /PRINT=TWOTAIL NOSIG.

для обычного коэффициента корреляции и

NONPAR CORR /VARIABLES=v10 v9 v14 /PRINT=SPEARMAN.

или

NONPAR CORR /VARIABLES=v10 WITH v9 v14 /PRINT=KENDALL.

для ранговых корреляций

Подкоманда /VARIABLES в этих командах указывает список переменных или два списка переменных, разделенных словом WITH. Если указывается один список переменных, то рассчитываются коэффициенты корреляции каждой переменной с каждой переменной (квадратная таблица). Если указываются два списка, разделенные служебным словом WITH, то рассчитываются коэффициенты корреляции всех переменных, расположенных слева от WITH, с переменными, расположенными справа (прямоугольная таблица). Ключевое слово WITH можно использовать только в окне синтаксиса.

Процедура CORRELATIONS выводит: r - коэффициент корреляции Пирсона; число наблюдений (объектов) в скобках и значимость коэффициента корреляции. Коэффициент корреляции Пирсона:

.

Коэффициент корреляции может принимать значения от -1 до +1. При этом значимый отрицательный коэффициент корреляции позволяет принять гипотезу о наличии линейной отрицательной связи. Метод, используемый для проверки гипотезы, предполагает, также, двумерную нормальность распределения (X,Y). На практике это соответствует тому, что увеличению значения одной переменной в большинстве случаев соответствует уменьшение значения коррелируещей с ней переменной. Значимый положительный коэффициент корреляции свидетельствует о положительной связи переменных: увеличению одной переменной соответствует увеличение другой. Чем ближе абсолютное значение r к единице, тем более линейный характер носит зависимость исследуемых переменных; близость к 0 означает отсутствие линейной связи.

Насколько полученное значение коэффициента корреляции не случайно, определяется по величине значимости (Sig. (2-tailed)) - вероятности получить большее, чем выборочное значение коэффициента корреляции. Для оценки значимости коэффициента Пирсона используется критерий t=r*(N-2)/(1-r2)0.5, который в условиях нормальности и независимости переменных имеет распределение Стьюдента. Таким образом, наряду с формулировкой нулевой гипотезы здесь формулируется предположение о двумерной нормальности - довольно жесткое условие.

Для оценки значимости коэффициентов Спирмена и Кендалла используется нормальная аппроксимация этих коэфициентов. По-сути коэффициент ранговой корреляции является коэффициентом корреляции между переменными, преобразованными в ранги (или процентили), поэтому для исследования значимости с помощью этих коэффициентов не требуется делать предположения о распределении данных. Пример выдачи коэффициентов Спирмена представлен в табл.4.15. Не обнаруживается значимой связи возраста и образования (что вполне естественно), но среднемесячный душевой доход связан с образованием (это мы уже показывали).

Таблица 4.15. Коэффициенты корреляции Спирмена (Spearman's rho)

 

 

 

 

Частные корреляции. 

Пусть имеются переменные X, Y, Z. Что, если взаимосвязь между переменными X и Y обусловлена некоторой другой переменной Z. Mожет быть она проявляется при условии этой переменной?

Для исследования этого вопроса применяется коэффициент частной корреляции. Вообще говоря, коэффициент корреляции X и Y должен зависеть от значений Z, однако известно, что в многомерной нормальной совокупности такой зависмости нет. Поэтому статистическая теория здесь разработана именно для такого случая. На практике весьма сложно доказать многомерную нормальность и часто эту технику используют для анализа данных, не имеющих слишком большие перекосы.

Не вдаваясь в подробности вычисления, коэффициент ранговой корреляции можно представить как коэффициент корреляции регрессионных остатков x и y уравнений

X=ax+bx*Z+x

Y=ay+by*Z+y

Таким образом, снимается часть зависимости, обусловленная третьей переменной, проявляется "чистая" взаимосвязь X и Y. Уравнению регрессии мы посвятим в дальнейшем специальный раздел. Здесь мы прведем пример задания частной корреляции.

Время, затраченное на покупки, и время на мытье посуды, оказывается, связаны положительно - чем больше человек тратит его на покупки, тем больше на посуду (таблица 4.16, RLMS, 7 волна). Может быть, это определяется тем, что человек вообще занимается домашней работой? Для проверки этого возьмем в качестве управляющей переменной время на уборку квартиры … и получим таблицу 4.17. Оказалось, что эта связь между временными затратами на покупку продуктов и мытье посуды имеет самостоятельный смысл, так как частная корреляция по-прежнему значима, хотя уменьшилась с 0.320 до 0.256.

Таблица 4.16. Коэффициент корреляции времени приготовления пищи и закупки продуктов

 

 

V9 Возраст

V14  Ср.мес. душевой доход в семье

V10 Образование

Correlation Coefficient

-.021

-.086

 

Sig. (2-tailed)

.574

.026

 

N

692

671

CO17A время  на приготовления пищи

CO15A время на покупку продуктов

Pearson Correlation

0.3193

Sig. (2-tailed)

0.0000

N

3549

Таблица 4.17. Коэффициент корреляции времени приготовления пищи и закупки продуктов

Controlling for..    CO19A (время на уборку квартиры )

CO17A время  на приготовления пищи

CO15A время на покупку продуктов

Pearson Correlation

0. 2558

Sig. (2-tailed)

0.0000

N

3546

Рисунок 4.2. Распределение, близкое к нормальному

Рисунок 4.1. Распределение населения по душевому доходу




1. Отчет по психологии Студентка- Потапова Е
2. і К~сіпкер~ 10 ж~мысы бар же ~зі 2013 ж 1то~саны ~ортындысы бша к~сіпкер~р ж~мысшыга ай сайын 42000 тг к~лемінде
3. тема нашої літератури
4. МЕТОДИЧНІ РЕКОМЕНДАЦІЇ ДО ВИКОНАННЯ КУРСОВОЇ РОБОТИ З НАВЧАЛЬНОЇ ДИСЦИПЛІНИ ЕКОНОМІКА ПІДПРИЄМСТВА
5. Кривая Лоренца индекс Джини
6. В естественном состоянии газы не проводят электрического тока т
7. Гринев и Пугачев
8. Организация противоэпизоотических мероприятий на Шалинской районной ветеринарной станции
9. Путешествие Джерома Горсея из Москвы в Англию с поручением от царя Ивана Грозного
10. і. Кваліфікатори const та voltile
11. Вариант 41 Вариант 42 Вариант 43
12. на тему- ldquo;Володимир Шухевич ~ письменник і дослідник Коломийщиниrdquo; Володимир Шухевич не є тільки чи
13. на тему- ldquo;Християнська церква i духовне життя Українського народу в ХІХ ХХ столiттяхrdquo;
14. Реферат- Октавиан Август
15. ДНК-діагностика та її застосування у ветеринарі
16. Небо разорвалось на сотни чёрных облаков ветер взвыл над палубой и на борт уже хлынула чёрнаямутная вода
17. ПЕТЕРБУРГСКИЙ ИНСТИТУТ ВНЕШНЕЭКОНОМИЧЕСКИХ СВЯЗЕЙ ЭКОНОМИКИ И ПРАВА С
18. на тему- Поговорим подробнее о роде и числе имен существительных и прилагательных Упорова Олеся Юрьевна
19. гуманиста в болезненного мечтателя якобы капитулировавшего перед немецкой действительностью XVIII в
20. Евгений Онегин роман в котором отразился век