У вас вопросы?
У нас ответы:) SamZan.net

простые параметрические методы сравнения средних

Работа добавлена на сайт samzan.net: 2016-03-13

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Имя

Выберите тип работы:

Принимаю Политику конфиденциальности

Скидка 25% при заказе до 30.6.2025

Глава 4. Сравнение средних, корреляции

4.3. Compare Means - простые параметрические методы сравнения средних.

Параметрические методы при формулировании нулевых гипотез о равенстве средних предполагают нормальность распределения анализируемых переменных или остатков в моделях дисперсионного анализа, сравнения групп и т.д. Это условие при анализе анкетной информации выполняется весьма редко. Вероятно, наиболее удобны для такого анализа переменные, полученные усреднением множества независимых случайных величин: по центральной предельной теореме такие переменные должны иметь близкое к нормальному распределение.

На практике нередко для больших совокупностей эти методы все-же используются и для другого рода распределений, если распределение "не слишком сильно" отклоняется от нормального. "Не слишком сильно" - неопределенное понятие, обычно это определяется визуально при рассмотрении гистограммы распределения.

Взгляните, например, на распределение населения по душевому доходу - рис. 4.1. Распределение имеет длинный хвост в направлении больших доходов, нормальная кривая недостаточно хорошо огибает гистограмму. Если использовать вместо этой переменной логарифм доходов:

compute lnv14=ln(v14).

получаем более приемлемое распределение (см.рис. 4.2).

Основные формулы и идеи параметрических методов анализа средних и дисперсий рассматриваются в курсе математической статистики; и здесь, по ходу изложения материала, мы коротко напомним отдельные моменты этой теории.

Одновыборочный тест (One sample T-test).

Одновыборочный тест предназначен для проверки гипотезы о равенстве математического ожидания переменной заданной величине (в общепринятых обозначениях H0: =0). Напомним, что для проверки этой гипотезы используется статистика .

Команда для проверки гипотезы выдает также двусторонний доверительный интервал.

Примеры применения одновыборочного T-теста.

Пример 1. Для устранения влияния текущего уровня цен, инфляции на выводы об уровне жизни населения уровень доходов нормируют на средние значения или медиану. Целесообразно и нам использовать промедианный доход.

Почти одновременно с моментом сбора данных на аналогичной выборке очень большего объема была получена оценка медианы душевых доходов населения (200 руб.). Если допустить, что логарифм доходов имеет нормальное распределение, то среднее промедианных доходов должно незначимо отличаться от нуля (поскольку нормальное распределение симметрично относительно математического ожидания). Проверим это:

compute lnv14m=ln(v14/200).

Variable labels lnv14m "логарифм промедианного дохода".

T-TEST /TESTVAL=0 /VARIABLES=lnv14m /CRITERIA=CIN (.95) .

Таблица 4.1. Одновыборочный t-тест. Средний промедианный доход незначимо отличается от нуля.

	T	Df	Sig. (2-tailed)	Mean Difference	95% Confidence Interval of the Difference
					Lower	Upper
LNV14M	-0.831	672	0.406	-0.017	-0.058	0.023

В нашем примере 0=0 (TESTVAL=0), отклонение среднего равно -0.017, наблюдаемая значимость - 0.406 (почти в 40% случаев большее отклонение от ожидаемого значения может быть получено случайно), поэтому гипотеза о равенстве нулю матожидания логарифма промедианного дохода не отклоняется. Об этом же говорит и тот факт, что 95% доверительный интервал покрывает ожидаемое значение.

Пример. Есть предположение, что малообразованное население имеет средний логарифм доходов, существенно меньший среднего по совокупности объектов. В нашей анкете образование закодировано следующим образом:

1 Высшее;

2 незак/высш;

3 среднее спец;

4 ПТУ,ФЗУ;

5 10-11кл;

6 7-9 кл.;

7 4-6 кл.;

8 менее 4-х классов;

9 нет образования.

Проверим предположение, воспользовавшись временной выборкой данных о респондентах, имеющих образование не выше среднего.

compute f= (v10>3).

*формирование переменной фильтра.

filter f.

T-TEST /TESTVAL=0 / VARIABLES=lnv14 /CRITERIA=CIN (.95) .

filter off.

Таблица 4.2. Одновыборочный T-тест. Средний промедианный доход в группе с относительно низким образованием отличается от нуля при уровне значимости 5%.

	T	Df	Sig. (2-tailed)	Mean Difference	95% Confidence Interval of the Difference
					Lower	Upper
LNV14	-2.0316	162	0.0438	-0.0956	-0.1886	-0.0027

двухвыборочный t-тест (independent sample T-TEST)

Вариант команды для выполнения процедуры T-TEST для сравнения средних в двух выборках имеет следующий вид:

T-TEST/GROUPS V4(1,3)/VARIABLES = V9 lnV14m.

Подкоманда GROUPS указывает переменную группирования; в скобках задаются два значения этой переменной, определяющие группы. Например, приведенная команда будет выполняться только для групп объектов, у которых V4 принимает указанные значения 1 и 3. VARIABLES задает сравниваемые (зависимые) переменные для выделенных групп объектов. Объекты можно также разбить на две группы, указав в параметре GROUPS одно значение:

T-TEST /GRO v9(30)/VAR V9 lnV14m.

В этом случае вся совокупность будет разделена на те объекты, на которых указанная переменная не больше заданного значения (v930), и те, у которых она больше (v9>30).

Процедурой T-TEST проверяется гипотеза равенства средних, при этом предполагается нормальность распределения генеральной совокупности. Процедура подсчитывает средние для пары групп, стандартные ошибки, статистики и их значимость. При сравнении двух выборок нас интересует, насколько случайный характер носит различие средних - отличаются ли они значимо?

В зависимости от предположения о равенстве дисперсий испльзуются разные варианты t-статистик.

Если не предполагается равенство дисперсий в группах, то для сравнения средних принято использовать статистику , которая в условиях гипотезы равенства матожиданий и нормальности X имеет распределение Стьюдента, число степеней которого оценивается на основе оценок дисперсий.

Если заранее известно о равенстве дисперсий в группах, то предпочтительнее статистика .

При определении ее величины предварительно вычисляется объединенная дисперсия

Из теории известно, что при условии равенства дисперсий вычисляемая величина Sp есть несмещенная оценка дисперсии, и статистика t также имеет распределение Стьюдента.

Для проверки равенства дисперсий используется статистики Ливиня, имеющая распределение Фишера.

Двусторонней наблюдаемой значимостью, вычисляемой процедурой T-TEST, является вероятность случайно получить различия средних, такие, что │t-теоретическое│>│t-выборочного│. Если значимость близка к 0, делаем вывод о неслучайном характере различий.

Результат выдается в двух таблицах. В первой размещены средние и характеристики разброса в группах, во второй - результаты их сравнения.

Таблица 4.3. T-тест, описательные статистики по группам

Таблица 4.4. T-тест, сравнение средних и дисперсий в группах

	V9 Возраст	N	Mean	Std. Deviation	Std. Error Mean
LNV14M	>= 30	521	0.019	0.517	0.023
	< 30	133	-0.177	0.593	0.051

	Levene's Test for Equality of Variances	T	Df	Sig. (2-tailed)	Mean Difference	Std. Error Difference	95% Confidence Interval of the Difference
	F	Sig.
								Lower	Upper
Equal variances assumed	2.47	0.1162	3.78	652	0.000	0.196	0.052	0.094	0.298
Equal variances not assumed			3.48	186.42	0.001	0.196	0.056	0.085	0.307

В таблицах 4.3 и 4.4 приведен пример сравнения средних логарифмов душевых доходов в группах населения до 30 лет и старше 30. Статистика Ливиня в этом случае свидетельствует, что гипотеза равенства дисперсий не отвергается (sig=0.1162). Поэтому, для сравнения средних можно воспользоваться строкой" Equal variances assumed" - "Предполагаются равные дисперсии". Соответствующая статистика показывает, что средние различиются существенно (sig=0.000). Впрочем, даже если мы не удовлетворены статистикой Ливиня, в данном случае и без предположения равенства дисперсий мы можем утверждать то же самое (sig=0.001). Кроме того, это подтверждает и доверительный интервал, не включающий нуля.

двухвыборочный t-тест для связанных выборок (Paired sample T-TEST)

Если на одних и тех же объектах дважды измеряется некоторое свойство, то проверка значимости различия средних по измеренным переменным - для этого теста. Пример задания команды:

T-TEST PAIRS= x WITH y (PAIRED) /CRITERIA=CIN(.95).

Переменные X и Y могут быть характеристиками мужа и жены при исследовании семей; по данным RLMS - измерениями, связанными с потреблением напитков в 1996 и 1998 году и т.п. Поэтому данная процедура полезна для анализа панельных данных.

Почему же здесь нельзя воспользоваться таким же анализом, как и для двух несвязанных выборок, считая, что имеются две выборки одинакового объема?

Проверка значимости различия матожиданий X и Y эквивалентна проверке гипотезы о равенстве нулю математического ожидания разности X-Y. Дисперсия разности X-Y равна D(X-Y)=D(X)+D(Y)-2cov(X,Y). Отсюда точность оценки матожидани Х-Y связана с ковариацией X и Y.

Поэтому наряду с соответствующей статистикой в выдачу по этому тесту входит и коэффициент корреляции этих переменных и наблюдаемая значимость.

Для примера взгляните на выдачу, в которой сравниваются вес 1995 и 1996 г. женщин от 30 до 40 лет (в 1995), таблицы 4.5-7, данные RLMS.

Таблица 4.5. T-тест на связанных выборках, описательные статистики

	Mean	N	Std. Deviation	Std. Error Mean
AM1 Вес 1995	67.59	793	13.72	0.49
BM1 Вес 1996	68.12	793	14.22	0.50

Таблица 4.6. T-тест на связанных выборках, корреляции

	N	Correlation	Sig.
AM1 Вес 1995 & BM1 Вес 1996	793	0.914	0.0000

Таблица 4.7. T-тест на связанных выборках, сравнение средних

	Paired Differences Mean	Std. Deviation	Std. Error Mean	95% Confidence Interval of the Difference	t	Df	Sig. (2-tailed)
				Lower	Upper
AM1 Вес 1995 & BM1 Вес 1996	-0.53	5.81	0.21	-0.93	-0.12	-2.547	792	0.011

Женщины в среднем набрали по полкилограмма веса и этот прирост статистически значим. Значим и коэффициент корреляции - вес в целом имеет свойство сохраняться.

Команда MEANS - сравнение характеристик числовой переменной по группам.

Процедура вычисляет одномерные статистики в группах - все описательные статистики, которые вычислялись командами Descriptives и Frequencies, а также гармоническое среднее, среднее геометрическое, проценты сумм значений переменных в группах и др. - всего 20 характеристик. Поэтому имя команды Means (Средние) сохранилось лишь исторически, пришло из ранних версий SPSS, где действительно ее назначением было сравнение средних. В диалоговом окне для назначения статистик используется кнопка "Options". Проводится также одномерный дисперсионный анализ.

MEANS TABLES=v14 BY v11 BY v8 /CELLS MEAN STDDEV MEDIAN COUNT /STATISTICS ANOVA.

В команде указывается список зависимых переменных, BY и список переменных, определяющих группы. Каждое дополнительное слово BY порождает следующий нижний уровень группирования, в диалоговом режиме слову BY соответствует кнопка NEXT.

Таблица 4.8. Среднемессячный душевой доход в семье

V11 Cостояние в браке	V8 Пол	Mean	Std. Deviation	Median	N
1 женат	1 муж.	228.4	152.9	200	271
	2 жен.	225.7	140.8	200	242
	Total	227.1	147.2	200	513
2 вдовец	1 муж.	276.0	111.0	270	5
	2 жен.	192.8	112.7	155	20
	Total	209.4	115.1	168	25
3 разведен	1 муж.	331.9	230.0	295	16
	2 жен.	195.9	86.1	180	25
	Total	249.0	169.7	200	41
4 не был	1 муж.	263.3	223.0	200	41
	2 жен.	212.2	118.6	200	34
	Total	240.2	183.9	200	75
Total	1 муж.	238.4	167.8	200	333
	2 жен.	219.9	133.4	200	321
	Total	229.3	152.0	200	654

Анализ результатов позволяет сделать следующие выводы. Самый высокий среднемесячный доход (332 руб.) имеют разведенные мужчины, при этом он значительно превосходит среднемесячный доход, полученный всеми разведенными (249 руб.) и всеми мужчинами (238 руб.). На втором месте по доходам находится вдовцы (276 руб.), но их всего 5 человек, поэтому цифра ненадежна. Среди женщин наиболее высокие среднемесячные доходы (226 руб.) у состоящих в браке, что почти равно доходам женатых мужчин. Это естественно - ведь это же душевой доход в семье.

Мы можем сколько угодно описывать эту таблицу, но описание не будет доказательством какой-либо истины, пока оно не подтверждено статистическим выводом. Такая таблица может быть источником гипотез о взаимосвязи, которые в дальнейшем следует проверить.

Одномерноый дисперсионный анализ здесь проводится только по переменным первого уровня задания групп.

Напомним, что суть этого анализа состоит в вычислениии межгруппового квадратичныого разброса зависимой переменной SSв (Between groups) и внутригруппового разброса, обозначается SSw (Within groups). Величина SSв характеризует, насколько сильно отклонились от общего среднего средние между группами, а SSw - отклонения от центров групп. Статистика в условиях гипотезы равенства средних и дисперсий распределения при нормальном распределении X в группах имеет распределение Фишера. F представляет собой в определенном смысле расстояние наблюдаемой от таблицы, в которой нет никаких зависимостей - средние в группах совпадают. Чем больше F, тем существеннее зависимость, однако сама по себе величина F ни о чем не говорит. Ответ на вопрос дает, как обычно, величина наблюдаемой значимости F - критерия: SIGNIFICANCE - вероятность случайно получить значение F, большее выборочного SIG=P{F>Fвыб}.

Еще раз обратим внимание на то, что в таком анализе используется предположение о нормальности распределения зависимой переменной. Не следует проводить непосредственно дисперсионный анализ переменных с существенно отличающимся от нормального распределением. Например, переменную "душевой доход"

В таблице4.9. приведена выдача одномерного дисперсионного анализа после выполнения команды

MEANS TABLES=lnv14m BY v11 BY v8 /STATISTICS ANOVA .

Наблюдаемый уровень значимости 0.707 свидетельствуе о том, что на наших данных указанным методом связь не обнаруживается.

Таблица 4.9. Результаты однофакторного дисперсионного анализа

		Sum of Squares	df	Mean Square	F	Sig.
LNV14M Логарифм душевого дохода * V11 Cостояние в браке	Between Groups	0.40	3	0.13	0.465	0.707
	Within Groups	188.51	650	0.29
	Total	188.92	653

Одномерный дисперсионный анализ (ONEWAY)

Данная процедура позволяет проводить одномерный дисперсионный анализ, ее преимущества перед командой Means в возможности исследования равенства дисперсий в группах, исследовании полиномиальных трендов, проведения множественных сравнений:

ONEWAY lnv14m BY w10 /STATISTICS HOMOGENEITY

/POSTHOC = BTUKEY SCHEFFE BONFERRONI ALPHA(.05).

Задается тестируемая переменная, служебное слово "BY", переменная группирования, список значений в скобках. Проверка однородности дисперсий задается подкомандой /STATISTICS HOMOGENEITY, множественные сравнения - подкомандой /POSTHOC = ….

Контрасты. Контрастом называется линейная комбинация средних в группах , где . С помощью контрастов можно проверять гипотезы об определенных соотношениях между математическими ожиданиями переменной в группах. В частности, если задать ai=-aj=1, можно проверять гипотезу о равенстве i-го и j-го среднего, можно подобрать контрасты для проверки линейного или полиномиального изменения средних (см. Руководство по применению SPSS). В условиях равенства матожиданий маловероятно существенное их отклонение от нуля.

МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ

Множественные сравнения являются одной из труднейших проблем в математической статистике. В действительности при анализе данных исследователи сталкиваются с ними на каждом шагу.

Пусть, например, мы рассматриваем 100 независимых таблиц сопряженности пар переменных, отбирая среди них "интересные" для анализа с использованием критических значений хи-квадрат 5%-го уровня значимости. Тогда при отсутствии связи переменных мы будем в среднем в таких испытаниях получать 5 "интересных" (значимых) таблиц, даже если связь между всеми переменными отсутствует. Таким образом, какие бы ни были плохие данные, мы что-либо будем интерпретировать. Но при повторном сборе данных - мы можем получить противоположные результаты. Вот что значит множественные сравнения!

Сравнение групповых средних это одна из немногих задач, где удалось справиться с этой проблемой.

Суть задачи состоит в отборе значимых различий множества пар групп, определяемых переменной группирования. Сравнение пары средних мы научились делать с помощью процедуры T-TEST и, казалось бы, можно, задавшись уровнем значимости, пропустить через этот тест все пары групп и отобрать различающиеся по за данному уровню. Однако, перебирая группы, мы перебираем множество случайных чисел, и, благодаря этому, можем наткнуться на значимое отличие с гораздо большей вероятностью, чем при рассмотрении одной пары групп. В частности, если группы независимы и не связаны с тестируемой переменной, при 10 сравнениях по уровню значимости 0.05 мы с вероятностью 1-(1-0.05)10=0.4 случайно получим хотя бы одно "значимое" различие.

Для пояснения механизма работы тестов множественных сравнений остановимся на 3-х из 20 тестах, реализованных в SPSS.

Согласно методу Бонферрони, в случае множественных сравнений назначается более строгий уровень значимости для попарных сравнений. Он определяется так: задается уровень значимости для множественных сравнений m и в качестве попарного уровня значимости берется =(1/k)m., где k - число сравнений. Пусть Ai - событие, состоящее в том, что мы в i-том сравнении выявили существенное отличие средних, когда средние совпадают, тогда, в соответствии с заданным уровнем значимости, P{Ai}<. Ясно, что P{A1+A2+…+Ak}≤P{A1}+P{A2}+…+P{Ak}<k=m, поэтому метод Бонферрони гарантирует нас от ошибки с вероятностью, не меньшей m. В независимых сравнениях неравенство P{A1+A2+…+Ak}<k, будет выполняться почти точно, так как 1-(1-)kk. Критерий несколько жестче, чем необходимо, так как средние в группах связаны - их взвешенная сумма равна общему среднему.

Метод Шеффе построен на контрастах. С его помощью проверяется гипотеза равенства нулю сразу всех контрастов, не только тех, что сравнивают пары групп. В результате он часто оказывается еще строже, чем критерий Бонферрони.

Таблица 4.10. Oneway, сравнение среднего промедианного логарифма доходов.

	N	Mean	Std. Deviation	Std. Error	95% Confidence Interval for Mean	Minimum	Maximum
					Lower Bound	Upper Bound
1.00 Высшее	251	0.048	0.511	0.032	-0.016	0.111	-1.050	2.015
2.00 н/высш	37	-0.248	0.606	0.100	-0.450	-0.046	-1.386	1.099
3.00 ср спец	220	0.009	0.479	0.032	-0.055	0.073	-1.386	1.740
4.00 среднее	130	-0.093	0.619	0.054	-0.200	0.015	-2.254	1.504
5.00 ниже сред.	33	-0.107	0.530	0.092	-0.295	0.081	-0.916	1.099
Total	671	-0.016	0.534	0.021	-0.057	0.024	-2.254	2.015

Таблица 4.11. Oneway, проверка однородности дисперсий

Levene Statistic	df1	df2	Sig.
2.282	4	666	0.059

Таблица 4.12. Oneway, обычный дисперсионный анализ

	Sum of Squares	df	Mean Square	F	Sig.
Between Groups	4.187	4	1.047	3.724	0.005
Within Groups	187.202	666	0.281
Total	191.389	670

Таблица 4.13. Oneway, группы неразличимых средних

	W10 образование		1	2
Tukey HSD	2.00 н/высш	37	-0.248
	5.00 ниже среднего	33	-0.107	-0.107
	4.00 среднее	130	-0.093	-0.093
	3.00 ср спец	220		0.009
	1.00 Высшее	251		0.048
	Sig.		0.429	0.436
Scheffe	2.00 н/высш	37	-0.248
	5.00 ниже среднего	33	-0.107	-0.107
	4.00 среднее	130	-0.093	-0.093
	3.00 ср спец	220	0.009	0.009
	1.00 Высшее	251		0.048
	Sig.		0.093	0.579

Критерий Тьюки основан на одновременных доверительных интервалах разности матожиданий в группах. Этот критерий из трех рассматриваемых, пожалуй, наиболее разумен. Предположение об одновременном равенстве разностей всех групповых матожиданий - слишком сильное предположение, в критерии Тьюки такого не предполагается.

Таблица 4.14. Oneway, множественные попарные сравнения

			Mean Difference (I-J)	Std. Error	Sig.	95% Confidence Interval
	(I) W10 образование	(J) W10 образование				Lower Bound	Upper Bound
Tukey HSD	1.00 Высшее	2.00 н/высш	0.296*	0.093	0.013	0.041	0.551
		3.00 ср спец	0.039	0.049	0.934	-0.095	0.172
		4.00 среднее	0.140	0.057	0.102	-0.016	0.297
		5.00 ниже среднего	0.154	0.098	0.516	-0.113	0.422
	2.00 н/высш	1.00 Высшее	-0.296*	0.093	0.013	-0.551	-0.041
		3.00 ср спец	-0.257	0.094	0.050	-0.514	0.000
		4.00 среднее	-0.155	0.099	0.515	-0.425	0.114
		5.00 ниже среднего	-0.142	0.127	0.799	-0.488	0.205
	3.00 ср спец	1.00 Высшее	-0.039	0.049	0.934	-0.172	0.095
		2.00 н/высш	0.257	0.094	0.050	0.000	0.514
		4.00 среднее	0.102	0.059	0.412	-0.058	0.262
		5.00 ниже среднего	0.116	0.099	0.769	-0.154	0.386
	4.00 среднее	1.00 Высшее	-0.140	0.057	0.102	-0.297	0.016
		2.00 н/высш	0.155	0.099	0.515	-0.114	0.425
		3.00 ср спец	-0.102	0.059	0.412	-0.262	0.058
		5.00 ниже среднего	0.014	0.103	1.000	-0.268	0.296
	5.00 ниже среднего	1.00 Высшее	-0.154	0.098	0.516	-0.422	0.113
		2.00 н/высш	0.142	0.127	0.799	-0.205	0.488
		3.00 ср спец	-0.116	0.099	0.769	-0.386	0.154
		4.00 среднее	-0.014	0.103	1.000	-0.296	0.268

В качестве примера рассмотрим различие среднего промедианного логарифма доходов в группах по образованию, группы которого несколько укрупнены:

recode v10 (4 5 =4) (6 7 8=5) (else=copy) into w10.

var lab w10 "образование".

value lab w10 1 "Высшее" 2 "н/высш" 3 "ср. спец" 4 "среднее" 5 "ниже среднего".

ONEWAY lnv14m BY w10 /STATISTICS DESCRIPTIVES HOMOGENEITY /POSTHOC = BTUKEY SCHEFFE BONFERRONI ALPHA(.05).

На основании полученной выдачи видим, что:

доверительные интервалы для высшего и неполного высшего образования не пересекаются (см. табл.4.10);
дисперсии в группах различаются не существенно (см. тест Ливиня, табл.4.11);
в целом наблюдается связь душевого дохода с образованием (гипотеза о равенстве средних - отвергается, см. таблицу 4.12);
выделились следующие две группы по образованию с неразличимыми средними: 2 н/высшее, 5 ниже среднего, 4 среднее и 5 ниже среднего, 4 среднее, 3 среднее спец, 1 высшее (табл.4.13);
попарные множественные сравнения показали, что единственная пара отличающихся по средним групп - это группы с неполным высшим и респондентов с высшим образованием (наблюдаемая значимость - 0.013, таблица 4.14).

Следует заметить, что мы не показали здесь часть таблицы попарных сравнений с результатами для метода Бонферрони и Шеффе; результаты аналогичны, но для указанной пары групп значимость различия по Шеффе - 0.041, по Бонферрони - 0.016. Это показывает большую чуствительность теста Тьюки.

4.4. Корреляции (CORRELATIONS)

Раздел CORRELATIONS содержит команды для получения парных (Bivariate…) и частных (Partial…) корреляций.

Парные корреляции

Команда Bivariate… меню производит вычисление таблицы коэффициентов Пирсона, характеризующего степень линейной связи, а также коэффициентов ранговой корреляции BTAU и Спирмена (Spearman). В синтаксисе эта команда имеет вид:

CORRELATIONS /VARIABLES=v9 lnv14m /PRINT=TWOTAIL NOSIG.

для обычного коэффициента корреляции и

NONPAR CORR /VARIABLES=v10 v9 v14 /PRINT=SPEARMAN.

или

NONPAR CORR /VARIABLES=v10 WITH v9 v14 /PRINT=KENDALL.

для ранговых корреляций

Подкоманда /VARIABLES в этих командах указывает список переменных или два списка переменных, разделенных словом WITH. Если указывается один список переменных, то рассчитываются коэффициенты корреляции каждой переменной с каждой переменной (квадратная таблица). Если указываются два списка, разделенные служебным словом WITH, то рассчитываются коэффициенты корреляции всех переменных, расположенных слева от WITH, с переменными, расположенными справа (прямоугольная таблица). Ключевое слово WITH можно использовать только в окне синтаксиса.

Процедура CORRELATIONS выводит: r - коэффициент корреляции Пирсона; число наблюдений (объектов) в скобках и значимость коэффициента корреляции. Коэффициент корреляции Пирсона:

Коэффициент корреляции может принимать значения от -1 до +1. При этом значимый отрицательный коэффициент корреляции позволяет принять гипотезу о наличии линейной отрицательной связи. Метод, используемый для проверки гипотезы, предполагает, также, двумерную нормальность распределения (X,Y). На практике это соответствует тому, что увеличению значения одной переменной в большинстве случаев соответствует уменьшение значения коррелируещей с ней переменной. Значимый положительный коэффициент корреляции свидетельствует о положительной связи переменных: увеличению одной переменной соответствует увеличение другой. Чем ближе абсолютное значение r к единице, тем более линейный характер носит зависимость исследуемых переменных; близость к 0 означает отсутствие линейной связи.

Насколько полученное значение коэффициента корреляции не случайно, определяется по величине значимости (Sig. (2-tailed)) - вероятности получить большее, чем выборочное значение коэффициента корреляции. Для оценки значимости коэффициента Пирсона используется критерий t=r*(N-2)/(1-r2)0.5, который в условиях нормальности и независимости переменных имеет распределение Стьюдента. Таким образом, наряду с формулировкой нулевой гипотезы здесь формулируется предположение о двумерной нормальности - довольно жесткое условие.

Для оценки значимости коэффициентов Спирмена и Кендалла используется нормальная аппроксимация этих коэфициентов. По-сути коэффициент ранговой корреляции является коэффициентом корреляции между переменными, преобразованными в ранги (или процентили), поэтому для исследования значимости с помощью этих коэффициентов не требуется делать предположения о распределении данных. Пример выдачи коэффициентов Спирмена представлен в табл.4.15. Не обнаруживается значимой связи возраста и образования (что вполне естественно), но среднемесячный душевой доход связан с образованием (это мы уже показывали).

Таблица 4.15. Коэффициенты корреляции Спирмена (Spearman's rho)

Частные корреляции.

Пусть имеются переменные X, Y, Z. Что, если взаимосвязь между переменными X и Y обусловлена некоторой другой переменной Z. Mожет быть она проявляется при условии этой переменной?

Для исследования этого вопроса применяется коэффициент частной корреляции. Вообще говоря, коэффициент корреляции X и Y должен зависеть от значений Z, однако известно, что в многомерной нормальной совокупности такой зависмости нет. Поэтому статистическая теория здесь разработана именно для такого случая. На практике весьма сложно доказать многомерную нормальность и часто эту технику используют для анализа данных, не имеющих слишком большие перекосы.

Не вдаваясь в подробности вычисления, коэффициент ранговой корреляции можно представить как коэффициент корреляции регрессионных остатков x и y уравнений

X=ax+bx*Z+x

Y=ay+by*Z+y

Таким образом, снимается часть зависимости, обусловленная третьей переменной, проявляется "чистая" взаимосвязь X и Y. Уравнению регрессии мы посвятим в дальнейшем специальный раздел. Здесь мы прведем пример задания частной корреляции.

Время, затраченное на покупки, и время на мытье посуды, оказывается, связаны положительно - чем больше человек тратит его на покупки, тем больше на посуду (таблица 4.16, RLMS, 7 волна). Может быть, это определяется тем, что человек вообще занимается домашней работой? Для проверки этого возьмем в качестве управляющей переменной время на уборку квартиры … и получим таблицу 4.17. Оказалось, что эта связь между временными затратами на покупку продуктов и мытье посуды имеет самостоятельный смысл, так как частная корреляция по-прежнему значима, хотя уменьшилась с 0.320 до 0.256.

Таблица 4.16. Коэффициент корреляции времени приготовления пищи и закупки продуктов

		V9 Возраст	V14 Ср.мес. душевой доход в семье
V10 Образование	Correlation Coefficient	-.021	-.086
	Sig. (2-tailed)	.574	.026
	N	692	671

		CO17A время на приготовления пищи
CO15A время на покупку продуктов	Pearson Correlation	0.3193
	Sig. (2-tailed)	0.0000
	N	3549

Таблица 4.17. Коэффициент корреляции времени приготовления пищи и закупки продуктов

Controlling for.. CO19A (время на уборку квартиры )		CO17A время на приготовления пищи
CO15A время на покупку продуктов	Pearson Correlation	0. 2558
	Sig. (2-tailed)	0.0000
	N	3546

Рисунок 4.2. Распределение, близкое к нормальному

Рисунок 4.1. Распределение населения по душевому доходу

1. Анализ инвестиционной и инновационной деятельности предприятия
2. Задание- Прогноз Дэйва Эванса Dve Evns ~ 10 К 2015 году повсеместно распространится видеосвязь она будет генери
3. А специфічну Бнеспецифічну Специфічну профілактику проводять шляхом вакцинації і ревакцинації
4. Прогнозирование дополнительных финансовых потребностей
5. Сифилис сердечно-сосудистой системы.html
6. Тема- ТО и ТР системы питания карбюраторных двигателей
7. Тема Словообразование
8. вариант перевода буцина свеча и вышла изнутри закрытого закрытости из тайны Бесконечного мираза деэй
9. Основы социально-экономической статистики
10. і Вона використовувалася в державному апараті в галузі освіти в художній і науковотехнічній літературі в

Материалы собраны группой SamZan и находятся в свободном доступе