Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Параметрические методы при формулировании нулевых гипотез о равенстве средних предполагают нормальность распределения анализируемых переменных или остатков в моделях дисперсионного анализа, сравнения групп и т.д. Это условие при анализе анкетной информации выполняется весьма редко. Вероятно, наиболее удобны для такого анализа переменные, полученные усреднением множества независимых случайных величин: по центральной предельной теореме такие переменные должны иметь близкое к нормальному распределение.
На практике нередко для больших совокупностей эти методы все-же используются и для другого рода распределений, если распределение "не слишком сильно" отклоняется от нормального. "Не слишком сильно" - неопределенное понятие, обычно это определяется визуально при рассмотрении гистограммы распределения.
Взгляните, например, на распределение населения по душевому доходу - рис. 4.1. Распределение имеет длинный хвост в направлении больших доходов, нормальная кривая недостаточно хорошо огибает гистограмму. Если использовать вместо этой переменной логарифм доходов:
compute lnv14=ln(v14).
получаем более приемлемое распределение (см.рис. 4.2).
Основные формулы и идеи параметрических методов анализа средних и дисперсий рассматриваются в курсе математической статистики; и здесь, по ходу изложения материала, мы коротко напомним отдельные моменты этой теории.
Одновыборочный тест предназначен для проверки гипотезы о равенстве математического ожидания переменной заданной величине (в общепринятых обозначениях H0: =0). Напомним, что для проверки этой гипотезы используется статистика .
Команда для проверки гипотезы выдает также двусторонний доверительный интервал.
Примеры применения одновыборочного T-теста.
Пример 1. Для устранения влияния текущего уровня цен, инфляции на выводы об уровне жизни населения уровень доходов нормируют на средние значения или медиану. Целесообразно и нам использовать промедианный доход.
Почти одновременно с моментом сбора данных на аналогичной выборке очень большего объема была получена оценка медианы душевых доходов населения (200 руб.). Если допустить, что логарифм доходов имеет нормальное распределение, то среднее промедианных доходов должно незначимо отличаться от нуля (поскольку нормальное распределение симметрично относительно математического ожидания). Проверим это:
compute lnv14m=ln(v14/200).
Variable labels lnv14m "логарифм промедианного дохода".
T-TEST /TESTVAL=0 /VARIABLES=lnv14m /CRITERIA=CIN (.95) .
Таблица 4.1. Одновыборочный t-тест. Средний промедианный доход незначимо отличается от нуля.
T |
Df |
Sig. (2-tailed) |
Mean Difference |
95% Confidence Interval of the Difference |
||
Lower |
Upper |
|||||
LNV14M |
-0.831 |
672 |
0.406 |
-0.017 |
-0.058 |
0.023 |
В нашем примере 0=0 (TESTVAL=0), отклонение среднего равно -0.017, наблюдаемая значимость - 0.406 (почти в 40% случаев большее отклонение от ожидаемого значения может быть получено случайно), поэтому гипотеза о равенстве нулю матожидания логарифма промедианного дохода не отклоняется. Об этом же говорит и тот факт, что 95% доверительный интервал покрывает ожидаемое значение.
Пример. Есть предположение, что малообразованное население имеет средний логарифм доходов, существенно меньший среднего по совокупности объектов. В нашей анкете образование закодировано следующим образом:
1 Высшее;
2 незак/высш;
3 среднее спец;
4 ПТУ,ФЗУ;
5 10-11кл;
6 7-9 кл.;
7 4-6 кл.;
8 менее 4-х классов;
9 нет образования.
Проверим предположение, воспользовавшись временной выборкой данных о респондентах, имеющих образование не выше среднего.
compute f= (v10>3).
*формирование переменной фильтра.
filter f.
T-TEST /TESTVAL=0 / VARIABLES=lnv14 /CRITERIA=CIN (.95) .
filter off.
Таблица 4.2. Одновыборочный T-тест. Средний промедианный доход в группе с относительно низким образованием отличается от нуля при уровне значимости 5%.
T |
Df |
Sig. (2-tailed) |
Mean Difference |
95% Confidence Interval of the Difference |
||
Lower |
Upper |
|||||
LNV14 |
-2.0316 |
162 |
0.0438 |
-0.0956 |
-0.1886 |
-0.0027 |
двухвыборочный t-тест (independent sample T-TEST)
Вариант команды для выполнения процедуры T-TEST для сравнения средних в двух выборках имеет следующий вид:
T-TEST/GROUPS V4(1,3)/VARIABLES = V9 lnV14m.
Подкоманда GROUPS указывает переменную группирования; в скобках задаются два значения этой переменной, определяющие группы. Например, приведенная команда будет выполняться только для групп объектов, у которых V4 принимает указанные значения 1 и 3. VARIABLES задает сравниваемые (зависимые) переменные для выделенных групп объектов. Объекты можно также разбить на две группы, указав в параметре GROUPS одно значение:
T-TEST /GRO v9(30)/VAR V9 lnV14m.
В этом случае вся совокупность будет разделена на те объекты, на которых указанная переменная не больше заданного значения (v930), и те, у которых она больше (v9>30).
Процедурой T-TEST проверяется гипотеза равенства средних, при этом предполагается нормальность распределения генеральной совокупности. Процедура подсчитывает средние для пары групп, стандартные ошибки, статистики и их значимость. При сравнении двух выборок нас интересует, насколько случайный характер носит различие средних - отличаются ли они значимо?
В зависимости от предположения о равенстве дисперсий испльзуются разные варианты t-статистик.
Если не предполагается равенство дисперсий в группах, то для сравнения средних принято использовать статистику , которая в условиях гипотезы равенства матожиданий и нормальности X имеет распределение Стьюдента, число степеней которого оценивается на основе оценок дисперсий.
Если заранее известно о равенстве дисперсий в группах, то предпочтительнее статистика .
При определении ее величины предварительно вычисляется объединенная дисперсия
.
Из теории известно, что при условии равенства дисперсий вычисляемая величина Sp есть несмещенная оценка дисперсии, и статистика t также имеет распределение Стьюдента.
Для проверки равенства дисперсий используется статистики Ливиня, имеющая распределение Фишера.
Двусторонней наблюдаемой значимостью, вычисляемой процедурой T-TEST, является вероятность случайно получить различия средних, такие, что │t-теоретическое│>│t-выборочного│. Если значимость близка к 0, делаем вывод о неслучайном характере различий.
Результат выдается в двух таблицах. В первой размещены средние и характеристики разброса в группах, во второй - результаты их сравнения.
Таблица 4.3. T-тест, описательные статистики по группам
|
V9 Возраст |
N |
Mean |
Std. Deviation |
Std. Error Mean |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
LNV14M |
>= 30 |
521 |
0.019 |
0.517 |
0.023 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
< 30 |
133 |
-0.177 |
0.593 |
0.051 |
Levene's Test for Equality of Variances |
T |
Df |
Sig. (2-tailed) |
Mean Difference |
Std. Error Difference |
95% Confidence Interval of the Difference |
|||
F |
Sig. |
||||||||
Lower |
Upper |
||||||||
Equal variances assumed |
2.47 |
0.1162 |
3.78 |
652 |
0.000 |
0.196 |
0.052 |
0.094 |
0.298 |
Equal variances not assumed |
3.48 |
186.42 |
0.001 |
0.196 |
0.056 |
0.085 |
0.307 |
В таблицах 4.3 и 4.4 приведен пример сравнения средних логарифмов душевых доходов в группах населения до 30 лет и старше 30. Статистика Ливиня в этом случае свидетельствует, что гипотеза равенства дисперсий не отвергается (sig=0.1162). Поэтому, для сравнения средних можно воспользоваться строкой" Equal variances assumed" - "Предполагаются равные дисперсии". Соответствующая статистика показывает, что средние различиются существенно (sig=0.000). Впрочем, даже если мы не удовлетворены статистикой Ливиня, в данном случае и без предположения равенства дисперсий мы можем утверждать то же самое (sig=0.001). Кроме того, это подтверждает и доверительный интервал, не включающий нуля.
двухвыборочный t-тест для связанных выборок (Paired sample T-TEST)
Если на одних и тех же объектах дважды измеряется некоторое свойство, то проверка значимости различия средних по измеренным переменным - для этого теста. Пример задания команды:
T-TEST PAIRS= x WITH y (PAIRED) /CRITERIA=CIN(.95).
Переменные X и Y могут быть характеристиками мужа и жены при исследовании семей; по данным RLMS - измерениями, связанными с потреблением напитков в 1996 и 1998 году и т.п. Поэтому данная процедура полезна для анализа панельных данных.
Почему же здесь нельзя воспользоваться таким же анализом, как и для двух несвязанных выборок, считая, что имеются две выборки одинакового объема?
Проверка значимости различия матожиданий X и Y эквивалентна проверке гипотезы о равенстве нулю математического ожидания разности X-Y. Дисперсия разности X-Y равна D(X-Y)=D(X)+D(Y)-2cov(X,Y). Отсюда точность оценки матожидани Х-Y связана с ковариацией X и Y.
Поэтому наряду с соответствующей статистикой в выдачу по этому тесту входит и коэффициент корреляции этих переменных и наблюдаемая значимость.
Для примера взгляните на выдачу, в которой сравниваются вес 1995 и 1996 г. женщин от 30 до 40 лет (в 1995), таблицы 4.5-7, данные RLMS.
Таблица 4.5. T-тест на связанных выборках, описательные статистики
Mean |
N |
Std. Deviation |
Std. Error Mean |
|
AM1 Вес 1995 |
67.59 |
793 |
13.72 |
0.49 |
BM1 Вес 1996 |
68.12 |
793 |
14.22 |
0.50 |
Таблица 4.6. T-тест на связанных выборках, корреляции
N |
Correlation |
Sig. |
|
AM1 Вес 1995 & BM1 Вес 1996 |
793 |
0.914 |
0.0000 |
Таблица 4.7. T-тест на связанных выборках, сравнение средних
Paired Differences Mean |
Std. Deviation |
Std. Error Mean |
95% Confidence Interval of the Difference |
t |
Df |
Sig. (2-tailed) |
||
Lower |
Upper |
|||||||
AM1 Вес 1995 & BM1 Вес 1996 |
-0.53 |
5.81 |
0.21 |
-0.93 |
-0.12 |
-2.547 |
792 |
0.011 |
Женщины в среднем набрали по полкилограмма веса и этот прирост статистически значим. Значим и коэффициент корреляции - вес в целом имеет свойство сохраняться.
Процедура вычисляет одномерные статистики в группах - все описательные статистики, которые вычислялись командами Descriptives и Frequencies, а также гармоническое среднее, среднее геометрическое, проценты сумм значений переменных в группах и др. - всего 20 характеристик. Поэтому имя команды Means (Средние) сохранилось лишь исторически, пришло из ранних версий SPSS, где действительно ее назначением было сравнение средних. В диалоговом окне для назначения статистик используется кнопка "Options". Проводится также одномерный дисперсионный анализ.
MEANS TABLES=v14 BY v11 BY v8 /CELLS MEAN STDDEV MEDIAN COUNT /STATISTICS ANOVA.
В команде указывается список зависимых переменных, BY и список переменных, определяющих группы. Каждое дополнительное слово BY порождает следующий нижний уровень группирования, в диалоговом режиме слову BY соответствует кнопка NEXT.
Таблица 4.8. Среднемессячный душевой доход в семье
V11 Cостояние в браке |
V8 Пол |
Mean |
Std. Deviation |
Median |
N |
1 женат |
1 муж. |
228.4 |
152.9 |
200 |
271 |
2 жен. |
225.7 |
140.8 |
200 |
242 |
|
Total |
227.1 |
147.2 |
200 |
513 |
|
2 вдовец |
1 муж. |
276.0 |
111.0 |
270 |
5 |
2 жен. |
192.8 |
112.7 |
155 |
20 |
|
Total |
209.4 |
115.1 |
168 |
25 |
|
3 разведен |
1 муж. |
331.9 |
230.0 |
295 |
16 |
2 жен. |
195.9 |
86.1 |
180 |
25 |
|
Total |
249.0 |
169.7 |
200 |
41 |
|
4 не был |
1 муж. |
263.3 |
223.0 |
200 |
41 |
2 жен. |
212.2 |
118.6 |
200 |
34 |
|
Total |
240.2 |
183.9 |
200 |
75 |
|
Total |
1 муж. |
238.4 |
167.8 |
200 |
333 |
2 жен. |
219.9 |
133.4 |
200 |
321 |
|
Total |
229.3 |
152.0 |
200 |
654 |
Анализ результатов позволяет сделать следующие выводы. Самый высокий среднемесячный доход (332 руб.) имеют разведенные мужчины, при этом он значительно превосходит среднемесячный доход, полученный всеми разведенными (249 руб.) и всеми мужчинами (238 руб.). На втором месте по доходам находится вдовцы (276 руб.), но их всего 5 человек, поэтому цифра ненадежна. Среди женщин наиболее высокие среднемесячные доходы (226 руб.) у состоящих в браке, что почти равно доходам женатых мужчин. Это естественно - ведь это же душевой доход в семье.
Мы можем сколько угодно описывать эту таблицу, но описание не будет доказательством какой-либо истины, пока оно не подтверждено статистическим выводом. Такая таблица может быть источником гипотез о взаимосвязи, которые в дальнейшем следует проверить.
Одномерноый дисперсионный анализ здесь проводится только по переменным первого уровня задания групп.
Напомним, что суть этого анализа состоит в вычислениии межгруппового квадратичныого разброса зависимой переменной SSв (Between groups) и внутригруппового разброса, обозначается SSw (Within groups). Величина SSв характеризует, насколько сильно отклонились от общего среднего средние между группами, а SSw - отклонения от центров групп. Статистика в условиях гипотезы равенства средних и дисперсий распределения при нормальном распределении X в группах имеет распределение Фишера. F представляет собой в определенном смысле расстояние наблюдаемой от таблицы, в которой нет никаких зависимостей - средние в группах совпадают. Чем больше F, тем существеннее зависимость, однако сама по себе величина F ни о чем не говорит. Ответ на вопрос дает, как обычно, величина наблюдаемой значимости F - критерия: SIGNIFICANCE - вероятность случайно получить значение F, большее выборочного SIG=P{F>Fвыб}.
Еще раз обратим внимание на то, что в таком анализе используется предположение о нормальности распределения зависимой переменной. Не следует проводить непосредственно дисперсионный анализ переменных с существенно отличающимся от нормального распределением. Например, переменную "душевой доход"
В таблице4.9. приведена выдача одномерного дисперсионного анализа после выполнения команды
MEANS TABLES=lnv14m BY v11 BY v8 /STATISTICS ANOVA .
Наблюдаемый уровень значимости 0.707 свидетельствуе о том, что на наших данных указанным методом связь не обнаруживается.
Таблица 4.9. Результаты однофакторного дисперсионного анализа
Sum of Squares |
df |
Mean Square |
F |
Sig. |
||
LNV14M Логарифм душевого дохода * V11 Cостояние в браке |
Between Groups |
0.40 |
3 |
0.13 |
0.465 |
0.707 |
Within Groups |
188.51 |
650 |
0.29 |
|||
Total |
188.92 |
653 |
Данная процедура позволяет проводить одномерный дисперсионный анализ, ее преимущества перед командой Means в возможности исследования равенства дисперсий в группах, исследовании полиномиальных трендов, проведения множественных сравнений:
ONEWAY lnv14m BY w10 /STATISTICS HOMOGENEITY
/POSTHOC = BTUKEY SCHEFFE BONFERRONI ALPHA(.05).
Задается тестируемая переменная, служебное слово "BY", переменная группирования, список значений в скобках. Проверка однородности дисперсий задается подкомандой /STATISTICS HOMOGENEITY, множественные сравнения - подкомандой /POSTHOC = ….
Контрасты. Контрастом называется линейная комбинация средних в группах , где . С помощью контрастов можно проверять гипотезы об определенных соотношениях между математическими ожиданиями переменной в группах. В частности, если задать ai=-aj=1, можно проверять гипотезу о равенстве i-го и j-го среднего, можно подобрать контрасты для проверки линейного или полиномиального изменения средних (см. Руководство по применению SPSS). В условиях равенства матожиданий маловероятно существенное их отклонение от нуля.
МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ
Множественные сравнения являются одной из труднейших проблем в математической статистике. В действительности при анализе данных исследователи сталкиваются с ними на каждом шагу.
Пусть, например, мы рассматриваем 100 независимых таблиц сопряженности пар переменных, отбирая среди них "интересные" для анализа с использованием критических значений хи-квадрат 5%-го уровня значимости. Тогда при отсутствии связи переменных мы будем в среднем в таких испытаниях получать 5 "интересных" (значимых) таблиц, даже если связь между всеми переменными отсутствует. Таким образом, какие бы ни были плохие данные, мы что-либо будем интерпретировать. Но при повторном сборе данных - мы можем получить противоположные результаты. Вот что значит множественные сравнения!
Сравнение групповых средних это одна из немногих задач, где удалось справиться с этой проблемой.
Суть задачи состоит в отборе значимых различий множества пар групп, определяемых переменной группирования. Сравнение пары средних мы научились делать с помощью процедуры T-TEST и, казалось бы, можно, задавшись уровнем значимости, пропустить через этот тест все пары групп и отобрать различающиеся по за данному уровню. Однако, перебирая группы, мы перебираем множество случайных чисел, и, благодаря этому, можем наткнуться на значимое отличие с гораздо большей вероятностью, чем при рассмотрении одной пары групп. В частности, если группы независимы и не связаны с тестируемой переменной, при 10 сравнениях по уровню значимости 0.05 мы с вероятностью 1-(1-0.05)10=0.4 случайно получим хотя бы одно "значимое" различие.
Для пояснения механизма работы тестов множественных сравнений остановимся на 3-х из 20 тестах, реализованных в SPSS.
Согласно методу Бонферрони, в случае множественных сравнений назначается более строгий уровень значимости для попарных сравнений. Он определяется так: задается уровень значимости для множественных сравнений m и в качестве попарного уровня значимости берется =(1/k)m., где k - число сравнений. Пусть Ai - событие, состоящее в том, что мы в i-том сравнении выявили существенное отличие средних, когда средние совпадают, тогда, в соответствии с заданным уровнем значимости, P{Ai}<. Ясно, что P{A1+A2+…+Ak}≤P{A1}+P{A2}+…+P{Ak}<k=m, поэтому метод Бонферрони гарантирует нас от ошибки с вероятностью, не меньшей m. В независимых сравнениях неравенство P{A1+A2+…+Ak}<k, будет выполняться почти точно, так как 1-(1-)kk. Критерий несколько жестче, чем необходимо, так как средние в группах связаны - их взвешенная сумма равна общему среднему.
Метод Шеффе построен на контрастах. С его помощью проверяется гипотеза равенства нулю сразу всех контрастов, не только тех, что сравнивают пары групп. В результате он часто оказывается еще строже, чем критерий Бонферрони.
Таблица 4.10. Oneway, сравнение среднего промедианного логарифма доходов.
N |
Mean |
Std. Deviation |
Std. Error |
95% Confidence Interval for Mean |
Minimum |
Maximum |
||
Lower Bound |
Upper Bound |
|||||||
1.00 Высшее |
251 |
0.048 |
0.511 |
0.032 |
-0.016 |
0.111 |
-1.050 |
2.015 |
2.00 н/высш |
37 |
-0.248 |
0.606 |
0.100 |
-0.450 |
-0.046 |
-1.386 |
1.099 |
3.00 ср спец |
220 |
0.009 |
0.479 |
0.032 |
-0.055 |
0.073 |
-1.386 |
1.740 |
4.00 среднее |
130 |
-0.093 |
0.619 |
0.054 |
-0.200 |
0.015 |
-2.254 |
1.504 |
5.00 ниже сред. |
33 |
-0.107 |
0.530 |
0.092 |
-0.295 |
0.081 |
-0.916 |
1.099 |
Total |
671 |
-0.016 |
0.534 |
0.021 |
-0.057 |
0.024 |
-2.254 |
2.015 |
Таблица 4.11. Oneway, проверка однородности дисперсий
Levene Statistic |
df1 |
df2 |
Sig. |
2.282 |
4 |
666 |
0.059 |
Таблица 4.12. Oneway, обычный дисперсионный анализ
Sum of Squares |
df |
Mean Square |
F |
Sig. |
|
Between Groups |
4.187 |
4 |
1.047 |
3.724 |
0.005 |
Within Groups |
187.202 |
666 |
0.281 |
||
Total |
191.389 |
670 |
Таблица 4.13. Oneway, группы неразличимых средних
W10 образование |
1 |
2 |
||
Tukey HSD |
2.00 н/высш |
37 |
-0.248 |
|
5.00 ниже среднего |
33 |
-0.107 |
-0.107 |
|
4.00 среднее |
130 |
-0.093 |
-0.093 |
|
3.00 ср спец |
220 |
0.009 |
||
1.00 Высшее |
251 |
0.048 |
||
Sig. |
0.429 |
0.436 |
||
Scheffe |
2.00 н/высш |
37 |
-0.248 |
|
5.00 ниже среднего |
33 |
-0.107 |
-0.107 |
|
4.00 среднее |
130 |
-0.093 |
-0.093 |
|
3.00 ср спец |
220 |
0.009 |
0.009 |
|
1.00 Высшее |
251 |
0.048 |
||
Sig. |
0.093 |
0.579 |
Критерий Тьюки основан на одновременных доверительных интервалах разности матожиданий в группах. Этот критерий из трех рассматриваемых, пожалуй, наиболее разумен. Предположение об одновременном равенстве разностей всех групповых матожиданий - слишком сильное предположение, в критерии Тьюки такого не предполагается.
Таблица 4.14. Oneway, множественные попарные сравнения
Mean Difference (I-J) |
Std. Error |
Sig. |
95% Confidence Interval |
||||
(I) W10 образование |
(J) W10 образование |
Lower Bound |
Upper Bound |
||||
Tukey HSD |
1.00 Высшее |
2.00 н/высш |
0.296* |
0.093 |
0.013 |
0.041 |
0.551 |
3.00 ср спец |
0.039 |
0.049 |
0.934 |
-0.095 |
0.172 |
||
4.00 среднее |
0.140 |
0.057 |
0.102 |
-0.016 |
0.297 |
||
5.00 ниже среднего |
0.154 |
0.098 |
0.516 |
-0.113 |
0.422 |
||
2.00 н/высш |
1.00 Высшее |
-0.296* |
0.093 |
0.013 |
-0.551 |
-0.041 |
|
3.00 ср спец |
-0.257 |
0.094 |
0.050 |
-0.514 |
0.000 |
||
4.00 среднее |
-0.155 |
0.099 |
0.515 |
-0.425 |
0.114 |
||
5.00 ниже среднего |
-0.142 |
0.127 |
0.799 |
-0.488 |
0.205 |
||
3.00 ср спец |
1.00 Высшее |
-0.039 |
0.049 |
0.934 |
-0.172 |
0.095 |
|
2.00 н/высш |
0.257 |
0.094 |
0.050 |
0.000 |
0.514 |
||
4.00 среднее |
0.102 |
0.059 |
0.412 |
-0.058 |
0.262 |
||
5.00 ниже среднего |
0.116 |
0.099 |
0.769 |
-0.154 |
0.386 |
||
4.00 среднее |
1.00 Высшее |
-0.140 |
0.057 |
0.102 |
-0.297 |
0.016 |
|
2.00 н/высш |
0.155 |
0.099 |
0.515 |
-0.114 |
0.425 |
||
3.00 ср спец |
-0.102 |
0.059 |
0.412 |
-0.262 |
0.058 |
||
5.00 ниже среднего |
0.014 |
0.103 |
1.000 |
-0.268 |
0.296 |
||
5.00 ниже среднего |
1.00 Высшее |
-0.154 |
0.098 |
0.516 |
-0.422 |
0.113 |
|
2.00 н/высш |
0.142 |
0.127 |
0.799 |
-0.205 |
0.488 |
||
3.00 ср спец |
-0.116 |
0.099 |
0.769 |
-0.386 |
0.154 |
||
4.00 среднее |
-0.014 |
0.103 |
1.000 |
-0.296 |
0.268 |
В качестве примера рассмотрим различие среднего промедианного логарифма доходов в группах по образованию, группы которого несколько укрупнены:
recode v10 (4 5 =4) (6 7 8=5) (else=copy) into w10.
var lab w10 "образование".
value lab w10 1 "Высшее" 2 "н/высш" 3 "ср. спец" 4 "среднее" 5 "ниже среднего".
ONEWAY lnv14m BY w10 /STATISTICS DESCRIPTIVES HOMOGENEITY /POSTHOC = BTUKEY SCHEFFE BONFERRONI ALPHA(.05).
На основании полученной выдачи видим, что:
Следует заметить, что мы не показали здесь часть таблицы попарных сравнений с результатами для метода Бонферрони и Шеффе; результаты аналогичны, но для указанной пары групп значимость различия по Шеффе - 0.041, по Бонферрони - 0.016. Это показывает большую чуствительность теста Тьюки.
Раздел CORRELATIONS содержит команды для получения парных (Bivariate…) и частных (Partial…) корреляций.
Парные корреляции
Команда Bivariate… меню производит вычисление таблицы коэффициентов Пирсона, характеризующего степень линейной связи, а также коэффициентов ранговой корреляции BTAU и Спирмена (Spearman). В синтаксисе эта команда имеет вид:
CORRELATIONS /VARIABLES=v9 lnv14m /PRINT=TWOTAIL NOSIG.
для обычного коэффициента корреляции и
NONPAR CORR /VARIABLES=v10 v9 v14 /PRINT=SPEARMAN.
или
NONPAR CORR /VARIABLES=v10 WITH v9 v14 /PRINT=KENDALL.
для ранговых корреляций
Подкоманда /VARIABLES в этих командах указывает список переменных или два списка переменных, разделенных словом WITH. Если указывается один список переменных, то рассчитываются коэффициенты корреляции каждой переменной с каждой переменной (квадратная таблица). Если указываются два списка, разделенные служебным словом WITH, то рассчитываются коэффициенты корреляции всех переменных, расположенных слева от WITH, с переменными, расположенными справа (прямоугольная таблица). Ключевое слово WITH можно использовать только в окне синтаксиса.
Процедура CORRELATIONS выводит: r - коэффициент корреляции Пирсона; число наблюдений (объектов) в скобках и значимость коэффициента корреляции. Коэффициент корреляции Пирсона:
.
Коэффициент корреляции может принимать значения от -1 до +1. При этом значимый отрицательный коэффициент корреляции позволяет принять гипотезу о наличии линейной отрицательной связи. Метод, используемый для проверки гипотезы, предполагает, также, двумерную нормальность распределения (X,Y). На практике это соответствует тому, что увеличению значения одной переменной в большинстве случаев соответствует уменьшение значения коррелируещей с ней переменной. Значимый положительный коэффициент корреляции свидетельствует о положительной связи переменных: увеличению одной переменной соответствует увеличение другой. Чем ближе абсолютное значение r к единице, тем более линейный характер носит зависимость исследуемых переменных; близость к 0 означает отсутствие линейной связи.
Насколько полученное значение коэффициента корреляции не случайно, определяется по величине значимости (Sig. (2-tailed)) - вероятности получить большее, чем выборочное значение коэффициента корреляции. Для оценки значимости коэффициента Пирсона используется критерий t=r*(N-2)/(1-r2)0.5, который в условиях нормальности и независимости переменных имеет распределение Стьюдента. Таким образом, наряду с формулировкой нулевой гипотезы здесь формулируется предположение о двумерной нормальности - довольно жесткое условие.
Для оценки значимости коэффициентов Спирмена и Кендалла используется нормальная аппроксимация этих коэфициентов. По-сути коэффициент ранговой корреляции является коэффициентом корреляции между переменными, преобразованными в ранги (или процентили), поэтому для исследования значимости с помощью этих коэффициентов не требуется делать предположения о распределении данных. Пример выдачи коэффициентов Спирмена представлен в табл.4.15. Не обнаруживается значимой связи возраста и образования (что вполне естественно), но среднемесячный душевой доход связан с образованием (это мы уже показывали).
Таблица 4.15. Коэффициенты корреляции Спирмена (Spearman's rho)
|
|
V9 Возраст |
V14 Ср.мес. душевой доход в семье |
||||||||||||||||||||||||
V10 Образование |
Correlation Coefficient |
-.021 |
-.086 |
||||||||||||||||||||||||
|
Sig. (2-tailed) |
.574 |
.026 |
||||||||||||||||||||||||
|
N |
692 |
671 |
CO17A время на приготовления пищи |
||
CO15A время на покупку продуктов |
Pearson Correlation |
0.3193 |
Sig. (2-tailed) |
0.0000 |
|
N |
3549 |
Таблица 4.17. Коэффициент корреляции времени приготовления пищи и закупки продуктов
Controlling for.. CO19A (время на уборку квартиры ) |
CO17A время на приготовления пищи |
|
CO15A время на покупку продуктов |
Pearson Correlation |
0. 2558 |
Sig. (2-tailed) |
0.0000 |
|
N |
3546 |
Рисунок 4.2. Распределение, близкое к нормальному
Рисунок 4.1. Распределение населения по душевому доходу