Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

Подписываем
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Предоплата всего
Подписываем
Федеральное агентство по образованию
Уфимский Государственный Авиационный Технический Университет
Кафедра ВМиК
Отчет к лабораторной работе №1
по дисциплине «Многомерные статистические методы»
на тему: «Корреляционный анализ»
Выполнил: Мансуров Ф.Д
гр. МИЭ-333
Проверил: Фридлянд А.М.
Уфа-2012
Цель лабораторной работы: провести корреляционный анализ и выявить наличие или отсутствие связи между исследуемыми признаками. Проводя корреляционный анализ, определить степень тесноты статистической связи между признаками.
Корреляционная зависимость изучается с помощью методов корреляционного анализа. Он ставит своей задачей количественное определение тесноты связи между признаками. Теснота связи количественно выражается величиной коэффициента корреляции. Коэффициенты корреляции представляют собой количественную характеристику тесноты связи между признаками.
Дискретные случайные величины в зависимости от своей природы подразделяются на:
В статистике принято различать следующие варианты зависимостей:
Введем две переменные (x,y), которые ведут себя как двумерная нормальная случайная величина. Определение и интерпретация измерителей степени тесноты статистической связи (и.с.т.с.с.) между количественными переменными рассмотрим в рамках распространенной общей аддитивной модели регрессии вида:
(1)
где - остаточная случайна компонента.
Введем (), предполагая, что M=1, D=0. Тогда,
(2)
, , где , , ,
.
Таким образом, парный коэффициент корреляции имеет вид:
, (3)
Знак коэффициента корреляции говорит о направлении связи прямая (+) и обратная (-).
r=1 Функциональная связь
0<<1 Имеется линейная связь на фоне случайных отклонений
r=0 Отсутствие явной линейной связи (либо связи нет, либо есть существенная нелинейность, либо есть большая случайная составляющая)
Частный коэффициент корреляции используют, когда необходимо дать оценку степени тесноты интересующей нас связи между переменными y и (или и ) при условии, что значения остальных переменных зафиксированные на некотором постоянном уровне.
Частные коэффициенты корреляции измеряют степень тесноты линейной связи между переменными и при анализе множественных статистических связей компонент случайного вектора в общей схеме (1) в ситуации, когда значения переменных зафиксированы на их средних уровнях (т. е. в ситуации, когда исключено опосредованное влияние этих переменных на взаимосвязь между и ). В общем случае эти частные характеристики статистической связи зависят от заданных (фиксированных) уровней «мешающих» переменных.
Если исследуемые переменные подчиняются (р+ 1)-мерному нормальному закону, то для подсчета значений может быть использована следующая формула:
, (4)
В этой формуле N(j,k) обозначает набор номеров всех анализируемых переменных за исключением номеров j и k, а это алгебраическое дополнение элемента в корреляционной матрице R.
Множественный коэффициент корреляции используется в качестве измерителя с.т.с.с. между результирующим показателем у и набором объясняющих переменных в соотношениях вида (1) при линейной форме регрессионной зависимости (т.е. при). Множественный коэффициент корреляции также рассматривается в рамках модели (1) (р + 1)-мерной нормальной распределенности переменных .
Множественный коэффициент корреляции может быть подсчитан по частным коэффициентам корреляции с помощью формулы:
(5)
Интерпретация множественного коэффициента корреляции: квадрат множественного коэффициента корреляции определяет долю общей вариации результирующего признака у в линейном варианте соотношения (1), объясненную изменением функции регрессии .
Коэффициент детерминации результирующей переменной у по определяет долю общей вариации результирующего признака y в соотношении (1), объясненную изменением функции регрессии или изменением аргументов этой функции.
Согласно вышеизложенной интерпретации множественного коэффициента корреляции, коэффициент детерминации имеет вид:
=. (6)
Для оценки тесноты статистической связи между порядковыми переменными применяют ранговую корреляцию. Для этого исходные статистические данные упорядочивают (ранжируют) по определенному принципу, а затем находят ранговые коэффициенты (Спирмена-R, Кендалла-). Последний дает более строгую оценку связи нежели коэффициент Спирмена: R 3/2. Это соотношение выполняется при большом числе наблюдений (n>30) и слабых либо умеренно тесных связях. Коэффициенты рассчитываются по следующим формулам:
Признак называется категоризированным, если его возможные значения описываются конечным числом состояний или градаций.
В класс категоризированных признаков попадают те номинальные и порядковые переменные, возможные значения которых описаны заданным (известным) набором градаций.
Рассмотрим задачу измерения парных статистических связей между категоризированными переменными
m1 количество строк,
m2 количество столбцов.
Если мы хотим проверить гипотезу о статистически значимом отличии от нуля характеристики с.т.с.с. Y (т. е. гипотезу о наличии связи между), то необходимо убедиться в выполнении неравенства
где α заданный уровень значимости критерия, т.е. вероятность принять решение о наличии статистической связи между анализируемыми переменными, в то время как в действительности они являются статистически независимыми.
Открываем программный пакет STATISTICA и в новом документе добавляем эту таблицу
Марка |
Модель |
Кузов |
Коробка передач |
До недели в день руб. |
более недели в день руб. |
более 2-х недель в день руб. |
Лимит пробега в день / перепробег |
Качество салона |
Вид авто |
|
1 |
Renault |
Duster 2.0L/135 |
Внедорожник |
̊МКПП |
2700 |
2400 |
2300 |
300 |
Хорошо |
Отлично |
2 |
Renault |
Fluence 1.6AP/105 |
Седан |
АКПП |
2500 |
2300 |
2200 |
300 |
Хорошо |
Отлично |
3 |
Renault |
Logan 2 1.6L/103 |
Седан |
АКПП |
1700 |
1500 |
1420 |
200 |
Хорошо |
Отлично |
4 |
Renault |
Logan 2 1.6L/102 |
Седан |
АКПП |
1400 |
1250 |
1180 |
200 |
Хорошо |
хорошо |
5 |
Renault |
Sandero 1.6L/103 |
Хэтчбэк |
АКПП |
1750 |
1550 |
1470 |
200 |
отлично |
Отлично |
6 |
Renault |
Latitude 2.5/176 |
Седан |
АКПП |
3800 |
3400 |
3200 |
300 |
хорошо |
Отлично |
7 |
Peugeot |
308 1.6L/120 |
Хэтчбэк |
АКПП |
2500 |
2300 |
2200 |
300 |
Отлично |
хорошо |
8 |
Skoda |
Octavia A5 1.6L/102 |
Хэтчбэк |
АКПП |
2700 |
2400 |
2300 |
300 |
Отлично |
Отлично |
9 |
Volvo |
XC60 2.4TD/163 |
Внедорожник |
АКПП |
4800 |
4300 |
4100 |
300 |
отлично |
хорошо |
10 |
Land Rover |
Freelander II 2.2TD/160 Freelander II 2.2TD/160 Freelander II 2.2TD/160 |
Внедорожник |
АКПП |
4600 |
4100 |
4000 |
300 |
плохо |
плохо |
11 |
Land Rover |
Discovery 4.2.7TD/190 |
Внедорожник |
АКПП |
5500 |
5000 |
4500 |
300 |
хорошо |
хорошо |
12 |
BMW |
320d 2.0TD/184 |
Седан |
АКПП |
4600 |
4100 |
3700 |
300 |
Отлично |
плохо |
13 |
BMW |
328i 2.0T/245 |
Седан |
АКПП |
4800 |
4300 |
3800 |
300 |
отлично |
Отлично |
14 |
Mini |
One Countryman 1.6L/98 |
Внедорожник |
АКПП |
3300 |
2900 |
2400 |
300 |
хорошо |
отлично |
15 |
Mini |
Cooper Countryman 2.0TD/143 |
Внедорожник |
АКПП |
3900 |
3500 |
3100 |
300 |
плохо |
плохо |
16 |
BMW |
530xd 3.0TD/258 |
Седан |
АКПП |
6000 |
5400 |
5100 |
300 |
плохо |
хорошо |
17 |
BMW |
528i 2.0T/245 |
Седан |
АКПП |
6000 |
9900 |
8000 |
300 |
отлично |
плохо |
18 |
BMW |
750 xLi 4.4L/407 |
Седан |
АКПП |
11000 |
6300 |
5000 |
350 |
хорошо |
отлично |
19 |
BMW |
X5 3.0TD/245 |
Внедорожник |
АКПП |
7000 |
2300 |
2300 |
350 |
плохо |
плохо |
20 |
Chevrolet |
Cruze 1.6L/109 |
Седан |
АКПП |
2500 |
2300 |
2100 |
350 |
отлично |
плохо |
21 |
Kia |
Cee`d 1.6L/122 |
Хэтчбэк |
АКПП |
2500 |
2300 |
2200 |
350 |
плохо |
отлично |
22 |
Citroen |
C4 II 1.6P\120 |
Хэтчбэк |
АКПП |
2500 |
3400 |
3300 |
350 |
хорошо |
хорошо |
23 |
Nissan |
Qashqai 2.0L/141 |
Внедорожник |
АКПП |
3800 |
3600 |
3500 |
350 |
хорошо |
плохо |
24 |
Nissan |
X-trail 2.0L/141 |
Внедорожник |
АКПП |
4000 |
4000 |
3900 |
350 |
плохо |
хорошо |
25 |
Skoda |
Fabia A05 1.6L/105 |
Хэтчбэк |
АКПП |
1950 |
1750 |
1500 |
350 |
плохо |
хорошо |
26 |
Mercedes |
E 200 1.8L/184 |
Седан |
АКПП |
5500 |
5000 |
4500 |
350 |
плохо |
Отлично |
27 |
Mercedes |
C 180 1.8L/156 |
Седан |
АКПП |
4600 |
4100 |
3600 |
350 |
отлично |
хорошо |
Выбираем на панели модуль Статистика > Запускаем модуль Основные статистики и таблицы. Появляется окно:
Выбираем Correlation matrices,нажимаем Ок. После выбора Correlation matrices, выделяем необходимые признаки, нажимаем в появившемся окне в обоих столбцах количественные признаки .
Нажимаем Ок,далее кн. Summary и получаем корреляционную матрицу:
Как видим, зависимость «До недели в день» и «более недели в день», «более 2-х недели в день»; «более недели в день» и «более 2-х недель в день» является только положительная и все в основном близки к 1, говорит о том ,что тенденция увеличения одной величины так же ведет к увеличению другой.
Запускаем модуль Основные статистики и таблицы> Correlation matrices> Выбраем необходимые признаки> В окне Pearson Product-Moment Correlation нажмите кнопку 2D scatterplot (2D диаграмма рассеяния). После этого появится окнодиаграммырассеяния:
Точки диаграммы рассеяния разбросаны в окрестности линии регрессии, т.е. случайных отклонений мало. Существует линейная обратная связь между «До недели в день» и «Лимит пробега в день/перепробег», о чем говорит равномерно возрастающая линия регрессии.
Делаем тоже самое для «Более 2-х недель в день.» и «Более недели в день»:
Точки диаграммы рассеяния находятся на линии регрессии, т.е. случайных отклонений практически нету. Существует линейная прямая связь между «Более 2-х недель в день.» и «Более недели в день», о чем говорит возрастающая линия регрессии.
Выбираем на панели Основные статистики и таблицы > Correlation matrices> Выбрать необходимые признаки > Нажать кнопку Частичные корреляции. Например, выбираем «До недели в день» «Более недели в день»:
Проделаем ту же процедуру для «До недели в день» «Более 2-х недель в день»:
Проделаем ту же процедуру для «До недели в день» «Лимит пробега в день»:
Частные коэффициент корреляции связей «До недели в день» «Более недели в день» и «До недели в день», «Лимит пробега в день», «Более 2-х недель в день» говорит об изменении значении в частичной корреляции от корреляционной матрице при удалении какого-либо параметра, значит эти признаки не связаны статистически. Это объясняется устранением влияния признака «До недели в день», «Более недели в день», «Более 2-х недель в день» и «Лимит пробега в день» соответственно.
Выбираем на панели модуль Статистика >Multiple regression. Появляется окно:
Нажимаем на кн. Variables -> выбираем зависимость «До недели в день» от «Более 2х недель в день» и «Лимит пробега в день» ->кн. Ок, появляется окно:
Коэффициент множественной корреляции R=0,72686219, что говорит о достаточно сильной зависимости. Коэффициент детерминации R2 = 0,52832864 - это доля общего разброса коэффициента множественной корреляции относительно выборочного среднего зависимой переменной «До недели в день». RI= 0,48902269; значит, построенная регрессия объясняет 48% разброса значений переменной «До недели в день» относительно среднего. Стандартная ошибка оценки составляет 1466,1968560 это мера рассеяния наблюдаемых значений относительно регрессионной прямой. При этом стандартная ошибка вычисления b0 в уравнении регрессии равна 1968,708.
Зависимость «Более недели в день» от «До недели в день» и «Более 2х недель в день»:
Коэффициент множественной корреляции R=0,99006137, что говорит о достаточно сильной зависимости «Более недели в день» от «До недели в день» и «Более 2х недель в день». Коэффициент детерминации R2 = 0,98022151 - это доля общего разброса коэффициента множественной корреляции относительно выборочного среднего зависимой переменной «До недели в день». RI= 0,97857331; значит, построенная регрессия объясняет 97% разброса значений переменной «До недели в день» относительно среднего. Стандартная ошибка оценки составляет 265,30258845 это мера рассеяния наблюдаемых значений относительно регрессионной прямой. При этом стандартная ошибка вычисления b0 в уравнении регрессии равна 128,2396.
Зависимость «Более 2-х недели» от «Более недели в день» и «Лимит пробега в день»:
Коэффициент множественной корреляции R=0,99025393, что говорит о достаточно сильной зависимости «Более 2-х недели» от «Более недели в день» и «Лимит пробега в день». Коэффициент детерминации R2 = 0,98060284 - это доля общего разброса коэффициента множественной корреляции относительно выборочного среднего зависимой переменной «Более 2-х недели». RI= 0,97898641; значит, построенная регрессия объясняет 97% разброса значений переменной «Более 2-х недели» относительно среднего. Стандартная ошибка оценки составляет 213,67943008 это мера рассеяния наблюдаемых значений относительно регрессионной прямой. При этом стандартная ошибка вычисления b0 в уравнении регрессии равна 286,9016.
Открываем программный пакет STATISTICA ,затем выбираем на панели модуль Статистика >Nonparametric.
Далее выбираем Correlations (Spearmen, Kendall tau, gamma). Нажимаем OK.
Нажать R Spearman > Выбрать ординальные признаки (Качество салона и Вид авто).
=0.213183 говорит об отсутствии функциональной связи между переменными Качество салона и вид авто, очень много отклонений.
Развернуть окно в нижнем левом углу экрана > Нажать Kendall tau > Выбрать ординальные признаки.
= 0.189102 подтверждает отсутствие функциональной связи между переменными Качество салона и вид авто.
Данные берем из файла. Запускаем модуль Основные статистики и таблицы. Выбрать Tables and banners, затем выбираем вкладку «Остаток и заголовок».
Нажав кнопку определяем нужные нам переменные. Нажимаем OK. Перед нами появляется новое окно, в котором мы выбираем Summary.
Получили таблицу зависимостей:
m1=3 количество строк,
m2=3 количество столбцов.
Y2 = 24,9174883694918
Е5=У2
Откроем statistics-> probability Calculator-> distributions:
χ2 =9,487729
Если мы хотим проверить гипотезу о статистически значимом отличии от нуля характеристики с.т.с.с. Y (т. е. гипотезу о наличии связи между), то необходимо убедиться в выполнении неравенства
где α заданный уровень значимости критерия, т.е. вероятность принять решение о наличии статистической связи между анализируемыми переменными, в то время как в действительности они являются статистически независимыми.
24,9174883694918 >9,487729
Вывод. Неравенство не выполняется вероятность ошибки равной 5%,мы отвергаем гипотезу о статистически значимом отличии от нуля
Для построения корреляционной матрицы для всех типов признаков нужно запустить модуль Основные статистики и таблицы. В открывшемся окне выбрать Correlation matrices-> нажать OK. Выбрать все признаки и нажать кнопку Summary.
Вывод: можно пронаблюдать, что зависимости существуют в основном между количественными и ординальными признаками. Коэффициенты корреляции между другими признаками незначительны.