У вас вопросы?
У нас ответы:) SamZan.net

на тему- Корреляционный анализ Выполнил- Мансуров Ф

Работа добавлена на сайт samzan.net: 2016-03-13

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 4.4.2025

Федеральное агентство по образованию

Уфимский Государственный Авиационный Технический Университет

Кафедра ВМиК

                                                                   

                                                                             

Отчет к лабораторной работе №1

по дисциплине «Многомерные статистические методы»

на тему: «Корреляционный анализ»

 

Выполнил: Мансуров Ф.Д

                   гр. МИЭ-333

Проверил:  Фридлянд А.М.

Уфа-2012

Цель лабораторной работы: провести корреляционный анализ и выявить наличие или отсутствие связи между исследуемыми признаками. Проводя корреляционный анализ, определить степень тесноты статистической связи между признаками.

Теоретическая часть

Корреляционная зависимость изучается с помощью методов корреляционного анализа. Он ставит своей задачей количественное определение тесноты связи между признаками. Теснота связи количественно выражается величиной коэффициента корреляции. Коэффициенты корреляции представляют собой количественную характеристику тесноты связи между признаками.

Дискретные случайные величины в зависимости от своей природы подразделяются на:

  •  Количественные - позволяют измерять степень проявления анализируемого свойства обследуемого объекта по определенной шкале (денежный доход, объем валовой продукции, численность рабочей силы и т. п.);
  •  Ординальные - позволяют упорядочить обследуемые в ходе случайных экспериментов объекты по степени проявления в них анализируемого свойства. Исследователь обращается к ординальным случайным величинам в ситуации, когда шкала, в которой можно было бы количественно измерить степень проявления анализируемого свойства объективно не существует или ему не известна  (качество товара);
  •  Номинальные - позволяют разбивать обследуемые в ходе случайных экспериментов объекты на неподдающиеся упорядочиванию, однородные по анализируемому свойству классы (профессия работника, отрасль промышленности).  

  1.  Корреляционный анализ количественных признаков

В статистике принято различать следующие варианты зависимостей:

1.1.  Парный коэффициент корреляции ().

Введем две переменные (x,y), которые ведут себя как двумерная нормальная случайная величина.  Определение и интерпретация измерителей степени тесноты статистической связи (и.с.т.с.с.) между количественными переменными рассмотрим в рамках распространенной общей аддитивной модели регрессии вида:

                                                                                (1)

  где - остаточная случайна компонента.

Введем (), предполагая, что  M=1, D=0.  Тогда,               

                                                       (2)

,      , где  , ,  ,

 .

Таким образом, парный коэффициент корреляции имеет вид:

                                          ,                                      (3)                   

Знак коэффициента корреляции говорит о направлении связи – прямая (+) и обратная (-).

r=1           Функциональная связь   

0<<1    Имеется линейная связь на фоне случайных отклонений  

r=0  Отсутствие явной линейной связи (либо связи нет, либо есть существенная нелинейность, либо есть большая случайная составляющая)

  

1.2. Частный коэффициент корреляции ().

Частный коэффициент корреляции используют, когда необходимо дать оценку степени тесноты интересующей нас связи между переменными y и (или  и ) при условии, что значения остальных переменных зафиксированные на некотором постоянном уровне.

Частные коэффициенты корреляции измеряют степень тесноты линейной связи между переменными и  при анализе множественных статистических связей компонент случайного вектора в общей схеме (1) в ситуации, когда значения переменных  зафиксированы на их средних уровнях (т. е. в ситуации, когда исключено опосредованное влияние этих переменных на взаимосвязь между и ). В общем случае эти частные характеристики статистической связи зависят от заданных (фиксированных) уровней «мешающих» переменных.

Если исследуемые переменные подчиняются (р+ 1)-мерному нормальному закону, то для подсчета значений может быть использована следующая формула:

                                                             ,                                (4)

В этой формуле N(j,k) обозначает набор номеров всех анализируемых переменных за исключением номеров j и k, а  — это алгебраическое дополнение элемента в корреляционной матрице R.

1.3. Множественный коэффициент корреляции ().

Множественный коэффициент корреляции используется в качестве измерителя с.т.с.с. между результирующим показателем у и набором объясняющих переменных  в соотношениях вида (1) при линейной форме регрессионной зависимости  (т.е. при). Множественный коэффициент корреляции также рассматривается в рамках модели (1)  (р + 1)-мерной нормальной распределенности переменных  .

Множественный коэффициент корреляции может быть подсчитан по частным коэффициентам корреляции с помощью формулы:

                                           (5)

Интерпретация множественного коэффициента корреляции: квадрат множественного коэффициента корреляции определяет долю общей вариации результирующего признака у в линейном варианте соотношения (1), объясненную изменением функции регрессии .

1.4. Коэффициент детерминации ().

Коэффициент детерминации результирующей переменной у  по определяет долю общей вариации результирующего признака y в соотношении (1), объясненную изменением функции регрессии или изменением аргументов  этой функции.

Согласно вышеизложенной интерпретации множественного коэффициента корреляции, коэффициент детерминации   имеет вид:

                                             =.                                                 (6)

2. Корреляционный анализ ординальных признаков

Для оценки тесноты статистической связи между порядковыми переменными  применяют ранговую корреляцию. Для этого исходные статистические данные упорядочивают (ранжируют) по определенному принципу, а затем находят ранговые коэффициенты (Спирмена-R, Кендалла-). Последний дает более строгую оценку связи нежели коэффициент Спирмена: R 3/2. Это соотношение выполняется при большом числе наблюдений (n>30)  и слабых либо умеренно тесных связях. Коэффициенты рассчитываются по следующим формулам:

                                      

3. Корреляционный анализ номинальных признаков

Признак называется категоризированным, если его возможные значения описываются конечным числом состояний или градаций.

В класс категоризированных признаков попадают те номинальные и порядковые переменные, возможные значения которых описаны заданным (известным) набором градаций.

Рассмотрим задачу измерения парных статистических связей между категоризированными переменными 

, где

m1 – количество строк,

m2 – количество столбцов.

Если мы хотим проверить гипотезу о статистически значимом отличии от нуля характеристики с.т.с.с. Y (т. е. гипотезу о наличии связи между), то необходимо убедиться в выполнении неравенства

                                                         

где α — заданный уровень значимости критерия, т.е. вероятность принять решение о наличии статистической связи между анализируемыми переменными, в то время как в действительности они являются статистически независимыми.


Практическая часть

1.Корреляционный анализ количественных признаков

1.1.  Парный коэффициент корреляции ().

Открываем программный пакет STATISTICA и в новом документе добавляем эту таблицу

Марка

Модель

Кузов

Коробка передач

До недели в день руб.

более недели в день руб.

более 2-х недель в день руб.

Лимит пробега в день / перепробег

Качество салона

Вид авто

1

Renault

Duster 2.0L/135

Внедорожник

̊МКПП

2700

2400

2300

300

Хорошо

Отлично

2

Renault

Fluence 1.6AP/105

Седан

АКПП

2500

2300

2200

300

Хорошо

Отлично

3

Renault

Logan 2 1.6L/103

Седан

АКПП

1700

1500

1420

200

Хорошо

Отлично

4

Renault

Logan 2 1.6L/102

Седан

АКПП

1400

1250

1180

200

Хорошо

хорошо

5

Renault

Sandero 1.6L/103

Хэтчбэк

АКПП

1750

1550

1470

200

отлично

Отлично

6

Renault

Latitude 2.5/176

Седан

АКПП

3800

3400

3200

300

хорошо

Отлично

7

Peugeot

308 1.6L/120

Хэтчбэк

АКПП

2500

2300

2200

300

Отлично

хорошо

8

Skoda

Octavia A5 1.6L/102

Хэтчбэк

АКПП

2700

2400

2300

300

Отлично

Отлично

9

Volvo

XC60 2.4TD/163

 Внедорожник

АКПП

4800

4300

4100

300

отлично

хорошо

10

Land Rover

Freelander II 2.2TD/160 Freelander II 2.2TD/160 Freelander II 2.2TD/160

 Внедорожник

АКПП

4600

4100

4000

300

плохо

плохо

11

Land Rover

Discovery 4.2.7TD/190

 Внедорожник

АКПП

5500

5000

4500

300

хорошо

хорошо

12

BMW

320d 2.0TD/184

Седан

АКПП

4600

4100

3700

300

Отлично

плохо

13

BMW

328i 2.0T/245

Седан

АКПП

4800

4300

3800

300

отлично

Отлично

14

Mini

One Countryman 1.6L/98

 Внедорожник

АКПП

3300

2900

2400

300

хорошо

отлично

15

Mini

Cooper Countryman 2.0TD/143

 Внедорожник

АКПП

3900

3500

3100

300

плохо

плохо

16

BMW

530xd 3.0TD/258

Седан

АКПП

6000

5400

5100

300

плохо

хорошо

17

BMW

528i 2.0T/245

Седан

АКПП

6000

9900

8000

300

отлично

плохо

18

BMW

750 xLi 4.4L/407

Седан

АКПП

11000

6300

5000

350

хорошо

отлично

19

BMW

X5 3.0TD/245

 Внедорожник

АКПП

7000

2300

2300

350

плохо

плохо

20

Chevrolet

Cruze 1.6L/109

Седан

АКПП

2500

2300

2100

350

отлично

плохо

21

Kia

Cee`d 1.6L/122

Хэтчбэк

АКПП

2500

2300

2200

350

плохо

отлично

22

Citroen

C4 II 1.6P\120

Хэтчбэк

АКПП

2500

3400

3300

350

хорошо

хорошо

23

Nissan

Qashqai 2.0L/141

 Внедорожник

АКПП

3800

3600

3500

350

хорошо

плохо

24

Nissan

X-trail 2.0L/141

 Внедорожник

АКПП

4000

4000

3900

350

плохо

хорошо

25

Skoda

Fabia A05 1.6L/105

Хэтчбэк

АКПП

1950

1750

1500

350

плохо

хорошо

26

Mercedes

E 200 1.8L/184

Седан

АКПП

5500

5000

4500

350

плохо

Отлично

27

Mercedes

C 180 1.8L/156

Седан

АКПП

4600

4100

3600

350

отлично

хорошо

Выбираем на панели модуль Статистика –> Запускаем модуль Основные статистики и таблицы. Появляется окно:

Выбираем Correlation matrices,нажимаем Ок. После выбора Correlation matrices, выделяем  необходимые признаки, нажимаем в появившемся окне в обоих столбцах количественные признаки .

                                      

Нажимаем Ок,далее кн. Summary  и получаем корреляционную матрицу:

                      

Как видим, зависимость «До недели в день» и «более недели в день», «более 2-х недели в день»; «более недели в день» и «более 2-х недель в день» является только положительная и все в основном близки к 1, говорит о том ,что тенденция увеличения одной величины так же ведет к увеличению другой.

Запускаем модуль Основные статистики и таблицы–>  Correlation matrices–>  Выбраем  необходимые признаки–>  В окне Pearson Product-Moment Correlation нажмите кнопку 2D scatterplot (2D диаграмма рассеяния). После этого появится окнодиаграммырассеяния:

 

                 

Точки диаграммы рассеяния разбросаны в окрестности линии регрессии, т.е.  случайных отклонений мало. Существует линейная обратная связь между «До недели в день» и «Лимит пробега в день/перепробег», о чем говорит равномерно возрастающая линия регрессии.

Делаем тоже самое для «Более 2-х недель в день.» и «Более недели в день»:

                   

Точки диаграммы рассеяния находятся на линии регрессии, т.е.  случайных отклонений практически нету. Существует линейная прямая связь между «Более 2-х недель в день.» и «Более недели в день», о чем говорит возрастающая  линия регрессии.

1.2. Частный коэффициент корреляции ().

Выбираем на панели Основные статистики и таблицы –> Correlation matrices–>  Выбрать необходимые признаки –>   Нажать кнопку Частичные корреляции. Например, выбираем «До недели в день» «Более недели в день»:

                 

Проделаем ту же процедуру для  «До недели в день» «Более 2-х недель в день»:

                

Проделаем ту же процедуру для  «До недели в день» «Лимит пробега в день»:

Частные коэффициент корреляции связей «До недели в день» «Более недели в день» и «До недели в день», «Лимит пробега в день», «Более 2-х недель в день» говорит об изменении значении в частичной корреляции от корреляционной матрице при удалении какого-либо параметра, значит эти признаки не связаны статистически. Это объясняется устранением влияния признака «До недели в день», «Более недели в день», «Более 2-х недель в день» и «Лимит пробега в день» соответственно.

1.3. Множественный коэффициент корреляции ().

Выбираем на панели модуль Статистика –>Multiple regression. Появляется окно:

                                   

Нажимаем на кн. Variables -> выбираем зависимость «До недели в день» от «Более 2х недель в день» и «Лимит пробега в день» ->кн. Ок, появляется окно:

               

Коэффициент множественной корреляции R=0,72686219, что говорит о достаточно сильной зависимости. Коэффициент детерминации R2 = 0,52832864  - это доля общего разброса коэффициента множественной корреляции относительно выборочного среднего зависимой переменной «До недели в день». RI= 0,48902269; значит, построенная регрессия объясняет 48% разброса значений переменной «До недели в день»  относительно среднего. Стандартная ошибка оценки составляет 1466,1968560 – это мера рассеяния наблюдаемых значений относительно регрессионной прямой. При этом стандартная ошибка вычисления b0 в уравнении регрессии равна 1968,708.    

Зависимость  «Более недели в день» от «До недели в день» и «Более 2х недель в день»:

 

Коэффициент множественной корреляции R=0,99006137, что говорит о достаточно сильной зависимости «Более недели в день» от «До недели в день» и «Более 2х недель в день». Коэффициент детерминации R2 = 0,98022151  - это доля общего разброса коэффициента множественной корреляции относительно выборочного среднего зависимой переменной «До недели в день». RI= 0,97857331; значит, построенная регрессия объясняет 97% разброса значений переменной «До недели в день» относительно среднего. Стандартная ошибка оценки составляет 265,30258845– это мера рассеяния наблюдаемых значений относительно регрессионной прямой. При этом стандартная ошибка вычисления b0 в уравнении регрессии равна 128,2396.   

Зависимость  «Более 2-х недели» от «Более недели в день» и «Лимит пробега в день»:

Коэффициент множественной корреляции R=0,99025393, что говорит о достаточно сильной зависимости «Более 2-х недели» от «Более недели в день» и «Лимит пробега в день». Коэффициент детерминации R2 = 0,98060284  - это доля общего разброса коэффициента множественной корреляции относительно выборочного среднего зависимой переменной «Более 2-х недели». RI= 0,97898641; значит, построенная регрессия объясняет 97% разброса значений переменной «Более 2-х недели» относительно среднего. Стандартная ошибка оценки составляет 213,67943008– это мера рассеяния наблюдаемых значений относительно регрессионной прямой. При этом стандартная ошибка вычисления b0 в уравнении регрессии равна 286,9016.

2.Корреляционный анализ ординальных признаков

2.1. Коэффициент Спирмэна.

Открываем программный пакет STATISTICA ,затем выбираем на панели модуль Статистика –>Nonparametric.

                   

Далее выбираем Correlations (Spearmen, Kendall tau, gamma). Нажимаем OK.

Нажать R Spearman –> Выбрать ординальные признаки (Качество салона и Вид авто).

=0.213183  говорит об отсутствии функциональной связи между переменными Качество салона и вид авто, очень много отклонений.

2.2. Коэффициент Кендалла.

Развернуть окно в нижнем левом углу экрана –> Нажать Kendall tau –> Выбрать ординальные признаки.

= 0.189102 подтверждает отсутствие  функциональной связи между  переменными Качество салона и вид авто.

                    3. Корреляционный анализ номинальных признаков

Данные берем из файла. Запускаем модуль Основные статистики и таблицы. Выбрать Tables and banners, затем выбираем вкладку «Остаток и заголовок».

Нажав кнопку определяем нужные нам переменные. Нажимаем OK. Перед нами появляется новое окно, в котором мы выбираем Summary.

Получили таблицу зависимостей:

                            

Информационная мера связи

Проверим справедливость гипотезы о статистической зависимости признаков  . Вычислим Y2 по формуле:    

, где 

m1=3 – количество строк,

m2=3 – количество столбцов.

Y2 = 24,9174883694918

Е5=У2

Откроем statistics-> probability Calculator-> distributions:

Зададим вероятность ошибки p = 0,05 и найдем χ2 :                                                                

 

χ2 =9,487729

Если мы хотим проверить гипотезу о статистически значимом отличии от нуля характеристики с.т.с.с. Y (т. е. гипотезу о наличии связи между), то необходимо убедиться в выполнении неравенства

                                                         

где α — заданный уровень значимости критерия, т.е. вероятность принять решение о наличии статистической связи между анализируемыми переменными, в то время как в действительности они являются статистически независимыми.

 24,9174883694918 >9,487729 

Вывод. Неравенство не выполняется вероятность ошибки равной 5%,мы отвергаем гипотезу о статистически значимом отличии от нуля

4. Корреляционный анализ всех типов признаков между собой

Для построения корреляционной матрицы для всех типов признаков нужно запустить модуль Основные статистики и таблицы. В открывшемся окне выбрать Correlation matrices-> нажать OK. Выбрать все признаки и нажать кнопку Summary.

Вывод: можно пронаблюдать, что зависимости существуют в основном между количественными и ординальными  признаками. Коэффициенты корреляции между другими признаками незначительны.




1. Подвиг новосибирцев в Сталинграде- патриотическое воспитание на духовном наследии Великой Отечественной в
2.  Процесс разделения труда в международном масштабе и кооперации производства
3. Природа радикалу
4. на тему- Организация использования машиннотракторного парка Выполнил студент 5 курса ЭиА
5. Микро и макроанализ
6. Культурология как научная дисциплина
7. темами может иметь пагубные последствия для последних
8. Наружная реклама как средство психологического воздействия на аудиторию
9. РЕФЕРАТ дисертації на здобуття наукового ступеня кандидата історичних наук Київ.html
10. сериалов. Я имею в виду те сериалы внутренняя логика которых а точнее её отсутствие основана на симулякрах.