Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

НА ТЕМУ- Основы корреляционного анализа Выполнили- студентки 1 курса магистратуры

Работа добавлена на сайт samzan.net:

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 6.11.2024

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

«Российский экономический университет имени Г.В. Плеханова»

ДОКЛАД

НА ТЕМУ:

Основы корреляционного анализа

Выполнили:   студентки 1 курса магистратуры

Финансового факультета

Чишкова Лариса и Чуева Ольга

Москва

2013 г.

Корреляционный анализ — метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто встречается термин «корреляционно-регрессионный анализ», который является более общим статистическим понятием), с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям (используя коэффициент детерминации).

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

Корреляционный анализ экспериментальных данных заключает в себе следующие основные практические приёмы: 1) построение корреляционного поля и составление корреляционной таблицы; 2) вычисление выборочных коэффициентов корреляции или корреляционного отношения; 3) проверка статистической гипотезы значимости связи. Дальнейшее исследование заключается в установлении конкретного вида зависимости между величинами. Зависимость между тремя и большим числом случайных признаков или факторов изучается методами многомерного корреляционного анализа (вычисление частных и множественных коэффициентов корреляции и корреляционных отношений).

Этапы корреляционного анализа

Практическая реализация корреляционного анализа включает следующие этапы:

а) постановка задачи и выбор признаков;

б) сбор информации и ее первичная обработка (группировки, исключение аномальных наблюдений, проверка нормальности одномерного распределения);

в) предварительная характеристика взаимосвязей (аналитические группировки, графики);

г) устранение мультиколлинеарности (взаимозависимости факторов) и уточнение набора показателей путем расчета парных коэффициентов корреляции;

д) исследование факторной зависимости и проверка ее значимости;

е) оценка результатов анализа и подготовка рекомендаций по их практическому использованию.

Для того, чтобы результаты корреляционного анализа нашли практическое применение и дали желаемый результат, должны выполняться определенные требования в отношении отбора объекта исследования и признаков-факторов.

  1.  Одним из важнейших условий правильного применения методов корреляционного анализа является требование однородности тех единиц, которые подвергаются изучению методами корреляционного анализа.
  2.  Количественная оценка однородности исследуемой совокупности по комплексу признаков (Один из возможных вариантов такой оценки - расчет относительных показателей вариации, несколько реже применяется, отношение размаха вариации к среднеквадратическому отклонению).
  3.    Требование достаточного числа наблюдений для изучения. На практике считается, что число наблюдений должно не менее чем в 5­6 раз превышать число факторов. В случае если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний.
  4.  Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению исследуемых признаков. В случае если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.
  5.  Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.
  6.  При построении корреляционных моделей факторы должны иметь количественное выражение, иначе составить модель корреляционной зависимости не представляется возможным.

Функциональная, статистическая и корреляционная зависимость.

Исследования, как в научной, так и прикладной области, носят, как правило, комплексный характер. В этом случае изучается не одна характеристика исследуемого объекта, а целая совокупность показателей. Величины, характеризующие различные свойства объектов, могут быть независимыми или взаимосвязанными. Различают два вида зависимостей между величинами (факторами): функциональную и статистическую.

Функциональной называется зависимость, при которой каждому значению x соответствует одно значение y: y=f(x). Функциональная зависимость может иметь место как между детерминированными (неслучайными) переменными (например, зависимость скорости падения в вакууме от времени и т.п.), так и между случайными величинами (например, зависимость стоимости проданных изделий от их числа и т.п.).

Обычно связь между выборками носит не функциональный, а вероятностный (или стохастический) характер. Статистической (стохастической, вероятностной) называется зависимость, когда каждому фиксированному значению независимой переменной Х соответствует не одно, а множество значений переменной У, причем сказать заранее, какое именно значение примет величина У, нельзя.

Частным случаем статистической зависимости является корреляционная зависимость, при которой функциональной зависимостью связаны фактор Х и среднее значение (математическое ожидание) результативного показателя Y, хотя в каждом отдельном случае любая взаимосвязанная величина может принимать различные значения. Корреляционный анализ является одним из методов статистического анализа взаимозависимости нескольких признаков.

Статистическая зависимость может быть выявлена лишь по результатам большого числа наблюдений. Графически статистическая зависимость двух признаков может быть представлена с помощью корреляционного поля (или диаграммы рассеяния), при построении которого на оси абцисс откладываются значения факторного признака Х, а по оси оридинат – результативного Y, а точками показывается сочетание X и Y. Последовательность точек (xi, i) дает график, который иллюстрирует зависимость среднего значения результативного признака Y от факторного X, - эмпирическую линию регрессии.

Связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению.

По форме взаимосвязи корреляционные зависимости принято разделять на линейные и нелинейные.

положительная,

прямая

отрицательная,

обратная

отсутствует

Рис. 1. Направленность взаимосвязи

Линейная взаимосвязь двух случайных величин состоит в том, что при увеличении одной случайной величины другая случайная величина имеет тенденцию возрастать (или убывать) по линейному закону. Корреляция является положительной или прямой, если увеличение значения одной переменной приводит к увеличению значения второй (рис. 1).  Так рост объемов производства способствует увеличению прибыли предприятия. Корреляция является отрицательной или обратной, если увеличение значения одной переменной приводит к уменьшению значения второй. Так, снижение себестоимости единицы производимой продукции влечет за собой рост рентабельности. Зависимость может и не иметь направленности: в этом случае линейная корреляция отсутствует.

Различаются следующие виды корреляционной зависимости:

1. Парная корреляция – связь между двумя признаками (результативным и факторным, или двумя факторными).

2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других признаков.

3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

Основной задачей корреляционного анализа является выявление тесноты связи между переменными X и Y и количественная оценка тесноты этой связи. Теснота взаимосвязи может быть оценена качественно по ширине корреляционного поля – чем меньше его ширина, тем больше теснота и сильнее зависимость (см. рис. 2). В качестве количественной меры связи используют линейный коэффициент корреляции, корреляционное отношение и ранговый коэффициент корреляции.

Рис. 2. Теснота взаимосвязи

Линейный коэффициент корреляции

Основной оценкой для тесноты связи между переменными X и Y служит линейный коэффициент корреляции r.

Уравнение для определения коэффициента корреляции:

В теории разработаны и на практике применяются различные модификации формул расчета линейного коэффициента корреляции. Одна из наиболее распространенных формул:

Основные свойства линейного коэффициента корреляции.

  1.  Коэффициент корреляции способен характеризовать только линейные связи, т.е. такие, которые выражаются уравнением линейной функции.
  2.  Значения коэффициентов корреляции – это отвлеченные числа, лежащее в пределах от -1 до +1, т.е. -1 < r < 1. В зависимости от того, насколько  приближается к 1 различают слабую (0…0,3); среднюю (0,3…0,7); сильную (0,7…0,99) связь, т.е. чем ближе  к 1, тем сильнее связь.
  3.  При положительной, или прямой связи, когда с увеличением значений одного признака возрастают значения другого, коэффициент корреляции приобретает положительный знак и находится в пределах от 0 до +1, т.е. 0 < r < 1.
  4.  При отрицательной, или обратной связи, когда с увеличением значений одного признака соответственно уменьшаются значения другого, коэффициент корреляции сопровождается отрицательным знаком и находится в пределах от 0 до –1, т.е. -1 < r <0.
  5.  Если переменные X и Y умножить на одно и то же число, то коэффициент корреляции не изменится.
  6.  Если , то корреляционная связь между X и Y переходит в функциональную, т.е. каждому значению признака Х будет соответствовать одно или несколько строго определенных значений признака Y. При этом линии регрессии Y пo X и X пo Y совпадают, и  все наблюдаемые значения располагаются на общей прямой.
  7.  Если , то линейной корреляционной связи между X и Y нет (а нелинейная может существовать). При этом групповые средние переменных совпадают с их общими средними, а линии регрессии Y по X и X по Y параллельны осям координат.
  8.  Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Этот параметр зависит от числа степеней свободы f = n –2, где n – число коррелируемых пар показателей Х и Y. Чем больше n, тем выше достоверность связи при одном и том же значении коэффициента корреляции.

Оценка линейного коэффициента корреляции

Значение линейного коэффициента корреляции

Характеристика связи

Интерпретация связи

r =0

Отсутствует

-

0 < r <1

Прямая

С увеличением x увеличивается y

-1 < r < 0

Обратная

С увеличением x уменьшается y и наоборот

r = 1

Функциональная

Каждому значению факторного признака строго соответствует одно значение результативного признака

Для определения величины линейного коэффициента корреляции необходимо знать численные значения факторного и результативного признаков.

Линейный коэффициент корреляции достаточно точно оценивает степень тесноты связи лишь в случае наличия линейной зависимости между признаками. При наличии же криволинейной зависимости линейный коэффициент корреляции недооценивает степень тесноты связи и даже может быть равен 0, а потому в таких случаях рекомендуется использовать в качестве показателя степени тесноты связи эмпирическое корреляционное отношение η.

Корреляционное отношение

Внутригрупповая дисперсия представляет собой ту часть дисперсии Y, которая обусловлена неучтенными случайными факторами. Межгрупповая дисперсия выражает ту часть дисперсии Y, которая вызвана изменчивостью X. Поэтому целесообразно рассматривать в качестве меры тесноты корреляционной зависимости отношение межгрупповой дисперсии к общей дисперсии Dмежгр / Dобщ или σмежгр / σобщ . Отношение средних квадратичных отклонений (межгруппового и общего) называется корреляционным отношением (Табл. 1).

Таблица 1. Формулы для расчета корреляционного отношения

Корреляционное отношение

Y по Х

Корреляционное отношение

X по Y

Основные свойства корреляционного отношения:

  1.   (в отличие от линейного коэффициента корреляции) и при вычислении корреляционного отношения существенно, какую переменную считать независимой, а какую – зависимой.
  2.   , что следует из определения корреляционного отношения.
  3.  Если  = 0, то корреляционная связь отсутствует.
  4.  Если  = 1, то между переменными существует функциональная зависимость.
  5.   и .

Проверка значимости корреляционного отношения основана на том, что критерий  имеет распределение Фишера с k1 = m - 1, k2 = nm степенями свободы. Здесь параметр m – число интервалов группировки значений случайной величины Х. В качестве основной гипотезы принимаем отсутствие корреляционной связи Н0:  при альтернативной Н1:  .

Следует отметить, что вычисление корреляционного отношения возможно лишь при наличии достаточно большого числа данных, которые представлены либо в форме корреляционной, либо в форме групповой таблицы. Вычисление корреляционного отношения при большом числе групп и малом числе наблюдений в каждой группе лишается смысла.

При недостаточном количестве данных в выделенных группах к рассчитанной величине корреляционного отношения должна быть внесена поправка на группировку

,

где k – число выделенных групп.

Анализ степени тесноты связи на основе корреляционного отношения полностью соответствует анализу и интерпретации линейного коэффициента корреляции.

Множественный и частный коэффициенты корреляции.

При оценке линейной множественной связи рассчитывают коэффициент множественной корреляции. Он характеризует тесноту линейной связи между одной переменной (результативной), обусловленной влиянием всех остальных переменных (факторов), входящих в выборку. Обычно сначала строится линейная множественная регрессия, а затем оценивается сам коэффициент.

 ;

Где Ϭ2 – общая дисперсия фактических данных результативного признака (дисперсия Y);

Ϭ2ост – остаточная дисперсия, характеризующая вариацию Y за счет факторов, не включенных в уравнение регрессии.

Коэффициент множественной корреляции изменяется от 0 до 1. Чем ближе R к 1, тем более сильная связь между Y и множеством X.

Для нелинейной множественной связи рассчитывают индекс корреляции. Он также изменяется в пределах от 0 до 1.

Квадрат R равен так называемому коэффициенту детерминации (D или R2), он показывает, какая часть вариации зависимого признака объясняется включенными в выборку факторами.

Частный коэффициент корреляции характеризует степень тесноты связи между двумя признаками  и  при фиксированном значении других (k – 2) факторных признаков, т.е. когда их влияние исключается, т.е. оценивается связь между  и  в «чистом виде».

Ранговая корреляция

Линейный коэффициент корреляции и корреляционное отношение оценивают зависимости между количественными переменными, позволяющими выявить насколько или во сколько раз значения признака одного объекта больше или меньше, чем у другого. Вместе с тем на практике часто встречается необходимость изучения связи между качественными проявлениями признака, которые можно оценить лишь качественно (лучше, хуже) или в экспертных баллах. Например, оценка усовершенствования технологии и качества изделия по ряду параметров, характер стружкозавивания и качество обработанной поверхности.

В таких случаях проблема оценки тесноты связи разрешима, если упорядочить (ранжировать) объекты анализа по степени выраженности измеряемых признаков. При этом каждому объекту присваивается определенный номер, называемый рангом. Ранжирование проводят, как правило, по убыванию (ухудшению качества) и значениям присваивают соответствующие порядковым номерам ранги.

Пусть выборка объема n содержит независимые объекты, которые обладают двумя качественными признаками А и В. Алгоритм присвоения рангов включает этапы:

  1.  Расположить объекты выборки в порядке ухудшения качества по признаку А.
  2.  Присвоить объекту, стоящему на i-м месте, число – ранг xi, равный порядковому номеру объекта.
  3.  Расположить объекты выборки в порядке ухудшения качества по признаку В.
  4.  Присвоить каждому объекту ранг yi, однако индекс i при y будет по-прежнему равен порядковому номеру объекта по признаку А.
  5.  Если встречается несколько равных по значению объектов, то каждому объекту присваивается усредненный ранг.

В общем случае . Рассмотрим два крайних случая. Если ранги по признакам А и В совпадают при всех значениях индекса i (), т.е. ухудшение качества по одному признаку влечет ухудшение качества по другому, то признаки связаны прямой зависимостью. Если ранги противоположны (т.е. x1 = 1 и y1 = n, … , yn = 1 и xn = n), то ухудшение качества по одному признаку влечет улучшение по другому, то признаки связаны противоположной зависимостью. На практике часто встречается промежуточный случай.

Коэффициенты ранговой корреляции Спирмена и Кендалла τ применяют для оценки степени связи двух качественных признаков. Коэффициент Спирмена основан на разности рангов. Коэффициент Кендалла учитывает число инверсий (для рангов : нарушений порядка, когда большее число стоит слева от меньшего. Если встает задача оценки степени связи большего количества признаков, то рассчитывают коэффициент конкордации рангов W.

Таблица 2. Формулы для расчета коэффициентов ранговой корреляции

Коэффициент ранговой

корреляции Спирмена

Коэффициент ранговой

корреляции Кендалла

Коэффициент конкордации (согласованности) рангов

(разность рангов), где = 1, 2, 3, …, n.

– число инверсий для

 

Проверка гипотезы о наличии корреляционной связи

Н0: ; Н1:

Н0: ; Н1:

Н0: ; Н1:

Наблюдаемое (выборочное) значение критерия

Критические точки

 k = n – 2, Приложение 6

, Приложение 2

k = n – 1,

ранги, nчисло объектов

mчисло ранжировок

Коэффициент Спирмена более точно учитывает именно количественную степень связи между переменными. Значения коэффициентов ρ и τ тесно связаны между собой.

При умеренно больших значениях n (n > 10) и при условии, что абсолютные величины значений этих коэффициентов не слишком близки к единице, их связывает простое приближенное соотношение  .

Область применения корреляционного анализа

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.




1. Математические методы в решении экономических задач
2. Интернет-магазин- сущность и достоинства
3. Этносы и этнические процессы.
4. ПРОБЛЕМАТИКА ДОСЛІДЖЕННЯ КОНЦЕПТІВ У КОГНІТИВНІЙ ЛІНГВІСТИЦІ
5. Введение Процесс эволюции Вселенной происходит очень медленно.
6. Двічі ЛКМ по значку Мій комп~ютер ~ двічі ЛКМ по значку диск D- 2 ПКМ по значку Мій комп~ютер ~ Відкрити.html
7. Курсовая работа- Строение и принцип действия переносчиков
8. Тема 1 Туризм как объект управления
9. История возникновения русской летописи
10. Система права. Понятие и признаки права
11. Соловьева По совету отца семилетний Соловьев начал чтение жития святых
12. Сражение за Воронеж
13. BNDERS 358 Bnders BLUE ELECTRIC SEDUCTION Womn EDT 100 ml НОВИНКА 359 Bnd
14. Курсовая работа- Уровень жизни и доходы населения
15. 77123-24-669140188 МОЛЧАНОВ Володимир Анатолійович ОСОБЛИВОСТІ ФОРМУВАННЯ СТРУКТУРИ ТА ВЛАСТИ
16. Проблемы общей теории права и государства
17. Битов Андрей Георгиевич
18.  Регулярная армия и флот были созданы Петром I в начале XVIII в
19. Сервис ~ Параметры
20.  а пособия; расчетное сопротивление бетона сжатию принимаем по т