Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
«Российский экономический университет имени Г.В. Плеханова»
ДОКЛАД
НА ТЕМУ:
Основы корреляционного анализа
Выполнили: студентки 1 курса магистратуры
Финансового факультета
Чишкова Лариса и Чуева Ольга
Москва
2013 г.
Корреляционный анализ метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто встречается термин «корреляционно-регрессионный анализ», который является более общим статистическим понятием), с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям (используя коэффициент детерминации).
Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.
Корреляционный анализ экспериментальных данных заключает в себе следующие основные практические приёмы: 1) построение корреляционного поля и составление корреляционной таблицы; 2) вычисление выборочных коэффициентов корреляции или корреляционного отношения; 3) проверка статистической гипотезы значимости связи. Дальнейшее исследование заключается в установлении конкретного вида зависимости между величинами. Зависимость между тремя и большим числом случайных признаков или факторов изучается методами многомерного корреляционного анализа (вычисление частных и множественных коэффициентов корреляции и корреляционных отношений).
Этапы корреляционного анализа
Практическая реализация корреляционного анализа включает следующие этапы:
а) постановка задачи и выбор признаков;
б) сбор информации и ее первичная обработка (группировки, исключение аномальных наблюдений, проверка нормальности одномерного распределения);
в) предварительная характеристика взаимосвязей (аналитические группировки, графики);
г) устранение мультиколлинеарности (взаимозависимости факторов) и уточнение набора показателей путем расчета парных коэффициентов корреляции;
д) исследование факторной зависимости и проверка ее значимости;
е) оценка результатов анализа и подготовка рекомендаций по их практическому использованию.
Для того, чтобы результаты корреляционного анализа нашли практическое применение и дали желаемый результат, должны выполняться определенные требования в отношении отбора объекта исследования и признаков-факторов.
Функциональная, статистическая и корреляционная зависимость.
Исследования, как в научной, так и прикладной области, носят, как правило, комплексный характер. В этом случае изучается не одна характеристика исследуемого объекта, а целая совокупность показателей. Величины, характеризующие различные свойства объектов, могут быть независимыми или взаимосвязанными. Различают два вида зависимостей между величинами (факторами): функциональную и статистическую.
Функциональной называется зависимость, при которой каждому значению x соответствует одно значение y: y=f(x). Функциональная зависимость может иметь место как между детерминированными (неслучайными) переменными (например, зависимость скорости падения в вакууме от времени и т.п.), так и между случайными величинами (например, зависимость стоимости проданных изделий от их числа и т.п.).
Обычно связь между выборками носит не функциональный, а вероятностный (или стохастический) характер. Статистической (стохастической, вероятностной) называется зависимость, когда каждому фиксированному значению независимой переменной Х соответствует не одно, а множество значений переменной У, причем сказать заранее, какое именно значение примет величина У, нельзя.
Частным случаем статистической зависимости является корреляционная зависимость, при которой функциональной зависимостью связаны фактор Х и среднее значение (математическое ожидание) результативного показателя Y, хотя в каждом отдельном случае любая взаимосвязанная величина может принимать различные значения. Корреляционный анализ является одним из методов статистического анализа взаимозависимости нескольких признаков.
Статистическая зависимость может быть выявлена лишь по результатам большого числа наблюдений. Графически статистическая зависимость двух признаков может быть представлена с помощью корреляционного поля (или диаграммы рассеяния), при построении которого на оси абцисс откладываются значения факторного признака Х, а по оси оридинат результативного Y, а точками показывается сочетание X и Y. Последовательность точек (xi, i) дает график, который иллюстрирует зависимость среднего значения результативного признака Y от факторного X, - эмпирическую линию регрессии.
Связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению.
По форме взаимосвязи корреляционные зависимости принято разделять на линейные и нелинейные.
положительная, прямая |
отрицательная, обратная |
отсутствует |
Рис. 1. Направленность взаимосвязи |
Линейная взаимосвязь двух случайных величин состоит в том, что при увеличении одной случайной величины другая случайная величина имеет тенденцию возрастать (или убывать) по линейному закону. Корреляция является положительной или прямой, если увеличение значения одной переменной приводит к увеличению значения второй (рис. 1). Так рост объемов производства способствует увеличению прибыли предприятия. Корреляция является отрицательной или обратной, если увеличение значения одной переменной приводит к уменьшению значения второй. Так, снижение себестоимости единицы производимой продукции влечет за собой рост рентабельности. Зависимость может и не иметь направленности: в этом случае линейная корреляция отсутствует.
Различаются следующие виды корреляционной зависимости:
1. Парная корреляция связь между двумя признаками (результативным и факторным, или двумя факторными).
2. Частная корреляция зависимость между результативным и одним факторным признаками при фиксированном значении других признаков.
3. Множественная корреляция зависимость результативного и двух или более факторных признаков, включенных в исследование.
Основной задачей корреляционного анализа является выявление тесноты связи между переменными X и Y и количественная оценка тесноты этой связи. Теснота взаимосвязи может быть оценена качественно по ширине корреляционного поля чем меньше его ширина, тем больше теснота и сильнее зависимость (см. рис. 2). В качестве количественной меры связи используют линейный коэффициент корреляции, корреляционное отношение и ранговый коэффициент корреляции.
Рис. 2. Теснота взаимосвязи |
|
Линейный коэффициент корреляции
Основной оценкой для тесноты связи между переменными X и Y служит линейный коэффициент корреляции r.
Уравнение для определения коэффициента корреляции:
В теории разработаны и на практике применяются различные модификации формул расчета линейного коэффициента корреляции. Одна из наиболее распространенных формул:
Основные свойства линейного коэффициента корреляции.
Оценка линейного коэффициента корреляции
Значение линейного коэффициента корреляции |
Характеристика связи |
Интерпретация связи |
r =0 |
Отсутствует |
- |
0 < r <1 |
Прямая |
С увеличением x увеличивается y |
-1 < r < 0 |
Обратная |
С увеличением x уменьшается y и наоборот |
r = 1 |
Функциональная |
Каждому значению факторного признака строго соответствует одно значение результативного признака |
Для определения величины линейного коэффициента корреляции необходимо знать численные значения факторного и результативного признаков.
Линейный коэффициент корреляции достаточно точно оценивает степень тесноты связи лишь в случае наличия линейной зависимости между признаками. При наличии же криволинейной зависимости линейный коэффициент корреляции недооценивает степень тесноты связи и даже может быть равен 0, а потому в таких случаях рекомендуется использовать в качестве показателя степени тесноты связи эмпирическое корреляционное отношение η.
Корреляционное отношение
Внутригрупповая дисперсия представляет собой ту часть дисперсии Y, которая обусловлена неучтенными случайными факторами. Межгрупповая дисперсия выражает ту часть дисперсии Y, которая вызвана изменчивостью X. Поэтому целесообразно рассматривать в качестве меры тесноты корреляционной зависимости отношение межгрупповой дисперсии к общей дисперсии Dмежгр / Dобщ или σмежгр / σобщ . Отношение средних квадратичных отклонений (межгруппового и общего) называется корреляционным отношением (Табл. 1).
Таблица 1. Формулы для расчета корреляционного отношения
Корреляционное отношение Y по Х |
Корреляционное отношение X по Y |
||
Основные свойства корреляционного отношения:
Проверка значимости корреляционного отношения основана на том, что критерий имеет распределение Фишера с k1 = m - 1, k2 = n m степенями свободы. Здесь параметр m число интервалов группировки значений случайной величины Х. В качестве основной гипотезы принимаем отсутствие корреляционной связи Н0: при альтернативной Н1: .
Следует отметить, что вычисление корреляционного отношения возможно лишь при наличии достаточно большого числа данных, которые представлены либо в форме корреляционной, либо в форме групповой таблицы. Вычисление корреляционного отношения при большом числе групп и малом числе наблюдений в каждой группе лишается смысла.
При недостаточном количестве данных в выделенных группах к рассчитанной величине корреляционного отношения должна быть внесена поправка на группировку
,
где k число выделенных групп.
Анализ степени тесноты связи на основе корреляционного отношения полностью соответствует анализу и интерпретации линейного коэффициента корреляции.
Множественный и частный коэффициенты корреляции.
При оценке линейной множественной связи рассчитывают коэффициент множественной корреляции. Он характеризует тесноту линейной связи между одной переменной (результативной), обусловленной влиянием всех остальных переменных (факторов), входящих в выборку. Обычно сначала строится линейная множественная регрессия, а затем оценивается сам коэффициент.
;
Где Ϭ2 общая дисперсия фактических данных результативного признака (дисперсия Y);
Ϭ2ост остаточная дисперсия, характеризующая вариацию Y за счет факторов, не включенных в уравнение регрессии.
Коэффициент множественной корреляции изменяется от 0 до 1. Чем ближе R к 1, тем более сильная связь между Y и множеством X.
Для нелинейной множественной связи рассчитывают индекс корреляции. Он также изменяется в пределах от 0 до 1.
Квадрат R равен так называемому коэффициенту детерминации (D или R2), он показывает, какая часть вариации зависимого признака объясняется включенными в выборку факторами.
Частный коэффициент корреляции характеризует степень тесноты связи между двумя признаками и при фиксированном значении других (k 2) факторных признаков, т.е. когда их влияние исключается, т.е. оценивается связь между и в «чистом виде».
Ранговая корреляция
Линейный коэффициент корреляции и корреляционное отношение оценивают зависимости между количественными переменными, позволяющими выявить насколько или во сколько раз значения признака одного объекта больше или меньше, чем у другого. Вместе с тем на практике часто встречается необходимость изучения связи между качественными проявлениями признака, которые можно оценить лишь качественно (лучше, хуже) или в экспертных баллах. Например, оценка усовершенствования технологии и качества изделия по ряду параметров, характер стружкозавивания и качество обработанной поверхности.
В таких случаях проблема оценки тесноты связи разрешима, если упорядочить (ранжировать) объекты анализа по степени выраженности измеряемых признаков. При этом каждому объекту присваивается определенный номер, называемый рангом. Ранжирование проводят, как правило, по убыванию (ухудшению качества) и значениям присваивают соответствующие порядковым номерам ранги.
Пусть выборка объема n содержит независимые объекты, которые обладают двумя качественными признаками А и В. Алгоритм присвоения рангов включает этапы:
В общем случае . Рассмотрим два крайних случая. Если ранги по признакам А и В совпадают при всех значениях индекса i (), т.е. ухудшение качества по одному признаку влечет ухудшение качества по другому, то признаки связаны прямой зависимостью. Если ранги противоположны (т.е. x1 = 1 и y1 = n, … , yn = 1 и xn = n), то ухудшение качества по одному признаку влечет улучшение по другому, то признаки связаны противоположной зависимостью. На практике часто встречается промежуточный случай.
Коэффициенты ранговой корреляции Спирмена и Кендалла τ применяют для оценки степени связи двух качественных признаков. Коэффициент Спирмена основан на разности рангов. Коэффициент Кендалла учитывает число инверсий (для рангов : нарушений порядка, когда большее число стоит слева от меньшего. Если встает задача оценки степени связи большего количества признаков, то рассчитывают коэффициент конкордации рангов W.
Таблица 2. Формулы для расчета коэффициентов ранговой корреляции
Коэффициент ранговой корреляции Спирмена |
Коэффициент ранговой корреляции Кендалла |
Коэффициент конкордации (согласованности) рангов |
(разность рангов), где = 1, 2, 3, …, n. |
число инверсий для |
|
Проверка гипотезы о наличии корреляционной связи |
||
Н0: ; Н1: |
Н0: ; Н1: |
Н0: ; Н1: |
Наблюдаемое (выборочное) значение критерия |
||
Критические точки |
||
k = n 2, Приложение 6 |
, Приложение 2 |
k = n 1, ранги, n число объектов m число ранжировок |
Коэффициент Спирмена более точно учитывает именно количественную степень связи между переменными. Значения коэффициентов ρ и τ тесно связаны между собой.
При умеренно больших значениях n (n > 10) и при условии, что абсолютные величины значений этих коэффициентов не слишком близки к единице, их связывает простое приближенное соотношение .
Область применения корреляционного анализа
Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.
Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.