Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Тема. Статистическое изучение связи социально-экономических явлений
Вопрос 7. Множественная корреляция.
Начало корреляционного и регрессионного анализа относится ко второй половине ХIХ века и связано с именем двоюродного брата Ч. Дарвина Френсисом Гальтоном (18221911). Он ввел понятие «закона регрессии», связав его со средним снижением роста сыновей по сравнению с ростом отцов (1899 г). Ему же принадлежит введение числовой меры, оценивающей силу связи показателей (корреляцию). Поэтому началом разработки корреляционно-регрессионного анализа ученыестатистики считают статью Ф. Гальтона «Регрессия, наследственность и панмиксия» (1896 г), в которой автор «дал определение корреляции, построил теоретическую модель совместного измерения двух переменных, ввел понятие линии регрессии и корреляционного индекса «r».
Экономистами и математиками разработаны различные модели, оценивающие влияние нескольких факторов на результат. Например, в США в 1929 г. при анализе развития обрабатывающей промышленности за 18991922 гг. была построена мультипликативная производственная функция, отражающая зависимость выхода продукции от затрат живого труда и наличия капитала, которая получила название функции Кобба-Дугласа (там же, с.176):
У= а Lα Kβ , (6.39)
где У объем выпускаемой продукции, а коэффициент размерности, L объем затрат живого труда или численность работников, К объем капитала (основного или совокупного), α и β коэффициенты эластичности производства продукции по труду и капиталу.
Для сельского хозяйства данную модель можно расширить, включив в нее еще один важный ресурс это площадь сельскохозяйственных угодий (S) с соответствующим коэффициентом эластичности. Тогда данная функция будет иметь вид:
У=аLαKβSγ, (6.40)
Существуют и другие нелинейные модели, отражающие различные связи факторов, некоторые из которых рассматриваются в курсе «Планирование и прогнозирование». Однако большинство из них не могут быть интерпретированы системой экономических параметров и сложны в экономическом обосновании.
Например, что может отражать экономический логарифм производительности труда или производительность труда в степени n и так далее? То есть модели могут быть использованы для прогнозов без экономической интерпретации параметров. Наилучшим образом экономически интерпретируется многофакторные линейные модели вида:
(6.41)
где: n отражает число факторов.
При составлении модели встает вопрос отбора факторов, которые могут быть включены в многофакторную модель. Как правило, имеется таблица с базой данных, где указаны числовые значения факторов интересующих исследователя. Общий вид такой таблицы с информацией о значениях технико-экономических показателей следующий:
Таблица 6.3. База данных для исследования связей факторов
№ п/п |
Y |
X1 |
X2 |
..... |
Xn |
1 |
..... |
||||
2 |
..... |
||||
... |
..... |
||||
N |
При исследовании необходимо решить целый ряд проблем, одна из которых заключается в отборе факторов для их включения в модель (уравнение регрессии). Здесь существенную роль играют знания исследователя об экономических закономерностях развития процессов и явлений, знания экономики конкретной отрасли (сельского хозяйства легкой и тяжелой промышленности, транспорта и т.д.). После сбора информации и проведения ее априорного анализа можно провести расчеты, позволяющие достаточно качественно отобрать факторы для проведения корреляционно-регрессионного анализа.
Для отбора факторов для модели часто используют матрицу парных коэффициентов корреляции, расчет и интерпретация которых рассматривалась в вопросах 5 и 6 темы.
Таблица 6.4. Матрица парных коэффициентов корреляции
Y |
X1 |
X2 |
..... |
Xn |
|
Y |
1 |
rYX1 |
rYX2 |
..... |
rYXn |
X1 |
1 |
rX1X2 |
..... |
rX1Xn |
|
X2 |
1 |
..... |
rX2Xn |
||
.... |
..... |
..... |
|||
Xn |
1 |
Матрицу используют следующим образом:
По строке Y анализируют значения парных коэффициентов корреляции rij и отбирают в модель те факторы, для которых riy>0,2.
Используя остальные строки матрицы, устанавливают наличие или отсутствие мультиколлинеарности факторов. Если выявляется наличие таких пар факторов, то в модель включают только один из них.
Факторы являются мультиколлинеарными, если связь между ними близка к функциональной или функциональна.
Например, производительность труда и трудоемкость показатели обратные друг другу, и для них парный коэффициент корреляции равен единице. В модель можно включить только один из этих факторов.
Можно считать, что фактор является незначимым, если его включение в уравнение регрессии только изменяет значение коэффициентов регрессии, не изменяя суммы квадратов остатков, то есть:
= const (6.42)
Если при включении в модель факторного признака увеличивается величина множественного коэффициента корреляции и детерминации, а коэффициенты регрессии меняются незначительно, то данный признак существенен, и его включение в уравнение регрессии обязательно.
Нахождение параметров уравнения многофакторной корреляционно-регрессионной модели
Параметры уравнения регрессии (6.41), то есть коэффициенты регрессии ai и свободный член a0 находят из системы (6.43) нормальных уравнений по методу наименьших квадратов.
(6.43)
Данная система может быть решена методом Гаусса или матричным методом.
a0 - свободный член, который отражает объем вариации результативного показателя за счет вариации факторов, не включенных в модель (в том числе и случайную вариацию);
ai называют частными коэффициента регрессии в отличие от парных.
Частный коэффициент регрессии показывает, на сколько единиц в среднем изменится результативный показатель (У) с учетом знака, при изменении факторного признака (Xi) на единицу своего измерения при условии, что другие учтенные в модели факторы остаются неизменными.
Оценка тесноты связи признаков и ранжир факторов по силе их влияния на результат в множественном корреляционно-регрессионном анализе
Оценка тесноты связи Y со всеми Xi производится с помощью совокупного коэффициента (или индекса) детерминации:
, (6.44)
где факторная дисперсия
общая дисперсия
остаточная дисперсия
и совокупного коэффициента корреляции:
(6.45)
Совокупный коэффициент детерминации R2 может быть выражен в процентах. Он показывает, какая часть вариации результативного показателя объясняется вариацией факторов, включенных в модель.
Совокупный коэффициент корреляции всегда 0<R<1. Он отражает только тесноту связи и не может отражать направление связи (как парный коэффициент корреляции). Чем ближе значение R к 1, тем влияние факторов на результат сильнее, чем ближе к 0 тем влияние слабее.
Расчет совокупного коэффициента детерминации можно произвести, используя связь его с парными коэффициентами корреляции rij и коэффициентами регрессии в стандартизированном виде, т.е. βкоэффициенты (см. вопрос 14)
(6.46)
Если рассматривается зависимость результата от двух факторов, то расчет совокупных коэффициентов корреляции и детерминации можно упростить, используя значения парных коэффициентов корреляции и детерминации.
(6.47)
При множественной корреляционно-регрессионной связи необходимо выделить тесноту связи результативного показателя индивидуально с каждым фактором, для чего вычисляют коэффициенты раздельной корреляции и детерминации.
Коэффициентом раздельной детерминации называется произведение парного коэффициента корреляции фактора Хi на его βкоэффициент
(6.48)
Последняя формула отражает тоже равенство, что и формула (6.46). Корень квадратный из коэффициента раздельной детерминации даст коэффициент раздельной корреляции.
(6.49)
При построении уравнения регрессии важным моментом является последовательность включения факторов в уравнение регрессии. И здесь большую роль играет системная связь между каждой парой факторов, включенных в модель, и их группами. Поэтому важным представляется выделение дополнительной доли вариации результативного показателя (У) после включения в модель дополнительно фактора Хк. Такая вариация объясняется частными коэффициентами корреляции и детерминации.
В общем виде частный индекс или коэффициент детерминации находят по формуле:
(6.50)
Как правило, частные коэффициенты корреляции и детерминации меньше парных коэффициентов корреляции и детерминации.
В случает анализа модели У по двум факторам Х1 и Х2 для расчета частных коэффициентов корреляции можно использовать следующие формулы:
(6.51)
(6.52)
В формуле 6.51 отражена связь между У и Х1 при условии неизменности Х2, в формуле 6.52 связь между У и Х2 при условии постоянства Х1.
Частные коэффициенты детерминации найдем, возведя в квадрат частные коэффициенты корреляции. Их сумма близка к значению совокупного коэффициента детерминации.
Однако не следует упрощать смысл анализируемых показателей связи, т.к. вопросы анализа силы влияния факторов на результативный показатель можно рассматриваться в зависимости от последовательности включения факторов в модель от их «системного» влияния и т.д. Многие проблемные вопросы оценки силы влияния факторов на результативный показатель рассматриваются в современных учебниках статистики российских авторов.
Следующая группа показателей, отражающих связи факторов, включенных в модель, это коэффициенты эластичности и коэффициенты.
Коэффициенты эластичности вычисляются на базе первых частных производных от функции связи.
Коэффициент эластичности показывает, на сколько процентов в среднем изменится результат (У) при изменении фактора Хi в среднем на 1% при условии неизменности остальных факторов, входящих в модель.
(6.53)
(6.54)
коэффициент показывает, на сколько среднеквадратических отклонений изменяется результат (У) при изменении фактора Хi на одно свое среднеквадратическое отклонение, при неизменности остальных факторов входящих в уравнение.
Примечание:
Для парной линейной регрессии выполняется равенство . Поэтому в парном корреляционно-регрессионном анализе коэффициент не рассматривался
Рекомендации по составлению различных корреляционно-регрессионных моделей
Все виды моделей можно классифицировать следующим образом:
1) Объемные или количественные модели. Это такие модели, где и результативный признак и факторы, на него влияющие, являются объемными или количественными показателями. К таким моделям можно отнести зависимость выхода продукции от наличия (объема) различных ресурсов.
2) Интенсивные модели. В них все показателя являются качественными или интенсивными. Например, зависимость уровня себестоимости единицы продукции растениеводства от удельных затрат труда на 1га, от урожайности, от стоимости 1 тонны удобрений NPK действующего вещества и т.д.
3) Третий вид моделей смешанный, где результативным показателем выступает объемный признак, а среди факторов могут быть как объемные, так и интенсивные или качественные признаки. Здесь главное выдержать наличие технико-экономи-ческой связи показателей, включенных в модель.
Однако существуют рекомендации, чего нельзя допускать в многофакторных корреляционно-регрессионных моделях.
1) Нельзя допускать включение в модель факторов, которые сами зависят от результативного показателя. Например, в модель себестоимости продукции нельзя включать уровень рентабельности, т.к. он сам зависит от себестоимости.
2) Признаки-факторы не должны быть составными частями результативного показателя. Например, нельзя строить модель зависимости уровня себестоимости от составляющих ее статей или элементов затрат.
3) Как уже говорилось в вопросе 1, нельзя включать в модель факторы, которые относительно друг друга являются мультиколлинеарными.
4) Нельзя в модель интенсивного типа включать объемные факторы. Например, размер посевной площади никак не может влиять на урожайность.
Вопрос 8. Корреляция рядов динамики. Регрессия рядов динамики.
Статистика в анализе рядов динамики ставит перед собой задачу совместного анализа рядов динамики, уровни которых технологически или экономически связаны друг с другом. Например, ряд уровня рентабельности связан с рядом уровня себестоимости продукции, с рядом уровня трудоёмкости и т.д. Причем изменение одного показателя вызывает изменение другого. Поэтому перед статистическим исследование “связанных” друг с другом рядов стоит проблема:
1) оценить тесноту связи между значениями уровней различных рядов;
2) построить уравнение регрессии, связывающее результативный показатель, факторный показатель и временной параметр t.
Проблема оценки тесноты связи осложняется возможным наличием автокорреляции в рядах динамики. Поскольку технологический процесс производства и реализации сельскохозяйственной продукции растянут во времени, то может оказаться, что каждый последующий уровень ряда зависит с определённой величиной лага L от предыдущих значений уровней ряда. Это явление называется автокорреляцией. Наличие автокорреляции в рядах динамики искажает результаты исследования. Поэтому разные авторы в учебной литературе предлагают несколько различных методик оценки тесноты связи и построения уравнения регрессии в рядах динамики и позволяющих исключить влияние автокорреляции.
Пусть есть два ряда с трендами:
Чтобы избежать автокорреляции или влияния автокорреляции на результаты исследований, некоторые авторы предлагают проводить анализ не уровней ряда, а их отклонений от теоретических значений по тренду, если тренд существует, или от средних значений, если отсутствует тренд и колебания показателей случайны:
или
или
Составляется таблица для расчета парного коэффициента корреляции на основании значений абсолютных отклонений:
Таблица 7.13. Схема расчетов для оценки тесноты связи факторов
Период |
Δx |
Δy |
Δx Δy |
Δ²x |
Δ²y |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
Итого |
Δx |
Δy |
Δx yΔ |
Δ²x |
Δ²y |
Парный коэффициент корреляции факторов Х и У будет равен:
Если отсутствует автокорреляция, то парный коэффициент корреляции можно находить по обычной формуле rхy .
Уравнение связи (регрессии) отклонений имеет вид:
В этом уравнении a0 всегда равно 0, коэффициент регрессии a1 вычисляют по формуле:
Ряд авторов предлагает совместить показатели рядов в едином уравнении, т.е. построить многофакторное уравнение, отражающее зависимость результата (У) от фактора (Х) и его изменение во времени (t)
Ỹхt = a0 + a1 х + а2 t
Это уравнение отражает зависимость изменений значений одного ряда показателей (У) от изменений значений другого ряда (Х) во времени t. Время t задаётся как натуральный ряд чисел t=1,2,3,…, n или нумерацию производят от середины ряда. Параметры уравнения регрессии можно найти, используя метод наименьших квадратов, если составить и решить следующую систему трех уравнений с тремя неизвестными
Система упростится, если номерацию уровней ряда проводить от его середины так, чтобы t=0. Тогда система примет несколько упрощенный вид:
Затем исследование проводится также, как в многофакторном корреляционно-регрессионном анализе.
В учебниках по общей теории статистики не отражена проблема построения уравнения регрессии при наличии тренда и при наличии сезонных колебаний.
Выбор формул для оценки результатов выборочного наблюдения при повторном и бесповторном способах отбора
Формулы для оценки предельной ошибки выборки при различных способах и видах выборки отражены в таблице 5.1. Необходимо помнить, что выражение, стоящее под радикалом, дает значение средней ошибки выборки.
Из таблицы 5.1 видно, что при бесповторном способе отбора в формулах добавляется разность между 1 и долей выборки относительно объема генеральной совокупности (1n/N).
В таблице 5.2 отражены формулы для расчета объема выборки. Все представленные в этой таблице формулы получают из формул таблицы 5.1 путем алгебраических преобразований.
Таблица 5.1. Предельная ошибка выборки для некоторых способов формирования выборочной совокупности
Метод отбора Вид выборки |
Повторный |
Бесповторный |
||
для средней |
для доли |
для средней |
для доли |
|
1.Собственно- случайная и механическая |
||||
2. Типическая (при пропорциональном отборе групп) |
||||
3. Серийная (гнездовая) |
Их используют тогда, когда уже были ранее проведены аналогичные исследования и рассчитаны дисперсии и ошибки выборки. Тогда расчет объема выборки позволяет не делать лишнюю ненужную работу, при этом сохраняя достаточно высокую точность и надежность выборочного исследования.
Таблица 5.2. Необходимый объем выборки для некоторых способов формирования выборочной совокупности
Виды выборочного наблюдения |
Повторный отбор |
Бесповторный отбор |
Собственно-случайная выборка: а) при определении среднего размера признака |
||
б) при определении доли признака |
||
Механическая выборка |
то же |
то же |
Типическая выборка: а) при определении среднего размера признака |
||
б) при определении доли признака |
||
Серийная выборка: а) при определении среднего размера признака |
||
б) при определении доли признака |
Пример задач по выборочному наблюдению.
Задача 1.
Для определения средней урожайности картофеля в области проведена 20%-ная серийная бесповторная выборка, в которую вошло 5 районов из 25.
Таблица 5.3. Результаты обследования по районам.
№ района |
Средняя урожайность, ц с 1 га |
Посевная площадь, га |
Валовой сбор, тыс.ц. |
fi |
|||
1 |
250 |
800 |
200 |
2 |
260 |
1000 |
260 |
3 |
275 |
1200 |
330 |
4 |
280 |
1200 |
336 |
5 |
300 |
2800 |
1406 |
Итого, в среднем |
280 |
7000 |
1406 |
Определить с вероятностью 0,954 пределы, в которых будет находиться средняя урожайность картофеля по области.
Решение.
Из условия задачи выпишем значения имеющихся показателей:
n=5; N=25; P=0,954; по таблицам найдем значение t=2,00. Надо определить предельную ошибку выборки Δx - ?
Чтобы произвести необходимые расчеты ошибки выборки, надо вычислить среднее значение урожайности картофеля и величину дисперсии.
280 ц/га.
Таблица 5.4. Расчет дисперсии
п/п |
||
1 |
900 |
720000 |
2 |
400 |
400000 |
3 |
25 |
30000 |
4 |
0 |
0 |
5 |
400 |
1120000 |
Итого |
Х |
2270000 |
ц/га.
Теперь можно вычислить величину предельной ошибки урожайности:
ц/га
Средняя урожайность картофеля в области (в генеральной совокупности) составит
ц/га
или результат можно представить в интервальном виде
272,66ц/га287,34ц/га
Задача 2.
Рассмотрим постановку и решение задач на использование механического бесповторного отбора. Используя исходную информацию по группировке покупателей можно решить несколько задач. В нашем случае они указаны по пунктам 1-3.
Условие:
При опросе покупателей на рынке отбирается каждый десятый покупатель со стоимостью покупки до 35 тыс. руб. и каждый десятый со стоимостью выше 35 тыс. руб. Покупатели распределились по выборке следующим образом:
Таблица 5.5. Распределение покупателей на рынке.
Стоимость покупок, тыс. руб. |
Количество покупок (ni) |
Средняя стоимость покупок, тыс. руб., () |
Внутригрупповая дисперсия, тыс. руб., () |
До 36 тыс. руб. 36 тыс. руб. и выше |
150 250 |
26 42 |
49 81 |
Итого |
400 |
36 |
69 |
Определить:
Решение.
Для решения всех трех задач необходимо найти среднюю общую стоимость одной покупки и общую дисперсию:
тыс. руб.
Средняя из частных внутригрупповых дисперсий
1) Для расчета величины ошибки используем формулу предельной ошибки средней выборочной и подставим в нее все необходимые значения.
тыс. руб.
t=2 при Р=0,954 (из таблицы)
N=4000, т.к. осуществлен десятипроцентный отбор и n=400
Вывод: средняя цена покупки в генеральной совокупности будет
Хген=36 ± 0,78 тыс. руб.
2) В пункте 2 необходимо произвести расчеты по величине вероятности для цены покупки и для доли покупателей, поэтому из формул ошибок средней и доли необходимо вычислить величину коэффициента доверия t, а затем по таблицам найти значение вероятностей.
а) ; P(4,06)=0.99;
б)0,006P(0,0066)=0,008
Вывод: Вероятность средней цены покупки велика (0,99), а вероятность доли покупателей практически равна нулю.
3) В третьем пункте предлагается рассчитать объемы выборки для очередного выборочного наблюдения. Для этого мы выбираем формулу из таблицы 5.2. и подставляем в нее все необходимые числовые значения.
а)
t=2 (из таблиц), x=1,6
б)
=0,04, =0,2
Вывод: Для оценки средней цены покупки надо опросить 105 человек, а для оценки доли покупателей необходимо побеседовать с 200 покупателями.