Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

Тема Статистическое изучение связи социальноэкономических явлений Вопрос 7

Работа добавлена на сайт samzan.net: 2015-07-05

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 22.5.2024

Тема. Статистическое изучение связи социально-экономических явлений

Вопрос 7. Множественная корреляция.

Начало корреляционного и регрессионного анализа относится ко второй половине ХIХ века и связано с именем двоюродного брата Ч. Дарвина – Френсисом Гальтоном (1822–1911). Он ввел понятие «закона регрессии», связав его со средним снижением роста сыновей по сравнению с ростом отцов (1899 г). Ему же принадлежит введение числовой меры, оценивающей силу связи показателей (корреляцию). Поэтому началом разработки корреляционно-регрессионного анализа ученые–статистики считают статью Ф. Гальтона «Регрессия, наследственность и панмиксия» (1896 г), в которой автор «дал определение корреляции, построил теоретическую модель совместного измерения двух переменных, ввел понятие линии регрессии и корреляционного индекса «r».

Экономистами и математиками разработаны различные модели, оценивающие влияние нескольких факторов на результат. Например, в США в 1929 г. при анализе развития обрабатывающей промышленности за 1899–1922 гг. была построена мультипликативная производственная функция, отражающая зависимость выхода продукции от затрат живого труда и наличия капитала, которая получила название функции Кобба-Дугласа (там же, с.176):

У= а Lα Kβ ,                                                                    (6.39)

где    У – объем выпускаемой продукции, а коэффициент размерности, L – объем затрат живого труда или численность работников, К – объем капитала (основного или совокупного), α и β – коэффициенты эластичности производства продукции по труду и капиталу.

Для сельского хозяйства данную модель можно расширить, включив в нее еще один важный ресурс – это площадь сельскохозяйственных угодий (S) с соответствующим коэффициентом эластичности. Тогда данная функция будет иметь вид:

                       У=аLαKβSγ,                                          (6.40)

Существуют и другие нелинейные модели, отражающие различные связи факторов, некоторые из которых рассматриваются в курсе «Планирование и прогнозирование». Однако большинство из них не могут быть интерпретированы системой экономических параметров и сложны в экономическом обосновании.

Например, что может отражать экономический логарифм производительности труда или производительность труда в степени n и так далее? То есть модели могут быть использованы для прогнозов без экономической интерпретации параметров. Наилучшим образом экономически интерпретируется многофакторные линейные модели вида:

             (6.41)

где: n отражает число факторов.

При составлении модели встает вопрос отбора факторов, которые могут быть включены в многофакторную модель. Как правило, имеется таблица с базой данных, где указаны числовые значения факторов интересующих исследователя. Общий вид такой таблицы с информацией о значениях технико-экономических показателей следующий:

Таблица 6.3. База данных для исследования связей факторов

№ п/п

Y

X1

X2

.....

Xn

1

.....

2

.....

...

.....

N

При исследовании необходимо решить целый ряд проблем, одна из которых заключается в отборе факторов для их включения в модель (уравнение регрессии). Здесь существенную роль играют знания исследователя об экономических закономерностях развития процессов и явлений, знания экономики конкретной отрасли (сельского хозяйства легкой и тяжелой промышленности, транспорта и т.д.). После сбора информации и проведения ее априорного анализа можно провести расчеты, позволяющие достаточно качественно отобрать факторы для проведения корреляционно-регрессионного анализа.

Для отбора факторов для модели часто используют матрицу парных коэффициентов корреляции, расчет и интерпретация которых рассматривалась в вопросах 5 и 6 темы.

Таблица 6.4. Матрица парных коэффициентов корреляции

Y

X1

X2

.....

Xn

Y

1

rYX1

rYX2

.....

rYXn

X1

1

rX1X2

.....

rX1Xn

X2

1

.....

rX2Xn

....

.....

.....

Xn

1

Матрицу используют следующим образом:

По строке Y анализируют значения парных коэффициентов корреляции rij и отбирают в модель те факторы, для которых riy>0,2.

Используя остальные строки матрицы, устанавливают наличие или отсутствие мультиколлинеарности факторов. Если выявляется наличие таких пар факторов, то в модель включают только один из них.

Факторы являются мультиколлинеарными, если связь между ними близка к функциональной или функциональна.

Например, производительность труда и трудоемкость –показатели обратные друг другу, и для них парный коэффициент корреляции равен единице. В модель можно включить только один из этих факторов.

Можно считать, что фактор является незначимым, если его включение в уравнение регрессии только изменяет значение коэффициентов регрессии, не изменяя суммы квадратов остатков, то есть:

                    = const                                   (6.42)

Если при включении в модель факторного признака увеличивается величина множественного коэффициента корреляции и детерминации, а коэффициенты регрессии меняются незначительно, то данный признак существенен, и его включение в уравнение регрессии обязательно.

Нахождение параметров уравнения многофакторной корреляционно-регрессионной модели

Параметры уравнения регрессии (6.41), то есть коэффициенты регрессии ai и свободный член a0 находят из системы (6.43) нормальных уравнений по методу наименьших квадратов.

  (6.43)

Данная система может быть решена методом Гаусса или матричным методом.

a0 –- свободный член, который отражает объем вариации результативного показателя за счет вариации факторов, не включенных в модель (в том числе и случайную вариацию);

ai называют частными коэффициента регрессии в отличие от парных.

Частный коэффициент регрессии показывает, на сколько единиц в среднем изменится результативный показатель (У) с учетом знака, при изменении факторного признака (Xi) на единицу своего измерения при условии, что другие учтенные в модели факторы остаются неизменными.

Оценка тесноты связи признаков и ранжир факторов по силе их влияния на результат в множественном корреляционно-регрессионном анализе

Оценка тесноты связи Y со всеми Xi производится с помощью совокупного коэффициента (или индекса) детерминации:

                    ,                      (6.44)

где факторная дисперсия

       общая дисперсия

       остаточная дисперсия

и совокупного коэффициента корреляции:

                                    (6.45)

Совокупный коэффициент детерминации R2 может быть выражен в процентах. Он показывает, какая часть вариации результативного показателя объясняется вариацией факторов, включенных в модель.

Совокупный коэффициент корреляции всегда 0<R<1. Он отражает только тесноту связи и не может отражать направление связи (как парный коэффициент корреляции). Чем ближе значение R к 1, тем влияние факторов на результат сильнее, чем ближе к 0 – тем влияние слабее.

Расчет совокупного коэффициента детерминации можно произвести, используя связь его с парными коэффициентами корреляции rij и коэффициентами регрессии в стандартизированном виде, т.е. β–коэффициенты (см. вопрос 14)

               (6.46)

Если рассматривается зависимость результата от двух факторов, то расчет совокупных коэффициентов корреляции и детерминации можно упростить, используя значения парных коэффициентов корреляции и детерминации.

                     (6.47)

При множественной корреляционно-регрессионной связи необходимо выделить тесноту связи результативного показателя индивидуально с каждым фактором, для чего вычисляют коэффициенты раздельной корреляции и детерминации.

Коэффициентом раздельной детерминации называется произведение парного коэффициента корреляции фактора Хi на его β–коэффициент

                                       (6.48)

Последняя формула отражает тоже равенство, что и формула (6.46). Корень квадратный из коэффициента раздельной детерминации даст коэффициент раздельной корреляции.

                                     (6.49)

При построении уравнения регрессии важным моментом является последовательность включения факторов в уравнение регрессии. И здесь большую роль играет системная связь между каждой парой факторов, включенных в модель, и их группами. Поэтому важным представляется выделение дополнительной доли вариации результативного показателя (У) после включения в модель дополнительно фактора Хк. Такая вариация объясняется частными коэффициентами корреляции и детерминации.

В общем виде частный индекс или коэффициент детерминации находят по формуле:

                        (6.50)

Как правило, частные коэффициенты корреляции и детерминации меньше парных коэффициентов корреляции и детерминации.

В случает анализа модели У по двум факторам Х1 и Х2 для расчета частных коэффициентов корреляции можно использовать следующие формулы:

                       (6.51)

                            (6.52)

В формуле 6.51 отражена связь между У и Х1 при условии неизменности Х2, в формуле 6.52 – связь между У и Х2 при условии постоянства Х1.

Частные коэффициенты детерминации найдем, возведя в квадрат частные коэффициенты корреляции. Их сумма близка к значению совокупного коэффициента детерминации.

Однако не следует упрощать смысл анализируемых показателей связи, т.к. вопросы анализа силы влияния факторов на результативный показатель можно рассматриваться в зависимости от последовательности включения факторов в модель от их «системного» влияния и т.д. Многие проблемные вопросы оценки силы влияния факторов на результативный показатель рассматриваются в современных учебниках статистики российских авторов.

Следующая группа показателей, отражающих связи факторов, включенных в модель, – это коэффициенты эластичности и – коэффициенты.

Коэффициенты эластичности вычисляются на базе первых частных производных от функции связи.

Коэффициент эластичности показывает, на сколько процентов в среднем изменится результат (У) при изменении фактора Хi в среднем на 1% при условии неизменности остальных факторов, входящих в модель.

                                (6.53)

                                     (6.54)

– коэффициент показывает, на сколько среднеквадратических отклонений изменяется результат (У) при изменении фактора Хi на одно свое среднеквадратическое отклонение, при неизменности остальных факторов входящих в уравнение.

Примечание:

Для парной линейной регрессии выполняется равенство . Поэтому в парном корреляционно-регрессионном анализе  – коэффициент не рассматривался

Рекомендации по составлению различных корреляционно-регрессионных моделей

Все виды моделей можно классифицировать следующим образом:

1) Объемные или количественные модели. Это такие модели, где и результативный признак и факторы, на него влияющие, являются объемными или количественными показателями. К таким моделям можно отнести зависимость выхода продукции от наличия (объема) различных ресурсов.

2) Интенсивные модели. В них все показателя являются качественными или интенсивными. Например, зависимость уровня себестоимости единицы продукции растениеводства от удельных затрат труда на 1га, от урожайности, от стоимости        1 тонны удобрений NPK действующего вещества и т.д.

3) Третий вид моделей – смешанный, где результативным показателем выступает объемный признак, а среди факторов могут быть как объемные, так и интенсивные или качественные признаки. Здесь главное выдержать наличие технико-экономи-ческой связи показателей, включенных в модель.

Однако существуют рекомендации, чего нельзя допускать в многофакторных корреляционно-регрессионных моделях.

1) Нельзя допускать включение в модель факторов, которые сами зависят от результативного показателя. Например, в модель себестоимости продукции нельзя включать уровень рентабельности, т.к. он сам зависит от себестоимости.

2) Признаки-факторы не должны быть составными частями результативного показателя. Например, нельзя строить модель зависимости уровня себестоимости от составляющих ее статей или элементов затрат.

3) Как уже говорилось в вопросе 1, нельзя включать в модель факторы, которые относительно друг друга являются мультиколлинеарными.

4) Нельзя в модель интенсивного типа включать объемные факторы. Например, размер посевной площади никак не может влиять на урожайность.

Вопрос 8. Корреляция рядов динамики. Регрессия рядов динамики.

Статистика в анализе рядов динамики ставит перед собой задачу совместного анализа рядов динамики, уровни которых технологически или экономически связаны друг с другом. Например, ряд уровня рентабельности связан с рядом уровня себестоимости продукции, с рядом уровня трудоёмкости и т.д. Причем изменение одного показателя вызывает изменение другого. Поэтому перед статистическим исследование “связанных” друг с другом рядов стоит проблема:

1) оценить тесноту связи между значениями уровней различных рядов;

2) построить уравнение регрессии, связывающее результативный показатель, факторный показатель и временной параметр t.

Проблема оценки тесноты связи осложняется возможным наличием автокорреляции в рядах динамики. Поскольку технологический процесс производства и реализации сельскохозяйственной продукции растянут во времени, то может оказаться, что каждый последующий уровень ряда зависит с определённой величиной лага L от предыдущих значений уровней ряда. Это явление называется автокорреляцией. Наличие автокорреляции в рядах динамики искажает результаты исследования. Поэтому разные авторы в учебной литературе предлагают несколько различных методик оценки тесноты связи и построения уравнения регрессии в рядах динамики и позволяющих исключить влияние автокорреляции.

Пусть есть два ряда с трендами:                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              

Чтобы избежать автокорреляции или влияния автокорреляции на результаты исследований, некоторые авторы предлагают проводить анализ не уровней ряда, а их отклонений от теоретических значений по тренду, если тренд существует, или от средних значений, если отсутствует тренд и колебания показателей случайны:

     или    

         или    

Составляется таблица для расчета парного коэффициента корреляции на основании значений абсолютных отклонений:

Таблица 7.13. Схема расчетов для оценки тесноты связи факторов

Период

Δx

Δy

Δx Δy

Δ²x

Δ²y

...

...

...

...

...

...

...

...

...

...

...

...

Итого

Δx

Δy

Δx 

Δ²x

Δ²y

Парный коэффициент корреляции факторов Х и У будет равен:

Если отсутствует автокорреляция, то парный коэффициент корреляции можно находить по обычной формуле rхy .

Уравнение связи (регрессии) отклонений имеет вид:

В этом уравнении a0 всегда равно 0, коэффициент регрессии a1 вычисляют по формуле:

Ряд авторов предлагает совместить показатели рядов в едином уравнении, т.е. построить многофакторное уравнение, отражающее зависимость результата (У) от фактора (Х) и его изменение во времени (t)

Ỹхt = a0 + a1 х + а2 t

Это уравнение отражает зависимость изменений значений одного ряда показателей (У) от изменений значений другого ряда (Х) во времени t. Время t задаётся как натуральный ряд чисел t=1,2,3,…, n или нумерацию производят от середины ряда. Параметры уравнения регрессии можно найти, используя метод наименьших квадратов, если составить и решить следующую систему трех уравнений с тремя неизвестными

Система упростится, если номерацию уровней ряда проводить от его середины так, чтобы t=0. Тогда система примет несколько упрощенный вид:

Затем исследование проводится также, как в многофакторном корреляционно-регрессионном анализе.

В учебниках по общей теории статистики не отражена проблема построения уравнения регрессии при наличии тренда и при наличии сезонных колебаний.

Выбор формул для оценки результатов выборочного наблюдения при повторном и бесповторном способах отбора

Формулы для оценки предельной ошибки выборки при различных способах и видах выборки отражены в таблице 5.1. Необходимо помнить, что выражение, стоящее под радикалом, дает значение средней ошибки выборки.

Из таблицы 5.1 видно, что при бесповторном способе отбора в формулах добавляется разность между 1 и долей выборки относительно объема генеральной совокупности (1–n/N).

В таблице 5.2 отражены формулы для расчета объема выборки. Все представленные в этой таблице формулы получают из формул таблицы 5.1 путем алгебраических преобразований.

Таблица 5.1. Предельная ошибка выборки для некоторых способов формирования выборочной совокупности

Метод отбора

Вид выборки

Повторный

Бесповторный

для средней

для доли

для средней

для доли

1.Собственно-

случайная и механическая

2. Типическая

(при

пропорциональном

отборе групп)

3. Серийная

(гнездовая)

Их используют тогда, когда уже были ранее проведены аналогичные исследования и рассчитаны дисперсии и ошибки выборки. Тогда расчет объема выборки позволяет не делать лишнюю ненужную работу, при этом сохраняя достаточно высокую точность и надежность выборочного исследования.

 

Таблица 5.2. Необходимый объем выборки для некоторых способов формирования выборочной совокупности

Виды выборочного наблюдения

Повторный отбор

Бесповторный отбор

Собственно-случайная выборка:

а) при определении среднего размера признака

б) при определении доли признака

Механическая выборка

то же

то же

Типическая выборка:

а) при определении среднего размера признака

б) при определении доли признака

Серийная выборка:

а) при определении среднего размера признака

б) при определении доли признака

Пример задач по выборочному наблюдению.

Задача 1.

Для определения средней урожайности картофеля в области проведена 20%-ная серийная бесповторная выборка, в которую вошло 5 районов из 25.

Таблица 5.3. Результаты обследования по районам.            

№ района

Средняя урожайность, ц с 1 га

Посевная площадь, га

Валовой сбор, тыс.ц.

fi

1

250

800

200

2

260

1000

260

3

275

1200

330

4

280

1200

336

5

300

2800

1406

Итого, в среднем

280

7000

1406

Определить с вероятностью 0,954 пределы, в которых будет находиться средняя урожайность картофеля по области.

Решение.

Из условия задачи выпишем значения имеющихся показателей:

n=5;      N=25;       P=0,954; по таблицам найдем значение  t=2,00. Надо определить предельную ошибку выборки Δx - ?

Чтобы произвести необходимые расчеты ошибки выборки, надо вычислить среднее значение урожайности картофеля и величину дисперсии.

280 ц/га.

Таблица 5.4. Расчет дисперсии

 

п/п

1

900

720000

2

400

400000

3

25

30000

4

0

0

5

400

1120000

Итого

Х

2270000

ц/га.

Теперь можно вычислить величину предельной ошибки урожайности:

ц/га

Средняя урожайность картофеля в области (в генеральной совокупности) составит

ц/га

или результат можно представить в интервальном виде

272,66ц/га287,34ц/га

Задача 2.

Рассмотрим постановку и решение задач на использование механического бесповторного отбора. Используя исходную информацию по группировке покупателей можно решить несколько задач. В нашем случае они указаны по пунктам 1-3.

Условие:

При опросе покупателей на рынке отбирается каждый десятый покупатель со стоимостью покупки до 35 тыс. руб. и каждый десятый со стоимостью выше 35 тыс. руб. Покупатели распределились по выборке следующим образом:

Таблица 5.5. Распределение покупателей на рынке.

Стоимость покупок, тыс. руб.

Количество покупок

(ni)

Средняя стоимость покупок,

тыс. руб., ()

Внутригрупповая дисперсия, тыс. руб.,

()

До 36 тыс. руб.

36 тыс. руб. и выше

150

250

26

42

49

81

Итого

400

36

69

Определить:

  1.  Каковы возможные пределы ошибки выборочной средней (т.е. средней цены покупки), если ее надо гарантировать с вероятностью Р=0,954.
  2.  Какова вероятность того, что предельная ошибка выборочной средней стоимости покупок на 1 покупателя не превысит 1,6 тыс. руб., а предельная ошибка частости покупателей, приобретших товаров на сумму более 60 тыс. руб., не превысит 0,04 при объеме выборки n=400, если по предыдущим обследованиям известно, что доля таких покупок равна ω=0,2.
  3.  Каким должен быть объем выборки для того, чтобы можно было гарантировать с вероятностью p=0.954, что пределы возможной средней ошибки выборки (средней цены покупки) не превзойдут 1,6 тыс. руб., а возможной ошибки доли (частости) не превзойдут 0,04, если по предыдущим обследованиям известно, что ω=0,2.

Решение.

Для решения всех трех задач необходимо найти среднюю общую стоимость одной покупки и общую дисперсию:

тыс. руб.

Средняя из частных внутригрупповых дисперсий

1) Для расчета величины ошибки используем формулу предельной ошибки средней выборочной и подставим в нее все необходимые значения.

тыс. руб.

t=2  при  Р=0,954  (из таблицы)

N=4000, т.к. осуществлен десятипроцентный отбор и n=400

Вывод: средняя цена покупки в генеральной совокупности будет

                          Хген=36 ± 0,78 тыс. руб.

2) В пункте 2 необходимо произвести расчеты по величине вероятности для цены покупки и для доли покупателей, поэтому из формул ошибок средней и доли необходимо вычислить величину коэффициента доверия t, а затем по таблицам найти значение вероятностей.

а) ; P(4,06)=0.99;

б)0,006P(0,0066)=0,008

Вывод: Вероятность средней цены покупки велика (0,99), а вероятность доли покупателей практически равна нулю.

3) В третьем пункте предлагается рассчитать объемы выборки для очередного выборочного наблюдения. Для этого мы выбираем формулу из таблицы 5.2. и подставляем в нее все необходимые числовые значения.

а)

t=2 (из таблиц),   x=1,6

б)

=0,04,     =0,2

Вывод: Для оценки средней цены покупки надо опросить 105 человек, а для оценки доли покупателей необходимо побеседовать с 200 покупателями.




1. тематического моделирования и информационной безопасности Согласовано
2. В поисках сокровенного Издательство ЛАД г
3. Методические рекомендации по выполнению заданий Олимпиады школьников СПбГУ по истории в СПбГУ 20132014 уч.html
4. Личные- я ты он она оно мы вы они
5. Налоговая система Российской Федерации
6. Что Где Когда Цель- Проверка знаний умений и навыков по основам курса информатики начальной школы
7. Завод строительных машин возник конфликт между двумя группами акционеров
8. Конституционное разграничение законодательной компетенции между федерацией и её субъектами в Соединенных Штатах Америки и Германии
9. ТЕМА 4 Ветеринарносанитарная экспертиза при инфекционных и инвазионных болезнях нутрий и кроликов Т
10. МЕТОД ВЕРОЯТНЫХ СЛОВ
11. Особенности брендинга
12. КОНТРОЛЬНАЯ РАБОТА ВАРИАНТ 1
13. Финансы предприятия1
14. Фразеологические единицы терминологического происхождения в современном английском и русском дискурсах
15. Учение Чарльза Дарвина
16. Поляризация света
17. Бухгатерский учёт теоретические вопросы
18. Мониторинг безопасности для магистров направления подготовки Техносферная безопасность программы
19. ТЕМА- Відходи паливноенергетичного комплексу
20. Як звали матір ~ вовчицю 2