Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

Лабораторная работа 1 Парная линейная регрессия Предварительные расчеты ; ; ; ; ; ;

Работа добавлена на сайт samzan.net:


Лабораторная работа №1

Парная линейная регрессия

Предварительные расчеты:

;      ;     ;    ;    ;

; .

Построение таблицы вида

x

y

xy

…………

……….

………

……..

………

………

Среднее значение

Формулы для расчетов параметров:

, .

При компьютерном подборе в Excel можно использовать встроенную функцию Линейн

Оценка тесноты связи:

а) коэффициент корреляции , или .

Если

, то связь между признаками практически отсутствует;

, связь между признаками слабая;

, связь между признаками умеренная;

, связь между признаками сильная.

При компьютерном анализе можно использовать встроенную функцию Коррел.

б) коэффициент эластичности  показывает, на сколько процентов изменится результативный признак при изменении факторного признака на 1%;

в) коэффициент детерминации  показывает, какая доля вариации результативного признака y учтена в модели и обусловлена влиянием на нее изменением переменной x. Чем больше доля объясненной вариации, тем лучше линейная модель аппроксимирует исходные данные и ей можно воспользоваться для прогноза значений результативного признака..

Оценка значимости уравнения регрессии в целом:

Предварительные расчеты с построением таблицы вида

x

y

…………

……….

………

……..

………

………

а) F-критерий Фишера при числе степеней свободы  и  и уровне значимости 0,05. Расчетное значение критерия:

.

Критическое значение критерия берется из специальной таблицы критических точек распределения Фишера-Снедекора в приложениях к учебникам по теории вероятностей, статистике и эконометрике. При компьютерном анализе критическое значение можно найти с помощью функции Fраспобр.

Если расчетное значение F- критерия больше критического, нулевая гипотеза об отсутствии значимой связи признаков x и y отклоняется, и делается вывод о существенности этой связи.

б) Средняя ошибка аппроксимации 

.

Оценка значимости параметров регрессии :

а) Стандартная ошибка параметра a рассчитывается по формуле

, где – остаточная дисперсия признака y.

б) Стандартная ошибка коэффициента регрессии b рассчитывается по формуле

.

в) Стандартная ошибка коэффициента корреляции  рассчитывается по формуле

.

Для проверки нулевой гипотезы о несущественности найденного параметра регрессии применяют t-критерий Стъюдента при числе степеней свободы   и уровне значимости 0,05.

Расчетные значения t-статистики вычисляются по формулам:

,  ,  .

Критическое значение берется из специальной таблицы критических точек распределения Стъюдента в приложениях к учебникам по теории вероятностей и эконометрике. При компьютерном анализе критическое значение можно найти с помощью функции Стъюдраспобр.

Если расчетное значение по абсолютной величине превышает табличное, гипотезу о несущественности параметра регрессии можно отклонить, параметр признается значимым.

Связь между F-критерием Фишера и t-критерием Стъюдента выражается равенством

.

Расчет доверительных интервалов для параметров регрессии:

Доверительный интервал для параметра a  определяется как ;

доверительный интервал для коэффициента регрессии  определяется как .

При компьютерном анализе использовать в Excel путь Сервис/Анализ данных/Регрессия.

Интервальный прогноз на основе линейного уравнения регрессии:

Пусть  – прогнозное значение факторного признака; – точечный прогноз результативного признака. Тогда

а) средняя ошибка прогноза :

;

б) доверительный интервал прогноза

.

Практические рекомендации по выполнению расчетов

с помощью табличного редактора MS Excel

Активизация надстройки Пакет анализа

Для активизации надстройки Пакет анализа необходимо выполнить следующие действия:

1. Выбрать команду Сервис/Надстройки.

2. В появившемся диалоговом окне установить флажок Пакет анализа.

В соответствии с вариантом задания, используя статистический материал, необходимо:

1. Рассчитать параметры уравнения линейной парной регрессии .

2. Оценить тесноту связи зависимой переменной (результативного фактора) с объясняющей переменной с помощью показателей корреляции и детерминации.

3. Оценить с помощью F-критерия Фишера статистическую надежность моделирования.

4. Оценить статистическую значимость параметров регрессии.

5. Определить среднюю ошибку аппроксимации.

6. Используя коэффициент эластичности, выполнить количественную оценку влияния объясняющего фактора на результат.

7. Выполнить точечный и интервальный прогноз результативного признака y при увеличении объясняющего признака x на 25% от его среднего значения (достоверность прогноза 95%).

8. На одной диаграмме изобразить поле корреляции исходных данных и прямую регрессии.

Пример

Имеются данные о годовой цене программы «Мастер делового администрирования» и числе слушателей в образовательном учреждении.

Цена программы,

тыс. долл., y

8

5

4,9

4

3,8

3,5

3,8

3,7

3,6

3,5

3,4

3

3

Число

слушателей, чел., x

5

10

12

15

20

22

25

30

35

36

40

50

60

I. Вводим исходные данные в документ Excel.

II. Значения фактора x должны быть отсортированы по возрастанию с сохранением соответствующего значения y. Это может быть сделано так Данные/Сортировка/Выделить столбец, в котором необходимо сделать сортировку. Например,

III. Вызываем надстройку Анализ данных в меню Сервис.

IV.  Выбираем инструмент Регрессия.

V.  Заполняем соответствующие позиции окна Регрессия.

VI. После нажатия ОK получаем протокол решения задачи.

VII. Анализируем полученный протокол.

1) Параметры уравнения линейной парной регрессии .

Коэффициент регрессии ;

Свободный член уравнения регрессии .

Примечание. При необходимости результаты округляются с нужной точностью. Требование по округлению можно провести изначально, задав количество знаков после запятой в меню Формат ячейки.

Уравнение парной линейной регрессии имеет вид: .

2) Оцениваем тесноту связи зависимой переменной (результативного фактора) с объясняющей переменной с помощью показателей корреляции и детерминации.

Коэффициент корреляции , что свидетельствует о тесной связи признаков y и x. Коэффициент детерминации . Полученное уравнение регрессии объясняет 53% вариации признака y, остальные 47% изменчивости этого признака обусловлены влиянием неучтенных в модели факторов.

3) Оцениваем с помощью F-критерия Фишера статистическую надежность моделирования.

Расчетное значение критерия Фишера указано в протоколе, .

Критическое значение этого критерия можно найти с помощь статистической функции FРАСПОБР табличного редактора Еxcel.

Входными параметрами этой функции являются:

уровень значимости (вероятность), имеется в виду вероятность ошибки отвергнуть верную гипотезу о статистической незначимости построенного уравнения регрессии. Как правило, выбирают уровень значимости, равный 0,05 или 0,01;

число степеней свободы 1 – совпадает с количеством параметров при переменной x в уравнении регрессии, для парной линейной регрессии  это число равно единице;

число степеней свободы 2 равно для парной линейной регрессии , где n – объем исходных статистических данных.

Выполняем действия  Вставка/Функция, выбираем нужное.

Вывод: поскольку расчетное значение F-критерия больше критического, равного 4,84, нулевая гипотеза об отсутствии значимой связи признаков x и y отклоняется и делается вывод о существенности этой связи.

4) Оценить статистическую значимость параметров регрессии.

Оценим статистическую значимость параметров a и b  в уравнении регрессии с помощью t- критерия Стъюдента.

Расчетные значения статистики Стъюдента берем из протокола (графа t-статистика): , . Соответствующее критическое значение можно определить через статистическую функцию СТЪЮДРАСПОБР, число степеней свободы равно .

Вывод: поскольку фактические значения по абсолютной величине превышают табличное, равное 2,2, гипотезу о несущественности параметров регрессии можно отклонить.

5) Определяем среднюю ошибку аппроксимации. 

Вычисляем среднюю ошибку аппроксимации, . Понадобится выполнение вспомогательных расчетов, оформленных в виде таблицы.

y

x

8

5

5,440500341

31,99374573

5

10

5,143440944

2,868818882

4,9

12

5,024617185

2,543207862

4

15

4,846381547

21,15953867

3,8

20

4,54932215

19,71900394

3,5

22

4,430498391

26,58566831

3,8

25

4,252262752

11,90165138

3,7

30

3,955203355

6,897387976

3,6

35

3,658143958

1,615109941

3,5

36

3,598732078

2,820916526

3,4

40

3,361084561

1,144571747

3

50

2,766965766

7,767807796

3

60

2,172846972

27,57176761

Среднее

4,092307692

27,69230769

12,66070741

 Вывод: средняя ошибка аппроксимации по данному уравнению регрессии составляет 12,66%, модель парной линейной регрессии можно признать удовлетворительной и пригодной для прогнозирования.

6) Используя коэффициент эластичности, выполним количественную оценку влияния объясняющего фактора на результат.

Для парной линейной регрессии эластичность можно найти по формуле . Имеем

.

Следовательно, при увеличении количества слушателей на 1% годовая цена уменьшится на 0,4%.

7) Выполним расчет прогноза y при увеличении фактора x на 25% от своего среднего значения.

Среднее значение (чел).

Прогнозное значение .

Точечный прогноз признака y вычисляем по построенному уравнению линейной регрессии: , .

Средняя ошибка прогноза вычисляем по формуле ,

где – остаточная дисперсия,   –дисперсия фактора x.

Численное значение суммы  в протоколе обозначено как остаточное SS.

Тогда , .

Самый быстрый способ получения вспомогательных характеристик  – среднего значения фактора x и - дисперсии, воспользоваться инструментом Описательная статистика в пакете Анализ данных.

Протокол вывода результатов имеет вид

Имеем .

Тогда .

Доверительный интервал прогноза: , где  –критическое значение критерия Стъюдента (найдено ранее по функции СТЪЮДРАСПОБР,  при  уровне значимости ).

Следовательно,

;

,

т.е. можно быть уверенным на 95%, что цена годового курса при 35 слушателях будет варьироваться в указанных пределах (при точечном прогнозе цены в 3,65825 тыс. долл.).

8) Для построения диаграммы выполним следующие действия:

Шаг 1   Вставка/ Диаграмма/График

Шаг 2   Далее/Диапазон/Выделить столбец исходных значений фактора y

Шаг 3  Ряд/Добавить/Значения/Выделить столбец регрессионных значений фактора – .

Шаг 4  Подписи оси X / Выделить столбец значений x.

Шаг 4  Каждому из рядов присвоить имя, подписать оси координат и название диаграммы.

 

Задания для самостоятельной работы

Вариант 1

x– энерговооруженность на 10-ти предприятиях, кВт;

y– производительность труда, тыс. руб.

x

2,8

2,2

3

3,5

3,2

3,7

4

4,8

6

5,4

y

6,7

6,9

7,2

7,3

8,4

8,8

9,1

9,8

10,6

10,7

Вариант 2

x– энерговооруженность на 10-ти предприятиях, кВт;

y– производительность труда, тыс. руб.

x

3,2

3,7

4

4,8

6

5,4

5,2

5,4

6

9

y

8,4

8,8

9,1

9,8

10,6

10,7

11,1

11,8

12,1

12,4

Вариант 3

x– качество земли, баллы;

y– урожайность, ц/га.

x

32

33

35

37

38

39

40

41

42

44

y

19,5

19

20,5

21

20,8

21,4

23

23,3

24

24,5

Вариант 4

x– качество земли, баллы;

y– урожайность, ц/га.

x

45

46

47

49

50

52

54

55

58

60

y

24,2

25

27

26,8

27,2

28

30

30,2

32

33

Вариант 5

x– товарооборот;

y–издержки обращения по отношению к товарообороту.

x

7

10

15

20

30

45

60

120

y

10

9

7,5

6

6,3

5,8

5,4

5

Вариант 6

x– электровооруженность на одного рабочего;

y– выпуск готовой продукции на одного рабочего.

x

2

5

3

7

2

6

4

9

8

4

y

3

6

4

6

4

8

6

9

9

5

Вариант 7

x–уровень доходов семьи;

y– расходы на продукты питания ( в расчете на 100 руб.  доходов).

x

1,4

3,3

5,5

7,6

9,8

12

14,7

18,9

y

1,1

1,4

2

2,4

2,8

3,1

3,5

4

Вариант 8

x– качество земли, баллы;

y– урожайность, ц/га.

x

35

37

38

39

40

41

42

44

y

23

23,3

24

24,5

24,2

25

27

28

Вариант 9

x– производительность труда;

y– рентабельность производства.

x

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

y

2,6

2,4

3,3

2,9

3,7

4,2

5,5

6,4

Вариант 10

x– производительность труда;

y– рентабельность производства.

x

0,9

1,5

2

2,5

2,8

3

1,2

1,4

y

3,1

5,1

5,9

6,1

7,2

8,1

3,8

5,3

Лабораторная работа №2

Нелинейные модели парной регрессии

Полином 2-го порядка: .

Параметры a, b и c находят, решая методом определителей систему уравнений:

Гипербола: .

Параметры a и b находят, решая систему уравнений

Регрессия 

Система нормальных уравнений  имеет вид:

.

Степенная функция: .

Пусть , , . Тогда уравнение примет вид

.

Параметры модели определяются по следующим формулам:

, .

Показательная функция: .

Пусть , , . Тогда уравнение регрессии примет вид . Параметры модели определяются по следующим формулам:

, .

Полулогарифмическая функция: .

Оценка параметров может быть найдена по формулам:

.

Логистическая функция: .

Обратная модель вида: .

Оценка параметров может быть найдена по формулам:

.  

Оценка тесноты связи в нелинейной регрессии:

а) индекс корреляции R,

,

где  – общая дисперсия результативного признака, – остаточная дисперсия.

Кроме того,

;

Величина данного показателя находится в границах , чем ближе к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии.

б) индекс детерминации имеет тот же смысл, что и коэффициент детерминации в линейных регрессионных моделях;

в) коэффициент средней эластичности , где – производная функции

Функция

Коэффициент средней эластичности

Парабола

Гипербола

Показательная

Степенная

Экспоненциальная

Полулогарифмическая

Логистическая

Обратная

Проверка статистической значимости в целом уравнения нелинейной регрессии по F-критерию Фишера

,

где n – число наблюдений, m число параметров при переменной x.

Средняя ошибка аппроксимации

.

Обоснования возможности замены нелинейной регрессии линейной функцией

1) если величина  не превышает 0,1, то предположение о линейной форме связи считается оправданным;

2) если , то вычисляют ошибку разности между  и

 

и t-критерий Стъюдента

.

Если , то различие между  и  существенно, и замена нелинейной регрессии  уравнением линейной функции невозможна. Практически, если величина , то различие между  и  не существенно, и имеет смысл перейти к линейной регрессии.

Практические рекомендации по выполнению расчетов

с помощью табличного редактора MS Excel

Имеются данные о годовой цене программы «Мастер делового администрирования» и числе слушателей в образовательном учреждении.

Цена программы,

тыс. долл., y

8

5

4,9

4

3,8

3,5

3,8

3,7

3,6

3,5

3,4

3

3

Число

слушателей, чел., x

5

10

12

15

20

22

25

30

35

36

40

50

60

Необходимо:

1. Построить поле корреляции и сформулировать гипотезу о форме связи.

2. Рассчитать параметры параболической, степенной, показательной, полулогарифмической, обратной и гиперболической регрессий.

3. Постройте на одной диаграмме с полем корреляции линию регрессии.

4. В каждом случае оцените тесноту связи с помощью показателей корреляции и детерминации.

5. Оценить с помощью средней ошибки аппроксимации качество модели.

6. Оценить с помощью F-критерия Фишера статистическую надежность результатов регрессионного моделирования.

7. Выберите лучшее уравнение регрессии.

8. Дайте по выбранному уравнению оценку силы связи фактора с результатом с помощью среднего коэффициента эластичности.

9. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его максимального в исходных данных значения. Определите доверительный интервал прогноза для уровня значимости  .

Полином 2-го порядка (парабола): .

Параметры a, b и c находят, решая методом определителей систему уравнений:

Необходима вспомогательная таблица расчетов:

y

x

8

5

25

125

625

40

200

5

10

100

1000

10000

50

500

4,9

12

144

1728

20736

58,8

705,6

4

15

225

3375

50625

60

900

3,8

20

400

8000

160000

76

1520

3,5

22

484

10648

234256

77

1694

3,8

25

625

15625

390625

95

2375

3,7

30

900

27000

810000

111

3330

3,6

35

1225

42875

1500625

126

4410

3,5

36

1296

46656

1679616

126

4536

3,4

40

1600

64000

2560000

136

5440

3

50

2500

125000

6250000

150

7500

3

60

3600

216000

12960000

180

10800

Сумма

53,2

360

13124

562032

26627108

1285,8

43910,6

Получаем систему уравнений

  •  Составим главный определитель системы, состоящий из коэффициентов при переменных a, b и c,

.

Вычислить этот определитель можно в Excel, воспользовавшись математической функцией МОПРЕД.

  •  Далее  составляем и вычисляем три вспомогательных определителя системы, ;

,  ,

.

  •  Находим параметры a, b и c соответственно по формулам , , .

Таким образом, уравнение параболической регрессии признаков x и y имеет вид: .

Показателем тесноты связи выступает индекс корреляции , коэффициент детерминации . Для расчета этих характеристик, а также для расчета средней ошибки аппроксимации необходимо составить в Excel расчетную таблицу следующего вида:

y

x

8

5

6,455490941

2,38550823

15,27006

19,30636324

5

10

5,610316807

0,3724866

0,823905

12,20633613

4,9

12

5,304252704

0,16342025

0,652367

8,250055184

4

15

4,879448212

0,77342916

0,008521

21,98620529

3,8

20

4,262885156

0,21426267

0,085444

12,18118831

3,5

22

4,048265484

0,30059504

0,350828

15,66472813

3,8

25

3,760627639

0,00155018

0,085444

1,036114765

3,7

30

3,372675661

0,10714122

0,153905

8,846603755

3,6

35

3,099029222

0,25097172

0,242367

13,91585494

3,5

36

3,058016599

0,19534933

0,350828

12,62809717

3,4

40

2,939688322

0,21188684

0,47929

13,53857875

3

50

2,96392314

0,00130154

1,193136

1,202562007

3

60

3,445380113

0,19836345

1,193136

14,84600377

Среднее

4,092308

11,96989934

Сумма

5,17626623

20,88923

Тогда ,  , .

Расчетное значение критерия Фишера равно , где n – число наблюдений, m число параметров при переменной x.  Для параболы , в данном примере .

Выводы:

  •  , что говорит о тесной прямой связи между признаками x и y.
  •  , т.е. 75,22% вариации признака y объясняется за счет признака x данным уравнением регрессии, что является весьма удовлетворительным.
  •  Средняя ошибка аппроксимации не превышает установленного предела в 15%, что свидетельствует о хорошем качестве модели.
  •  Расчетное значение критерия Фишера равно 15,18, оно превышает соответствующее табличное (критическое) значение (4,1). Найденное уравнение параболической регрессии статистически надежно.

Графическая иллюстрация приведена ниже

Степенная функция: .

Пусть , , . Тогда уравнение примет вид

.

Параметры модели определяются по следующим формулам:

, .

Составим вспомогательную таблицу.

y

x

8

5

2,079441542

1,60943791

2,59029

3,3467321

5

10

1,609437912

2,30258509

5,301898

3,7058677

4,9

12

1,589235205

2,48490665

6,174761

3,9491011

4

15

1,386294361

2,7080502

7,333536

3,7541547

3,8

20

1,335001067

2,99573227

8,974412

3,9993058

3,5

22

1,252762968

3,09104245

9,554543

3,8723435

3,8

25

1,335001067

3,21887582

10,36116

4,2972027

3,7

30

1,30833282

3,40119738

11,56814

4,4498982

3,6

35

1,280933845

3,55534806

12,6405

4,5541657

3,5

36

1,252762968

3,58351894

12,84161

4,4892998

3,4

40

1,223775432

3,68887945

13,60783

4,51436

3

50

1,098612289

3,91202301

15,30392

4,2977965

3

60

1,098612289

4,09434456

16,76366

4,4980973

Среднее

4,092308

27,69230769

1,373092597

3,12661091

10,23202

4,1329481

b

-0,35101802

A

2,470589356

a

11,82941654

Степенная регрессия имеет вид: . Для оценки тесноты связи и надежности моделирования составим расчетную таблицу

y

x

8

5

6,72376088

1,62878629

15,27006

15,952989

5

10

5,271634701

0,07378541

0,823905

5,432694022

4,9

12

4,944828847

0,00200963

0,652367

0,914874437

4

15

4,572293534

0,32751989

0,008521

14,30733836

3,8

20

4,13312325

0,1109711

0,085444

8,766401326

3,5

22

3,997134646

0,24714286

0,350828

14,20384702

3,8

25

3,821740509

0,00047265

0,085444

0,572118651

3,7

30

3,584818332

0,01326682

0,153905

3,11301806

3,6

35

3,395999538

0,04161619

0,242367

5,666679501

3,5

36

3,362583734

0,01888323

0,350828

3,926179017

3,4

40

3,240495363

0,02544173

0,47929

4,691312861

3

50

2,996361745

1,3237E-05

1,193136

0,121275157

3

60

2,810607494

0,03586952

1,193136

6,31308354

Среднее

4,092308

6,460139305

Сумма

2,52577855

20,88923

Пользуясь формулами для расчета, получим

Примечание. При вычислении статистики Фишера для степенной функции параметр m=1.

Выводы:

  •  , что говорит о тесной прямой связи между признаками x и y.
  •  , т.е. 87,91% вариации признака y объясняется за счет признака x данным уравнением регрессии, что является весьма удовлетворительным.
  •  Средняя ошибка аппроксимации не превышает установленного предела в 15%, что свидетельствует о хорошем качестве модели.
  •  Расчетное значение критерия Фишера равно 79,97, оно превышает соответствующее табличное (критическое) значение (4,8). Найденное уравнение степенной регрессии статистически надежно.

Графическая иллюстрация приведена ниже

 

Показательная функция: .

Пусть , , . Тогда уравнение регрессии примет вид . Параметры модели определяются по следующим формулам:

, .

Составим вспомогательную таблицу.

y

x

8

5

2,079441542

25

10,39721

5

10

1,609437912

100

16,09438

4,9

12

1,589235205

144

19,07082

4

15

1,386294361

225

20,79442

3,8

20

1,335001067

400

26,70002

3,5

22

1,252762968

484

27,56079

3,8

25

1,335001067

625

33,37503

3,7

30

1,30833282

900

39,24998

3,6

35

1,280933845

1225

44,83268

3,5

36

1,252762968

1296

45,09947

3,4

40

1,223775432

1600

48,95102

3

50

1,098612289

2500

54,93061

3

60

1,098612289

3600

65,91674

Среднее

4,092308

27,69230769

1,373092597

1009,53846

34,84409

B

-0,01310402

A

1,735973264

b

0,98698146

a

5,674447852

Показательная регрессия имеет вид: .

Для оценки тесноты связи и надежности моделирования составим расчетную таблицу

y

x

8

5

5,314575517

7,21150465

15,27006

33,56780603

5

10

5,271634701

0,07378541

0,823905

5,432694022

4,9

12

4,944828847

0,00200963

0,652367

0,914874437

4

15

4,572293534

0,32751989

0,008521

14,30733836

3,8

20

4,13312325

0,1109711

0,085444

8,766401326

3,5

22

3,997134646

0,24714286

0,350828

14,20384702

3,8

25

3,821740509

0,00047265

0,085444

0,572118651

3,7

30

3,584818332

0,01326682

0,153905

3,11301806

3,6

35

3,395999538

0,04161619

0,242367

5,666679501

3,5

36

3,362583734

0,01888323

0,350828

3,926179017

3,4

40

3,240495363

0,02544173

0,47929

4,691312861

3

50

2,996361745

1,3237E-05

1,193136

0,121275157

3

60

2,810607494

0,03586952

1,193136

6,31308354

Среднее

4,092308

7,81512523

Сумма

8,10849691

20,88923

Пользуясь формулами для расчета, получим

Выводы:

  •  , что говорит о тесной прямой связи между признаками x и y.
  •  , т.е. 61,18% вариации признака y объясняется за счет признака x данным уравнением регрессии, что является весьма удовлетворительным.
  •  Средняя ошибка аппроксимации не превышает установленного предела в 15%, что свидетельствует о хорошем качестве модели.
  •  Расчетное значение критерия Фишера равно 17,34, оно превышает соответствующее табличное (критическое) значение (4,8). Найденное уравнение показательной регрессии статистически надежно.

Графическая иллюстрация приведена ниже.

Полулогарифмическая функция: .

Оценка параметров может быть по решению системы уравнений:

.

y

x

8

5

1,609437912

2,59029039

12,8755

5

10

2,302585093

5,30189811

11,51293

4,9

12

2,48490665

6,17476106

12,17604

4

15

2,708050201

7,33353589

10,8322

3,8

20

2,995732274

8,97441185

11,38378

3,5

22

3,091042453

9,55454345

10,81865

3,8

25

3,218875825

10,3611616

12,23173

3,7

30

3,401197382

11,5681436

12,58443

3,6

35

3,555348061

12,6404998

12,79925

3,5

36

3,583518938

12,841608

12,54232

3,4

40

3,688879454

13,6078316

12,54219

3

50

3,912023005

15,303924

11,73607

3

60

4,094344562

16,7636574

12,28303

Сумма

53,2

360

40,64594181

133,016267

156,3181

Получаем систему уравнений

.

Решить эту систему можно любым доступным способом, например, методом подстановки. При использовании Excel это лучше сделать методом определителей.

Для

13

40,64594181

Для

53,2

40,64594181

дельта

40,64594

133,0162668

дельта a

156,318124

133,0162668

Δ

77,11888

Δa

722,768022

Для

13

53,2

дельта b

40,64594

156,318124

a

9,37212778

b

-1,6886719

Δb

-130,228493

Уравнение полулогарифмической регрессии имеет вид: .

Для оценки тесноты связи и надежности моделирования составим расчетную таблицу

y

x

8

5

6,654315149

1,81086772

15,2700592

16,82106064

5

10

5,483816959

0,23407885

0,82390533

9,676339186

4,9

12

5,175935664

0,07614049

0,65236686

5,631340072

4

15

4,799119411

0,63859183

0,00852071

19,97798528

3,8

20

4,31331877

0,26349616

0,08544379

13,50838868

3,5

22

4,152371144

0,42558811

0,3508284

18,63917555

3,8

25

3,936502518

0,01863294

0,08544379

3,59217152

3,7

30

3,628621222

0,00509493

0,15390533

1,929156163

3,6

35

3,368311295

0,05367966

0,24236686

6,435797348

3,5

36

3,320739926

0,03213417

0,3508284

5,121716394

3,4

40

3,142820581

0,06614125

0,47928994

7,564100572

3

50

2,766004328

0,05475397

1,19313609

7,799855721

3

60

2,458123033

0,29363065

1,19313609

18,06256558

Среднее

4,092308

10,36612713

Сумма

3,97283074

20,8892308

Пользуясь формулами для расчета, получим

n

13

  •  , что говорит о тесной прямой связи между признаками x и y.
  •  , т.е. 80,98% вариации признака y объясняется за счет признака x данным уравнением регрессии, что является весьма удовлетворительным.
  •  Средняя ошибка аппроксимации не превышает установленного предела в 15%, что свидетельствует о хорошем качестве модели.
  •  Расчетное значение критерия Фишера равно 46,84, оно превышает соответствующее табличное (критическое) значение (4,8). Найденное уравнение полулогарифмической регрессии статистически надежно.

R

0,899896887

R2

0,809814407

A

10,36612713

F

46,83824022

Fтабл

4,844335669

Обратная модель вида: .

Оценка параметров может быть найдена по решению системы:

.

y

x

8

5

0,125

0,625

25

5

10

0,2

2

100

4,9

12

0,20408163

2,44897959

144

4

15

0,25

3,75

225

3,8

20

0,26315789

5,26315789

400

3,5

22

0,28571429

6,28571429

484

3,8

25

0,26315789

6,57894737

625

3,7

30

0,27027027

8,10810811

900

3,6

35

0,27777778

9,72222222

1225

3,5

36

0,28571429

10,2857143

1296

3,4

40

0,29411765

11,7647059

1600

3

50

0,33333333

16,6666667

2500

3

60

0,33333333

20

3600

Сумма

53,2

360

3,38565836

103,499216

13124

Получаем систему уравнений:

.

Решение этой системы и остальные выводы по данной регрессии представлены далее.

Для

13

360

Для

3,38565836

360

дельта

360

13124

дельта a

103,499216

13124

Δ

41012

Δa

7173,66239

Для

13

3,385658355

дельта b

360

103,4992163

a

0,17491618

b

0,00308819

Δb

126,6528041

Уравнение обратной регрессии имеет вид: .

y

x

8

5

5,253283798

7,54444989

15,2700592

34,33395252

5

10

4,859132073

0,01984377

0,82390533

2,817358541

4,9

12

4,717549745

0,0332881

0,65236686

3,723474587

4

15

4,519998446

0,27039838

0,00852071

12,99996116

3,8

20

4,225114815

0,18072261

0,08544379

11,18723198

3,5

22

4,11766073

0,38150478

0,3508284

17,64744942

3,8

25

3,966351012

0,02767266

0,08544379

4,37765821

3,7

30

3,737453631

0,00140277

0,15390533

1,012260294

3,6

35

3,533534037

0,00441772

0,24236686

1,846276747

3,5

36

3,495391553

2,1238E-05

0,3508284

0,13166991

3,4

40

3,350715313

0,00242898

0,47928994

1,449549627

3

50

3,036508307

0,00133286

1,19313609

1,216943553

3

60

2,7761775

0,05009651

1,19313609

7,460750006

Среднее

4,092308

7,708041274

Сумма

8,51758027

20,8892308

n

13

  •  , что говорит о тесной прямой связи между признаками x и y.
  •  , т.е.59,23% вариации признака y объясняется за счет признака x данным уравнением регрессии, что является весьма удовлетворительным.
  •  Средняя ошибка аппроксимации не превышает установленного предела в 15%, что свидетельствует о хорошем качестве модели.
  •  Расчетное значение критерия Фишера равно 15,98, оно превышает соответствующее табличное (критическое) значение (4,8). Найденное уравнение обратной регрессии статистически надежно.

R

0,769577917

R2

0,592250171

A

7,708041274

F

15,97732585

Fтабл

4,844335669

Гипербола: .

Параметры a и b находят, решая систему уравнений

.

y

x

1/ x

y/ x

8

5

0,2

0,04

1,6

5

10

0,1

0,01

0,5

4,9

12

0,083333333

0,00694444

0,40833333

4

15

0,066666667

0,00444444

0,26666667

3,8

20

0,05

0,0025

0,19

3,5

22

0,045454545

0,00206612

0,15909091

3,8

25

0,04

0,0016

0,152

3,7

30

0,033333333

0,00111111

0,12333333

3,6

35

0,028571429

0,00081633

0,10285714

3,5

36

0,027777778

0,0007716

0,09722222

3,4

40

0,025

0,000625

0,085

3

50

0,02

0,0004

0,06

3

60

0,016666667

0,00027778

0,05

Сумма

53,2

360

0,736803752

0,07155682

3,79450361

Система имеет вид:

.

Для

13

0,736803752

Для

53,2

0,736803752

дельта

0,736804

0,071556825

дельта a

3,79450361

0,071556825

Δ

0,387359

Δa

1,01101859

Для

13

53,2

дельта b

0,736804

3,794503608

a

2,61003025

b

26,1529704

Δb

10,1305873

Уравнение гиперболической регрессии имеет вид:

.

y

x

8

5

5,253283798

7,54444989

15,2700592

34,33395252

5

10

4,859132073

0,01984377

0,82390533

2,817358541

4,9

12

4,717549745

0,0332881

0,65236686

3,723474587

4

15

4,519998446

0,27039838

0,00852071

12,99996116

3,8

20

4,225114815

0,18072261

0,08544379

11,18723198

3,5

22

4,11766073

0,38150478

0,3508284

17,64744942

3,8

25

3,966351012

0,02767266

0,08544379

4,37765821

3,7

30

3,737453631

0,00140277

0,15390533

1,012260294

3,6

35

3,533534037

0,00441772

0,24236686

1,846276747

3,5

36

3,495391553

2,1238E-05

0,3508284

0,13166991

3,4

40

3,350715313

0,00242898

0,47928994

1,449549627

3

50

3,036508307

0,00133286

1,19313609

1,216943553

3

60

2,7761775

0,05009651

1,19313609

7,460750006

Среднее

4,092308

7,708041274

Сумма

8,51758027

20,8892308

n

13

  •  , что говорит об очень тесной прямой связи между признаками x и y.
  •  , т.е.97,56% вариации признака y объясняется за счет признака x данным уравнением регрессии, что является весьма удовлетворительным.
  •  Средняя ошибка аппроксимации не превышает установленного предела в 15%, что свидетельствует о хорошем качестве модели.
  •  Расчетное значение критерия Фишера равно 440,57 оно существенно превышает соответствующее табличное (критическое) значение (4,8). Найденное уравнение обратной регрессии статистически надежно.

R

0,987745189

R2

0,975640558

A

4,638171373

F

440,5702713

Fтабл

4,844335669

Сравним результата регрессионного анализа по разным видам парных регрессий:

Регрессия

Коэффициент детерминации

Средняя ошибка аппроксимации

Парабола

Степенная

Показательная

Полулогарифмическая

Обратная

Гипербола

Линейная

Все уравнения достаточно хорошо описывают исходные данные. Однако предпочтение можно отдать гиперболе , для которой значение коэффициента детерминации наибольшее, а ошибка аппроксимации наименьшая.

Дадим по выбранному уравнению количественную оценку силы связи фактора с результатом с помощью среднего коэффициента эластичности. Для гиперболы он вычисляется по формуле , т.е. . Следовательно, при увеличении количества слушателей программы (фактора x) на 1%  цена программы (фактор y) уменьшится на 0,23%.

Рассчитаем прогнозное значение результата y, если прогнозное значение фактора x увеличится на 10% от его максимального в исходных данных значения.

(чел).

(тыс. долл.)

Определим доверительный интервал прогноза для уровня значимости . Для этого найдем среднюю ошибку прогноза ,

где – остаточная дисперсия,   –дисперсия фактора x.

Составим расчетную таблицу

y

x

8

5

514,9408284

7,84062433

0,0254006

5

10

313,0177515

5,22532729

0,05077239

4,9

12

246,2485207

4,78944445

0,01222253

4

15

161,0946746

4,35356161

0,12500581

3,8

20

59,17159763

3,91767877

0,01384829

3,5

22

32,40236686

3,79880163

0,08928242

3,8

25

7,24852071

3,65614907

0,02069309

3,7

30

5,325443787

3,48179593

0,04761301

3,6

35

53,40236686

3,35725798

0,05892369

3,5

36

69,01775148

3,33650165

0,02673171

3,4

40

151,4792899

3,26385451

0,01853559

3

50

497,6331361

3,13308966

0,01771286

3

60

1043,786982

3,04591309

0,00210801

Сумма

53,2

360

3154,769231

53,2

0,50885001

Тогда

;  ;

.

Предельная ошибка прогнозируемой стоимости программы составит

, где  – соответствующее табличное значение критерия Стъюдента.

По функции СТЪЮДРАСПОБР .

Доверительный интервал прогнозируемой стоимости программы составит:

( тыс. долл.),

т.е. при 66 слушателях курса стоимость с вероятностью 95% будет не меньше 2,42 и не больше 3,58 тыс. долл.

Контрольные задания.

Вариант 1

Имеются данные о цене однокомнатной квартиры и величине ее общей площади по 10 сделкам одного района города (табл. 1).

Таблица 1

№ п/п

1

2

3

4

5

6

7

8

9

10

Цена квартиры, тыс.долл.

29

31

35

35

45

46

45

44

38

37

Площадь,

35

35

33

34

38

40

40

39

37

36

Вариант 2

Имеются данные по 10 хозяйствам (табл. 2).

Таблица 2

Номер хозяйства

Урожайность, ц/га, y

Внесено удобрений, кг/га, х

1

15

2,1

2

18

3,6

3

17

3,5

4

22

5,0

5

25

6,5

6

20

4,2

7

24

6,3

8

19

4,0

9

23

6,0

10

27

7,5

Вариант 3

По 17 регионам страны изучается зависимость ежемесячного среднедушевого денежного дохода у от удельного веса населения в трудоспособном возрасте в общей численности населения, х (табл. 3).

Таблица 3

Номер региона

Удельный вес населения в трудоспособном возрасте в общей численности населения, %, х

Среднедушевой ежемесячный денежный доход, тыс. руб., у

1

60,6

3,4

2

59,6

3,1

3

60,8

3,7

4

59,4

3,4

5

60,4

3,6

6

60,8

3,3

7

60,6

3,1

8

59,3

3,3

9

60,3

3,6

10

62,3

4,7

11

60,2

3,2

12

59,0

3,3

13

61,4

4,1

14

58,9

3,4

15

59,0

3,2

16

59,2

3,4

17

61,0

3,9

Вариант 4

По 26 регионам страны изучается зависимость ожидаемой продолжительности жизни при рождении (лет) у от уровня заболеваемости детей в возрасте 0-14 лет на тыс. человек, х (табл. 4).

Таблица 4

Номер региона

Уровень заболеваемости детей в возрасте 0-14 лет на тыс. человек, х

Ожидаемая продолжительность жизни при рождении, лет, у

1

1108,4

67,5

2

1164,4

69,3

3

438,8

75,1

4

618,1

68,7

5

1312,4

66,2

6

982,7

68,1

7

843,0

70,0

8

1233,6

67,3

9

1173,0

67,1

10

1415,5

65,4

11

1608,6

66,4

12

1703,9

66,5

13

1529,0

66,4

14

1516,3

64,0

15

1474,3

66,0

16

1390,5

67,8

17

2208,7

62,1

18

1312,8

66,1

19

1520,5

63,7

20

1809,5

64,0

21

1569,4

65,4

22

1654,2

65,7

23

1749,5

62,3

24

1746,0

65,6

25

1475,1

65,6

26

1753,4

65,3

Вариант 5

По 18 регионам страны изучается зависимость инвестиций в основной капитал у от валового регионального продукта (ВРП) х (табл. 5).

Таблица 5

Номер региона

ВРП, млрд руб., х

Инвестиций в основной капитал, млрд руб., у

1

24,6

5,0

2

41,1

9,0

3

29,5

4,8

4

27,6

5,4

5

31,9

7,4

6

38,8

6,6

7

39,2

7,8

8

40,2

9,3

9

41,6

9,6

10

41,3

8,0

11

47,0

10,8

12

54,7

9,9

13

53,3

10,0

14

46,7

10,0

15

71,1

13,2

16

58,8

10,0

17

67,9

13,9

18

65,7

12,0

Вариант 6

По 21 региону страны изучается зависимость розничной продажи телевизоров, у от среднедушевых денежных доходов в месяц, х (табл. 6).

Таблица 6

Номер региона

Среднедушевой денежный доход в месяц, тыс. руб., х

Розничная продажа телевизоров, тыс. шт., у

1

2,8

28,0

2

2,4

21,3

3

2,1

21,0

4

2,6

23,3

5

1,7

15,8

6

2,5

21,9

7

2,4

20,0

8

2,6

22,0

9

2,8

23,9

10

2,6

26,0

11

2,6

24,6

12

2,5

21,0

13

2,9

27,0

14

2,6

21,0

15

2,2

24,0

16

2,6

24,0

17

3,3

31,9

18

3,9

33,0

19

4,0

35,4

20

3,7

34,0

21

3,4

31,0

Вариант 7

По 17 регионам страны изучается зависимость розничной продажи видеомагнитофонов, у от среднедушевых ежемесячных денежных доходов, х (табл. 7).

Таблица 7

Номер региона

Среднедушевой ежемесячный денежный доход, тыс. руб., х

Розничная продажа магнитофонов, тыс. шт., у

1

2,4

4,8

2

3,0

5,7

3

2,2

5,1

4

2,1

5,5

5

4,0

6,2

6

2,5

4,9

7

5,0

7,0

8

2,3

4,7

9

3,0

4,9

10

3,4

5,5

11

3,9

5,6

12

2,3

4,4

13

3,1

5,8

14

2,6

4,5

15

5,7

7,1

16

5,2

6,5

17

3,0

5,1

Вариант 8

По 17 регионам страны изучается зависимость среднемесячной заработной платы у от инвестиций в основной капитал на душу населения, х (табл. 8).

Таблица 8

Номер региона

Инвестиции в основной капитал на душу населения, тыс. руб., х

Среднемесячная заработная плата, тыс. руб., у

1

4,9

3,9

2

8,5

5,5

3

9,1

4,8

4

5,5

4,0

5

6,1

3,9

6

5,1

3,8

7

4,2

4,1

8

3,8

3,0

9

11,0

6,3

10

6,9

4,8

11

7,5

5,2

12

5,5

3,7

13

5,8

3,5

14

4,9

4,2

15

6,0

4,5

16

10,4

6,6

17

8,8

6,7

Вариант 9

По 27 регионам страны изучается зависимость средней заработной платы, у от валового регионального продукта (ВРП) на душу населения, х (табл. 9).

Таблица 9

Номер региона

ВРП на душу населения, тыс. руб., х

Средняя заработная плата, тыс. руб., у

1

35,8

3,5

2

22,5

2,6

3

28,3

3,2

4

26,0

2,6

5

20,0

2,6

6

31,8

3,5

7

30,5

3,1

8

29,5

2,9

9

41,5

3,4

10

41,3

4,8

11

34,5

3,0

12

34,9

3,1

13

34,7

3,3

14

26,8

2,6

15

32,5

3,3

16

32,4

3,3

17

50,9

3,9

18

44,8

4,7

19

79,1

6,5

20

47,4

5,0

21

53,3

4,5

22

33,1

3,7

23

48,4

4,5

24

61,1

7,2

25

38,9

3,4

26

26,2

2,9

27

59,3

5,4

Лабораторная работа №3

Множественная регрессия

Линейная множественная регрессия: 

Степенная функция:

Экспонента:

Гипербола: 

Оценка параметров линейной множественной регрессии

1) в натуральном масштабе, т.е. для уравнения  система нормальных уравнений имеет вид:

(6.3)

Ее решение может быть найдено,  например, методом определителей.

Вычисление параметров линейной множественной регрессии можно провести с помощью инструмента Сервис/Анализ данных/Регрессия.

2) в стандартизированном масштабе:

,    (6.4)

где – стандартизированные переменные

;

,

– стандартизированные коэффициенты регрессии. Решают систему нормальных уравнений вида

  (6.5)

Решая ее методом определителей, найдем -коэффициенты.

Определение-коэффициентов:

1) Находим матрицу парных коэффициентов корреляции. Для двухфакторной линейной регрессии она имеет вид:

y

y

1

1

1

Удобнее всего найти эту матрицу Excel, используя инструмент анализа данных Корреляция. Для этого в главном меню нужно последовательно выбрать Сервис/Анализ данных/Корреляция.

2) для стандартизированного уравнения регрессии

имеем

; .

Коэффициенты «чистой» регрессии связаны с -коэффициентами следующим образом:

.

Методика построения уравнения регрессии при двухфакторном регрессионном анализе  

приводит к следующим формулам для оценки параметров:

, , .

Методика построения уравнения регрессии в виде степенной функции

Преобразуем ее в линейный вид:

,

где переменные выражены в логарифмах. Далее процедура МНК такая же, что и описана выше: строится система нормальных уравнений и определяются параметры, которые затем следует потенцировать.

Оценка тесноты связи и статистической значимости во  множественной регрессии

1) коэффициент множественной детерминации ,

;

2) индекс множественной корреляции R;

3)линейный коэффициент множественной корреляции (для )

;

4)в случае двухфакторной линейной модели индекс множественной корреляции R может быть найден по формуле:

.

5) Скорректированный индекс (коэффициент) корреляции:

; kчисло параметров при переменных.

В статистических пакетах прикладных программ в процедуре множественной регрессии обычно приводится скорректированный коэффициент (индекс) множественной корреляции (детерминации).

6) дельта-коэффициенты :

,     (6.17)

где – коэффициент парной корреляции между y и ;

– множественный коэффициент детерминации.

7) частные коэффициенты эластичности:

,       (6.18)

где  – коэффициент «чистой» регрессии при факторе ;

– среднее значение результативного признака;

– среднее значение признака .

Значимость уравнения множественной регрессии в целом 

оценивается с помощью F-критерия Фишера:

,     (6.19)

где n – число наблюдений, m число параметров при переменной x. Если расчетное значение критерия с  и  степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

Прогнозирование по уравнению линейной множественной регрессии

где – ошибка прогнозного значения, вычисляемая по формуле

для двухфакторной модели.

Мерой для оценки включения фактора в модель

служит частный F-критерий, т.е. . Так, если оцениваем значимость влияния фактора  после включения в модель факторов , то формула частного F-критерия примет вид:

.  (6.20)

Если фактическое значение критерия с  и  степенями свободы больше табличного при заданном уровне значимости, то дополнительное включение фактора  в модель статистически оправдано и коэффициент регрессии при данном факторе статистически значим.

Оценка значимости коэффициентов «чистой» регрессии

Для каждого фактора используется формула

,      (6.22)

где  – коэффициент «чистой» регрессии при факторе ;  – средняя квадратическая ошибка коэффициента регрессии ,

,  (6.23)

где  – среднее квадратическое отклонение для признака y;

– коэффициент детерминации для уравнения множественной регрессии;

– среднее квадратическое отклонение для признака ;

– коэффициент детерминации для зависимости фактора  со всеми другими факторами уравнения множественной регрессии.

Практические рекомендации по выполнению расчетов

с помощью табличного редактора MS Excel

Исследуется зависимость производительности труда y (т/ч) от уровня механизации работ  (%), среднего возраста работников (лет) и энерговооруженности (кВт/100 работающих) по данным 14 промышленных предприятий.

32

30

36

40

41

47

56

54

60

55

61

67

69

76

33

31

41

39

46

43

34

38

42

35

39

44

40

41

300

290

350

400

400

480

500

520

590

540

600

700

700

750

y

20

24

28

30

31

33

34

37

38

40

41

43

45

48

По исходным статистическим данным необходимо:

1. Рассчитать параметры линейного уравнения множественной регрессии с полным перечнем факторов.

2. Оценить значимость уравнения в целом, используя значение множественного коэффициента корреляции и общего F-критерия Фишера.

3. Оценить статистическую значимость параметров регрессионной модели с помощью t-критерия.

4. Исследовать коллинеарность между факторами. При наличии мультиколлинеарности исключить какой-либо фактор из уравнения регрессии.

5. Построить новое уравнение множественной регрессии, провести все необходимые исследования, аналогичные проведенным выше.

6. На основании результатов п. 5 найти

а) средние коэффициенты эластичности фактора y от независимых факторов;

б) прогнозное значение результата при значении важнейшей объясняющей переменной, равном максимальному наблюденному значению, увеличенному на 10 %, и при значении второй объясняющей переменной, равном минимальному наблюденному значению, уменьшенному на 15%.

в) Интервальное предсказание значения y с надежностью 0,95.

Решение.

1. Получение протокола расчета. Операция проводится с помощью инструмента Анализ данных/Регрессия. Она аналогична расчету параметров парной линейной регрессии, рассмотренной выше, только в отличие от парной регрессии при заполнении строки входной интервал X в диалоговом окне следует указать сразу все столбцы значений факторных переменных.

Результаты анализа имеют вид:

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,97517313

R-квадрат

0,950962633

Нормированный R-квадрат

0,936251423

Стандартная ошибка

2,038864298

Наблюдения

14

Дисперсионный анализ

 

df

SS

MS

F

 

Регрессия

3

806,1446094

268,7148698

64,64204

Остаток

10

41,56967627

4,156967627

Итого

13

847,7142857

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

 

 

Y-пересечение

5,711742473

6,18918556

0,922858495

x1

0,148601283

0,340417689

0,436526326

x2

0,064880259

0,162051974

0,400366976

x3

0,037784221

0,033824423

1,11706919

 

 

2. Оцениваем статистическую значимость в целом. Изучив результаты, отмечаем, что в целом полученное уравнение линейной множественной регрессии

является статистически значимым. Действительно, . Сравним это число с табличным значением критерия Фишера, полученным при числе степеней свободы  и , где n – число наблюдений, m число параметров при переменной x. В нашем случае , . Табличное значение даст функция FРАСПОБР. , что существенно меньше расчетного значения.

О доле вариации результативного признака y, объясненной построенным уравнением множественной регрессии лучше всего судить по значению нормированного коэффициента корреляции, в данном случае он равен 0,9363. То есть построенное уравнение объясняет почти 94% всей вариации признака y.

3. Оцениваем статистическую значимость по отдельным параметрам. Чтобы оценить статистическую значимость параметров регрессионной модели с помощью t-критерия, найдем соответствующее нашим параметрам табличное значение с помощью функции СТЪЮДРАСПОБР при заданном уровне значимости 0,05 и числе степеней свободы . Коэффициент признается значимым, если выполняется неравенство .

Имеем

0,44

0,4

1,12

2,2281

Таким образом, ни один из факторов не имеет статистически значимого коэффициента регрессии, и построенное уравнение для прогнозирования непригодно.

4. Исследуем коллинеарность между факторами. Матрицу парных коэффициентов корреляции можно получить, используя инструмент Анализ данных/Корреляция. Заполнив диалоговое окно,

получим следующий результат:

Для оценки мультиколлинеарности факторов вычислим определитель матрицы парных коэффициентов корреляции факторов.

.    

Поскольку определитель матрицы межфакторной корреляции близок к нулю, имеем мультиколлинеарность факторов и вытекающую отсюда ненадежность результатов множественной регрессии.

Оценка значимости мультиколлинеарности факторов может быть проведена методом испытания гипотезы о независимости переменных, т.е. . Доказано, что величина  имеет приближенное распределение  с числом степеней свободы . Если фактическое значение  превосходит табличное (критическое), то гипотеза  отклоняется, и мультиколлинеарность считается доказанной.

Имеем  .

Критическое значение  можно найти через статистическую функцию ХИ2ОБР(), где – уровень значимости (по условию 0,05), а n – число степеней свободы. В нашем случае степеней свободы . Получаем . . Мультиколлинеарностью факторов пренебречь нельзя.

Особенно высока коллинеарность факторов  и , . Один из этих факторов следует исключить из уравнения регрессии. Логично исключить тот, который имеет меньший коэффициент парной корреляции. Поскольку , а ,  исключаем фактор .

5. Построим регрессию на факторах  и .

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,974693901

R-квадрат

0,950028201

Нормированный R-квадрат

0,940942419

Стандартная ошибка

1,962415214

Наблюдения

14

Дисперсионный анализ

 

df

SS

MS

F

Регрессия

2

805,3524775

402,6762388

104,5621

Остаток

11

42,3618082

3,851073473

Итого

13

847,7142857

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

 

Y-пересечение

7,265656067

4,873196972

1,490942416

x2

0,031021017

0,136948082

0,226516625

x3

0,052435862

0,004030875

13,00855684

 

Получили результаты:

, , , что много больше, чем .

0,22

13

2,2281

Таким образом, при весьма удовлетворительной значимости уравнения регрессии в целом, мы добились значимости коэффициента регрессии при переменной .

6.

а) Найдем коэффициенты эластичности:

,       (6.18)

где  – коэффициент «чистой» регрессии при факторе ;

– среднее значение результативного признака;

– среднее значение признака .

Имеем

y

Среднее

35,14285714

39

508,5714286

Эластичность

Таким образом, при изменении фактора (среднего возраста работников) на 1%, производительность возрастает незначительно, на 0,03%; при изменении фактора (энерговооруженности) на 1%, производительность труда увеличивается на 0,72%.

б) Выполним прогнозирование. Максимальное наблюденное значение фактора  – 750. Минимальное значение фактора 31. Прогнозные значения факторов:

; .

Тогда .

в) Доверительный интервал для данного прогнозного значения y можно найти, зная предельную ошибку прогноза , где  – соответствующее табличное значение критерия Стъюдента, а  – ошибка прогнозного значения. В нашем случае .

Ошибку прогнозного значения функции регрессии получим по формуле

.

1. Параметр S – стандартная ошибка регрессии приведен в последней регрессионной статистике .

2. Матрица  состоит из чисел:  . То есть ,

.

3. Матрица X состоит из чисел .

Составляем вспомогательную таблицу:

…..

…..

….

…..

…..

Сумма

В данном случае, .

4. Транспонируем матрицу X. Поскольку она симметрическая, то

.

5. Найдем произведение матриц . В Exсel это можно сделать  с помощью функции МУМНОЖ.

 

58537523,04

2158299716

29989312607

2158299716

79577299061

1,10572E+12

29989312607

1,10572E+12

1,53641E+13

6. Найдем обратную матрицу к матрице произведения . В Exсel это можно сделать  с помощью функции МОБР.

0,281568563

-0,007773123

9,81695E-06

-0,007773123

0,000215175

-3,13231E-07

9,81695E-06

-3,13231E-07

3,38079E-09

7. Найдем произведение матриц  (размерность матрицы произведения ).

0,083373216

-0,002314683

3,84533E-06

8. Найдем произведение матриц  (размерность матрицы произведения , то есть только одно число).

.

9. .

10. .

11. Таким образом, прогнозное значение результата будет с вероятностью 95% находиться в интервале .

Задания.

Вариант 1

x1

32

30

36

40

41

47

56

54

60

55

61

67

69

76

x2

33

31

41

39

46

43

34

38

42

35

39

44

40

41

x3

30

29

35

40

40

48

50

52

59

54

60

70

70

75

y

20

24

28

30

31

33

34

37

38

40

41

43

45

48

Вариант 2

x1

55

46

40

39

35

29

31

75

68

66

60

54

59

53

x2

33

42

45

38

40

30

32

40

39

43

38

34

41

37

x3

50

45

39

40

34

30

30

74

69

66

59

54

60

52

y

33

32

30

29

27

23

19

47

44

42

40

39

37

36

Вариант 3

x1

48

57

55

61

56

62

68

70

77

42

41

37

31

33

x2

44

35

39

43

36

40

45

41

42

47

40

42

32

34

x3

47

56

54

62

56

62

67

70

76

42

40

37

30

32

y

34

35

38

39

41

42

44

46

49

32

31

29

25

21

Вариант 4

x1

52

54

45

39

38

34

28

30

74

67

65

59

53

58

x2

36

32

41

44

37

39

29

31

39

38

42

37

33

40

x3

52

53

45

38

38

34

28

31

73

66

65

60

52

57

y

35

32

31

29

28

26

22

18

46

43

41

39

33

36

Вариант 5

x1

43

49

58

56

62

57

63

69

71

78

34

32

38

42

x2

48

45

36

40

44

37

41

46

42

43

35

33

43

41

x3

42

48

58

55

61

56

62

70

70

78

35

32

38

41

y

33

35

36

39

40

42

43

45

47

50

22

26

30

32

Вариант 6

x1

52

57

51

53

44

38

37

33

27

29

73

66

64

58

x2

32

39

35

31

40

43

36

38

28

30

38

37

41

36

x3

52

56

50

53

45

37

37

32

28

30

72

66

64

59

y

37

35

34

31

30

28

27

25

21

17

45

42

40

38

Вариант 7

x1

39

43

44

50

59

57

63

58

64

70

72

79

35

33

x2

44

42

49

46

37

41

45

38

42

47

43

44

36

34

x3

45

42

50

46

38

40

45

39

41

48

43

44

35

34

y

31

33

34

36

37

40

41

43

44

46

48

51

23

27

Вариант 8

x1

63

57

51

56

50

52

43

37

36

32

26

28

72

65

x2

40

35

31

38

34

30

39

42

35

37

27

29

37

36

x3

39

38

35

35

32

31

28

28

25

25

21

15

45

40

y

39

37

36

34

33

30

29

27

26

24

20

16

44

41

Вариант 9

x1

64

59

65

71

73

80

36

34

40

44

45

51

60

58

x2

46

39

43

48

44

45

37

35

45

43

50

47

38

42

x3

50

40

50

55

50

60

35

34

42

41

48

49

50

50

y

42

44

45

47

49

52

24

28

32

34

35

37

38

41

Вариант 10

x1

46

52

61

59

65

60

66

72

74

81

37

35

41

45

x2

51

48

39

43

47

40

44

49

45

46

38

36

46

44

x3

46

52

60

58

64

61

65

72

74

80

38

34

40

44

y

36

38

39

42

43

45

46

48

50

53

25

29

33

35

Лабораторная работа №4

Проверка адекватности модели регрессии

по особенностям остаточных величин

Практические рекомендации к выполнению задания

Представлены данные о доходах по акциям x и балансовой прибыли y по 11 предприятиям одной отрасли, ден. ед.

x

3

4

5

7

8

10

11

12

15

20

30

y

12

13

20

19

31

24

41

28

52

55

103

Задание

Проверить выполнение следующих требований:

  1.  Уровни  ряда остатков имеют случайный характер.
  2.  Математическое ожидание уровней ряда остатков равно нулю.
  3.  Значения  независимы друг от друга, т.е. отсутствует автокорреляция.

1. Для проверки случайности ряда остатков можно использовать критерий поворотных точек (пиков). Предварительно составляют таблицу данных:

Точка  считается поворотной, если выполняются следующие условия

 или .    (5.1)

Далее подсчитывается число поворотных точек p. Критерием случайности с 5%-ным уровнем значимости, т.е. с доверительной вероятностью 95%, является выполнение равенства

,   (5.2)

где – целая часть числа. Если неравенство выполняется, то модель считается адекватной.

Пусть расчет регрессии дал следующие результаты

,

x

y

Остатки

3

12

9,165277

2,834723

4

13

12,39552

0,604484

5

20

15,62576

4,374245

7

19

22,08623

-3,086233

8

31

25,31647

5,683528

10

24

31,77695

-7,77695

11

41

35,00719

5,992811

12

28

38,23743

-10,237428

15

52

47,92815

4,071855

20

55

64,07934

-9,07934

30

103

96,38173

6,61827

Среднее

-3,18182E-06

Цветом выделены поворотные точки. Их всего 9, в этом легко убедиться, если просмотреть пики графика (значения фактора x должны быть отсортированы по возрастанию)

.

Неравенство верное, остатки признаем случайными.

2. Для проверки равенства математического ожидания остаточной последовательности нулю вычисляется среднее значение ряда остатков

.      (5.3)

Если , то считается, что модель не содержит постоянной систематической ошибки и адекватна по критерию нулевого среднего. Если , то проверяется гипотеза о равенстве нулю математического ожидания. Для этого вычисляют t-критерий Стъюдента по формуле

,     (5.4)

где  – среднее квадратическое отклонение ряда остатков, , m – число параметров при переменной x.

Значение t-критерия сравнивают с табличным при заданном уровне значимости. Если выполняется неравенство , то модель неадекватна по данному критерию.

По расчетам , то есть по данному пункту модель признаем адекватной.

3. Проверку независимости последовательности остатков (отсутствие автокорреляции) осуществляют с помощью d-критерия Дарбина-Уотсона. Расчетное значение критерия определяется по формуле

    (5.6)

и сравнивается  с нижним  и верхним  критическими значениями статистики Дарбина-Уотсона.

Возможны следующие случаи:

1) Если , то гипотеза о независимости остатков отвергается, и модель признается неадекватной по критерию независимости остатков.

2)  Если , включая сами эти значения, то считается, что нет достаточных оснований делать тот или иной вывод.

3) Если , то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию.

4) Если , то это свидетельствует об отрицательной автокорреляции остатков. В этом случае расчетное значение критерия необходимо преобразовать по формуле  и сравнивать с критическим значением не d, а .

Составляем вспомогательную таблицу:

x

y

y~

Остатки ε

3

12

9,165277

2,834723

8,035654

4

13

12,39552

0,604484

4,973965997

0,365400906

5

20

15,62576

4,374245

14,211098

19,13401932

7

19

22,08623

-3,086233

55,65873199

9,52483413

8

31

25,31647

5,683528

76,908708

32,30249053

10

24

31,77695

-7,77695

181,184468

60,4809513

11

41

35,00719

5,992811

189,606318

35,91378368

12

28

38,23743

-10,237428

263,420658

104,8049321

15

52

47,92815

4,071855

204,75558

16,58000314

20

55

64,07934

-9,07934

172,9539299

82,43441484

30

103

96,38173

6,61827

246,4149597

43,80149779

Сумма

1410,088418

413,3779817

Определяем значение . Критические значения  критерия Дарбина-Уотсона находят по специальным таблицам для заданных объема наблюдений n и числа независимых переменных модели .

В нашем случае . Имеем отрицательную автокорреляцию остатков. Переходим к , .

Так как , модель признается неадекватной, остатки регрессии взаимозависимы. Уравнение регрессии  не может быть использовано для прогнозирования. Автокорреляция в остатках может иметь разные причины. Возможно,  форма связи неточна, или в уравнение не включен какой-либо существенный фактор.

Значения статистики Дарбина-Уотсона

на 5%-ном уровне значимости

n

6

0,61

1,40

7

0,70

1,36

0,47

1,90

8

0,76

1,33

0,56

1,78

0,37

2,29

9

0,82

1,32

0,63

1,70

0,46

2,13

10

0,88

1,32

0,70

1,64

0,53

2,02

11

0,93

1,32

0,66

1,60

0,60

1,93

12

0,97

1,33

0,81

1,58

0,66

1,86

13

1,01

1,34

0,86

1,56

0,72

1,82

14

1,05

1,35

0,91

1,55

0,77

1/78

15

1,08

1,36

0,95

1,54

0,82

0,75

0,69

1,97

0,56

2,21

16

1,10

1,37

0,98

1,54

0,86

1,73

0,74

1,93

0,62

2,15

17

1,13

1,38

1,02

1,54

0,90

1,71

0,78

1,90

0,67

2,10

18

1,16

1,39

1,05

1,53

0,93

1,69

0,82

1,87

0,71

2,06

19

1,18

1,40

1,08

1,53

0,97

1,68

0,86

1,85

0,75

2,02

20

1,20

1,41

1,10

1,54

1,00

1,68

0,90

1,83

0,79

1,99

21

1,22

1,42

1,13

1,54

1,03

1,67

0,93

1,81

0,83

1,96

22

1,24

1,43

1,15

1,54

1,05

1,66

0,96

1,80

0,86

1,94

23

1,26

1,44

1,17

1,54

1,08

1,66

0,99

1,79

0,90

1,92

24

1,27

1,45

1,19

1,55

1,10

1,66

1,01

1,78

0,93

1,90

25

1,29

1,45

1,21

1,55

1,12

1,66

1,04

1,77

0,95

1,89

26

1,30

1,46

1,22

1,55

1,14

1,65

1,06

1,76

0,98

1,88

27

1,32

1,47

1,24

1,56

1,16

1,65

1,08

1,76

1,01

1,86

28

1,33

1,48

1,26

1,56

1,18

1,65

1,10

1,75

1,03

1,85

29

1,34

1,48

1,27

1,56

1,20

1,65

1,12

1,74

1,05

1,84

30

1,35

1,49

1,28

1,57

1,21

1,65

1,14

1,74

1,07

1,83

Задание

1. Провести проверку адекватности линейной регрессии, построенной в ЛР №1

2. Провести проверку адекватности множественной регрессии, построенной в ЛР №3

Лабораторная работа №5

Анализ построенной модели регрессии

на гетерокедастичность остатков

Практические рекомендации к выполнению задания

Представлены данные о доходах по акциям x и балансовой прибыли y по 11 предприятиям одной отрасли, ден. ед.

x

3

4

5

7

8

10

11

12

15

20

30

y

12

13

20

19

31

24

41

28

52

55

103

Задание

1. Проверить гипотезу о наличии гетерокедастичности в линейной регрессии с помощью теста ранговой корреляции Спирмена при доверительной вероятности 0,95.

2. Проверить гипотезу о гетерокедастичности с помощью теста Гольфельда-Квандта.

3. Дайте график зависимости остатков регрессии от фактора x.

4. Оцените количественно гетерокедастичность остатков с помощью теста Уайта.

5. Если гетерокедастичность  обнаружена, попытаться сгладить ее с помощью обобщенного МНК.

Решение. 

1) Суть проверки заключается в том, что в случае гетерокедастичности абсолютные остатки  коррелированны со значениями фактора . Эту корреляцию можно измерить с помощью коэффициента ранговой корреляции Спирмена:

,

где d – абсолютная разность между рангами  и . Статистическая значимость коэффициента  оценивается по критерию Стъюдента. Расчетное значение t-критерия вычисляется по формуле:

.

Данная величина сравнивается с критической величиной при  и числе степеней свободы . Если , то корреляция между  и  статистически значима, т.е. имеет место гетерокедастичность остатков. В противном случае принимается гипотеза об отсутствии гетерокедастичности остатков.

Прежде всего найдем уравнение линейной регрессии.

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,970082893

R-квадрат

0,941060819

Нормированный R-квадрат

0,934512021

Стандартная ошибка

6,777232983

Наблюдения

11

Дисперсионный анализ

 

df

SS

MS

F

Регрессия

1

6600,258

6600,258

143,6998

Остаток

9

413,378

45,93089

Итого

10

7013,636

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

-0,525438344

3,681329

-0,14273

0,889647

x

3,230238574

0,269468

11,98748

7,77E-07

Уравнение регрессии .

Чтобы рассчитать параметр , составим вспомогательную таблицу. Рангом величин, выстроенных в упорядоченный ряд, называется порядковый номер по возрастанию. Переменная x в условиях уже упорядочена. Ранги остатков предстоит найти либо вручную, либо с помощью функции Ранг.

x

y

Остатки

Ранг x

Ранг

d

d2

3

12

9,165277

2,834723

2,834723

1

2

1

1

4

13

12,39552

0,604484

0,604484

2

1

1

1

5

20

15,62576

4,374245

4,374245

3

5

2

4

7

19

22,08623

-3,086233

3,086233

4

3

1

1

8

31

25,31647

5,683528

5,683528

5

6

1

1

10

24

31,77695

-7,77695

7,77695

6

9

3

9

11

41

35,00719

5,992811

5,992811

7

7

0

0

12

28

38,23743

-10,237428

10,237428

8

11

3

9

15

52

47,92815

4,071855

4,071855

9

4

5

25

20

55

64,07934

-9,07934

9,07934

10

10

0

0

30

103

96,38173

6,61827

6,61827

11

8

3

9

Среднее

-3,18182E-06

Сумма

60

Тогда коэффициент ранговой корреляции Спирмена равен . Для оценки его статистической значимости найдем расчетное значение критерия Стъюдента . По функции СТЪЮДРАСПОБР (вероятность 0,05, степеней свободы n-2) находим соответствующее критическое значение Стъюдента . Делаем вывод о наличии гетерокедастичности в остатках регрессии.

2) Применим тест Гольдфельда-Квандта для подтверждения гетерокедастичности остатков.

В расчетной таблице разделим исходные данные на две примерно равные группы (верхнюю и нижнюю).

x

y

Остатки

3

12

9,165277

2,834723

4

13

12,39552

0,604484

5

20

15,62576

4,374245

7

19

22,08623

-3,086233

8

31

25,31647

5,683528

10

24

31,77695

-7,77695

11

41

35,00719

5,992811

12

28

38,23743

-10,237428

15

52

47,92815

4,071855

20

55

64,07934

-9,07934

30

103

96,38173

6,61827

Построим линейную регрессию по каждой группе.

Для верхней группы

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,890348

R-квадрат

0,79272

Нормированный

R-квадрат

0,723627

Стандартная

ошибка

3,986411

Наблюдения

5

Дисперсионный анализ

 

df

SS

MS

F

Регрессия

1

182,3256

182,3256

11,47317

Остаток

3

47,67442

15,89147

Итого

4

230

 

 

 

Коэффициенты

Стандартная

ошибка

t-статистика

P-Значение

Y-пересечение

1,418605

5,488159

0,258485

0,812752

Переменная X 1

3,255814

0,961209

3,387207

0,042863

 Из всего объема данных нам необходима только остаточная дисперсия , которая в протоколе регресс обозначена как остаточная SS. .

Для нижней группы

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,964861689

R-квадрат

0,930958079

Нормированный R-квадрат

0,913697599

Стандартная ошибка

8,389255527

Наблюдения

6

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

1

3795,982

3795,982

53,93582

0,00183

Остаток

4

281,5184

70,37961

Итого

5

4077,5

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Y-пересечение

-8,661290323

8,753454

-0,98947

0,378445

-32,9648

Переменная X 1

3,622119816

0,493201

7,344101

0,00183

2,252774

.

Расчетное значение теста получается как отношение большей остаточной дисперсии к меньшей. . Критической значение теста получаем  по функции FРАСПОБР, в которой число степеней свободы равно

 n-2, в данном случае оно равно 6,59. Поскольку расчетное значение больше критического, остатки признаются гетерокедастичными.

3) Применим тест Уайта, чтобы количественно оценить зависимость дисперсии остатков от значений фактора x.

В эконометрических исследованиях достаточно часто выдвигается гипотеза о том, что

  •  остатки пропорциональны значениям фактора x: ;
  •   дисперсия остатков прямопропорциональна самим значениям x, т.е. ;
  •  зависимость между дисперсией остатков и значениями фактора x квадратичная  .

Параметры этих регрессии можно найти МНК. Составим расчетную таблицу.

x

y

Остатки

3

12

9,165277

2,834723

8,035654487

4

13

12,39552

0,604484

0,365400906

5

20

15,62576

4,374245

19,13401932

7

19

22,08623

-3,086233

9,52483413

8

31

25,31647

5,683528

32,30249053

10

24

31,77695

-7,77695

60,4809513

11

41

35,00719

5,992811

35,91378368

12

28

38,23743

-10,237428

104,8049321

15

52

47,92815

4,071855

16,58000314

20

55

64,07934

-9,07934

82,43441484

30

103

96,38173

6,61827

43,80149779

Для регрессии  пользуемся Сервис/Анализ данных/Регрессия/…Поставить флажок «Константа-нуль».

Получаем протокол

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,304158793

R-квадрат

0,092512571

Нормированный R-квадрат

-0,01859854

Стандартная ошибка

6,104515756

Наблюдения

10

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

1

34,19047

34,19047084

0,917493

0,366182

Остаток

9

335,386

37,26511262

Итого

10

369,5765

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

 

Y-пересечение

0

#Н/Д

#Н/Д

#Н/Д

Переменная X

-0,172201879

0,179778

-0,957858421

0,363156

 

Результат неудовлетворительный. коэффициент детерминации всего 0,09.

Аналогично строим регрессию , взяв в качестве входного интервала Y  столбец . Получаем протокол

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,864535947

R-квадрат

0,747422404

Нормированный R-квадрат

0,636311293

Стандартная ошибка

26,25750385

Наблюдения

10

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

1

18362,0291

18362,0291

26,632614

0,000862939

Остаток

9

6205,108576

689,4565085

Итого

10

24567,13768

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

 

Y-пересечение

0

#Н/Д

#Н/Д

#Н/Д

Переменная X 1

3,990668767

0,773283573

5,160679613

0,0005945

 

В данном уравнении достаточная степень детерминации – 0,74, кроме того значимость по критерию Фишера не превосходит допустимые 5% ошибки в расчетах. Принимаем гипотезу о том, что дисперсия остатков прямопропорциональна самим значениям x.

Для проверки гипотезы о квадратичной зависимости  решают методом определителей систему уравнений (см. ЛР Нелинейная регрессия):

Определяют индекс корреляции . О наличии или отсутствии гетерокедастичности судят по величине F-критерия Фишера для функции , . При выполнении условия  имеет место гетерокедастичность остатков и количественно она выражена значением . По данному расчету предположение о квадратичной зависимости дисперсии остатков от значений x не проверяем (поскольку принята гипотеза ).

5) Улучшим модель, смягчив гетерокедастичность, пользуясь обобщенным методом наименьших квадратов. Если  , тогда сами остатки пропорциональны .

Чтобы избавиться от этого, разделим уравнение линейной регрессии  на . Получим преобразованное уравнение регрессии, в котором можно сделать замену переменной:

. Пусть , , . Тогда .

Построим вспомогательную таблицу

x

y

X

z

Y

3

12

1,732051

0,577350269

6,92820323

4

13

2

0,5

6,5

5

20

2,236068

0,447213595

8,94427191

7

19

2,645751

0,377964473

7,181324987

8

31

2,828427

0,353553391

10,96015511

10

24

3,162278

0,316227766

7,589466384

11

41

3,316625

0,301511345

12,36196513

12

28

3,464102

0,288675135

8,082903769

15

52

3,872983

0,25819889

13,42634227

20

55

4,472136

0,223606798

12,29837388

30

103

5,477226

0,182574186

18,80514114

Протокол регрессионного анализа имеет вид:

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,986894

R-квадрат

0,9739597

Нормированный R-квадрат

0,8599553

Стандартная ошибка

1,9415488

Наблюдения

11

Дисперсионный анализ

 

df

SS

MS

F

Регрессия

2

1268,921

634,4607182

168,3092927

Остаток

9

33,92651

3,769611932

Итого

11

1302,848

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

0

#Н/Д

#Н/Д

#Н/Д

X

3,02343

0,296117

10,21024561

3,00843E-06

z

1,8246585

2,72558

0,669456856

0,520006975

Получаем уравнение регрессии . Или .

Показатели статистической значимости уравнения регрессии улучшены. Увеличился коэффициент детерминации  с 94% до 97%. Существенно уменьшилась остаточная дисперсия с 413 ед. до 33 ед.

Задание:

По своим данным ЛР1 выполнить анализ гетерокедастичности остатков. А именно:

1. Проверить гипотезу о наличии гетерокедастичности в линейной регрессии с помощью теста ранговой корреляции Спирмена при доверительной вероятности 0,95.

2. Проверить гипотезу о гетерокедастичности с помощью теста Гольфельда-Квандта.

3. Оцените количественно гетерокедастичность остатков.

4. При наличии гетерокедастичности, применить обобщенный МНК для ее сглаживания.

Лабораторная работа №6

Анализ динамики временных рядов

Для выявления специфики развития изучаемых явлений за отдельные периоды времени определяют:

  •  абсолютные приросты уровней ряда;
  •  относительные приросты уровней ряда, т.е. темпы роста;
  •  темпы прироста.

Рассматривая данные показатели, необходимо правильно выбирать базу сравнения, которая зависит от цели исследования. При сравнении каждого уровня ряда с предыдущим получаются цепные показатели; при сравнении каждого уровня с одним и тем же уровнем (базой) получаются базисные показатели.

1. Для выражения абсолютной скорости роста или снижения уровней ряда вычисляют абсолютный прирост. Его величина определяется как разность двух сравниваемых уровней. Так, для цепных приростов, используется формула:

.

2. Интенсивность изменения уровней ряда оценивается отношением текущего уровня к предыдущему или базисному. Этот показатель принято называть темпом роста:

.

3. Для выражения изменения величины абсолютного прироста уровней ряда в относительных величинах используется темп прироста, который рассчитывается как отношение абсолютного прироста к предыдущему или к базисному уровню:

или .

Также справедлива формула .

Особое внимание уделяют расчетам средних показателей рядов динамики, среди них различают:

  •  средний уровень ;
  •  средний абсолютный прирост ;
  •  средний темп роста , где m – число периодов, по которым вычисляется среднее.
  •  средний темп прироста .

Анализ автокорреляционной функции и коррелограммы позволяет определить лаг, при котором связь между текущим и предыдущим уровнями наиболее тесная. Причем,

  •  если наиболее высоким оказался коэффициент автокорреляции первого порядка, то исследуемый ряд содержит только тренд и не содержит сезонных колебаний;
  •  если временной ряд имеет линейную тенденцию, то его соседние уровни  и  тесно коррелируют;
  •  если временной ряд содержит сильную нелинейную тенденцию, например, в форме экспоненты, то коэффициент автокорреляции первого порядка по логарифмам исходного уровня будет выше, чем соответствующий коэффициент, подсчитанный по непреобразованным уровням ряда;
  •   если наиболее высоким оказался коэффициент автокорреляции порядка , ряд содержит циклические колебания с периодичностью в  моментов времени;
  •   если ни один из коэффициентов автокорреляции не является значимым, можно сделать предположение относительно структуры этого ряда: либо ряд содержит только случайную компоненту, либо содержит сильную нелинейную тенденцию, для выявления которой нужно провести дополнительный анализ.

Выбор уравнения тренда

При выборе уравнения тренда необходимо руководствоваться принципом простоты. Чем сложнее уравнение линии тренда и чем большее число параметров содержит, тем при равной степени приближения труднее дать надежную оценку этим параметрам.

На практике чаще всего используют следующие основные виды трендов временных рядов:

  •  линейный тренд ;
  •  гипербола ;
  •  параболический тренд ;
  •  экспоненциальный тренд  или ;
  •  тренд в форме степенной функции ;
  •  логарифмический тренд ;
  •  логистический  или .

Для правильного выбора типа тренда, который наилучшим способом отражает тенденцию фактического ряда уровней, следует руководствоваться слудующим:

  •  Построить график ряда в правильно выбранном масштабе. Причем если уровни ряда различаются в большое количество раз, ось ординат следует разметить в логарифмическом масштабе, т.е как .
  •  Линейный тип тренда подходит для отображения тенденции примерно равномерного изменения уровней: равных в среднем величин абсолютного пророста (или абсолютного сокращения) за равные промежутки времени.
  •  Параболический тренд используют, если цепные темпы изменений либо уменьшаются, либо некоторое время возрастают, но при достаточно большом периоде рано или поздно темпы роста обязательно начинают уменьшаться (темпы сокращения уровней начинают возрастать).
  •  Уравнение логарифмического тренда применяют в том случае, когда изучаемый процесс приводит к замедлению роста показателя, но при этом рост не прекращается, а стремится к какому-нибудь ограниченному пределу.
  •  Логистическая форма тренда используется для описания процессов, при которых изучаемый показатель проходит полный цикл развития,

– начиная от нулевого уровня, сначала медленно, но с ускорением возрастая;

– затем ускорение становится нулевым в середине цикла, т.е. рост происходит по линейному тренду;

– далее, в завершающей части цикла рост замедляется по гиперболе по мере приближения к предельному значению показателя.

Если графического анализа недостаточно, то необходимо провести дополнительное исследование:

1) Чтобы снизить искажающее тренд влияние циклических колебаний, проводят сглаживание ряда методом скользящего выравнивания.

2) Исходный (или сглаженный) ряд разбивают на несколько равных или примерно равных подпериодов, и по каждому вычисляют среднюю величину цепных абсолютных приростов . Если она будет постоянной для всех подпериодов, то выбирают линейную форму тренда.

3) Сглаженный ряд разбивают на несколько равных или примерно равных подпериодов, и по каждому вычисляют среднюю величину цепных относительных изменений (темпов прироста) . Если она будет постоянной на всех подпериодах, то выбирают экспоненциальную форму тренда.

4) Если по подпериодам постоянным будет среднее ускорение уровней , то в качестве тренда следует выбрать параболу.

5) Если ни один из предложенных параметров не имеет постоянной тенденции, то можно с помощью t-критерия Стъюдента проверить гипотезу о существенности различия средних значений параметра в разных подпериодах ряда.

Пример1

Администрация банка изучает динамику депозитов физических лиц за несколько лет (млн.$ в сопоставимых ценах).

Время, t

1

2

3

4

5

6

7

Размер депозитов, y

2

6

7

3

10

12

13

Задание.

Обосновать и построить тренд данного ряда. Оценить достоверность модели.

На основании приближенно постоянного среднего абсолютного прироста можно выбрать линейную форму  для описания основной тенденции данного ряда. Параметры a и b, а также коэффициент детерминации можно найти следующими способами

  •  На построенный график наложить линейный тренд в меню Диаграмма.
  •  Воспользоваться пакетом анализа в меню Сервис/Анализ данных/Регрессия.

Результаты двух способов ниже:

Регрессионная статистика

Множественный R

0,866025404

R-квадрат

0,75

Нормированный R-квадрат

0,7

Стандартная ошибка

2,342160175

Наблюдения

7

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

1

82,285714

82,28571

15

0,011725

Остаток

5

27,428571

5,485714

Итого

6

109,71429

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

 

 

Y-пересечение

0,714285714

1,9794866

0,360844

t

1,714285714

0,4426267

3,872983

 

 

Таким образом,  модель временного ряда имеет вид  , и она достоверна на 75%.

Пример 2

Изучается динамика потребления мяса в регионе. Для этого собраны данные об объемах среднедушевого потребления мяса (кг)  за 7 месяцев. Обосновать и построить тренд данного ряда. Оценить достоверность модели.

t

1

2

3

4

5

6

7

y

8,16

8,25

8,41

8,76

9,2

9,78

10,1

Графический анализ:

Анализ цепных абсолютных изменений и темпов изменения уровней ряда:

t

y

Абсолют ный прирост Δ

Средний абсолютный прирост по подпериодам

Темпы прироста

Средний темп прироста

1

8,16

2

8,25

0,09

0,011029

3

8,41

0,16

0,2

0,019394

0,024013

4

8,76

0,35

0,041617

5

9,2

0,44

0,050228

6

9,78

0,58

0,446667

0,063043

0,048664

7

10,1

0,32

0,03272

Выбираем экспоненциальный тренд , поскольку обнаружилось большее сходство именно в средних темпах прироста.

Построенная модель  достоверна на 95,78%. Поскольку , то тренд выражает тенденцию усиливающегося замедления роста уровней.

Задания.

Вариант 1

Имеются следующие данные об активах коммерческого банка в одном из регионов за 2003 год на первое число каждого месяца

Определите

  •  среднемесячные уровни активов коммерческого банка за первый, второй кварталы и за полугодие в целом;
  •  абсолютные приросты;
  •  темпы роста;
  •  темпы прироста;
  •  средний темп роста в процентах.

Рассчитать по исходным данным коэффициенты автокорреляции до -го порядка. Сделать выводы по поводу трендовой и сезонной составляющих.

Аргументированнно  подобрать линию тренда.

Вариант 2

Остатки вкладов населения в сбербанках города в 2003 году характеризуются следующими данными на 1-е число месяца

Определите

  •  среднемесячные остатки вкладов за первый и второй кварталы;
  •  абсолютные приросты;
  •  темпы роста;
  •  темпы прироста;
  •  средний темп роста в процентах;
  •  абсолютный прирост изменения среднего остатка вклада во втором квартале по сравнению с первым.

Рассчитать по исходным данным коэффициенты автокорреляции до -го порядка. Сделать выводы по поводу трендовой и сезонной составляющих.

Аргументированно подобрать линию тренда.

Вариант 3

Списочная численность работников фирмы в 2003 году составила на 1-е число месяца (чел)

Январь

Февраль

Март

Апрель

Май

Июнь

Июль

Август

Сентябрь

Октябрь

Ноябрь

Декабрь

Январь 2004

347

350

349

351

345

349

357

359

351

352

359

353

360

Определите:

  •  темпы роста;
  •  темпы прироста;
  •  средний темп роста в процентах;
  •  среднемесячную численность работников фирмы  в первом и втором полугодиях;
  •  среднегодовую численность работников фирмы;
  •  абсолютный прирост численности работников  во втором полугодии по сравнению с первым.

Рассчитать по исходным данным коэффициенты автокорреляции до -го порядка. Сделать выводы по поводу трендовой и сезонной составляющих.

Аргументированно подобрать линию тренда.

Вариант 4

Имеются следующие данные по объединению о производстве промышленной продукции за 1998-3003 гг в сопоставимых ценах (млн руб):

1998

1999

2000

2001

2002

2003

67,7

73,2

75,7

77,9

81,9

84,4

Определите:

  •  темпы роста;
  •  темпы прироста;
  •  средний темп роста в процентах;
  •  средний уровень ряда динамики;
  •  среднегодовой темп прироста.

Рассчитать по исходным данным коэффициенты автокорреляции до -го порядка. Сделать выводы по поводу трендовой и сезонной составляющих.

Аргументированно подобрать линию тренда.

Вариант 5

Имеются следующие данные о производстве молока в России за 1995-2000 гг. (млн т):

1995

1996

1997

1998

1999

2000

39,2

35,8

34,1

33,3

32,3

32,3

Определите:

  •  темпы роста;
  •  темпы прироста;
  •  средний темп роста в процентах;
  •  средний уровень ряда динамики;
  •  среднегодовой темп прироста.

Рассчитать по исходным данным коэффициенты автокорреляции до -го порядка. Сделать выводы по поводу трендовой и сезонной составляющих.

Аргументированно подобрать линию тренда.

Вариант 6

Ввод в действие жилых домов предприятиями всех форм собственности в одном из регионов в 1996-2003 гг. характеризуется следующими данными (млн кв. м. общей площади)

1996

1997

1998

1999

2000

2001

2002

2003

17

18

19

20

21

20

22

23

Определите:

  •  абсолютные приросты;
  •  темпы роста;
  •  темпы прироста;
  •  средний темп роста в процентах;
  •  среднегодовой абсолютный прирост.

Рассчитать по исходным данным коэффициенты автокорреляции до -го порядка. Сделать выводы по поводу трендовой и сезонной составляющих.

Аргументированно подобрать линию тренда.

Вариант 7

Производство электроэнергии в регионе в 1996-2003 гг. характеризуется следующими данными (млрд кВт/ч)

1996

1997

1998

1999

2000

2001

2002

2003

915

976

1038

1111

1150

1202

1239

1294

Определите:

  •  абсолютные приросты;
  •  темпы роста;
  •  темпы прироста;
  •  средний темп роста в процентах;
  •  среднегодовой абсолютный прирост.

Рассчитать по исходным данным коэффициенты автокорреляции до -го порядка. Сделать выводы по поводу трендовой и сезонной составляющих.

Аргументированно подобрать линию тренда.

Вариант 8

Имеются следующие данные о динамике браков и разводов в некотором городе:

1996

1997

1998

1999

2000

2001

2002

2003

Браки

74,1

75,3

69,7

61,1

49,2

45,1

39,7

48

Разводы

15

11,8

10,5

7,6

7,3

6,7

6,6

6,8

Определите:

  •  среднегодовые уровни браков и разводов;
  •  цепные абсолютные приросты;
  •  цепные темпы роста;
  •  темпы прироста;
  •  средний: абсолютный прирост, темп роста и прироста в процентах.

Рассчитать по исходным данным коэффициенты автокорреляции до -го порядка. Сделать выводы по поводу трендовой и сезонной составляющих.

Аргументированно подобрать линию тренда.

Вариант 9

Имеются данные  об общем объеме розничного товарооборота региона по месяцам 2003 года (млрд руб)

1

2

3

4

5

6

7

8

9

10

11

12

22,8

24,9

31

29,5

30,5

35,6

36,4

42,6

45,1

47,3

51

53,4

Определите:

  •  абсолютные приросты;
  •  темпы роста;
  •  темпы прироста;
  •  средний темп роста в процентах.

Рассчитать по исходным данным коэффициенты автокорреляции до -го порядка. Сделать выводы по поводу трендовой и сезонной составляющих.

Аргументированно подобрать линию тренда.

Вариант 10

Имеются данные об урожайности зерновых в хозяйствах области (ц/га)

1

2

3

4

5

6

7

8

10,2

10,7

11,7

13,1

14,9

17,2

20

23,2

Определите:

  •  абсолютные приросты;
  •  темпы роста;
  •  темпы прироста;
  •  средний темп роста в процентах.

Рассчитать по исходным данным коэффициенты автокорреляции до -го порядка. Сделать выводы по поводу трендовой и сезонной составляющих.

Аргументированно подобрать линию тренда.

Лабораторная работа №7

Моделирование временных рядов

с сезонными колебаниями

Модель  временного ряда с сезонными колебаниями можно рассматривать в следующих возможных формах:

, ,

где T – регулярная (основная) компонента, характеризующая общую тенденцию ряда (тренд),

S – сезонная компонента (внутригодичные колебания), в общем случае – циклическая составляющая,

E – случайная компонента (случайные отклонения).

Расчет сезонной составляющей.

Проверку на наличие или отсутствие сезонных колебаний можно провести визуально при построении графика или при анализе коррелограммы. Если наиболее высоким по сравнению с другими (кроме ) оказался коэффициент автокорреляции порядка k, ряд содержит циклические колебания с периодичностью в k моментов времени.

Пример 1.

Провести анализ коррелограммы по следующим данным спроса на прохладительные напитки за последовательные 16 кварталов

№ квартала

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

Спрос y

60

100

120

39

75

119

139

44

89

160

199

60

90

200

260

80

Очевидно наличие циклических колебаний. С помощью функции Корелл находим коэффициенты автокорреляции. Максимальный лаг должен быть не больше n/4, в нашем случае – не больше 4. Результаты расчета приведены в таблице

0,138485

-0,49654

0,054228

0,985546

Наиболее высоким оказался коэффициент автокорреляции четвертого порядка, т.е. период колебаний равен 4.

Значения сезонной компоненты рассчитывают методом скользящей средней и построением аддитивной или мультипликативной модели.

Аддитивную модель  применяют в том случае, если амплитуда сезонных колебаний со временем не меняется.

Если происходят существенные изменения амплитуды сезонных колебаний, то для моделирования временного ряда применяют мультипликативную модель .

Процесс построения модели проводят в следующей последовательности:

  1.  Расчет значений сезонной компоненты;
  2.  Устранение сезонной компоненты из исходных уровней ряда и получение выровненных данных  в аддитивной модели и  в мультипликативной.
  3.  Подбор линии тренда. Расчет значений T по уравнению тренда.
  4.  Расчет полученных по модели значений  или .
  5.  Расчет случайной компоненты  (т.е. ошибок)  или .

Если полученные значения не содержат автокорреляции, ими можно заменить исходные уровни ряда и в дальнейшем использовать временной ряд ошибок Е для анализа взаимосвязи исходного ряда и других временных рядов.

Пример.

Имеются поквартальные данные по розничному товарообороту в России за 5 лет. Построить мультипликативную модель временного ряда.

Рассчитаем период колебаний.

r1

r2

r3

r4

r5

0,544397543

0,02207

0,029835

0,256621

-0,30614

Вывод: из всех коэффициентов автокорреляции (кроме ) самое высокое значение (по модулю) – у . Моделируем сезонные колебания с периодом 5.

t

y

Скользящая средняяя за 5 кварталов (СС)

центрированная скользящая средняя (ЦСС)

Сезонная компо нента

1

100

2

93,9

3

96,5

100

4

101,8

99,26

99,63

1,021780588

5

107,8

99,62

99,44

1,084070796

6

96,3

99,96

99,79

0,965026556

7

95,7

100,4

100,18

0,955280495

8

98,2

98,64

99,52

0,986736334

9

104

99,14

98,89

1,051673577

10

99

101,8

100,47

0,985368767

11

98,8

104,78

103,29

0,956530158

12

109

103,66

104,22

1,045864517

13

113,1

103,32

103,49

1,092859213

14

98,4

103,98

103,65

0,94934877

15

97,3

101,7

102,84

0,946129911

16

102,1

95,82

98,76

1,03381936

17

97,6

93

94,41

1,033788794

18

83,7

91,22

92,11

0,908696124

19

84,3

20

88,4

Сумма

15,01697396

Откорректируем сезонную компоненту, в мультипликативной модели суммарная сезонная компонента должна быть равна величине периода, т.е. 5. Разделим  весь объем данных на группы кварталов с одинаковым номером в своем периоде.

Группа

Кварталы

Сезонная компонента S

Средняя S по группе

Корректи рующий коэффициент k

Скорректи рованая сезонная компонента S*k

I

1

1,001131597

6

0,96502656

11

0,95653016

0,985125

0,98624012

16

1,03381936

II

2

7

0,9552805

12

1,04586452

1,011645

1,01278938

17

1,03378879

III

3

8

0,98673633

13

1,09285921

0,996097

0,99722441

18

0,90869612

IV

4

1,02178059

9

1,05167358

14

0,94934877

1,007601

1,00874118

19

V

5

1,0840708

10

0,98536877

15

0,94612991

1,00519

1,00632729

20

Сумма

5,01132238

Примечание. Корректирующий коэффициент равен средней арифметической всех средних сезонных компонент, вычисленных по группам.

Уравнение параболического тренда подобрано при построении графика в меню Диаграмма: .

Продолжим  расчеты  в таблице

t

y

Скорректи рованая сезонная компонента S*k

Удаление из временного ряда сезонной составляющей y/(S*k)

Тренд, вычисленный по данным с удаленной сезонной компонентой, Т

T*(S*k)

E=y/(T*(S*k))

E2

(y-yср)2

1

100

0,986240

101,3951

94,5768

93,2754

1,0720936

1,14938

2,9070

2

93,9

1,012789

92,71424

96,5888

97,8241

0,9598860

0,92138

19,316

3

96,5

0,997224

96,76859

98,327

98,0540

0,9841507

0,96855

3,2220

4

101,8

1,008741

100,9178

99,7914

100,663

1,0112881

1,02270

12,285

5

107,8

1,006327

107,1222

100,982

101,620

1,0608049

1,12530

90,345

6

96,3

0,986240

97,64356

101,8988

100,496

0,9582405

0,91822

3,9800

7

95,7

1,012789

94,49151

102,5418

103,853

0,9214926

0,84914

6,7340

8

98,2

0,997224

98,47332

102,911

102,625

0,9568784

0,91561

0,0090

9

104

1,008741

103,0987

103,0064

103,906

1,0008969

1,00179

32,547

10

99

1,006327

98,37753

102,828

103,478

0,9567193

0,91531

0,4970

11

98,8

0,986240

100,1784

102,3758

100,967

0,9785363

0,95753

0,2550

12

109

1,012789

107,6235

101,6498

102,949

1,0587680

1,12099

114,59

13

113,1

0,997224

113,4147

100,65

100,370

1,1268235

1,26973

219,18

14

98,4

1,008741

97,54732

99,3764

100,245

0,9815944

0,96352

0,0110

15

97,3

1,006327

96,68822

97,829

98,4479

0,98833909

0,97681

0,9900

16

102,1

0,986240

103,5244

96,0078

94,6867

1,0782924

1,16271

14,478

17

97,6

1,012789

96,36751

93,9128

95,1138

1,0261382

1,05296

0,4830

18

83,7

0,997224

83,93296

91,544

91,2899

0,9168592

0,84063

213,014

19

84,3

1,008741

83,56950

88,9014

89,6785

0,9400246

0,88364

195,86

20

88,4

1,006327

87,84418

85,985

86,5290

1,0216221

1,04371

97,911

Сумма

20,0596

1028,6

Среднее

98,2

Отношение суммы квадратов абсолютных ошибок к общей сумме квадратов отклонений уровней ряда от его среднего значения:

.

Построенная модель достоверна на 99,05%.

Вычислим прогнозное значение величины розничного товарооборота в России во третьем квартале  года, следующего после окончания статистических наблюдений. Имеем  ,  , . Тогда

.

Рассмотрим методику построения аддитивной модели на примере.

Пример 2.

Имеются следующие данные об экспорте  РФ нефтепродуктов за 2002-2005 гг. по данным Федеральной таможенной службы России:

Квартал

Экспорт – всего

(в страны дальнего зарубежья и СНГ), млн т.

2002

2003

2004

2005

I

17,8

19,7

21,7

24

II

20,2

20,8

24,1

27

III

21,1

21,6

26,1

26,7

IV

18,5

20,3

25,3

25,8

1) Применим методику скользящего выравнивания для дальнейшего создания аддитивной модели

Годы

Квартал

Объем экспорта

y

Итого за 4 квартала

Скользящая средняя за 4 квартала

Центрированная скользящая средняя

Сезонная компонента

S

2002

I

17,8

II

20,2

77,6

19,4

III

21,1

79,5

19,9

19,65

21,1-19,65=1,45

IV

18,5

80,1

20

19,95

18,5-19,95=-1,45

2003

I

19,7

80,6

20,2

20,1

19,7-20,1=-0,4

II

20,8

82,4

20,6

20,4

20,8-20,4=0,4

III

21,6

84,4

21,1

20,85

21,6-20,85=0,75

IV

20,3

87,7

21,9

21,5

20,3-21,5=-1,2

2004

I

21,7

92,2

23,1

22,5

21,7-22,5=-0,8

II

24,1

97,2

24,3

23,7

24,1-23,7=0,4

III

26,1

99,5

24,9

24,6

26,1-24,6=1,5

IV

25,3

102,4

25,6

25,25

25,3-25,25=0,05

2005

I

24

103

25,8

25,7

24-25,7=-1,7

II

27

103,5

25,9

25,85

27-25,85=1,15

III

26,7

IV

25,8

Полученная  модель динамики экспорта может быть использована с некоторыми ограничениями. С I по III квартал наблюдается повышение экспорта, а в конце года – снижение показателя, однако центрированная средняя показывает только тенденцию повышения.

2) Продолжим расчеты значений сезонной компоненты. В моделях с сезонной компонентой обычно предполагается, что сезонные воздействия за период взаимопогашаются. В аддитивной модели это выражается в том, что сумма значений сезонной компоненты по всем кварталам должна быть равна нулю. Тем не менее, по данной модели имеем . Рассчитаем корректирующий коэффициент и найдем скорректированные значения сезонной компоненты как разность между ее средней оценкой и корректирующим коэффициентом.

Квартал

Год

Сезонная компонента

S

Итого за квартал по годам

Средняя сезонная компонента за квартал

Корректирующий коэффициент

Скорректированная сезонная компонента

I

2002

-2,9

-0,967

(-0,967+0,65+1,233-,867)/4=0,01225

-0,97925

2003

-0,4

2004

-0,8

2005

-1,7

II

2002

1,95

0,65

0,63775

2003

0,4

2004

0,4

2005

1,15

III

2002

1,45

3,7

1,233

1,22075

2003

0,75

2004

1,5

2005

IV

2002

-1,45

-2,6

-0,867

-0,87925

2003

-1,2

2004

0,05

2005

Итого

0,049

0

3) Устраним сезонную компоненту из временного ряда, вычислим тренд и случайную составляющую

t

y

S

y-S

T

T+S

E=y-(T+S)

E2

(y-yср)2

1

17,8

-0,9793

18,77925

18,2037

17,22445

0,57555

0,331258

22,09

2

20,2

0,63775

19,56225

18,7824

19,42015

0,77985

0,608166

5,29

3

21,1

1,22075

19,87925

19,3611

20,58185

0,51815

0,268479

1,96

4

18,5

-0,8793

19,37925

19,9398

19,06055

-0,5605

0,314216

16

5

19,7

-0,9793

20,67925

20,5185

19,53925

0,16075

0,025841

7,84

6

20,8

0,63775

20,16225

21,0972

21,73495

-0,9349

0,874132

2,89

7

21,6

1,22075

20,37925

21,6759

22,89665

-1,2966

1,681301

0,81

8

20,3

-0,8793

21,17925

22,2546

21,37535

-1,0753

1,156378

4,84

9

21,7

-0,9793

22,67925

22,8333

21,85405

-0,1540

0,023731

0,64

10

24,1

0,63775

23,46225

23,412

24,04975

0,05025

0,002525

2,56

11

26,1

1,22075

24,87925

23,9907

25,21145

0,88855

0,789521

12,96

12

25,3

-0,8793

26,17925

24,5694

23,69015

1,60985

2,591617

7,84

13

24

-0,9793

24,97925

25,1481

24,16885

-0,1688

0,02851

2,25

14

27

0,63775

26,36225

25,7268

26,36455

0,63545

0,403797

20,25

15

26,7

1,22075

25,47925

26,3055

27,52625

-0,8262

0,682689

17,64

16

25,8

-0,8793

26,67925

26,8842

26,00495

-0,2049

0,042005

10,89

Итого

360,7

0

360,7

360,7032

360,7032

-0,0032

9,824166

136,75

Уравнение тренда выясняется в Excel функцией Линейн (для линейного тренда) или, что более удобно:

Вставка/Диаграмма/График/Добавить линию тренда/Отобразить уравнение тренда на экран. Результат может выглядеть следующим образом

Таким образом, имеем линейный тренд

,

где .

3) По аналогии с моделью регрессии для оценки качества построения модели, а также для выбора наилучшей модели используют сумму квадратов абсолютных ошибок . Для данной модели она равна 9,82. Средний уровень ряда  равен 360,7/16=22,5 . Отношение суммы квадратов случайной компоненты к общей сумме квадратов отклонений уровней ряда от его среднего значения:

.

Вывод: построенная аддитивная модель объясняет 92,8% общей вариации экспорта нефтепродуктов за 16 кварталов исследуемых четырех лет и ее можно использовать в прогнозах.

Вычислим прогнозное значение объема экспорта во втором квартале 2006 года. Имеем  , , . Тогда

.

Задания по вариантам

Вариант 1

Вариант 2

Вариант 3

Вариант 4

1

16

1

7

1

6

1

10

2

13

2

10

2

11

2

7

3

8

3

9

3

7

3

3

4

10

4

6

4

3

4

3

5

18

5

3

5

2

5

12

6

16

6

4

6

3

6

9

7

11

7

11

7

10

7

5

8

12

8

14

8

13

8

5

9

19

9

12

9

11

9

12

10

19

10

7

10

8

10

11

11

13

11

3

11

4

11

5

12

15

12

6

12

7

12

8

13

23

13

13

13

13

13

16

14

20

14

15

14

15

14

13

15

14

15

13

15

15

15

9

16

18

16

9

16

8

16

11

17

23

17

7

17

6

17

18

18

23

18

9

18

8

18

15

19

14

19

11

20

19

20

13

Вариант 5

Вариант 6

Вариант 7

Вариант 8

1

8

1

23

1

15

1

13

2

8

2

22

2

11

2

10

3

2

3

14

3

6

3

7

4

5

4

17

4

4

4

7

5

10

5

21

5

8

5

9

6

10

6

20

6

10

6

13

7

5

7

13

7

13

7

12

8

8

8

14

8

12

8

8

9

14

9

21

9

5

9

4

10

13

10

18

10

4

10

6

11

8

11

12

11

5

11

7

12

10

12

12

12

11

12

10

13

16

13

19

13

13

13

10

14

15

14

16

14

9

14

8

15

9

15

9

15

6

15

5

16

13

16

13

16

3

16

3

17

18

17

18

17

3

17

5

18

19

18

16

18

8

18

9

19

12

19

8

19

10

19

8

20

15

20

9

20

8

20

6

Вариант 9

Вариант 10

1

13

1

15

2

10

2

10

3

6

3

8

4

9

4

14

5

11

5

16

6

8

6

13

7

5

7

14

8

8

8

16

9

10

9

19

10

6

10

19

11

6

11

17

12

8

12

20

13

9

13

24

14

6

14

22

15

2

15

19

16

4

16

24

17

8

17

26

18

3

18

24

19

13,43

20

14,99

Лабораторная работа №8

Анализ взаимосвязи двух временных рядов

Имеются следующие данные о величине дохода на одного члена семьи и расхода на некоторый товар по годам

год

1985

1986

1987

1988

1989

1990

Расход, руб

30

35

39

44

50

53

Доход, % к 1985 г

100

103

105

109

115

118

Необходимо:

1. Построить уравнение линейной регрессии расходов от дохода, оцените его качество с помощью критерия Фишера и коэффициента детерминации. Оцените надежность параметров регрессии с помощью критерия Стъюдента.  Оцените автокорреляцию остатков

а) с помощью коэффициентов автокорреляции;

б) по критерию Дарбина-Уотсона.

2. По исходным данным постройте уравнение регрессии, включив в него фактор времени, оцените его качество и надежность параметров. Оцените автокорреляцию в остатках.

3. По исходным данным постройте уравнение регрессии по первым разностям. Оцените автокорреляцию в остатках.

Справочный материал

Последовательность выявления автокорреляции

с помощью критерия Дарбина-Уотсона

Расчетное значение критерия определяется по формуле

    (5.6)

и сравнивается  с нижним  и верхним  критическими значениями статистики Дарбина-Уотсона.

Возможны следующие случаи:

1) Если , то гипотеза о независимости остатков отвергается, и модель признается неадекватной по критерию независимости остатков.

2)  Если , включая сами эти значения, то считается, что нет достаточных оснований делать тот или иной вывод (зона неопределенности).

3) Если , то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию.

4) Если , то это свидетельствует об отрицательной автокорреляции остатков. В этом случае расчетное значение критерия необходимо преобразовать по формуле  и сравнивать с критическим значением не d, а .

На практике, если фактическое значение критерия Дарбина-Уотсона попадает в зону неопределенности, то предполагают наличие автокорреляции.

Уравнение линейной регрессии по уровням временных рядов

Уравнение регрессии и все статистические параметры получим по Анализ данных/Регрессия. Причем, в диалоговом окне ввода данных и параметров вывода можно поставить флажок на позиции Остатки, чтобы сразу получить значения :

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,991706944

R-квадрат

0,983482664

Нормированный

R-квадрат

0,97935333

Стандартная

ошибка

1,27038632

Наблюдения

6

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

1

384,3778

384,377807

238,16

0,000103

Остаток

4

6,455526

1,613881402

Итого

5

390,8333

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

-93,21832884

8,766333

-10,6336741

0,000443

Доход, % к 1985 г

1,246630728

0,080778

15,43275083

0,000103

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное Расход, руб

Остатки ε

1

31,44474394

-1,44474

2,087285039

2

35,18463612

-0,18464

0,034090496

1,587872

3

37,67789757

1,322102

1,747954825

2,270261

4

42,66442049

1,33558

1,78377264

0,000182

5

50,14420485

-0,1442

0,020795039

2,189762

6

53,88409704

-0,8841

0,781627567

0,54744

Сумма

6,455525606

6,595517

Выводы:

  •  Уравнение  достоверно на 98%.
  •  Статистика критерия Фишера – 238,16; значимость F – 0,000103, что не превышает допустимый уровень значимости 0,05. Уравнение в целом признаем значимым.
  •  Статистики критерия Стъюдента для коэффициентов регрессии также имеют допустимый уровень ошибки (P-значение) и признаются значимыми.

Найдем коэффициенты автокорреляции остатков до  порядка. Поскольку в этой задаче 6 наблюдений, ищем  с помощью функции Коррел.

r1

r2

0,314389

-0,88749

Вывод: коэффициент автокорреляции второго порядка достаточно высок, что может указывать  на невозможность использования линейного уравнения регрессии для прогнозирования.

Для окончательно проверки остатков регрессии на автокорреляцию, рассчитаем значение d-статистики Дарбина-Уотсона , получаем . Критические значения критерия (по таблице)  . Поскольку выполняется неравенство , гипотеза о независимости остатков отклоняется, и модель признается неадекватной по данному критерию.

Уравнение регрессии по уровням временных рядов

с включенным фактором времени

Построим уравнение регрессии, включив в него фактор времени.

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,998347903

R-квадрат

0,996698535

Нормированный R-квадрат

0,994497558

Стандартная ошибка

0,655825836

Наблюдения

6

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

2

389,5430108

194,7715

452,8437

0,0001

Остаток

3

1,290322581

0,430108

Итого

5

390,8333333

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

-5,419354839

25,73678769

-0,21057

0,8467152

Доход, % к 1985 г

0,322580645

0,269890331

1,195229

0,3178675

год

3,516129032

1,014634504

3,465414

0,0404807

ВЫВОД

ОСТАТКА

Наблюдение

Предсказанное Расход, руб

Остатки

1

30,35483871

-0,35483871

0,125911

2

34,83870968

0,161290323

0,026015

0,2663892

3

39

-7,1054E-15

5,05E-29

0,0260146

4

43,80645161

0,193548387

0,037461

0,037461

5

49,25806452

0,741935484

0,550468

0,3007284

6

53,74193548

-0,74193548

0,550468

2,201873

1,290323

2,8324662

Выводы:

  •  Уравнение  достоверно на 99,67%.
  •  Статистика критерия Фишера – 452,84; значимость F – 0,0001, что не превышает допустимый уровень значимости 0,05. Уравнение в целом признаем значимым.
  •  Из коэффициентов регрессии можно признать значимым только , только у него допустимый уровень ошибки (0,04< 0,05). Можно делать вывод том, что с каждым годом расход на данный товар увеличивается в среднем на 3,52 руб.
  •  Коэффициенты автокорреляции остатков

r1

r2

-0,61008

-0,24304

  •  Статистика Дарбина-Уотсона . Критические значения критерия . Выполняется неравенство , поэтому переходим к значению . Так как , автокорреляция в остатках регрессии отсутствует.

Уравнение регрессии по первым разностям

Ежегодные абсолютные приросты (первые разности) определяются по формулам , .

yt

xt

Δy

Δx

30

100

35

103

5

3

39

105

4

2

44

109

5

4

50

115

6

6

53

118

3

3

Если ряды динамики характеризуются линейной тенденцией, то модель можно  построить в виде . Для подтверждения линейной тенденции найдем по каждому ряду коэффициенты автокорреляции первого порядка.

r1 для у

r1 для x

0,989571476

0,973773

Эти коэффициенты близки к единице, поэтому целесообразно моделировать взаимосвязь рядов по первым разностям. Если бы при невысоких значениях , достаточно высокими окажутся коэффициенты , есть смысл моделировать по вторым разностям .

Строим уравнение .

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,751809412

R-квадрат

0,565217391

Нормированный R-квадрат

0,420289855

Стандартная ошибка

0,868114732

Наблюдения

5

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

1

2,93913

2,93913

3,9

0,142772

Остаток

3

2,26087

0,753623

Итого

4

5,2

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

a

2,565217391

1,101068

2,329754

0,102171

b

0,565217391

0,286209

1,974842

0,142772

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное Y

Остатки

1

4,260869565

0,73913

0,546314

2

3,695652174

0,304348

0,092628

0,189036

3

4,826086957

0,173913

0,030246

0,017013

4

5,956521739

0,043478

0,00189

0,017013

5

4,260869565

-1,26087

1,589792

1,701323

2,26087

1,924386

Выводы:

  •  Уравнение  достоверно на 56,52%.
  •  Статистика критерия Фишера – 3,9; значимость F – 0,14, что превышает допустимый уровень значимости 0,05. Уравнение в целом признаем незначимым.
  •  Из коэффициентов регрессии ни один нельзя признать значимым. Уровень ошибки везде превышает 0,05.
  •  Статистика Дарбина-Уотсона . Критические значения критерия . Поскольку выполняется неравенство , гипотеза о независимости остатков отклоняется, и модель признается неадекватной по данному критерию.

Вывод: таким образом, на данном этапе наиболее пригодным для прогнозирования считаем уравнение с включенным фактором времени. 

Вариант 1

Вариант 2

Вариант 3

Вариант 4

Месяц

p

q

Месяц

p

q

Месяц

p

q

Месяц

p

q

1

9,8

197,8

1

12,8

197,8

1

9,8

197,8

1

9,8

199,8

2

13,0

188,9

2

14,0

188,9

2

12,0

189,9

2

13,0

188,9

3

16,2

181,0

3

17,2

182,0

3

15,2

180,0

3

15,2

180,0

4

19,4

172,1

4

18,4

171,1

4

16,4

172,1

4

18,4

173,1

5

21,6

162,2

5

20,6

162,2

5

21,6

163,2

5

21,6

162,2

6

20,7

155,4

6

21,7

154,4

6

20,7

155,4

6

23,7

155,4

7

22,9

144,5

7

25,9

146,5

7

24,9

144,5

7

25,9

144,5

8

27,1

135,6

8

25,1

137,6

8

26,1

135,6

8

26,1

135,6

9

29,3

126,7

9

29,3

127,7

9

27,3

127,7

9

29,3

126,7

10

29,5

117,8

10

32,5

119,8

10

30,5

119,8

10

32,5

119,8

11

34,7

110,9

11

34,7

109,9

11

34,7

110,9

11

34,7

109,9

12

33,8

100,1

12

36,8

102,1

12

36,8

100,1

12

35,8

100,1

13

37,0

92,2

13

38,0

91,2

13

37,0

93,2

13

37,0

91,2

14

40,2

83,3

14

39,2

83,3

14

38,2

82,3

14

39,2

82,3

15

41,4

75,4

15

43,4

75,4

15

42,4

73,4

16

43,6

65,5

16

45,6

66,5

16

43,6

66,5

17

44,7

55,6

17

47,7

57,6

18

46,9

47,7

18

49,9

47,7

19

52,1

37,9

19

51,1

39,9

20

53,3

30,0

20

53,3

30,0

21

55,5

21,1

22

56,7

12,2

23

60,8

4,3

24

63,0

-4,6

Вариант 5

Вариант 6

Вариант 7

Вариант 8

Месяц

p

q

Месяц

p

q

Месяц

p

q

Месяц

p

q

1

11,8

199,8

1

9,8

197,8

1

12,8

198,8

1

9,8

197,8

2

12,0

189,9

2

13,0

190,9

2

13,0

190,9

2

14,0

190,9

3

16,2

182,0

3

16,2

182,0

3

17,2

181,0

3

14,2

181,0

4

16,4

173,1

4

16,4

173,1

4

18,4

173,1

4

18,4

172,1

5

21,6

164,2

5

21,6

162,2

5

20,6

163,2

5

20,6

162,2

6

20,7

153,4

6

21,7

153,4

6

22,7

153,4

6

22,7

153,4

7

22,9

146,5

7

25,9

146,5

7

23,9

144,5

7

24,9

146,5

8

25,1

136,6

8

25,1

135,6

8

26,1

135,6

8

28,1

136,6

9

28,3

127,7

9

27,3

128,7

9

29,3

128,7

9

29,3

128,7

10

30,5

118,8

10

30,5

118,8

10

29,5

117,8

10

29,5

119,8

11

31,7

110,9

11

31,7

110,9

11

31,7

110,9

11

32,7

108,9

12

35,8

100,1

12

36,8

101,1

12

33,8

101,1

12

34,8

101,1

13

38,0

92,2

13

39,0

91,2

13

36,0

92,2

13

36,0

92,2

14

41,2

84,3

14

41,2

84,3

14

39,2

82,3

14

38,2

82,3

15

43,4

73,4

15

42,4

75,4

15

42,4

75,4

15

42,4

73,4

16

45,6

64,5

16

45,6

66,5

16

44,6

66,5

16

43,6

66,5

17

47,7

55,6

17

47,7

55,6

17

47,7

56,6

18

47,9

48,7

18

47,9

46,7

18

46,9

47,7

19

50,1

38,9

19

51,1

37,9

20

53,3

29,0

20

53,3

30,0

21

55,5

22,1

22

56,7

13,2

Вариант 9

Вариант 10

Месяц

p

q

Месяц

p

q

1

12,8

199,8

1

12,8

197,8

2

14,0

189,9

2

12,0

190,9

3

14,2

180,0

3

14,2

181,0

4

17,4

173,1

4

18,4

172,1

5

19,6

162,2

5

19,6

164,2

6

23,7

155,4

6

21,7

154,4

7

23,9

146,5

7

25,9

144,5

8

26,1

136,6

8

28,1

137,6

9

28,3

126,7

9

27,3

126,7

10

31,5

118,8

10

31,5

118,8

11

31,7

108,9

11

32,7

108,9

12

36,8

101,1

12

36,8

102,1

13

39,0

91,2

13

37,0

91,2

14

41,2

83,3

14

41,2

83,3

15

42,4

74,4

16

43,6

64,5

17

45,7

55,6

18

49,9

48,7

Лабораторная работа №9

Моделирование временных рядов

с распределенным лагом

Рассмотрим модель с распределенным лагом в ее общем виде в предположении, что максимальная величина лага конечна:

.

Данная модель говорит о том, что если в некоторый момент времени t происходит изменение независимой переменной x, то это изменение будет влиять на значения переменной y в течение l следующих моментов времени.

Коэффициент регрессии  при перемеренной  характеризует среднее абсолютное изменение  при изменении  на 1 единицу своего измерения в некоторый фиксированный момент времени  , без учета воздействия лаговых значений фактора . Этот коэффициент называют краткосрочным мультипликатором.

В момент  совокупное воздействие факторной переменной   на результат  составит  условных единиц, в момент  это воздействие можно охарактеризовать суммой  и т. д. Полученные таким образом суммы называют промежуточным мультипликаторами.

С учетом конечной величины лага можно сказать, что изменение переменной  в момент  на 1 у.е. приведет к общему изменению результата через  моментов времени на  абсолютных единиц.

Введем следующее обозначение:

Величину  называют долгосрочным мультипликатором, который показывает абсолютное изменение в долгосрочном периоде  результата  под влиянием изменения на 1 ед. фактора .

Предположим,

.

Назовем полученные величины относительными коэффициентами модели с распределенным лагом. Если все коэффициенты  имеют одинаковые знаки, то выполняются условия  и . Каждый из коэффициентов  измеряет долю от общего изменения результативного признака в момент времени .

Зная величины , можно определить еще две важные характеристики: величину среднего и медианного лагов.

Средний лаг вычисляется по формуле

и представляет собой средний период, в течение которого будет происходить изменение результата под воздействием изменения фактора в момент времени t.  Небольшая величина среднего лага свидетельствует об относительно быстром реагировании результата на изменение фактора, тогда как высокое его значение говорит о том, что воздействие фактора на результат будет сказываться в течение длительного периода времени.

Медианный лаг – это величина лага, для которого . Это период времени, в течение которого с момента времени t будет реализована половина общего воздействия фактора на результат.

Лаги, структуру которых можно описать с помощью полиномов, называют лагами Алмон.

Формально модель зависимости коэффициентов  от величины лага j в форме полинома можно записать так:

.

Тогда каждый из коэффициентов  модели  можно выразить следующим образом:

   (*)

Подставив данные соотношения в модель, и перегруппировав слагаемые, получим

Введем новые обозначения

……………………………………………..

.

Тогда модель с распределенным лагом будет выглядеть следующим образом:

.

Процедура применения метода Алмон для расчета параметров модели с распределенным лагом выполняется следующим образом:

  1.  Определяется максимальная величина лага l.
  2.  Определяется степень полинома k, описывающего структуру лага.
  3.  Рассчитываются значения переменных  .
  4.  Определяются параметры уравнения линейной регрессии  по данным значениям  и .
  5.  С помощью соотношений (*) рассчитываются параметры  исходной  модели с распределенным лагом .

Пример.

В таблице представлены данные по региону о месячном доходе на душу населения (x) и денежных расходах населения (y) по месяцам за 2 года.

y

90

95

103

115

134

132

145

156

167

178

202

214

x

120

117

132

136

155

163

174

178

188

203

231

255

y

225

237

241

244

256

271

288

289

297

312

335

347

x

246

264

278

289

295

300

305

316

332

347

376

389

Задание.

 I. Построить модель с распределенным лагом используя лаги от одного до трех месяцев

При этом необходимо:

  1.  применить обычный МНК;
  2.  применить метод Алмон, исходя из предположения, что  лаг имеет линейную структуру ;
  3.  Рассчитать средний и медианный лаги.

II. Построить модель с распределенным лагом используя лаги от одного до четырех месяцев

.

При этом необходимо:

  1.  применить обычный МНК;
  2.  применить метод Алмон, исходя из предположения, что  структура лага описывается полиномом второй степени , где
  3.  Рассчитать средний и медианный лаги.

I. Выполняем расчет для регрессии  через Анализ данных/Регрессия. Для этого строим вспомогательную таблицу

90

120

95

117

103

132

115

136

132

117

120

134

155

136

132

117

132

163

155

136

132

145

174

163

155

136

156

178

174

163

155

167

188

178

174

163

178

203

188

178

174

202

231

203

188

178

214

255

231

203

188

225

246

255

231

203

237

264

246

255

231

241

278

264

246

255

244

289

278

264

246

256

295

289

278

264

271

300

295

289

278

288

305

300

295

289

289

316

305

300

295

297

332

316

305

300

312

347

332

316

305

335

376

347

332

316

347

389

376

347

332

90

120

132

117

120

Протокол расчета :

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,997244635

R-квадрат

0,994496863

Нормированный R-квадрат

0,993121078

Стандартная ошибка

5,802269075

Наблюдения

21

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

4

97343,91021

24335,97755

722,85812

7,53348E-18

Остаток

16

538,6612227

33,66632642

Итого

20

97882,57143

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

 

Y-пересечение

-8,212350419

4,986282848

-1,646988482

0,1190561

Переменная X 1

0,618169232

0,149223144

4,142582811

0,0007651

Переменная X 2

-0,056537753

0,206740199

-0,273472472

0,787987

Переменная X 3

0,323694928

0,20619296

1,569864111

0,136009

Переменная X 4

0,066599661

0,154758466

0,430345831

0,672684

 

То есть модель имеет вид

.

Удовлетворительным результат назвать нельзя, поскольку

  •  вычисленные коэффициенты не являются статистически значимыми (вероятность ошибки их расчета значительно превышают допустимый уровень в 0,05);
  •  коэффициенты имеют разные знаки, что противоречит здравому смыслу: влияние признака x в разные периоды не может быть разнонаправленным.

2) Применяем метод Алмон для расчета параметров модели

.

а) Структура лага линейная, т.е.

Необходимо преобразовать исходные данные в новые переменные . Это преобразование выглядит следующим образом:

.

y

x

90

120

95

117

103

132

z0

z1

115

136

505

726

134

155

540

751

132

163

586

823

145

174

628

881

156

178

670

965

167

188

703

1015

178

203

743

1066

202

231

800

1113

214

255

877

1201

225

246

935

1326

237

264

996

1449

241

278

1043

1521

244

289

1077

1544

256

295

1126

1637

271

300

1162

1707

288

305

1189

1757

289

316

1216

1790

297

332

1253

1826

312

347

1300

1879

335

376

1371

1959

347

389

1444

2066

Строим регрессию

Протокол расчета

Регрессионная статистика

Множественный R

0,99673

R-квадрат

0,993471

Нормированный R-квадрат

0,992745

Стандартная ошибка

5,958766

Наблюдения

21

Дисперсионный анализ

 

 

 

 

df

SS

MS

F

Значимость F

Регрессия

2

97243,44739

48621,72369

1369,360199

2,15734E-20

Остаток

18

639,1240428

35,50689127

Итого

20

97882,57143

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

а

-7,81343

5,112546309

-1,528284687

0,143824277

с0

0,413363

0,083158004

4,970810164

9,88999E-05

с1

-0,11675

0,056121391

-2,080299087

0,052057898

По найденным коэффициентам  находим параметры , а именно

Получили модель с распределенным лагом

.

Эта регрессия лишена недостатков предыдущей:

  •  вычисленные коэффициенты являются статистически значимыми (вероятность ошибки их расчета почти не превышают допустимый уровень в 0,05);
  •  коэффициенты имеют одинаковые знаки.

Сравним исходные данные и результаты регрессии:

90

120

95

117

103

132

115

136

116,1747

1,380007

12736,73469

134

155

127,7237

39,39197

8809,163265

132

163

138,3324

40,09969

9188,591837

145

174

148,9222

15,38369

6865,306122

156

178

156,4765

0,22705

5163,44898

167

188

164,28

7,398396

3703,591837

178

203

174,8603

9,857755

2485,734694

202

231

192,9347

82,17878

668,5918367

214

255

214,4897

0,239842

192,0204082

225

246

223,8711

1,274391

8,163265306

237

264

234,7261

5,170752

83,59183673

241

278

245,7482

22,5451

172,7346939

244

289

257,1173

172,0626

260,5918367

256

295

266,5144

110,5516

792,0204082

271

300

273,223

4,941541

1861,306122

288

305

278,5463

89,37272

3617,163265

289

316

285,8544

9,895109

3738,44898

297

332

296,9458

0,002938

4780,734694

312

347

310,1861

3,290132

7080,020408

335

376

330,1949

23,08866

11479,59184

347

389

347,8782

0,771296

14195,02041

Среднее

227,8571

Сумма

639,124

97882,57143

Для оценки качества построения модели сравниваем остаточную и общую дисперсии. Отношение суммы квадратов остатков регрессии к общей сумме квадратов отклонений уровней ряда от его среднего значения равно

.

Построенная модель достоверна на больше, чем на 99%.

Рассчитаем средний и медианный лаг по построенной модели временного ряда. Для удобства данные сводим в таблицу

Лаг, j

Коэффициенты модели

Относительные коэффициенты

,

Средний лаг

Медианный лаг –величина лага, для которого .

0

0,41

0,43

1

0,3

0,31

2

0,18

0,19

3

0,06

0,07

Выводы:

Такая величина среднего и медианного лагов свидетельствует об относительно быстром реагировании результата на изменение фактора, в основном в текущем и следующем за текущим периоде.

 

II. Строим модель с распределенным лагом в четыре временных периода, исходя из гипотезы о квадратичной структуре лага .

Тогда

.

Преобразование для вспомогательных переменных выглядит следующим образом:

;

.

Строим регрессию .

y

x

90

120

95

117

103

132

115

136

z0

z1

z2

134

155

660

1231

3637

132

163

703

1291

3759

145

174

760

1409

4119

156

178

806

1509

4397

167

188

858

1635

4821

178

203

906

1718

5074

202

231

974

1809

5341

214

255

1055

1913

5583

225

246

1123

2078

6014

237

264

1199

2261

6593

241

278

1274

2445

7239

244

289

1332

2564

7628

256

295

1372

2621

7713

271

300

1426

2763

8177

288

305

1467

2869

8529

289

316

1505

2946

8784

297

332

1548

3006

8956

312

347

1600

3079

9141

335

376

1676

3179

9399

347

389

1760

3330

9808

Протокол расчета

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,996328351

R-квадрат

0,992670183

Нормированный R-квадрат

0,991295843

Стандартная ошибка

6,222115169

Наблюдения

20

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

3

83889,56453

27963,18818

722,28832

2,77251E-17

Остаток

16

619,4354747

38,71471717

Итого

19

84509

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

a

-6,683191872

6,247481362

-1,069741786

0,3006088

с0

0,457847985

0,116502829

3,929930209

0,0011959

с1

-0,239601907

0,191844893

-1,248935549

0,2296532

с2

0,035280787

0,047693437

0,739740933

0,4701727

По найденным коэффициентам  находим параметры , а именно

Получили модель с распределенным лагом в четыре периода:

.

Сравним исходные данные и результаты регрессии:

90

120

95

117

103

132

115

136

134

155

128,6768

28,33637171

8809,163265

132

163

138,3068

39,77582876

9188,591837

145

174

148,7868

14,3399158

6865,306122

156

178

155,7168

0,080197636

5163,44898

167

188

164,2568

7,525101647

3703,591837

178

203

175,2768

7,415773972

2485,734694

202

231

194,0068

63,8911163

668,5918367

214

255

214,6868

0,471705405

192,0204082

225

246

221,4068

12,91102783

8,163265306

237

264

232,8968

16,83618354

83,59183673

241

278

245,8768

23,78325752

172,7346939

244

289

257,4968

182,1638296

260,5918367

256

295

265,2268

85,13398823

792,0204082

271

300

272,2668

1,604802833

1861,306122

288

305

278,0368

99,26519228

3617,163265

289

316

285,9668

9,200252932

3738,44898

297

332

297,3368

0,113439715

4780,734694

312

347

310,1568

3,397356277

7080,020408

335

376

330,1268

23,74799902

11479,59184

347

389

346,7768

0,049814612

14195,02041

Среднее

227,8571

Сумма

620,0431557

85145,83673

Для оценки качества построения модели сравниваем остаточную и общую дисперсии. Отношение суммы квадратов остатков регрессии к общей сумме квадратов отклонений уровней ряда от его среднего значения равно

.

Построенная модель также как и предыдущая достоверна больше, чем на 99%.

Задание для самостоятельной работы

Вариант 1

Вариант 2

Вариант 3

Вариант 4

Вариант 5

x

y

y

x

y

x

x

y

x

y

10

6

3,5

1,51

70,8

101,7

120

90

10

6

11

6,5

3,6

1,5

98,7

101,1

117

95

11

6,5

12

6,8

3,7

1,53

97,9

100,4

132

103

12

6,8

13

7

3,7

1,53

99,6

100,1

136

115

13

7

15

7,4

3,8

1,55

96,1

100

155

134

15

7,4

17

8

3,9

1,58

103,4

100,1

163

132

17

8

18

8,2

4,1

1,62

95,5

100

174

145

18

8,2

20

8,7

4,2

1,65

102,9

105,8

178

156

20

8,7

20

9

4,3

1,63

77,6

145

188

167

20

9

25

10

4,4

1,65

102,3

99,8

203

178

25

10

27

10,5

4,5

1,67

102,9

102,7

231

202

27

10,5

24

11

4,5

1,64

123,1

109,4

225

214

24

11

30

13

4,6

1,69

74,3

110

246

225

30

13

32

12,8

4,7

1,74

92,9

106,4

264

237

32

12,8

38

14

4,9

1,8

106

103,2

278

241

38

14

34

15

4,8

1,75

99,8

103,2

289

244

34

15

45

17

4,8

1,65

105,2

102,9

295

256

45

17

37

16

5

1,73

99,7

100,8

300

271

37

16

55

22

5,1

1,81

99,7

101,6

305

288

55

22

48

23,1

5,3

1,87

107,9

101,5

316

289

48

23,1

47

23

5,4

1,88

98,8

101,4

332

297

45

26

5,4

1,8

104,6

101,7

347

312

56

28

5,4

1,84

106,4

101,7

376

335

60

29

122,7

101,2

389

347

Вариант 6

Вариант 7

Вариант 8

Вариант 9

Вариант 10

y

x

x

y

y

x

y

x

x

y

98,7

101,1

136

115

70,8

101,7

3,5

1,51

12

6,8

97,9

100,4

155

134

98,7

101,1

3,6

1,5

13

7

99,6

100,1

163

132

97,9

100,4

3,7

1,53

15

7,4

96,1

100

174

145

99,6

100,1

3,7

1,53

17

8

103,4

100,1

178

156

96,1

100

3,8

1,55

18

8,2

95,5

100

188

167

103,4

100,1

3,9

1,58

20

8,7

102,9

105,8

203

178

95,5

100

4,1

1,62

20

9

77,6

145

231

202

102,9

105,8

4,2

1,65

25

10

102,3

99,8

225

214

77,6

145

4,3

1,63

27

10,5

102,9

102,7

246

225

102,3

99,8

4,4

1,65

24

11

123,1

109,4

264

237

102,9

102,7

4,5

1,67

30

13

74,3

110

278

241

123,1

109,4

4,5

1,64

32

12,8

92,9

106,4

289

244

74,3

110

4,6

1,69

38

14

106

103,2

295

256

92,9

106,4

4,7

1,74

34

15

99,8

103,2

300

271

106

103,2

4,9

1,8

45

17

105,2

102,9

305

288

99,8

103,2

4,8

1,75

37

16

99,7

100,8

316

289

105,2

102,9

4,8

1,65

55

22

99,7

101,6

332

297

99,7

100,8

5

1,73

48

23,1

107,9

101,5

347

312

99,7

101,6

5,1

1,81

47

23

98,8

101,4

376

335

107,9

101,5

5,3

1,87

45

26

389

347

98,8

101,4

5,4

1,88

56

28

60

29


y = 0,5787x + 17,625

0

10

15

20

25

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16




1. на тему Кодекс Российской Федерации об Административных правонарушениях статья 19
2. 1264 руський князь з династії Рюриковичів правитель ГалицькоВолинського князівства
3. Эйкен Говард
4. Тайна бытия Все мы существуем лишь непродолжительный период времени и на его протяжении способны
5. Контрольная работа- Вестибуловагинит
6.  Правда золото редко добавляют в продукты питания в основном частички золота добавляют в спиртные напит
7. А общего применения ~ это как указывалось автоцистерны АЦ
8. по теме- Техническое обслуживание и ремонт контейнеров Специальность 190304 Техническая эксплуат
9. Московский государственный технический университет радиотехники электроники и автоматики
10. Система налогообложения фирмы
11. Shif@milru К вопросу формирования общекультурной компетентности будущих учителей гуманитарных специально
12. А шкала б~лiгiнi~ м~лшерi Автотолератор неге арнал~ан А процесс сипатын ~лшеу ~шiн
13. Поліцейський менеджмент в Швеції.html
14. Тема Методы генетики человека План- Генеалогический метод
15. 38w X 2992h cm 11 Count 100
16. Вариант 1. Определить полную себестоимость электроэнергии для ДЭС
17. Экономика предприятия
18. Введение.html
19. Главный смысл и цель семейной жизни ~ воспитание детей В
20. Введение Настоящие методические указание представляют собой руководство к лабораторным ра