Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

тематическая экономика Социальноэкономическая статистика включая информационное обеспечение экономи

Работа добавлена на сайт samzan.net:

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 4.6.2024

ЭКОНОМЕТРИКА

Методы: регрессионный анализ, анализ временных рядов, системы одновременных уравнений, статистические методы классификации и снижения размерности

Приложения: макроуровень (модели национальной экономики), мезоуровень (модели региональной экономики, отраслей, секторов), микроуровень (модели поведения домохозяйств, индивидов, фирм)

Экономическая теория (макроэкономика, микроэкономика, математическая экономика)

Социально-экономическая статистика (включая информационное обеспечение экономических исследований)

Основы теории вероятностей и математической статистики

ИСТОЧНИКИ БАЗОВЫХ КОМПОНЕНТОВ ЭКОНОМЕТРИЧЕСКОЙ НАУКИ

ei

yi

0

xi

P

I

IV

III

II

Y

X

б

X

а

Y

Y

X

в

(e3,e4)

ei-1

ei

  (e5,e6)

(e4,e5)

(e2,e3)

(e1,e2)

  

(e1,e2)

(e5,e6)

 

  (e3,e4)

ei-1

ei

(e4,e5)

(e2,e3)

Нет

Нет

Да

Да

Да

Нет

Да

Нет

График временного ряда

Дисперсия постоянна?

Модифицируем ряд

Получаем r() и rчастн()

Средняя стационарна?

Выделяем регулярные и сезонные колебания

Выбираем модель

Оценка параметров модели

Модификация

модели

Остатки некоррелированы?

Параметры значимы?

ARMA(1,0)

?

ARMA(2,1)

?

ARMA(2,0)

?

ARMA(1,1)

?

ARMA(3,2)

?

ARMA(3,0)

?

ARMA(2,2)

?

ARMA(1,2)

?

ARMA(0,2)

?

ARMA(n,n-1)

?

ARMA(n,0)

?

ARMA(n-1, n-1)

?

ARMA(n-2, n-1)

?

ARMA(0, n-1)

?

ARMA(0,1)

?

101

Дисциплина «ЭКОНОМЕТРИКА»

Для студентов-заочников дистанционной формы обучения

Текст лекций

Арженовский С.В., Федосова О.Н.

Учебное пособие

Ростов-на-Дону

2002


УДК 330.43(075.8)

        A80

Арженовский С.В., Федосова О.Н. Эконометрика:Учебное пособие/Рост. гос. экон. унив. Ростов н/Д., 2002. - 102 с. - ISBN 5-7972-0495-9.

В учебном пособии кратко изложено основное содержание лекционного курса эконометрики. Особое внимание уделено иллюстрации основных теоретических положений примерами из практики эконометрического моделирования.

Для студентов, обучающихся по специальностям экономического направления.

Рецензенты:

Л.И.Ниворожкина, д.э.н., профессор, зав. кафедрой СМиП РГЭУ "РИНХ"

Т.В.Алексейчик, к.э.н., доцент кафедры ФиПМ РГЭУ "РИНХ"

Утверждено в качестве учебного пособия редакционно-издательским советом РГЭУ "РИНХ"

ISBN  5-7972-0495-9

Ростовский государственный экономический университет "РИНХ", 2002

Арженовский С.В., Федосова О.Н., 2002


Оглавление

Введение

4

1. Предмет и задачи дисциплины "Эконометрика"

1.1. Определение эконометрики

5

1.2. Взаимосвязь эконометрики с экономической теорией, статистикой и экономико-математическими методами

6

1.3. Области применения эконометрических моделей

7

1.4. Методологические вопросы построения эконометрических моделей

8

2. Парная регрессия

2.1. Основные цели и задачи прикладного корреляционно-регрессионного анализа

12

2.2. Постановка задачи регрессии

14

2.3. Парная регрессия и метод наименьших квадратов

15

2.4. Коэффициент корреляции, коэффициент детерминации, корреляционное отношение

20

2.5. Оценка статистической значимости регрессии

23

2.6. Интерпретация уравнения регрессии

27

3. Классическая линейная модель множественной регрессии

28

3.1. Предположения модели

29

3.2. Оценивание коэффициентов КЛММР методом наименьших квадратов

30

3.3 Парная и частная корреляция в КЛММР

36

3.4 Множественный коэффициент корреляции и множественный коэффициент детерминации

40

3.5. Оценка качества модели множественной регрессии

42

3.6 Мультиколлинеарность и методы ее устранения

45

4. Спецификация переменных в уравнениях регрессии

4.1. Спецификация уравнения регрессии и ошибки спецификации

47

4.2. Обобщенный метод наименьших квадратов

49

4.3 Линейная модель множественной регрессии с гетероскедастичными остатками

50

4.4. Линейная модель множественной регрессии с автокорреляцией остатков

55

4.5. Фиктивные переменные. Тест Чоу

61

5. Временные ряды

5.1.Специфика временных рядов

65

5.2. Проверка гипотезы о существовании тренда

67

5.3. Аналитическое выравнивание временных рядов, оценка параметров уравнения тренда

68

5.4. Метод последовательных разностей

71

5.5. Аддитивная и мультипликативная модели временного ряда

73

5.6. Модели стационарных и нестационарных временных рядов и их идентификация

79

5.7. Тестирование стационарности временного ряда

88

5.8. Эконометрический анализ взаимосвязанных временных рядов

91

Библиографический список

96

Приложение

97


Введение

В последнее время специалисты, обладающие знаниями и навыками проведения прикладного экономического анализа с использованием доступных математических и программных средств, пользуются спросом на рынке труда. Одной из центральных дисциплин в подготовке таких специалистов является дисциплина "Эконометрика".

Эконометрика является областью знаний, которая охватывает вопросы применения статистических методов к теоретическим моделям, описывающим реальные экономические процессы.

Очевидно, что с помощью моделей можно получить много информации об экономических процессах, объяснить те или иные явления или процессы, но никогда не удастся получить всю информацию и однозначно определить истинный механизм экономического процесса или явления.

И даже в тех случаях, когда достаточно адекватная исходным данным эконометрическая модель построена и вопрос только в использовании ее для объяснения экономической ситуации или принятия решения, следует весьма осторожно подходить к выводам и рекомендациям, следующим из модельных оценок.

Эконометрический анализ, как правило, проводят с помощью ПЭВМ. В последние несколько лет сформировался обширный набор из пакетов прикладных программ, позволяющих автоматизировать процессы такого анализа. К наиболее распространенным относятся пакеты SAS, SPSS, Stata, Eviews и др. Имеются простейшие опции для проведения эконометрического анализа в Excel.

В настоящем пособии даются основные понятия, модели и методы эконометрики, рассматриваются примеры.

Содержание пособия полностью соответствует требованиям государственного стандарта высшего профессионального образования за исключением темы "Системы одновременных уравнений".

Для работы с предлагаемым изданием необходимы базовые знания некоторых разделов следующих учебных дисциплин: высшая математика, теория вероятностей, математическая статистика, общая теория статистики.

Эффективным является использование данной книги в сочетании с самостоятельным разбором примеров с использованием доступного статистического программного обеспечения.

Авторы благодарят рецензентов за советы при подготовке учебного пособия.


1. Предмет и задачи дисциплины "Эконометрика"

1.1. Определение эконометрики

Сложность экономических процессов и необходимость их количественного измерения не позволяют современному экономисту ограничиваться в своей работе применением инструментов отдельных экономических дисциплин. Так, например, невозможно сделать прогноз о том, будет ли пользоваться спросом новый продукт (сорт кофе), если рассматривать этот процесс только с точки зрения экономической теории, то есть закона спроса и предложения. На практике для осуществления прогноза экономисту необходимо применить целый комплекс экономических наук, синтез которых и является сутью научной дисциплины  -  эконометрики.

Основной целью эконометрики является модельное описание конкретных количественных взаимосвязей, обусловленных общими качественными закономерностями, изученными в экономической теории.

Эконометрика – относительно молодая научная дисциплина, сформировавшаяся во второй половине ХХ века и развивающаяся на стыке экономической теории, статистики и математики (см. рис. 1.1).

Рис. 1.1. Эконометрика и ее место в ряду других экономических

и статистических дисциплин

Впервые термин эконометрика был введен норвежским ученым Рагнаром Фришем в 1926 году и в буквальном переводе означает «измерение в экономике». Однако на сегодняшний день эта трактовка чересчур широка. Более четко определение эконометрики предложено известным российским ученым, профессором С.А. Айвазяном.  

Эконометрика -  это самостоятельная научная дисциплина, объединяющая совокупность теоретических результатов, приемов, методов и моделей, предназначенных для того, чтобы на базе

- экономической теории,

- экономической статистики,

- математико-статистического инструментария

придавать конкретное количественное выражение общим качественным закономерностям, обусловленным экономической теорией.

Таким образом, суть эконометрики состоит в синтезе экономической теории, экономической статистики и математико-статистического инструментария.

1.2. Взаимосвязь эконометрики с экономической теорией, статистикой и экономико-математическими методами

Эконометрика не только выявляет объективно существующие экономические законы и связи между экономическими показателями, качественно определенными в экономической теории, но и формирует подходы к их формализации и количественному выражению. Так, к примеру, экономическая теория гласит, что повышение цены на товар, при прочих равных условиях, приводит к падению спроса на него. Однако экономическая теория не может дать ответ на вопрос о величине снижения спроса на конкретный товар в конкретных условиях. Решить эту задачу можно только с помощью эконометрики, которая, таким образом, вносит эмпирическое содержание в экономическую теорию.

В рамках экономического анализа, как правило, выдвигаются какие-либо гипотезы, строятся теории, объясняющие явление или процесс. Узкое место заключается в подтверждении теоретических гипотез фактическими данными. Поэтому в количественном экономическом анализе главную роль играет формирование гипотезы и ее проверка. Интуитивные утверждения должны приобрести форму предположений, которые могут быть либо приняты, либо отвергнуты после сопоставления с наблюдаемыми фактами.

Вопросами применения статистических методов к теоретическим моделям, описывающим реальные хозяйственные процессы, и занимается эконометрика.

Экономическая статистика как элемент информационного обеспечения эконометрики предполагает решение таких задач, как выбор необходимых статистических показателей и обоснование способа их измерения, определение плана статистического обследования и т.д.

Под математико-статистическим инструментарием в эконометрике подразумеваются отдельные расширенные разделы математической статистики, связанные с регрессионным анализом (классическая модель регрессии и классический метод наименьших квадратов, обобщенная модель регрессии и обобщенный метод наименьших квадратов), построением и анализом моделей временных рядов и систем одновременных уравнений.

Вместе с тем, необходимо различать эконометрику и математическую экономику. Именно приземление экономической теории на базу конкретной экономической статистики и извлечение из этого приземления с помощью подходящего математического аппарата вполне определенных количественных взаимосвязей являются ключевыми моментами в понимании сущности эконометрики, разграничении её с математической экономикой, описательной экономической статистикой и математической статистикой.

Так, математическая экономика – это математически сформулированная экономическая теория, которая изучает взаимосвязи между экономическими переменными на абстрактном (неколичественном) уровне. Она становится эконометрикой, когда символически представленные в этих взаимосвязях коэффициенты заменяются конкретными численными оценками, полученными на базе соответствующих экономических данных.

1.3. Области применения эконометрических моделей

Области применения эконометрических моделей напрямую связаны с целями эконометрического моделирования, основными из которых являются:

  1.  прогноз экономических и социально-экономических показателей, характеризующих состояние и развитие анализируемой системы;
  2.  имитация различных возможных сценариев социально-экономического развития анализируемой системы.

В качестве анализируемой экономической системы могут выступать страна в целом (макроэкономические системы), регионы, отрасли и корпорации (мезосистемы), а также предприятия, фирмы и домохозяйства (микроэкономические системы).

Кроме того, исследователь должен сформулировать профиль эконометрического моделирования, которое может быть сконцентрировано на проблемах финансового рынка, инвестиционных и социальных проблемах, или же на целом комплексе проблем одновременно. Понятно, что, чем конкретнее сформулирован профиль исследования, тем более эффективны его результаты.

Например, исследователь изучает проблемы доходов домохозяйств страны. Целесообразнее было бы разделить эту большую задачу на исследование доходов городских и сельских домохозяйств, так как механизм их формирования существенно различен. Эконометрические модели, построенные отдельно для городских и сельских домохозяйств, будут гораздо более адекватны действительности, чем общая модель.

1.4. Методологические вопросы построения эконометрических моделей

В любой эконометрической модели, в зависимости от конечных прикладных целей ее использования все участвующие в ней переменные подразделяются на:

  •  экзогенные переменные, задаваемые как бы извне, автономно, в определенной степени управляемые (планируемые);
  •  эндогенные переменные, значения которых формируются в процессе и внутри функционирования анализируемой социально-экономической системы под воздействием экзогенных переменных и во взаимодействии друг с другом, являются предметом объяснения в эконометрической модели;
  •  предопределенные переменные выступают в роли факторов-аргументов или объясняющих переменных;
  •  лаговые эндогенные переменные входят в уравнения анализируемой эконометрической системы, но измерены в прошлые моменты, а следовательно, являются уже известными, заданными.

Эконометрическая модель служит для объяснения поведения эндогенных переменных в зависимости от значений экзогенных и лаговых эндогенных переменных.

Весь процесс эконометрического моделирования можно разбить на шесть основных этапов.

1-й этап (постановочный) – определение конечных целей моделирования, набора участвующих в модели факторов и показателей, их роли;

2-й этап (априорный) – предмодельный анализ экономической сущности изучаемого явления, формирование и формализация априорной информации и исходных допущений, в частности относящейся к природе и генезису исходных статистических данных и случайных остаточных составляющих в виде ряда гипотез;

3-й этап (параметризация) – собственно моделирование, т.е. выбор общего вида модели, в том числе состава и формы входящих в неё связей между переменными;

4-й этап (информационный) – сбор необходимой статистической информации, т.е. регистрация значений участвующих в модели факторов и показателей;

5-й этап (идентификация модели) – статистический анализ модели и в первую очередь статистическое оценивание неизвестных параметров модели. Непосредственно связан с проблемой идентифицируемости модели, то есть ответа на вопрос «Возможно ли в принципе однозначно восстановить значения неизвестных параметров модели по имеющимся исходным данным в соответствии с решением, принятым на этапе параметризации?». После положительного ответа на этот вопрос необходимо решить проблему идентификации модели, то есть предложить и реализовать математически корректную процедуру оценивания неизвестных параметров модели по имеющимся исходным данным;

6-й этап (верификация модели) – сопоставление реальных и модельных данных, проверка адекватности модели, оценка точности модельных данных. В ходе верификации модели решаются вопросы о том:

- насколько удачно удалось решить проблемы спецификации, идентифицируемости и идентификации, т.е. можно ли рассчитывать на то, что использование полученной модели в целях прогноза даст результаты, адекватные действительности;

- какова точность (абсолютная, относительная) прогнозных и имитационных расчетов основанных на построенной модели;

Получение ответов на эти вопросы с помощью тех или иных математико-статистических методов и составляет содержание верификации модели.

Проблема спецификации модели решается на 1, 2, 3 этапах моделирования и включает в себя:

  •  определение конечных целей моделирования (прогноз, имитация сценариев развития анализируемой системы, управление);
  •  определение списка экзогенных и эндогенных переменных;
  •  определение состава анализируемой системы уравнений и тождеств и соответственно списка предопределенных переменных;
  •  формулировка исходных предпосылок и априорных ограничений относительно стохастической природы остатков (рассмотрение проблемы гомоскедастичности).

Этапы 4, 5 и 6 сопровождаются процедурой калибровки модели, которая заключается в переборе большого числа вариантов, обусловленных наличием «нормативных» ограничений, определенных содержательным смыслом анализируемых связей и определенной нечеткостью (неполнотой) статистической информации. Калибровка модели - трудоемкая процедура, что связано с многократными «вычислительными прогонами» модели.

Наиболее распространенными в эконометрическом моделировании являются следующие образующие четыре группы методы:

  •  классическая линейная модель множественной регрессии (КЛММР) и классический метод наименьших квадратов (МНК);
  •  обобщенная КЛММР и обобщенный МНК;
  •  методы статистического анализа временных рядов;
  •  методы анализа систем одновременных эконометрических уравнений.

Применение этих методов делает возможным построение следующих типов эконометрических моделей:

1. Регрессионные модели с одним уравнением.

В таких моделях зависимая (объясняемая) переменная  представляется в виде функции

,

где    - независимые (объясняющие) переменные,

- параметры.

В зависимости от вида функции  модели делятся на линейные и нелинейные.

Например, можно исследовать уровень дохода семьи как функцию от ряда ее экономических и социально-демографических характеристик (наличие и количество работников в семье, наличие и количество детей и прочих иждивенцев, уровень образования и квалификации главы семьи и т.д.).

2. Модели временных рядов.

К этому классу относятся модели:

  •  тренда: ,

где t – время,

      - временной тренд заданного параметрического вида (например, линейный ),

     - случайная (стохастическая) компонента;

  •  сезонности: ,

где  - периодическая (сезонная) компонента,

      - случайная (стохастическая) компонента.

  •  тренда и сезонности: (аддитивная) или

                                           (мультипликативная)

где  - временной тренд заданного параметрического вида,

      - периодическая (сезонная) компонента,

     - случайная (стохастическая) компонента.

Кроме того, существуют модели временных рядов, в которых присутствует циклическая компонента, формирующая изменения анализируемого признака, обусловленные действием долговременных циклов экономической, демографической или астрофизической природы (волны Кондратьева, циклы солнечной активности и т.д.).

Модели временных рядов могут применяться для изучения и прогнозирования объема продаж туристических путевок, спроса на железнодорожные и авиабилеты, при краткосрочном прогнозировании процентных ставок и т.д.

3. Системы одновременных уравнений.

Эти модели описываются системами уравнений. Системы могут состоять из тождеств и регрессионных уравнений, каждое из которых, кроме объясняющих переменных, может включать в себя объясняемые переменные из других уравнений системы. Системы одновременных уравнений требуют сложного математического аппарата и могут быть использованы для моделей национальной экономики.

Ярким примером системы одновременных уравнений служит модель спроса и предложения. Пусть  - спрос на товар в момент времени t, - предложение товара в момент времени t,  - цена на товар в момент времени t, Yt – доход в момент t.

Составим систему уравнений "спрос – предложение":

  (предложение),

  (спрос),

     (равновесие).

Цена товара Pt и спрос на товар  определяются из уравнений модели, то есть являются эндогенными переменными. Объясняющими переменными в данной модели являются доход Yt и значение цены товара в предыдущий момент времени .

Для эконометрического моделирования используются данные следующих трех типов.

  1.  Предположим, что мы располагаем результатами регистрации значений переменных  на n статистически обследованных объектах. Так что если i – номер обследованного объекта, то имеющиеся исходные статистические данные состоят из n строк вида , где  - значение j переменной, зарегистрированное на i обследованном объекте. То есть данные могут быть представлены в виде матрицы np:

.

Такой тип данных называется пространственной выборкой или данными поперечного среза (cross-section data). Такие данные не имеют временного параметра, и порядок их следования не существенен. Пример: финансовые показатели работы предприятий за истекший год.

  1.  Предположим, что данные регистрируются на одном и том же объекте, но в разные периоды времени. Тогда аналогом i будет номер периода времени, к которому привязаны соответствующие данные, а n будет общим числом периодов времени. Такие данные называются временнóй выборкой, или временными рядами данных (time series data), или данными продольного среза. Для таких данных существенен порядок следования значений переменных. Пример: финансовые показатели предприятия за последние несколько лет.
  2.  Наконец, предположим, что отслеживается каждый из n объектов в течение T периодов времени. То есть имеем последовательность матриц вида X, отнесенных к моментам времени 1,2,…,Т:

.

Такие данные называются панельными, или пространственно-временной выборкой (panel data). Данные сочетают в себе свойства как временных рядов, так и данных поперечного сечения. Как правило, значение T мало. Пример: показатели социально-экономического состояния домохозяйств за три года.

2. Парная регрессия

2.1. Основные цели и задачи прикладного корреляционно-регрессионного анализа

Рассмотрим некоторый экономический объект (процесс, явление, систему) и выделим только две переменные, характеризующие объект. Обозначим переменные буквами Y и X. Будем предполагать, что независимая (объясняющая) переменная X оказывает воздействие на значения переменной Y, которая, таким образом, является зависимой переменной, т.е. имеет место зависимость:

Y=f(X).                                                       (2.1)

Зависимость (2.1) можно рассматривать с целью установления самого факта наличия или отсутствия значимой связи между Y и X, можно преследовать цель прогнозирования неизвестных значений Y по известным значениям X, наконец возможно выявление причинно-следственных связей между X и Y.

При изучении взаимосвязи между переменными Y и X следует, прежде всего, установить тип зависимости (природу анализируемых переменных Y и X). Возможны следующие ситуации:

  •  Y и X являются неслучайными переменными, т.е. значения Y строго зависят только от соответствующих значений X и полностью ими определяются. В этом случае говорят о функциональной зависимости, когда Y является некоторой функцией от переменной X и верна модель (2.1). Пример: .
  •  Y является случайной переменной, а X – неслучайной. В этом случае считают, что между переменными имеет место регрессионная зависимость. То есть верна модель Y=f(X)+u, где u – величина случайной ошибки.
  •  Y и X  зависят от множества неконтролируемых факторов, так что являются случайными по своей сущности. В этом случае к проблемам построения конкретного вида зависимости между указанными переменными присоединяется проблема исследования тесноты связи между этими переменными. Речь в этом случае идет о корреляционно-регрессионной зависимости между Y и X.

Будем предполагать наличие второй из указанных ситуаций. Регрессионный анализ является инструментом решения следующих основных задач:

1. Для любых значений объясняющей переменной X построить наилучшие по некоторому критерию оценки для неизвестной функции f(X).

2. По заданным значениям объясняющей переменной X построить наилучший по некоторому критерию прогноз для неизвестного значения результирующей переменной Y(X).

3. Пусть известно, что искомая функция зависит от параметра : f(X, ). Требуется построить наилучшую в определенном смысле оценку для неизвестного значения этого параметра.

4. Оценить удельный вес влияния переменной X на результирующий показатель Y.

В следующих разделах параграфа рассмотрим процедуру решения этих задач.

2.2. Постановка задачи регрессии

Поставим задачу регрессии Y на X.

Пусть мы располагаем n парами выборочных наблюдений над двумя переменными X и Y:

X1,

X2,

. . .

Xn;

Y1,

Y2,

. . .

Yn.

Функция f(X) называется функцией регрессии Y по X, если она описывает изменение условного среднего значения результирующей переменной Y в зависимости от изменения значений объясняющей переменной X: f(X)=E(Y |X).

Таким образом, имеет место уравнение регрессионной связи между Y и X:

Yi =f(Xi)+ui, i=1,…,n.                                              (2.2)

Присутствие в модели (2.2) случайной "остаточной" компоненты u, также называемой случайным членом, обусловлено следующими причинами:

  1.  Ошибки спецификации. Среди них выделяют невключение важных объясняющих переменных, агрегирование (объединение) переменных, неправильную функциональную спецификацию модели.
  2.  Ошибки измерения. Связаны со сложностью сбора исходных данных и использованием в модели аппроксимирующих переменных для учета факторов, непосредственное измерение которых невозможно.
  3.  Ошибки, связанные со случайностью человеческих реакций. Обусловлены тем, что поведение и непосредственное участие человека в ходе сбора и подготовки данных может быть достаточно непредсказуемым и вносит, таким образом, свой вклад в случайный член.

Мы хотим на основе выборочных наблюдений с учетом дополнительных требований, налагаемых на u, статистически оценить функцию f(X), проверить оптимальность полученной оценки и использовать уравнение для построения прогноза.

Допущения модели. Относительно u необходимо принять ряд гипотез, известных как условия Гаусса-Маркова:

  1.  Eui=0, i=1,…,n.

Это требование состоит в том, что математическое ожидание случайного члена в любом наблюдении должно быть равно нулю. Иногда случайный член будет положительным, иногда отрицательным, но он не должен иметь систематического смещения ни в одном из двух возможных направлений. Свойство непосредственно вытекает из смысла функции регрессии. Возьмем в (2.2) матожидание от обеих частей при фиксированном значении X, получим: E(Y|X) =E(f(X))+E(u), по свойству матожидания  E(Y|X) =f(X)+E(u), а поскольку с учетом определения функции регрессии должно быть f(X)=E(Y |X), то необходимо E(u)=0.

  1.   

Первая строчка означает требование постоянства дисперсии регрессионных остатков (независимость от того, при каких значениях объясняющей переменной производятся наблюдения i), которое называют гомоскедастичностью остатков. Вторая строчка предполагает отсутствие систематической связи между значениями случайного члена в любых двух наблюдениях, которые должны быть абсолютно независимы друг от друга.

  1.  X1, …, Xn – неслучайные величины.

Таким образом, задача регрессии имеет вид:

Yi =f(Xi)+ui, i=1,…,n.

а. Eui=0, i=1,…,n.                                                (2.3)

б.                                (2.4)

в. X1, …, Xn – неслучайные величины.             (2.5)

При выборе вида функции f в (2.2) обычно руководствуются следующими рекомендациями:

  •  используется априорная информация о содержательной экономической сущности анализируемой зависимости – аналитический способ,
  •  предварительный анализ зависимости с помощью визуализации – графический способ,
  •  использование различных статистических приемов обработки исходных данных и экспериментальных расчетов.

2.3. Парная регрессия и метод наименьших квадратов

Будем предполагать в рамках модели (2.2) линейную зависимость между двумя переменными Y и X. Т.е. имеем модель парной регрессии в виде:

Yi =+Xi+ui, i=1,…,n.

а. Eui=0, i=1,…,n.

б.

в. X1, …, Xn – неслучайные величины.

Предположим, что имеется выборка значений Y и X.

Обозначим арифметические средние (выборочные математические ожидания) для переменных X и Y:

.

Запишем уравнение оцениваемой линии в виде:

,                                                (2.6)

где и  - оценки неизвестных параметров и , а  - ордината этой линии.

Пусть (Xi, Yi) одна из пар наблюдений. Тогда отклонение этой точки (см. рис. 2.1) от оцениваемой линии будет равно ei=Yi   .

Принцип метода наименьших квадратов (МНК) заключается в выборе таких оценок и , для которых сумма квадратов отклонений для всех точек становится минимальной.

Y

X

Рис. 2.1. Иллюстрация принципа МНК

Необходимым условием для этого служит обращение в нуль частных производных функционала:

по каждому из параметров. Имеем:

Упростив последние равенства, получим стандартную форму нормальных уравнений, решение которых дает искомые оценки параметров:

                                                 (2.7)

Из (2.7) получаем:

                              (2.8)

Пример. Для иллюстрации вычислений при отыскании зависимости с помощью метода наименьших квадратов рассмотрим пример (табл. 2.1).

Таблица 2.1

Индивидуальное потребление и личные доходы (США, 1954-1965 гг.)

Год

Индивидуальное потребление, млрд. долл.

Личные доходы, млрд. долл.

1954

236

257

1955

254

275

1956

267

293

1957

281

309

1958

290

319

1959

311

337

1960

325

350

1961

335

364

1962

355

385

1963

375

405

1964

401

437

1965

431

469

Заметим, что исходные данные должны быть выражены величинами примерно одного порядка. Вычисления удобно организовать, как показано в таблице 2.2. Сначала рассчитываются , затем xi, yi. Результаты заносятся в столбцы 3 и 4. Далее определяются xi2, xiyi и заносятся в 5 и 6 столбцы таблицы 2.2. По формулам (2.8) получим искомые значения параметров =43145/46510=0,9276; =321,75-0,9276.350=-2,91.

Оцененное уравнение регрессии запишется в виде =-2,91+0,9276X.

Следующая важная проблема состоит в том, чтобы определить, насколько "хороши" полученные оценки и уравнение регрессии. Этот вопрос рассматривается по следующим стадиям исследования: квалифицирование (выяснение условий применимости результатов), определение качества оценок, проверка выполнения допущений метода наименьших квадратов.

Относительно квалифицирования уравнения =-2,91+0,9276X. Оно выражает, конечно, достаточно сильное утверждение. Применять это уравнение для прогнозирования следует очень осторожно. Дело в том, что, даже отвлекаясь от многих факторов, влияющих на потребление, и от систематического изменения дохода по мере варьирования потребления, мы не располагаем достаточно представительной выборкой.

Таблица 2.2

Рабочая таблица расчетов (по данным табл. 2.1)

Год

X

Y

x

y

x2

xy

ei

1954

257

236

-93

-85,75

8649

7974,75

235,48

0,52

1955

275

254

-75

-67,75

5625

5081,25

252,18

1,82

1956

293

267

-57

-54,75

3249

3120,75

268,88

-1,88

1957

309

281

-41

-40,75

1681

1670,75

283,72

-2,72

1958

319

290

-31

-31,75

961

984,25

292,99

-2,99

1959

337

311

-13

-10,75

169

139,75

309,69

1,31

1960

350

325

0

3,25

0

0

321,75

3,25

1961

364

335

14

13,25

196

185,5

334,74

0,26

1962

385

355

35

33,25

1225

1163,75

354,22

0,78

1963

405

375

55

53,25

3025

2928,75

372,77

2,23

1964

437

401

87

79,25

7569

6894,75

402,45

-1,45

1965

469

431

119

109,25

14161

13000,75

432,13

-1,13

=350,00

=321,75

0

0,00

46510

43145

=321,75

0,00

Полученное уравнение =-2,91+0,9276X  можно использовать для расчета точечного прогноза, в том числе и на ретроспективу. Подставляя последовательно значения X из второго столбца табл. 2.2 в уравнение =-2,91+0,9276X, получим предпоследний столбец табл. 2.2 для прогнозных значений . Ошибка прогноза вычисляется по формуле ei=Yi    и дана в последнем столбце рабочей таблицы.

Заметим, что ошибка прогноза ei  фактически является оценкой значений ui. График ошибки ei  представлен на рис. 2.2. Следует отметить факт равенства нулю суммы ei=0, что согласуется с первым ограничением модели парной регрессии - Eui=0, i=1,…,n.

Рис. 2.2. График ошибки прогноза

В модели (2.2) функция f может быть и нелинейной. Причем выделяют два класса нелинейных регрессий:

  •  регрессии, нелинейные относительно включенной объясняющей переменной, но линейные по параметрам, например полиномы разных степеней - Yi =a0 + a1Xi + a2Xi2+ ui, i=1,…,n или гипербола - Yi =a0 + a1/Xi + ui, i=1,…,n;
  •  регрессии нелинейные по оцениваемым параметрам, например степенная функция - Yi =a0ui, i=1,…,n, или показательная функция - Yi =, i=1,…,n.

В первом случае МНК применяется так же, как и в линейной регрессии, поскольку после замены, например, в квадратичной параболе Yi =a0 + a1Xi + a2Xi2+ ui переменной Xi2 на X1i: Xi2=X1i, получаем линейное уравнение регрессии Yi =a0 + a1Xi + a2X1i+ ui, i=1,…,n.

Во втором случае в зависимости от вида функции возможно применение линеаризующих преобразований, приводящих функцию к виду линейной. Например, для степенной функции Yi =a0ui после логарифмирования получаем  линейную функцию в логарифмах и применяем МНК.

Однако для, например, модели Yi =a0+a2+ui  линеаризующее преобразование отсутствует, и приходится применять другие способы оценивания (например, нелинейный МНК).

2.4. Коэффициент корреляции, коэффициент детерминации,        корреляционное отношение

Для трактовки линейной связи между двумя переменными акцентируют внимание на коэффициенте корреляции.

Пусть имеется выборка наблюдений (Xi, Yi), i=1,...,n, которая представлена на диаграмме рассеяния, именуемой также полем корреляции  (рис. 2.3).

Y

                                   X

Рис. 2.3. Диаграмма рассеяния

Разобьем диаграмму на четыре квадранта так, что для любой точки P(Xi, Yi) будут определены отклонения

Ясно, что для всех точек I квадранта xiyi>0; для всех точек II квадранта xiyi<0; для всех точек III квадранта xiyi>0; для всех точек IV квадранта xiyi<0. Следовательно, величина xiyi может служить мерой зависимости между переменными X и Y. Если большая часть точек лежит в первом и третьем квадрантах, то xiyi>0 и зависимость положительная, если большая часть точек лежит во втором и четвертом квадрантах, то xiyi<0 и зависимость отрицательная. Наконец, если точки рассеиваются по всем четырем квадрантам xiyi близка к нулю и между X и Y связи нет.

Указанная мера зависимости изменяется при выборе единиц измерения переменных X и Y. Выразив xiyi в единицах среднеквадратических отклонений, получим после усреднения выборочный коэффициент корреляции:

    (2.9)

Из последнего выражения можно после преобразований получить следующую формулу для квадрата коэффициента корреляции:

или

                                              (2.10)

Квадрат коэффициента корреляции называется коэффициентом детерминации. Согласно (2.10) значение коэффициента детерминации не может быть больше единицы, причем это максимальное значение будет достигнуто при =0, т.е. когда все точки диаграммы рассеяния лежат в точности на прямой. Следовательно, значения коэффициента корреляции лежат в числовом промежутке от -1 до +1.

Кроме того, из (2.10) следует, что коэффициент детерминации равен доле дисперсии Y (знаменатель формулы), объясненной линейной зависимостью от X (числитель формулы). Это обстоятельство позволяет использовать R2 как обобщенную меру "качества" статистического подбора модели (2.6). Чем лучше регрессия соответствует наблюдениям, тем меньше и тем ближе R2 к 1, и наоборот, чем "хуже" подгонка линии регрессии к данным, тем ближе значение R2 к 0.

Поскольку коэффициент корреляции симметричен относительно X и Y, то есть rXY=rYX, то можно говорить о корреляции как о мере взаимозависимости переменных. Однако из того, что значения этого коэффициента близки по модулю к единице, нельзя сделать ни один из следующих выводов: Y является причиной X; X является причиной Y; X и Y совместно зависят от какой-то третьей переменной. Величина r ничего не говорит о причинно-следственных связях. Эти вопросы должны решаться, исходя из содержательного анализа задачи. Следует избегать и так называемых ложных корреляций, т.е. нельзя пытаться связать явления, между которыми отсутствуют реальные причинно-следственные связи. Например, корреляция между успехами местной футбольной команды и индексом Доу-Джонса. Классическим является пример ложной корреляции, приведенный в начале ХХ века известным российским статистиком А.А. Чупровым: если в качестве независимой переменной взять число пожарных команд в городе, а в качестве зависимой переменной – сумму убытков от пожаров за год, то между ними есть прямая корреляционная зависимость, т.е. чем больше пожарных команд, тем больше сумма убытков. На самом деле здесь нет причинно-следственной связи, а есть лишь следствия общей причины – величины города.

Проверка гипотезы о значимости выборочного коэффициента корреляции эквивалентна проверке гипотезы о =0 (см. ниже) и, следовательно, равносильна проверке основной гипотезы об отсутствии линейной связи между Y и X. Вычисляя значение t-статистики

,

вывод о значимости r делается при t>t, где t - соответствующее табличное значение t-распределения с (n-2) степенями свободы и уровнем значимости .

Пример. Вычислим коэффициент корреляции и проверим его значимость для нашего примера табл. 2.1.

По (2.9) r=43145/(4651040068,25)0,5=0,9994. R2=0,998. Значение t-статистики t=0,9994[10/(1-0,998)]0,5=70,67. Поскольку t0,05;10=2,228, то t>t0,05;10 и коэффициент корреляции значим. Следовательно, можно считать, что линейная связь между переменными Y и X в примере существует.

Если между переменными имеет место нелинейная зависимость, то коэффициент корреляции теряет смысл как характеристика степени тесноты связи. В этом случае используется наряду с расчетом коэффициента детерминации расчет корреляционного отношения.

Предположим, что выборочные данные могут быть сгруппированы по оси объясняющей переменной X. Обозначим s – число интервалов группирования,  (j=1,…,s) – число выборочных точек, попавших в j-й интервал группирования,  - среднее значение ординат точек, попавших в j-й интервал группирования,  - общее среднее по выборке. С учетом формул для оценок выборочных дисперсий среднего значения Y внутри интервалов группирования  и суммарной дисперсии результатов наблюдения получим:

.                                                   (2.11)

Величину  в (2.11) называют корреляционным отношением зависимой переменной Y по независимой переменной X. Его вычисление не предполагает каких-либо допущений о виде функции регрессии.

Величина  по определению неотрицательная и не превышает единицы, причем =1 свидетельствует о наличии функциональной связи между переменными Y и X. Если указанные переменные не коррелированны друг с другом, то =0.

Можно показать, что  не может быть меньше величины коэффициента корреляции r (формула (2.9)) и в случае линейной связи эти величины совпадают.

Это позволяет использовать величину разности  – R2 в качестве меры отклонения регрессионной зависимости от линейного вида.

2.5. Оценка статистической значимости регрессии

Перейдем к вопросу о том, как отличить "хорошие" оценки МНК от "плохих". Конечно, предполагается, что существуют критерии качества рассчитанной линии регрессии.

Перечислим способы, которые помогают решить вопрос о достоинствах рассчитанной линии регрессии:

  •  построение доверительных интервалов и оценка статистической значимости коэффициентов регрессии по t-критерию Стьюдента;
  •  дисперсионный анализ и F – критерий Фишера;
  •  проверка существенности выборочного коэффициента корреляции (детерминации).

Перейдем к подробному изложению свойств оценок МНК и способов проверки их значимости.

Несложно показать, что оценки  и  полученные МНК по (2.8) с учетом ограничений (2.3)-(2.5) являются линейными несмещенными оценками и обладают наименьшими дисперсиями (являются эффективными) в классе линейных оценок (теорема Гаусса-Маркова).

Для вычисления интервальных оценок , предполагаем нормальное распределение случайной величины u. Для получения интервальных оценок , оценим дисперсию случайного члена  по отклонениям ei. В качестве оценки дисперсии ошибки  возьмем величину:

.                                                (2.12)

Вычислим величину

,

и  - стандартную ошибку коэффициента регрессии .

Статистика

,

имеет t-распределение Стьюдента. Так как  несмещенная оценка, то для заданного 100(1–)% уровня значимости доверительный интервал для суть:

,     (2.13)

где t,n-2 – табличное значение t распределения для (n-2) степеней свободы и уровня значимости .

Вычислим величину

,

и  - стандартную ошибку1 коэффициента регрессии .

Статистика

,

имеет t-распределение Стьюдента. Так как  несмещенная оценка, то для заданного 100(1–)% уровня значимости доверительный интервал для суть:

,    (2.14)

где t,n-2 – табличное значение t распределения для (n-2) степеней свободы и уровня значимости .

Проверим гипотезу о равенстве нулю коэффициента , т.е.

H0: =0.

С учетом статистики  для =0, имея в виду формулу для , получим:

.                                      (2.15)

Если вычисленное по (2.15) значение t будет больше t для заданного критического уровня значимости , то гипотеза H0 о равенстве нулю коэффициента отклоняется, если же t<t, то H0 принимается.

Аналогично для проверки гипотезы о равенстве нулю коэффициента , т.е.

H0: =0

рассчитаем статистику:

.                                      (2.16)

Если вычисленное по (2.16) значение t будет больше t для заданного критического уровня значимости , то гипотеза H0 о равенстве нулю коэффициента отклоняется, если же t<t, то H0 принимается.

Заметим, что формула (2.12) может быть упрощена и записана в виде:

.                             (2.17)

Пример. Приведем расчеты для нашего примера в табл. 2.1. По формуле (2.17) рассчитаем дисперсию ошибки:

=(1282345–(–2,91)3861–0,92761394495)/10=4,6948 или =2,1667.

Найдем доверительный интервал для  по первой из формул (2.13):

=.

По таблице t-распределения находим

t0,05;10=2,228 и =-2,912,2282668,219/747,0743.

Откуда =-2,917,798 или -10,74,9.

С вероятностью 0,95 истинные значения находятся в интервале 10,74,9.

Аналогично найдем доверительный интервал для  по первой из формул (2.14): ==0,92760,022 и 0,910,95.

Кроме того по экономическому смыслу переменных примера следует ожидать, что 01. Поскольку доверительный интервал не включает 0 и 1, то результаты регрессии соответствуют гипотезе 01.

Проверим гипотезу о равенстве нулю коэффициента , т.е. H0: =0.

Рассчитаем t-статистику по формуле (2.16):

t=0,9276/2,1667=92,328.

Табличное значение t0,01;10=3,169, так как t>t0,01;10, то гипотеза о том, что =0 отклоняется. Можно говорить о том, что коэффициент  значимо отличен от нуля.

Разложим общую вариацию значений Y около их выборочного среднего на составляющие (см. рис. 2.1):

.                           (2.18)

Сумма квадратов отклонений от среднего в выборке равна сумме квадратов отклонений значений , полученных по уравнению регрессии, от выборочного среднего  плюс сумма квадратов отклонений Y от линии регрессии .

Первую связывают с линейным воздействием изменений переменной X и называют "объясненной". 

Вторая составляющая является остатком и называется "необъясненной" долей вариации переменной Y.

Отметим, что долю дисперсии, объясняемую регрессией, в общей дисперсии результативной переменной Y характеризует коэффициент детерминации, определяемый по формуле (2.10), которая может быть преобразована с учетом (2.18) к виду:

.

Предположим, что мы хотим проверить гипотезу об отсутствии линейной функциональной связи между X и Y, т.е. H0: =0.

Иначе говоря, мы хотим оценить значимость уравнения регрессии (2.6) в целом. Для проверки гипотезы сведем необходимые вычисления в таблицу (табл. 2.3).

Соотношение

                              (2.19)

удовлетворяет F - распределению Фишера с (1, n-2) степенями свободы. Критические значения этой статистики F для уровня значимости затабулированы.

Если F>F, то гипотеза об отсутствии связи между переменными Y и X отклоняется, в противном случае гипотеза Н0 принимается и уравнение регрессии не значимо.

Таблица 2.3

Таблица дисперсионного анализа

Источник вариации

Сумма квадратов отклонений

Число степеней свободы

Среднее квадратов отклонений

X

1

Остаток

n-2

Общая вариация

n-1

-

Пример. Для примера табл. 2.1, с учетом предыдущих вычислений, будем иметь таблицу анализа дисперсии - табл. 2.4.

Применяя формулу (2.19), получим . Табличное значение F0,01(1, 10)=10,04, так что имеющиеся данные позволяют отвергнуть гипотезу об отсутствии связи между личными доходами и индивидуальным потреблением.

Таблица 2.4

Таблица анализа дисперсии (пример в табл. 2.1)

Источник вариации

Сумма квадратов отклонений

Число степеней свободы

Среднее квадратов отклонений

X

0,92762*46510

1

40019,1

Остаток

10*4,6948

10

4,7

Общая вариация

40066,0

11

-

2.6. Интерпретация уравнения регрессии

Проанализируем, какую информацию дает нам оцененное уравнение регрессии (2.6), т.е. поставим вопрос об интерпретации (содержательном объяснении) коэффициентов уравнения.

Во-первых, можно сказать, что увеличение X на одну единицу (в единицах измерения переменной X) приведет к увеличению/уменьшению (в зависимости от знака коэффициента ) значения Y на  единиц (в единицах измерения переменной Y).

Во-вторых, необходимо проверить, в каких единицах измерены переменные X и Y и можно ли заменить слово "единица" фактическим количеством (рубли, тонны и т.п.).

В-третьих, константа  дает прогнозируемое значение Y, если положить X=0. Это может иметь или не иметь экономического смысла в зависимости от конкретной ситуации.

Часто рассчитывают средний коэффициент эластичности , который показывает, на сколько процентов в среднем по совокупности изменится результат Y от своей средней величины при изменении фактора X на 1% от своего среднего значения.

Пример. Продолжая рассмотрение примера п. 2.1, проинтерпретируем уравнение регрессии между индивидуальным потреблением и личными доходами в США: =-2,91+0,9276X.

Поскольку обе переменные измерены в $, то интерпретация облегчается.

Смысл коэффициента : при увеличении личных доходов граждан США на 1$ расходы на индивидуальное потребление возрастут на 0,9$. Другими словами, из каждого дополнительного доллара дохода 90 центов будут израсходованы на потребление.

Константа в данном случае не имеет никакого смысла применительно к совокупности, поскольку мы не можем сказать, что при нулевых доходах потребление граждан США составит -2,91 млрд. долларов.

Рассчитаем средний коэффициент эластичности:

=0,9276350/351,75=0,923.

Т.е. при изменении личных доходов на 1% от своего среднего значения в среднем по совокупности индивидуальное потребление изменится на 0,923% от своей средней величины.

При интерпретации уравнения регрессии важно помнить о следующих фактах:

  •  величины  и  являются только оценками и , а следовательно, и вся интерпретация представляет собой тоже оценку;
  •  уравнение регрессии отражает общую тенденцию для выборки, а каждое отдельное наблюдение при этом подвержено воздействию случайностей;
  •  верность интерпретации зависит от правильности спецификации уравнения, то есть включения/исключения соответствующих объясняющих переменных и выбора вида функции регрессии.

3. Классическая линейная модель множественной регрессии

Рассмотрим обобщение линейной регрессионной модели для случая более двух переменных.

Всякий раз, когда изучаемый процесс или явление является результатом совместного действия нескольких факторов, у исследователя возникает потребность в оценке влияния каждого фактора в отдельности. Один из стандартных методов2, позволяющий успешно решить эту задачу, суть множественная регрессия. 

3.1. Предположения модели

Пусть мы располагаем выборочными наблюдениями над k переменными Yi  и ,  j=1,..., k, i=1,2,…,n, где n – количество наблюдений:

1

2

i

n

Y1,

Y2,

Yi,

Yn

X11,

X12,

X1i,

X1n

Xk1,

Xk2,

Xki,

Xkn

Предположим, что существует линейное соотношение между результирующей переменной Y и k объясняющими переменными X1, X3, ..., Xk. Тогда с учетом случайной ошибки ui запишем уравнение:

                  (3.1)

В (3.1) неизвестны коэффициенты , j=0,2,…,k и параметры распределения ui. Задача состоит в оценивании этих неизвестных величин. Модель (3.1) называется классической линейной моделью множественной регрессии (КЛММР). Заметим, что часто имеют в виду, что переменная X0 при 0 равна единице для всех наблюдений i=1,2,…,n.

Относительно переменных модели в уравнении (3.1) примем следующие основные гипотезы:

E(ui)=0;                                                                       (3.2)

                                      (3.3)

X1, X3, ..., Xk – неслучайные переменные;              (3.4)

Не должно существовать строгой линейной

зависимости между переменными X1, X3, ..., Xk.   (3.5)

Первая гипотеза (3.2) означает, что переменные ui имеют нулевую среднюю.

Суть гипотезы (3.3) в том, что все случайные ошибки ui имеют постоянную дисперсию, то есть выполняется условие гомоскедастичности дисперсии (см. подробнее раздел 4).

Согласно (3.4) в повторяющихся выборочных наблюдениях источником возмущений Y являются случайные колебания ui, а значит, свойства оценок и критериев обусловлены объясняющими переменными X1, X3, ..., Xk.

Последняя гипотеза (3.5) означает, в частности, что не существует линейной зависимости между объясняющими переменными, включая переменную X0, которая всегда равна 1.

Понятно, что условия (3.2)-(3.4) соответствуют своим аналогам для случая двух переменных в п.2.2.

3.2. Оценивание коэффициентов КЛММР

методом наименьших квадратов

Применяя к (3.1) с учетом (3.2)-(3.5) МНК, получаем из необходимых условий минимизации функционала:

,

т.е. обращения в нуль частных производных по каждому из параметров:

Упростив последние равенства, получим стандартную форму нормальных уравнений, решение которых дает искомые оценки параметров:

       (3.6)

Сложность решения системы линейных уравнений (3.6) с (k+1) неизвестными увеличивается быстрее, чем растет k. В зависимости от количества уравнений система может быть решена методом исключения Гаусса или методом Крамера или другим численным методом решения системы линейных алгебраических уравнений.

Поскольку для большинства практических задач изучаются несколько альтернативных спецификаций модели (3.1), то широкое применение ЭВМ, а также специальных статистических пакетов позволяет значительно упростить процедуру оценивания.

В результате решения системы3 (3.6) получим оценки коэффициентов , j=0,2,…,k.

Возможна и другая запись уравнения (3.1) в так называемом стандартизованном масштабе:

,                         (3.7)

где  - стандартизованные переменные:

, j=1,2,…,k,

для которых среднее значение равно нулю:

 j=1,2,…,k,

а среднее квадратическое отклонение равно единице:

 j=1,2,…,k,

, j=1,2,…,kстандартизованные коэффициенты регрессии.

Нетрудно установить зависимость между коэффициентами "чистой" регрессии  и стандартизованными коэффициентами регрессии , j=1,2,…,k, а именно:

, j=1,2,…,k,                                       (3.8)

причем .

Соотношение (3.8) позволяет переходить от уравнения вида (3.7) к уравнению вида (3.1).

Стандартизованные коэффициенты регрессии показывают, на сколько "сигм" изменится в среднем результат (Y), если соответствующий фактор  изменится на одну "сигму" при неизменном среднем уровне других факторов.

В силу того, что все переменные центрированы и нормированы, коэффициенты , j=1,2,…,k, сравнимы между собой (в этом их отличие от ). Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат, что позволяет произвести отсев факторов – исключить из модели факторы с наименьшими значениями .

Нетрудно показать, что оценки МНК , j=0,2,…,k являются наиболее эффективными (в смысле наименьшей дисперсии) оценками в классе линейных несмещенных оценок (теорема Гаусса-Маркова).

Как было уже указано раньше, достоинством метода множественной регрессии является возможность выделения влияния каждого из факторов Xj в условиях, когда воздействие многих переменных на результат эксперимента не удается контролировать. Степень раздельного влияния каждого из факторов характеризуется оценками , j=1,2,…,k.

Пример 1. Исследуется зависимость между стоимостью грузовой автомобильной перевозки Y (тыс. руб), весом груза X1 (тонн) и расстоянием X2 (тыс.км) по 20 транспортным компаниям. Исходные данные приведены в таблице 3.1.

Таблица 3.1

Y

51

16

74

7,5

33,0

26,0

11,5

52

15,8

8,0

26

6,0

5,8

13,8

6,20

7,9

5,4

56,0

25,5

7,1

X1

35

16

18

2,0

14,0

33,0

20

25

13

2,0

21

11,0

3

3,5

2,80

17,0

3,4

24,0

9,0

4,5

X2

2

1,1

2,55

1,7

2,4

1,55

0,6

2,3

1,4

2,1

1,3

0,35

1,65

2,9

0,75

0,6

0,9

2,5

2,2

0,95

В данном примере мы располагаем пространственной выборкой объема n=20, число объясняющих переменных k=2.

Модель специфицируем в виде линейной функции:

.                                (3.9)

Следовательно, система нормальных уравнений для модели (3.9) будет иметь вид

                           (3.10)

Рассчитаем по данным табл. 3.1 необходимые для составления указанной системы суммы:

Y=454,5;

X1=277,2;

X2=31,8;

Y2=18206,89;

=5860,9;

=61,45;

=22,73;

=13,86;

=1,59;

X1Y=8912,57;

X2Y=908,56;

X1X2=459,24;

Получим систему нормальных уравнений (3.10) в виде:

Решая последнюю систему линейных алгебраических уравнений, например методом Крамера, получим:

=-17,31; =1,16; =15,10.

Уравнение регрессии имеет вид:

Y=-17,31+1,16X1+15,10X2.

Или, с учетом (3.8) и расчетов:

===19,85,

===10,05,

===0,74.

=1,16=0,77, =15,10=0,56

уравнение регрессии в стандартизованном масштабе:

.

То есть с ростом веса груза на одну сигму при неизменном расстоянии стоимость грузовых автомобильных перевозок увеличивается в среднем на 0,77 сигмы. Поскольку 0,77>0,56, то влияние веса груза на стоимость грузовых автомобильных перевозок больше, чем фактора расстояния.

Рассчитаем коэффициенты эластичности

= 1,1613,86/(-17,31 + 1,1613,86 + 15,101,59) = 0,71,

= 1,05.

С увеличением среднего веса груза на 1% от его среднего уровня средняя стоимость перевозок возрастет на 0,71% от своего среднего уровня, при увеличении среднего расстояния перевозок на 1% средняя стоимость доставки груза увеличится на 1,05%. Различия в силе влияния факторов на результат полученные при сравнении уравнения регрессии в стандартизованном масштабе и коэффициентов эластичности объясняются тем, что коэффициент эластичности рассчитывается исходя из соотношения средних, а стандартизованные коэффициенты регрессии  из соотношения средних квадратических отклонений.

Поскольку обычно статистики используют показатель грузооборота, вычисляемый как сумма произведений массы перевезенных грузов на расстояние перевозки, то построим регрессию стоимости 1 км грузовых автомобильных перевозок Y на грузооборот Q (Q=X1X2):

P = 5,88 + 0,48Q  0,003Q2,

причем регрессор Q2 = Q*Q включен исходя из соображений известного экономического закона убывающей предельной полезности, согласно которому в данном случае стоимость перевозки на 1 км должна уменьшаться с ростом грузооборота, т.е. коэффициент при Q2 должен иметь (и в построенном уравнении имеет) отрицательный знак.

Как уже говорилось в разделе 2.3, регрессионные модели не ограничиваются классом линейных функций. Линеаризация нелинейных функций в уравнении регрессии имеет особенности, рассмотренные в примере.

Пример 2. Исследуется зависимость между выпуском Q (млн. $) и затратами труда L (чел.) и капитала K (млн. $) в металлургической промышленности по 27 американским компаниям. Исходные данные приведены в таблице 3.2.

Таблица 3.2

Q

L

K

Q

L

K

657,29

162,31

279,99

1917,55

536,73

2109,34

935,93

214,43

542,50

9849,17

1564,83

13989,55

1110,65

186,44

721,51

1088,27

214,62

884,24

1200,89

245,83

1167,68

8095,63

1083,10

9119,70

1052,68

211,40

811,77

3175,39

521,74

5686,99

3406,02

690,61

4558,02

1653,38

304,85

1701,06

2427,89

452,79

3069,91

5159,31

835,69

5206,36

4257,46

714,20

5585,01

3378,40

284,00

3288,72

1625,19

320,54

1618,75

592,85

150,77

357,32

1272,05

253,17

1562,08

1601,98

259,91

2031,93

1004,45

236,44

662,04

2065,85

497,60

2492,98

598,87

140,73

875,37

2293,87

275,20

1711,74

853,10

145,04

1696,98

745,67

137,00

768,59

1165,63

240,27

1078,79

Мы располагаем пространственной выборкой объема n=27, число объясняющих переменных k=2.

Модель зависимости между выпуском и затратами труда и капитала, как правило, специфицируется в виде производственной функции, чаще всего Кобба-Дугласа:

.                                             (3.11)

Поскольку модель (3.11) является нелинейной, преобразуем ее к виду линейной по параметрам. Для этого возьмем логарифм от обеих частей в уравнении (3.11):

.

Переобозначим для удобства Y=lnQ, 0=lnA, X1=lnL, X2=lnK, u=ln, тогда имеем линейную модель вида:

.                                (3.12)

Исходные данные к модели вида (3.11) получаются логарифмированием чисел, представленных в таблице 3.2. Соответственно получим табл. 3.3.

После процедуры лианеризации система нормальных уравнений для модели (3.11) будет иметь такой же вид, как и система (3.10)

Рассчитаем по данным табл. 3.3 необходимые для составления указанной системы суммы:

Y=200,98;

X1=155,62;

X2=201,04;

Y2=1511,07;

=908,13;

=1521,31;

=7,44;

=5,76;

=7,45;

X1Y=1170,67;

X2Y=1514,54;

X1X2=1173,51;

Таблица 3.3

Y

X1

X2

Y

X1

X2

6,49

5,09

5,63

7,56

6,29

7,65

6,84

5,37

6,30

9,20

7,36

9,55

7,01

5,23

6,58

6,99

5,37

6,78

7,09

5,50

7,06

9,00

6,99

9,12

6,96

5,35

6,70

8,06

6,26

8,65

8,13

6,54

8,42

7,41

5,72

7,44

7,79

6,12

8,03

8,55

6,73

8,56

8,36

6,57

8,63

8,13

5,65

8,10

7,39

5,77

7,39

6,38

5,02

5,88

7,15

5,53

7,35

7,38

5,56

7,62

6,91

5,47

6,50

7,63

6,21

7,82

6,40

4,95

6,77

7,74

5,62

7,45

6,75

4,98

7,44

6,61

4,92

6,64

7,06

5,48

6,98

Получим систему нормальных уравнений после подстановки соответствующих значений в (3.10) в виде:

Решая последнюю систему методом Крамера, получим:

=1,11, =0,56, =0,41.

Уравнение регрессии имеет вид:

Y=1,11+0,56X1+0,41X2.

Или, с учетом (3.8) и расчетов: =0,75, =0,65, =0,96, =0,56=0,48, =0,41=0,52 уравнение регрессии в стандартизованном масштабе:

.

Нетрудно восстановить (учитывая, что A==3,03) исходную модель (3.9)

.

Эластичность выпуска продукции Q по труду L равна 0,56, а эластичность выпуска продукции Q по капиталу K равна 0,41. Следовательно увеличение затрат труда на 1% приведет к росту выпуска продукции на 0,56%, а увеличение затрат капитала на 1% приведет к росту выпуска продукции на 0,41%.

Очевидно, что обе величины  и  должны находиться между нулем и единицей. Они должны быть положительными, так как увеличение затрат факторов должно вызывать рост выпуска. В то же время, вероятно, они будут меньше единицы, т.к. мы предполагаем, что уменьшение эффекта от масштаба производства приводит к более медленному росту выпуска продукции, чем затрат производственных факторов, если другие факторы остаются постоянными.

Продолжая интерпретацию результатов регрессии , отметим, что (+)<1, т.е. имеет место убывающий эффект от масштаба производства (выпуск увеличивается в меньшей пропорции, чем L и K).

3.3 Парная и частная корреляция в КЛММР

В случаях, когда имеется одна независимая и одна зависимая переменные, естественной мерой зависимости (в рамках линейного подхода) является выборочный (парный) коэффициент корреляции между ними.

Использование множественной регрессии позволяет обобщить это понятие на случай, когда имеется несколько независимых переменных. В этом случае необходима корректировка, так как высокое значение коэффициента корреляции между зависимой и какой-либо независимой переменной может означать высокую степень линейной зависимости, но может означать и то, что третья переменная, оказывает значительное влияние на две первых и, что именно она служит основной причиной их высокой корреляции. Поэтому необходимо найти "чистую" корреляцию между двумя переменными, исключив влияние других факторов путем расчета коэффициента частной корреляции.  

Коэффициенты частной корреляции для уравнения регрессии с двумя независимыми переменными рассчитываются как:

,                             (3.13)

,                              (3.14)

,                               (3.15)

где  - коэффициент частной корреляции между y и x1 при исключенном влиянии x2;

      - коэффициент частной корреляции между y и x2 при исключенном влиянии x1;

      - коэффициент частной корреляции между x1 и x2, исключающий влияние y.

Заметим, что парные линейные коэффициенты корреляции, стоящие в правых частях формул (3.13)-(3.15), могут быть рассчитаны с помощью формулы (2.9).

Коэффициенты частной корреляции более высоких порядков можно определить через коэффициенты частной корреляции более низких порядков по следующей рекуррентной формуле:

             (3.16)

Коэффициенты частной корреляции широко используются на стадии формирования модели, при отборе факторов.

Так, например, при построении многофакторной модели применяется метод исключения переменных, в ходе которого строится уравнение регрессии с полным набором переменных, затем рассчитывается матрица частных коэффициентов корреляции. Далее проверяется статистическая значимость каждого из коэффициентов согласно t-критерию Стьюдента. Независимая переменная, имеющая наименьшую и несущественную корреляцию с зависимой переменной, исключается. Затем строится новое уравнение регрессии, и процедура продолжается до тех пор, пока не окажется, что все частные коэффициенты корреляции статистически значимы, то есть существенно отличаются от нуля.

Проверка статистической значимости частного коэффициента корреляции суть проверка гипотезы о том, что он равен нулю

Н0: .

Рассчитывается статистика:

                    (3.17)

Вывод о значимости частного коэффициента корреляции делается при t>t, где t соответствующее табличное значение t-распределения с (n- (k+1)) степенями свободы.

Пример (продолжение примера 1). Рассчитаем парные линейные коэффициенты корреляции, применяя формулу (2.9) и одновременно проверяя их статистическую значимость.

=3,68,

=3,60,

=2,80.

Составим матрицу парных линейных коэффициентов корреляции (в скобках значение t-статистик):

y

x1

x2

y

1,0

0,6553 (3,68)

0,6346 (3,60)

x1

0,6553 (3,68)

1,0

0,1247(2,80)

x2

0,6346(3,60)

0,1247(2,80)

1,0

Коэффициент корреляции между y и x1, свидетельствует о прямой статистически значимой связи между стоимостью перевозки и весом перевозимого груза. Коэффициент корреляции между y и x2 также свидетельствует о прямой и статистически значимой связи между стоимостью перевозки и расстоянием перевозки. Величина статистически значимого коэффициента корреляции между x1 и x2 означает практическое отсутствие взаимосвязи между расстоянием перевозки и весом груза, что не противоречит первоначальным предположениям о том, что расстояние перевозки не может быть обусловлено весом груза и наоборот.

Рассчитаем коэффициенты частной корреляции согласно формулам (3.13)-(3.15) и проверим их значимость согласно (3.17):

0,7513; =4,69, 0,7377; =4,51, -0,4987; =-2,37.

Составим матрицу частных коэффициентов корреляции (в скобках значение t-статистик):

y

x1

x2

y

1,0

0,7513 (4,69)

0,7377 (4,51)

x1

0,7513 (4,69)

1,0

-0,4987(-2,37)

x2

0,7377(4,51)

-0,4987(-2,37)

1,0

Как уже говорилось ранее, частные коэффициенты корреляции показывают "чистую" корреляцию пары переменных, исключающую влияние прочих переменных, включенных в уравнение. Таким образом, наиболее сильной является взаимосвязь между стоимостью перевозки и весом груза. Однако заметим, что частные коэффициенты корреляции между y и x1, y и x2 свидетельствуют о более сильных взаимосвязях независимых переменных с зависимой, чем это показывают значения парных коэффициентов корреляции. Это произошло потому, что парный коэффициент корреляции завысил тесноту связи между x1 и x2, занизив при этом тесноту связи между y и x1, y и x2. Отметим также, что все частные коэффициенты корреляции статистически значимы.

Множественный коэффициент корреляции

и множественный коэффициент детерминации

Множественный коэффициент корреляции используется в качестве меры степени тесноты статистической связи между результирующим показателем (зависимой переменной) y и набором объясняющих (независимых) переменных  или, иначе говоря, оценивает тесноту совместного влияния факторов на результат.

Множественный коэффициент корреляции может быть вычислен по ряду формул4, в том числе:

  •  с использованием матрицы парных коэффициентов корреляции

,                                         (3.18)

где r - определитель матрицы парных коэффициентов корреляции y,,

         r11 - определитель матрицы межфакторной корреляции ;

  •  стандартизованных коэффициентов регрессии  и парных коэффициентов корреляции

.                                     (3.19)

Для модели, в которой присутствуют две независимые переменные, формула (3.18) упрощается

.                      (3.20)

Квадрат множественного коэффициента корреляции равен коэффициенту детерминации R2. Как и в случае парной регрессии, R2 свидетельствует о качестве регрессионной модели и отражает долю общей вариации результирующего признака y, объясненную изменением функции регрессии f(x) (см. 2.4). Кроме того, коэффициент детерминации может быть найден по формуле

.                                            (3.21)

Однако использование R2 в случае множественной регрессии является не вполне корректным, так как коэффициент детерминации возрастает при добавлении регрессоров в модель. Это происходит потому, что остаточная дисперсия уменьшается при введении дополнительных переменных. И если число факторов приблизится к числу наблюдений, то остаточная дисперсия будет равна нулю, и коэффициент множественной корреляции, а значит и коэффициент детерминации, приблизятся к единице, хотя в действительности связь между факторами и результатом и объясняющая способность уравнения регрессии могут быть значительно ниже.

Для того чтобы получить адекватную оценку того, насколько хорошо вариация результирующего признака объясняется вариацией нескольких факторных признаков, применяют скорректированный коэффициент детерминации

                              (3.22)

Скорректированный коэффициент детерминации всегда меньше R2. Кроме того, в отличие от R2, который всегда положителен,  может принимать и отрицательное значение.

Пример (продолжение примера 1). Рассчитаем множественный коэффициент корреляции, согласно формуле (3.20):

=0,8601.

Величина множественного коэффициента корреляции, равного 0,8601, свидетельствует о сильной взаимосвязи стоимости перевозки с весом груза и расстоянием, на которое он перевозится.

Коэффициент детерминации равен: R2=0,7399.

Скорректированный коэффициент детерминации рассчитываем по формуле (3.22):

=0,7092.

Заметим, что величина скорректированного коэффициента детерминации отличается от величины коэффициента детерминации.

Таким образом, 70,9% вариации зависимой переменной (стоимости перевозки) объясняется вариацией независимых переменных (весом груза и расстоянием перевозки). Остальные 29,1% вариации зависимой переменной объясняются факторами, неучтенными в модели.

Величина скорректированного коэффициента детерминации достаточно велика, следовательно, мы смогли учесть в модели наиболее существенные факторы, определяющие стоимость перевозки.

3.5. Оценка качества модели множественной регрессии

Проверка качества модели множественной регрессии может быть осуществлена с помощью дисперсионного анализа.

Как уже было отмечено (см. 2.5), сумма квадратов отклонений от среднего в выборке равна сумме квадратов отклонений значений , полученных по уравнению регрессии, от выборочного среднего  плюс сумма квадратов отклонений Y от линии регрессии .

С учетом (3.21) получим таблицу дисперсионного анализа (табл. 3.4), аналог таблицы 2.3.

Проверка качества модели множественной регрессии в целом может быть осуществлена с помощью F-критерия Фишера. Для проверки гипотезы о том, что линейная связь между  и y отсутствует:

,

воспользуемся соотношением

                                         (3.23)

которое удовлетворяет F - распределению Фишера с (k, n-(k+1)) степенями свободы. Критические значения этой статистики F для уровня значимости  затабулированы.

Таблица 3.4

Таблица дисперсионного анализа

Источник вариации

Сумма квадратов отклонений

Число степеней свободы

Дисперсия на одну степень свободы

k

Остаток

n-k-1

Общая вариация

n-1

Если F>F, то гипотеза об отсутствии связи между переменными  и y отклоняется, в противном случае гипотеза Н0 принимается и уравнение регрессии не значимо.

Пример (продолжение примера 1). Заполним таблицу дисперсионного анализа:

Таблица дисперсионного анализа

Источник вариации

Сумма квадратов отклонений

Число степеней свободы

Дисперсия

5828,84

2

2914,42

Остаток

2049,54

17

120,56

Общая вариация

7878,38

19

Получаем , .

В нашем примере F>F, следовательно, нулевая гипотеза отклоняется, и уравнение множественной регрессии значимо.

Помимо проверки значимости уравнения в целом, можно проверить статистическую значимость каждого из коэффициентов регрессии в отдельности.

Фактически это означает проверку одной из гипотез:

1); …; k) .

Статистическая значимость каждого из коэффициентов регрессии определяется при помощи t-критерия Стьюдента. Решение о том, что верна нулевая гипотеза, принимается в случае, когда t<t, иначе принимается альтернативная гипотеза.

Значение t-статистики Стьюдента в случае множественной регрессии определяется по формуле:

,                                                    (3.24)

где  - стандартная ошибка коэффициента регрессии , которая определяется по формуле

,                        (3.25)

здесь  - стандартное отклонение y; 

           - стандартное отклонение xi;

          - коэффициент детерминации для зависимости фактора xi от других факторов уравнения множественной регрессии.

Пример (продолжение примера 1). Проверим значимость коэффициентов регрессии. В случае, когда в уравнение регрессии включены две независимые переменные, формула (3.24) упрощается

, .

Таким образом:

=4,69,=4,50,

.

Так как в обоих случаях , то коэффициенты регрессии значимы, следовательно, и вес груза, и расстояние грузовой перевозки оказывают существенное, статистически значимое влияние на стоимость перевозки.

3.6 Мультиколлинеарность и методы ее устранения

Одним из важнейших этапов построения регрессии является отбор факторов , j=1,..., k, i=1,2,…,n, включаемых в регрессию (3.1). Наибольшее распространение получили следующие методы построения уравнения множественной регрессии: метод исключения, метод включения, шаговый регрессионный анализ. Перечисленные методы дают близкие результаты: отсев факторов из полного их набора (метод исключения), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый метод).

Наиболее широко используются для решения вопроса об отборе факторов частные коэффициенты корреляции, оценивающие в чистом виде тесноту связи между фактором и результатом.

При включении факторов следует придерживаться правила, согласно которому число включаемых в модель объясняющих переменных должно быть в 5-6 раз меньше объема совокупности, по которой строится регрессия. Иначе число степеней свободы остаточной вариации будет мало, и параметры уравнения регрессии окажутся статистически незначимы.

Иногда при отборе переменных-факторов нарушается предположение (3.5). В этом случае говорят, что объясняющие переменные , j=1,..., k, i=1,2,…,n модели характеризуются свойством полной (строгой) мультиколлинеарности. В этом случае система (3.6) не может быть разрешена относительно неизвестных оценок коэффициентов. Строгая мультиколлинеарность встречается редко, так как ее несложно избежать на предварительной стадии отбора объясняющих переменных.

Реальная (частичная) мультиколлинеарность возникает в случаях достаточно сильных линейных статистических связей между переменными , j=1,..., k, i=1,2,…,n. Точных количественных критериев для проверки наличия мультиколлинеарности не существует, но имеются некоторые практические рекомендации по выявлению мультиколлинеарности.

1. Если среди парных коэффициентов корреляции между объясняющими переменными имеются значения 0,75-0,80 и выше, это свидетельствует о присутствии мультиколлинеарности.

Пример. В примере 2 между переменными K и L коэффициент корреляции равен 0,96, а между lnK и lnL чуть меньше 0,89.

2. О присутствии явления мультиколлинеарности сигнализируют некоторые внешние признаки построенной модели, являющиеся его следствиями:

- некоторые из оценок , j=1,2,…,k имеют неправильные с точки зрения экономической теории знаки или неоправданно большие по абсолютной величине значения,

- небольшое изменение исходной выборки (добавление или изъятие малой порции данных) приводит к существенному изменению оценок коэффициентов модели вплоть до изменения их знаков,

- большинство оценок коэффициентов регрессии оказываются статистически незначимо отличающимися от нуля, в то время как в действительности многие из них имеют отличные от нуля значения, а модель в целом является значимой при проверке с помощью F-критерия. 

Методы устранения мультиколлинеарности.

1. Проще всего удалить из модели один или несколько факторов.

2. Другой путь состоит в преобразовании факторов, при котором уменьшается корреляция между ними. Например, при построении регрессий на основе временных рядов помогает переход от первоначальных данных к первым разностям =Yt-Yt-1. В примере 2 переход от переменных K и L к их логарифмам уменьшил коэффициент корреляции с 0,96 до 0,89. 

3. Использование в уравнении регрессии взаимодействия факторов, например, в виде их произведения.

4. Использование так называемой ридж-регрессии (гребневой регрессии). В этом случае к диагональным элементам системы (3.6) добавляется "гребень" (небольшое число, как правило, от 0,1 до 0,4):

Это делает получаемые оценки смещенными, но уменьшает средние квадраты ошибок коэффициентов.

5. Использование метода главных компонент5.

6. Отбор наиболее существенных объясняющих переменных на основе методов исключения, включения, шаговой регрессии, которые используют для принятия решения F-критерий.

4. Спецификация переменных в уравнениях регрессии

4.1. Спецификация уравнения регрессии и ошибки спецификации

При построении эконометрической модели исследователь специфицирует составляющие ее соотношения, выбирает переменные, входящие в эти соотношения, а также определяет вид математической функции, представляющей каждое соотношение. Остановимся на вопросе выбора переменных, которые должны быть включены в модель. До сих пор мы неявно считали, что имеем правильную спецификацию модели.

На практике никогда не получается правильная спецификация модели, возникают так называемые ошибки спецификации. Экономическая теория, положения которой используются при выборе регрессоров, не может быть совершенной. Поэтому исследователь может включить в эконометрическую модель переменные, которых там не должно быть, и может не включить другие переменные, которые должны там присутствовать.

Т.е. изучим две ситуации.

Случай 1. Исключены существенные переменные.

Процесс, порождающий данные:

, i=1,…,n.     (4.1а)

Модель:

                            (4.1б)

Случай 2. Включены несущественные переменные.

Процесс, порождающий данные:

                            (4.2а)

Модель:

, i=1,…,n    (4.2б)

Часто регрессию (4.1а) называют длинной, а регрессию (4.1б) – короткой.

В первом случае, если опущены переменные, которые должны быть включены в регрессию, оценки коэффициентов , j=1,…,k являются, вообще говоря, смещенными (но обладают меньшей дисперсией) за исключением двух случаев, когда =0, j=1,…,l или регрессоры X1,…, Xk и Z1,…, Zl ортогональны.

Смещенной является и оценка дисперсии случайной ошибки , а, следовательно, стандартные ошибки и многие статистические тесты, в которых используется значение , становятся некорректными.

Во втором случае, если включены переменные, которые не должны присутствовать в модели, оценки коэффициентов , j=1,…,k будут несмещенными, но неэффективными. Поскольку несмещенность оценок и величины дисперсии  сохраняется, возникает иллюзия, что надо включать в модель как можно больше регрессоров. Но в этом случае падает точность оценок, и может возникнуть проблема мультиколлинеарности объясняющих переменных.

На практике, однако, нам неизвестен процесс, порождающий данные, т.е. мы не знаем истинную модель. Поэтому, как правило, возникает проблема – какую модель выбрать: короткую или длинную, т.е. включать дополнительные регрессоры в модель или не включать: в первом случае мы получим смещенные оценки коэффициентов регрессии, а во втором случае – неэффективные оценки. Решение этой проблемы может быть найдено на основе критерия минимума среднеквадратичного отклонения значений коэффициентов, см. [5, с. 112-114].

Часто случается также, что исследователь не может использовать данные по переменным, которые включены в модель. Некоторые переменные, например, невозможно измерить, другие поддаются измерению, но это достигается большими затратами времени и ресурсов. В таких случаях вместо отсутствующих переменных полезно использовать некоторые их заменители (proxy).

Например, если вы не имеете данных о качестве образования, вы можете использовать показатель качества образования как отношение числа преподавателей к числу студентов или денежные расходы на одного студента.

Причин использования "прокси"-переменных две: во-первых, если пропущена важная для модели переменная, то оценки будут смещены (случай 1 выше), а, во-вторых, результаты оценки регрессии с включением замещающих переменных могут дать косвенную информацию о тех переменных, которые замещены данными переменными.

4.2. Обобщенный метод наименьших квадратов

Обобщим КЛММР вида (3.1). Пусть по-прежнему мы располагаем выборочными наблюдениями над k переменными Yi  и ,  j=1,..., k, i=1,2,…,n  и строим регрессию:

                  (4.3)

Откажемся от предположения КЛММР о некоррелированности и гомоскедастичности случайной ошибки (3.3). То есть относительно переменных модели в уравнении (4.3) примем следующие основные гипотезы:

E(ui)=0;                                                               (4.4)

                            (4.5)

X1, X3, ..., Xk – неслучайные переменные;        (4.6)

Не должно существовать строгой линейной

зависимости между переменными X1, X3, ..., Xk.   (4.7)

Суть гипотезы (4.5) в том, что все случайные ошибки ui имеют непостоянную дисперсию, то есть не выполняется условие гомоскедастичности дисперсии – имеет место гетероскедастичность дисперсии ошибок. Кроме того, ковариации остатков могут быть произвольными и отличными от нуля (вторая строчка соотношения (4.5)).

Модель вида (4.3)-(4-7) называется обобщенной линейной моделью множественной регрессии (ОЛММР). Отличие ОЛММР от КЛММР состоит в изменении предположений о поведении случайной ошибки (4.5).

К ОЛММР может быть применен метод наименьших квадратов, однако (3.6) оказывается неприменимой к модели (4.3)-(4-7) в силу потери свойства оптимальности оценок. Но МНК к ОЛММР может быть применен.

Критерий минимизации суммы квадратов ошибок МНК в силу условия (4.5) заменяется на другой – минимизация обобщенной суммы квадратов отклонений (с учетом ненулевых ковариаций случайной ошибки для разных наблюдений и непостоянной дисперсии ошибки) и соответственно усложняется вид системы уравнений для определения оценок коэффициентов по сравнению с системой (3.6) для МНК. После решения полученной системы линейных алгебраических уравнений получим линейные несмещенные оценки коэффициентов ОЛММР, которые будут эффективными. Указанный метод получения оценок называется обобщенным методом наименьших квадратов (ОМНК) или методом Айткена.

Обозначим6:

;.

Тогда модель (4.3)-(4.7) запишется в матричном виде:

y=X+u,

при условиях

E(u)=0;

E(uuT)=2;

X – не из случайных чисел;

rank(X)=k+1<n.

Оценки МНК получаются по формуле . Оценки ОМНК получаются по формуле .

Подчеркнем, что для применения ОМНК в (4.5) необходимо знать значения в правой части равенства (в частности элементы матрицы ), что на практике случается крайне редко. Поэтому каким-либо способом оценивают величины  i, j=1,…,n. А затем используют эти оценки в расчетах коэффициентов модели. Этот подход составляет суть так называемого доступного обобщенного метода наименьших квадратов. Конкретные способы оценки неизвестных ковариаций будут рассмотрены ниже.

4.3 Линейная модель множественной регрессии

с гетероскедастичными остатками

Довольно часто при построении регрессии анализируемые объекты неоднородны, например, при исследовании структуры потребления домохозяйств естественно ожидать, что колебания в структуре будут выше для богатых, чем для бедных домохозяйств. В этой ситуации предположение (3.3) о постоянстве дисперсии случайной ошибки (имеется в виду возможное поведение случайного члена до того, как сделана выборка) оказывается не соответствующим действительности. В случаях, когда дисперсия u одинакова в каждый момент времени или для каждого значения X, существуют определенные ограничения (в некоторой полосе) для расположения точек на графике X и Y, согласно которым отчетливой тенденции к увеличению или уменьшению дисперсии  по мере роста X не наблюдается.

На рис. 4.1 приводятся примеры изменения разброса (гетероскедастичности) случайной ошибки регрессии.

На рис. 4.1а изображена ситуация, когда значения дисперсии  растут по мере увеличения значений регрессора X. На рис. 4.1б дисперсия ошибки достигает максимальной величины при средних значениях X, уменьшаясь по мере приближения к крайним значениям. Наконец, на рис. 4.1в дисперсия ошибки оказывается наибольшей при малых значениях X, быстро уменьшается и становится однородной по мере увеличения независимой переменной X.

Рис. 4.1. Примеры гетероскедастичности

Гетероскедастичность дисперсии случайного члена означает, что

,                                       (4.8)

т.е. нарушается предположение (3.3) в КЛММР, и мы должны рассматривать ОЛММР с нулевой ковариацией случайных ошибок (ср. (4.5) и (4.8)).

Основные последствия гетероскедастичности проявляются в получении неэффективных оценок МНК и занижении стандартных ошибок коэффициентов регрессии, что завышает t-статистику и дает неправильное представление о точности уравнения регрессии.

Поэтому для оценивания регрессии с гетероскедастичными случайными ошибками применяется ОМНК.

Предположим, что нам известны значения величин  i =1,…,n. Тогда уравнение (4.3) разделим на i:

,

и получим регрессию с постоянной (гомоскедастичной) дисперсией случайного члена, действительно .

Для получения оценок неизвестных дисперсий  i =1,…,n будем предполагать, что они пропорциональны некоторым числам, т.е. , где 2 – некоторая константа.

Принимая различные гипотезы относительно характера гетероскедастичности, будем иметь соответствующие значения i.

Если дисперсия случайного члена пропорциональна квадрату регрессора X, так что , то ,  i =1,…,n.

Если дисперсия случайного члена пропорциональна X, так что , то ,  i =1,…,n. Например, для случая одной объясняющей переменной имеем в этом случае систему уравнений ОМНК вида:

Поскольку значения i,  i =1,…,n являются фактически весами, которые устраняют неоднородность дисперсии, то ОМНК для системы с гетероскедастичностью часто называют методом взвешенных наименьших квадратов.

Существуют также и другие методы коррекции модели на гетероскедастичность, в частности состоятельное оценивание стандартных ошибок. Известны способы коррекции стандартных ошибок Уайта и Невье-Веста [5, с. 144-146].

О проверке выборки на гомоскедастичность.

Рассмотрим вопрос тестирования выборки на наличие гомоскедастичности. Возможности такой проверки зависят от природы исходных данных.

Если имеется обширная выборка, то можно воспользоваться стандартным критерием однородности дисперсии Бартлетта.

Расчленяя выборку на m независимых групп (каждой из них соответствует единственное значение переменной X), вычислим величины:

,

причем ni=n, здесь ni - число наблюдений в i группе,  -  дисперсия ошибки в i группе. Величина Q1/Q2 будет приближенно удовлетворять распределению 2 с (m-1) степенями свободы. Если вычисленное по выборке значение 2 меньше критического, то гипотеза об однородности выборочной дисперсии принимается, в противном случае отклоняется.

В случаях малого количества наблюдений в выборке, когда группировка данных невозможна, используется тест Голдфелда и Куандта. Он предусматривает осуществление следующих шагов:

1. Упорядочить наблюдения по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность.

2. Опустить v наблюдений, оказавшихся в центре (v должно быть примерно равно четверти общего количества наблюдений n).

3. Оценить отдельно обыкновенным методом наименьших квадратов регрессии на первых (n-v)/2 наблюдениях и на последних (n-v)/2 наблюдениях при условии, что (n-v)/2 больше числа оцениваемых параметров k.

4. Пусть e1 и e2 - суммы квадратов остатков от первой и второй регрессий соответственно. Тогда статистика Q=e1/e2 будет удовлетворять F - распределению с ((n-v-2k)/2; (n-v-2k)/2) степенями свободы. При Q < F гипотеза об однородности выборочной дисперсии принимается, в противном случае (с ростом величины Q) отклоняется.

Очевидно, что решающим для этого теста является выбор величины v. Слишком большое значение v уменьшает надежность теста. Экспериментально авторами теста установлено, что для одной объясняющей переменной оптимальное v=8 при n=30 и v=16 при n=60.

Кроме перечисленных, могут использоваться тесты на гетероскедастичность Уайта, Бреуша-Пагана и др.

Пример. Проверим по критерию Бартлетта данные из примера 1 раздела 3. Будем иметь табл. 4.1. В табл. 4.1 учтено, что среднее значение ei равно 0, а значит, . Примем m=2. Тогда:

Q1=20ln(10/20167,41 + 10/2059,69) (10ln(167,41)+10ln(59,69))=2,55; Q2=1+1/3(1/10+1/10-1/20)=1,05; Q1/Q2=2,43.

При одной степени свободы критическое значение 2 при 5%  уровне значимости равно 3,84, а следовательно, гипотеза об однородности выборочной дисперсии принимается.

Для тех же данных применим тест Гольдфельда и Куандта. В нашем случае число объясняющих переменных k=2, количество исходных данных в выборке n=20. Упорядочим наблюдения по убыванию независимой переменной X2 – расстояние перевозки, относительно которой есть подозрение на гетероскедастичность. Опустим 4 наблюдения, оказавшихся в центре, т.е. v=4. При значении v=4 получим суммы квадратов остатков от первой и второй регрессий соответственно e1=1167,38 и e2=31,49. Статистика Q=e1/e2=1167,38/31,49 = 37,07 удовлетворяет F-распределению с (6; 6) степенями свободы. F0,05(6, 6) = 4,28, Q > F и гипотеза об однородности выборочной дисперсии должна быть отвергнута.

Поскольку тесты дают противоположные результаты (что не редкость в эконометрике), то лучше согласиться с наихудшим вариантом, т.е. предположить наличие гетероскедастичности и предпринять соответствующие корректирующие меры.  В частности, скорректировать стандартные ошибки по формуле Невье-Веста. В таблице 4.2 представлены результаты регрессии до корректировки и после корректировки на гетероскедастичность. Видно, что на величине коэффициентов регрессии корректировка на гетероскедастичность не отражается, а стандартные ошибки и значения статистик были пересчитаны.

Таблица 4.1

Проверка гомоскедастичности дисперсии по критерию Бартлетта

Y

Ошибка ei

ei2

Y

Ошибка ei

ei2

51

-2,49

6,20

26

-0,68

0,46

16

-1,86

3,46

6

5,27

27,72

74

31,93

1019,21

5,8

-5,29

27,93

7,5

-3,18

10,11

13,8

-16,74

280,23

33

-2,17

4,71

6,2

8,94

79,87

26

-18,38

337,64

7,9

-3,57

12,74

11,5

-3,45

11,90

5,4

5,18

26,79

52

5,58

31,14

56

7,72

59,60

15,8

-3,11

9,67

25,5

-0,85

0,72

8

-8,72

76,04

7,1

4,85

23,47

=167,41

=59,69

Таблица 4.2

Переменные

Коэффициент

Стандартная ошибка

Значение t-статистики

Значение критерия Фишера F(2,17)

R2

до

после

до

после

до

после

до

после

до

после

X1

1,156   

1,156   

0,246      

0,251      

4,694   

4,588   

24,17

20,87

0,73

0,73

X2

15,104   

15,104   

3,352      

4,112

4,505   

3,673   

Константа

-17,313    

-17,313

6,447     

5,297     

-2,685   

-3,268   

4.4. Линейная модель множественной регрессии

с автокорреляцией остатков

Вернемся еще раз к предположению (3.3). Из него, в частности, следует, что ковариации случайной ошибки для разных наблюдений равны нулю. Если к тому же случайные ошибки распределены нормально, то это означает их попарную независимость.

Однако регрессионные модели в экономике часто содержат стохастические зависимости между значениями случайных ошибок – автокорреляцию ошибок. Ее причинами являются: во-первых, влияние некоторых случайных факторов или опущенных в уравнении регрессии важных объясняющих переменных, которое не является однократным, а действует в разные периоды времени; во-вторых, случайный член может содержать составляющую, учитывающую ошибку измерения объясняющей переменной.

Применение к модели с автокорреляцией остатков обыкновенного МНК приведет к следующим последствиям:

1. Выборочные дисперсии полученных оценок коэффициентов будут больше по сравнению с дисперсиями по альтернативным методам оценивания, т.е. оценки коэффициентов будут неэффективны.

2. Стандартные ошибки коэффициентов будут оценены неправильно, чаще всего занижены, иногда настолько, что нет возможности воспользоваться для проверки гипотез соответствующими точными критериями – мы будем чаще отвергать гипотезу о незначимости регрессии, чем это следовало бы делать в действительности.

3. Прогнозы по модели получаются неэффективными.

На практике исследователь в этом случае поставлен перед проблемой тестирования наличия в модели автокорреляции, а также выявления причины автокорреляции при ее обнаружении: или в модели опущена существенная переменная, или структура ошибок зависит от времени. То есть, исследование остатков позволяет судить о правильности модели и ее пригодности для прогнозирования.

Простейшим способом проверки наличия автокорреляции является графическое изображение остатков ei. Возможно построение:

  •  графика временной последовательности, если остатки получены в разные моменты времени;
  •  графика зависимости остатков от значений , полученных по регрессии;
  •  графиков зависимости остатков от объясняющих переменных.

Если изображение остатков представляет собой горизонтальную полосу, это указывает на отсутствие каких-либо проблем, связанных с моделью. В противном случае в зависимости от вида и типа графика можно получить информацию о: неадекватности модели, ошибочности расчетов, необходимости включения в модель линейного или квадратичного члена от времени; наконец о непостоянстве дисперсии.

Ясно, что ошибки могут коррелировать по-разному, однако без нарушения общности можно рассматривать так называемую сериальную корреляцию (автокорреляцию), когда зависимость между ошибками, отстоящими на некоторое количество шагов s, называемое порядком корреляции (в частности, на один шаг, s=1), остается одинаковой, что хорошо проявляется визуально на графике в системе координат (ei; ei-s). Например, для s=1 на рис. 4.2 показаны отрицательная (слева) и положительная (справа) автокорреляция остатков. В экономических исследованиях чаще всего встречается положительная автокорреляция.

Рис. 4.2. Автокорреляция остатков

Более достоверным способом проверки существования автокорреляции является применение статистических критериев. Хорошо известны два – критерий знаков (относится к непараметрическим критериям) и критерий Дарбина-Уотсона.

Для проведения проверки по критерию знаков необходимо расположить остатки ei во временной последовательности, выписать их знаки, подсчитать число образующихся при этом серий nu из одинаковых знаков, а также n1 – число остатков со знаком плюс и n2 – число остатков со знаком минус. Далее определяется вероятность Pr(nu) появления nu групп при нулевой гипотезе – последовательность остатков полностью случайна (автокорреляция отсутствует). Если Pr(nu) < 1–, где  –  уровень доверия, то нулевая гипотеза отвергается.

Для ускорения расчетов для выборок с n1, n2 не больше 20 составлены таблицы с критическими значениями nu при уровне доверия =0,05.

Для больших выборок истинное распределение ошибок достаточно точно аппроксимируется нормальным со средним =2n1n2/(n1+n2)+1 и дисперсией 2=2n1n2(2n1n2 n1 n2)/(n1 + n2)2/(n1 + n2 – 1), а величина z=(u  + 0,5)/ подчиняется нормированному нормальному распределению, следовательно, критические значения nu могут быть вычислены по формулам ( + z) и ( z), где z определяется из условия 0(z)=(1–)/2 (значения  даны в справочниках).

Пример. Получены остатки 0,6; 1,9; –1,8; –2,7; –2,9; 1,4; 3,3; 0,3; 0,8; 2,3; –1,4; –1,1, которые обнаруживают следующую последовательность знаков + + – – – + + + + + – –. Имеем nu=4, n1=7, n2=5. По таблице находим критические значения для nu: 3 и 11. Так как 3 < nu < 11, то нулевая гипотеза принимается, то есть остатки независимы и автокорреляция отсутствует.

Критерий знаков достаточно прост и не использует информацию о величине ei, и поэтому недостаточно эффективен.

Для проверки гипотезы о существовании линейной автокорреляции первого порядка, которая чаще всего имеет место на практике, предпочтителен критерий Дарбина-Уотсона, основанный на статистике:

                                           (4.9)

Значения первых разностей ошибки в (4.9) будут обнаруживать тенденцию к уменьшению по абсолютной величине по сравнению с абсолютными значениями ei при положительной автокорреляции и к увеличению при отрицательной автокорреляции.

Для статистики d имеются верхний dU и нижний dL пределы уровня значимости. Различные статистические решения для нулевой гипотезы H0: автокорреляция равна нулю, даны в табл. 4.3. При этом появляются области неопределенности, так как величина ei зависит не только от значений u, но и от значений последовательных X.

Следует отметить, что критерий Дарбина-Уотсона предназначен для моделей с детерминированными (нестохастическими) регрессорами X и не применим, например, в случаях, когда среди объясняющих переменных есть лаговые значения переменной Y.

Таблица 4.3

Области статистических решений для критерия Дарбина-Уотсона

d<dL

dL<d<dU

dU<d<2; 2<d<(4–dU)

(4–dU)<d<(4–dL)

d>(4dL)

Отвергаем H0 в пользу гипотезы о положительной автокорреляции

H0 не принимается и не отвергается

Принимается H0

H0 не принимается и не отвергается

Отвергаем H0 в пользу гипотезы об отрицательной автокорреляции

Пример. Для примера 1 из п. 3.2  n=20, k=2 имеем табл. 4.4.

Далее по формуле (4.9) d=4397,66/2050,37=2,14.

Значения dL и dU при уровне значимости 5% получим из справочника при n=20 и k=2: dL=1,10, dU=1,54.

Так как d>2, то вычисляем 4–dU=2,46 и 4–dL=2,90 и 2<d<4–dU.

Согласно табл. 4.3 гипотеза о равенстве нулю автокорреляции принимается.

Какой бы тест на автокорреляцию не использовался, необходимо помнить, что рекомендуется в случаях неопределенности (см. табл. 4.3) принимать гипотезу о наличии автокорреляции, поскольку это гарантирует от отрицательных последствий автокорреляции. В случаях же некорректного принятия гипотезы о равенстве нулю автокорреляции получаем модель, которая не может иметь удовлетворительного применения, хотя формально проходит все проверки.

Таблица 4.4

Вычисление значения статистики d

Ошибка ei

ei2

ei-1

(ei-ei-1)2

Ошибка ei

ei2

ei-1

(ei-ei-1)2

1

2

3

4

5

6

7

8

-2,49

6,20

-0,68

0,46

-8,72

64,64

-1,86

3,46

-2,49

0,40

5,27

27,72

-0,68

35,40

31,93

1019,21

-1,86

1141,76

-5,29

27,93

5,27

111,51

-3,18

10,11

31,93

1232,71

-16,74

280,23

-5,29

131,10

-2,17

4,71

-3,18

1,02

8,94

79,87

-16,74

659,46

-18,38

337,64

-2,17

262,76

-3,57

12,74

8,94

156,50

-3,45

11,90

-18,38

222,90

5,18

26,79

-3,57

76,56

5,58

31,14

-3,45

81,54

7,72

59,60

5,18

6,45

-3,11

9,67

5,58

75,52

-0,85

0,72

7,72

73,44

-8,72

76,04

-3,11

31,47

4,85

23,47

-0,85

32,49

Сумма

2050,37

4397,66

Рассмотрим методы оценивания уравнения регрессии при наличии автокорреляции остатков.

Пусть имеем обобщенную линейную модель множественной регрессии в виде (4.3)-(4.7) с гомоскедастичными остатками .

Предположим, что остатки ui удовлетворяют следующему уравнению:

ui=ui-1+i, i=2,...,n,                                           (4.10)

представляющему собой авторегрессионную модель первого порядка, для которой выполнено ||1, а i удовлетворяют условиям:

E(i)=0;                               (4.11)

Тогда несложно показать, что будет выполняться:

.                                           (4.12)

Условие (4.12) является аналогом (4.5) и фактически означает гомоскедастичность дисперсии случайного члена (первая строчка) и автокорреляцию первого порядка (вторая строчка). Ясно, что если бы было известно значение в (4.10) и затем в (4.12), то можно было бы применить ОМНК (элементы матрицы в этом случае вычисляются согласно (4.12)) и получить эффективные оценки коэффициентов регрессии. Однако на практике значение в большинстве случаев не известно, поэтому используются следующие методы оценивания регрессионной модели.

Метод 1. Отказавшись от определения величины , являющейся узким местом модели, статистически, можно положить =0,5; 1 или -1. Однако даже грубая статистическая оценка будет, видимо, более эффективной, поэтому другой способ определения с помощью статистики Дарбина-Уотсона 1–0,5d. Применяя затем непосредственно ОМНК, получим оценки коэффициентов.

Метод 2. Если значение в (4.12) задано, то альтернативная схема отыскания оценок коэффициентов модели множественной регрессии суть (в целях упрощения, не нарушая общности, иллюстрация метода дана для случая парной регрессии):

а) Запишем уравнение модели для случая i и i–1:

.

Вычтем из обеих частей первого уравнения умноженное на второе уравнение:

или переобозначив:

с учетом (4.10) , получим модель

,                                         (4.13)

для случайного члена которой выполняется условие (4.11), т.е. автокорреляция отсутствует. При указанном преобразовании первое наблюдение умножается на , т.е. , .

б) Применяем обыкновенный МНК к модели (4.13).

В общем случае мы не располагаем информацией о порядке автокорреляции и значениях параметров в авторегрессионном уравнении, а значит, и методы 1 и 2 не дадут искомого результата.

Тем не менее, оценки коэффициентов можно найти приближенно с помощью следующих методов (опять в целях упрощения, не нарушая общности, иллюстрация методов дана для случая парной регрессии).

Метод 3. Итеративная процедура Кохрейна-Оркатта.

а) Оценивается регрессия  с исходными не преобразованными данными с помощью обыкновенного МНК.

б) Вычисляются остатки ei.

в) Оценивается регрессия ei=ei-1+i, и коэффициент при ei-1 дает оценку .

г) С учетом полученной оценки уравнение  преобразовывается к виду (4.13), оценивание которого позволяет получить пересмотренные оценки коэффициентов 0 и 1.

д) Вычисляются остатки регрессии (4.13) и процесс выполняется снова, начиная с этапа в).

Итерации заканчиваются, когда абсолютные разности последовательных значений оценок коэффициентов 0, 1 и  будут меньше заданного числа (точности).

Подобная процедура оценивания порождает проблемы, касающиеся сходимости итерационного процесса и характера найденного минимума: локальный или глобальный.

Метод 4. Метод Хилдрета-Лу основан на тех же принципах, что и рассмотренный метод 3, но использует другой алгоритм вычислений. Здесь регрессия (4.13) оценивается МНК для каждого значения из диапазона [-1, 1] с некоторым шагом внутри него. Значение, которое дает минимальную стандартную ошибку для преобразованного уравнения (4.13), принимается в качестве оценки , а коэффициенты регрессии определяются при оценивании уравнения (4.13) с использованием этого значения.

Метод 5. Дарбиным была предложена простая схема, дающая эффективные оценки коэффициентов:

а). Подставляя (4.10) в модель Yi=0+1Xi+ui, получим с учетом ui-1 = Yi-1  0  1Xi-1:

Yi=0(1)+Yi-1+1(Xi  Xi-1) + i,

где ошибка i удовлетворяет (4.11). Применяя обыкновенный МНК к последней модели, получаем оценку как коэффициента при Yi-1.

б). Вычисляем значения преобразованных переменных  и применяем к ним обыкновенный МНК. Получаем искомые оценки коэффициентов регрессии.

Достоинством метода является простота его распространения на случай автокорреляции более высокого порядка.

Как показывают эксперименты, проведенные для малых выборок, лучшим является двухшаговый метод 2, использующий оценку , полученную по методу, предложенному Дарбиным (метод 5 шаг а)).

4.5. Фиктивные переменные. Тест Чоу

Факторы (объясняющие переменные), применяемые в задаче регрессии до сих пор, принимали значения из некоторого непрерывного интервала. Иногда может понадобиться ввести в модель переменные, значения которых детерминированы и дискретны. Например, данные получены для трех разных районов, или на двух фабриках, или на разных машинах и т.п. Переменные такого типа обычно называют фиктивными или искусственными. Эти переменные позволяют отразить в модели эффекты сдвига во времени или в пространстве, воздействия качественных переменных. Пример фиктивной переменной - это переменная X0 при свободном члене 0 в уравнении регрессии (3.1), которая принята равной 1. Эту переменную необязательно вводить в модель, но ее использование обеспечивает некоторое удобство в обозначениях. Во многих других случаях введение фиктивных переменных диктуется необходимостью.

Пример. Допустим, мы хотим отразить в модели разное происхождение куриных окорочков (исходные данные7 - таблица 4.5), часть из которых получены в Америке, а часть в Канаде, при построении регрессионной зависимости веса окорочков Y от возраста кур X. Для этого в модель включим фиктивную переменную Z: Z=0 для Америки, Z=1 для Канады:

Y=0 + 1X + Z.

Таблица 4.5

Данные для расчета модели с фиктивной переменной

X

28

20

32

22

29

27

28

26

21

27

29

Y

13,3

8,9

15,1

10,4

13,1

12,4

13,2

11,8

11,5

14,2

15,4

Z

1

1

1

1

1

0

0

0

0

1

0

Если бы мы построили регрессию Y на X, то получили бы такое уравнение

Y=0,442+0,465X.

Воспользовавшись моделью с фиктивной переменной получим

Y=0,643+0,466X0,422Z

или для различных стран:

YK =0,221+0,466X для Канады и YA=0,643+0,466X для Америки.

Экспериментальные данные и три прямые, подобранные методом наименьших квадратов, приведены на рис. 4.3. Все три линии практически параллельны.

Дисперсионный анализ показывает значимость полученных зависимостей, причем уравнение (как с фиктивной переменной, так и без фиктивной переменной) объясняет до 80% вариации относительно среднего.

Вывод, который можно сделать в этом случае введение фиктивной переменной не дает весомого улучшения модели в смысле дополнительно объясненной вариации.

Ясно, что для какой-либо задачи существует не единственный способ выбора фиктивных переменных, а в большинстве случаев путей их представления много. Это обстоятельство оказывается выгодным, поскольку в некоторых случаях можно угодить в ловушку, когда существует линейная зависимость между введенными фиктивными переменными.

Чтобы избежать ловушки, необходимо выбрать одну из категорий в качестве эталонной и определять фиктивные переменные для остальных возможных категорий, причем выбор эталонной категории не влияет на сущность регрессии.

Рис. 4.3

Может потребоваться включение в модель более одной совокупности фиктивных переменных. Это особенно часто встречается при работе с перекрестными выборками. Поясним такую процедуру – множественных совокупностей фиктивных переменных – на примере8.

Пример. Предположим, что исследуется зависимость между весом новорожденного и семейным положением матери, а также рожала ли она раньше.

Введем фиктивную переменную M, которая принимает значения 1, если мать одинока, и 0 – в остальных случаях.

Введем также фиктивную переменную числа родов в прошлом D, равную 1 для матерей, которые рожали в прошлом, и 0 для матерей, которые ранее не рожали.

При этом двойном наборе фиктивных переменных имеется четыре возможных случая с соответствующими комбинациями значений фиктивных переменных:

1. Замужняя мать, первые роды M=0, D=0.

2. Одинокая мать, первые роды M=1, D=0.

3. Замужняя мать, не первые роды M=0, D=1.

4. Одинокая мать, не первые роды M=1, D=1.

Первый случай по смыслу является основной совместной эталонной категорией. Коэффициент при M будет представлять оценку разности веса новорожденных, если мать одинока (ожидаем отрицательный знак коэффициента). Коэффициент при D будет представлять оценку дополнительного веса при рождении, если ребенок не является первенцем. Ребенок для четвертой категории матерей будет подвержен обоим воздействиям.

Фиктивные переменные могут быть введены не только в правую часть регрессионного соотношения, но и зависимая переменная может быть представлена в такой форме. Это возможно в тех случаях, когда в качестве зависимой переменной мы рассматриваем ответы на вопросы, пользуется ли человек собственной машиной, имеет ли счет в банке и т.п., причем во всех случаях зависимая переменная принимает дискретные значения.

Фиктивные переменные могут быть использованы для учета взаимодействия между различными группами факторов.

Пример. Проиллюстрируем сказанное на примере с окорочками. Для построения двух прямых рассмотрим модель:

Y=0+1X+Z(1+2X)+u или Y=0+1X+1Z+2XZ+u.

Такой подход позволяет проверить различные варианты гипотез:

1. Гипотеза H0: 1=2=0 против альтернативы H1: что это не так. Если гипотеза H0 будет отвергнута, то мы придем к выводу, что модели не одинаковы, а если нет, то можно пользоваться одной моделью независимо от происхождения окороков.

2. Если гипотеза H0 в предыдущем пункте будет отвергнута, то можно проверить гипотезу H0: 2=0. Если H0 принимается, то мы заключаем, что имеющиеся два набора данных отличаются только уровнем, имея одинаковые углы наклона.

При необходимости могут быть выбраны и другие варианты проверок, если это разумно для задачи. Получим для указанной выше модели уравнение МНК:

Y=2,974+0,377X3,649Z+0,123(XZ),

причем R2=0,82.

Два отдельных уравнения для Z=1: Y=0,675+0,5X;

и для Z=0: Y=2,974+0,377X.

Как видно, уравнения несколько отличаются от тех линий, что приведены на рис. 4.3.

Для проверки гипотезы H0: 1=2=0 составим таблицу дисперсионного анализа (табл. 4.6). Значение F=3,399/0,983=3,458, что меньше F0,05(2; 7)=4,74, а, следовательно, гипотеза H0 принимается, то есть можно пользоваться одной моделью как для окороков из Америки, так и из Канады. Последнее подтверждается ранее полученными результатами.

Как показывает пример, использование взаимодействия с фиктивными переменными упрощает построение подходящих критериев и получение правильных статистик для проверки гипотез.

Таблица 4.6

Источник вариации

Сумма квадратов

Степени свободы

Средний квадрат

X

24,447

1

10,414

Z, XZ

6,797

2

3,399

Остаток

6,881

7

0,983

Всего

38,125

10

Часто эконометрист сталкивается с ситуацией, когда к уже имеющейся выборке он хочет присоединить небольшую дополнительную порцию данных, но не знает, можно ли считать выборки регрессионно однородными.

Если необходимо выяснить, можно ли использовать одну и ту же модель для двух разных выборок данных или следует оценивать отдельные регрессии для каждой выборки, то можно воспользоваться тестом Чоу.

Рассмотрим модели:

                         (4.14)

                         (4.15)

Мы хотим проверить гипотезу

H0: ,

которая содержательно означает, что для двух имеющихся выборок из n1 и n2 наблюдений можно использовать одну и ту же регрессионную модель, т.е. выборки можно объединить.

Процедура Чоу для статистической проверки гипотезы H0 суть:

1. Строим МНК оценки регрессии (4.14) и вычисляем сумму квадратов остатков, которую обозначим . Строим МНК оценки регрессии (4.15) и вычисляем сумму квадратов остатков, которую обозначим .

2. Строим МНК оценки регрессии по объединенной (общей) выборке, содержащей в себе все наблюдения (числом n1+n2) обеих выборок и вычисляем сумму квадратов остатков, которую обозначим er.

3. Критическая статистика F вычисляется по формуле:

и имеет распределение Фишера с (k+1) и (n1+n22k2) степенями свободы. Если F > F, то нулевая гипотеза отвергается, и в этом случае мы не можем объединить две выборки в одну.

5. Временные ряды

5.1.Специфика временных рядов

Часто исследователь имеет дело с данными в виде временных рядов.

Совокупность наблюдений  анализируемой величины , произведенных в последовательные моменты времени , называется временным рядом.

Иначе говоря, временной ряд – это упорядоченная во времени последовательность наблюдений.

Среди временных рядов выделяют одномерные, полученные в результате наблюдения одной, фиксированной характеристики исследуемого объекта, и, многомерные временные ряды как результат наблюдений нескольких характеристик одного исследуемого объекта в течение ряда моментов времени.

По времени наблюдения временные ряды делятся на дискретные и непрерывные. Дискретные ряды, в свою очередь, разделяются на ряды с равноотстоящими и произвольными моментами наблюдения.

Временные ряды бывают детерминированными и случайными: первые получены как значения некоторой неслучайной функции, а вторые - как реализации случайной величины.

Стохастические временные ряды подразделяются на стационарные и нестационарные. Ряд y(t) называется стационарным (в узком смысле), если среднее, дисперсия и ковариации y(t) не зависят от t.

В дальнейшем, если не оговорено иначе, будем рассматривать одномерные, дискретные с равноотстоящими моментами наблюдений случайные временные ряды.

Природа временных рядов существенно отличается от природы пространственных данных, что проявляется в весьма специфических свойствах временных рядов. В своей работе исследователь должен учитывать эти особенности, основные из которых отображены в таблице 5.1.

Таблица 5.1

Особенности временных рядов

Характеристики

наблюдений

Тип данных

Пространственные данные

Временные ряды

Порядок

Не существенен

Существенен

Статистическая

независимость

Независимы

Не являются статистически независимыми

Функция распределения

Распределены одинаково

Распределены неодинаково

Количество

Как правило, большое

Как правило, небольшое

Наличие автокорреляции

Встречается нечасто

Встречается часто

Значения элементов временного ряда формируются под воздействием ряда факторов, среди которых выделяют:

  •  долговременные, формирующие в длительной перспективе общую тенденцию анализируемого признака. Эта тенденция описывается с помощью некоторой функции, называемой трендом (Т);
  •  сезонные, формирующие периодически повторяемые в определенное время года колебания анализируемого признака (S);
  •  циклические, формирующие изменения анализируемого в результате воздействия циклов экономической, демографической или астрофизической природы (С);
  •  случайные, не поддающиеся учету и регистрации, как результат воздействия случайных, внешних факторов (U).

Первые три составляющие часто объединяют в одну детерминированную и рассматривают модель ряда в виде yt=f(t)+ut, t. Изменение уровня f(t) со временем называют при этом трендом.

Предметом анализа временного ряда является выделение и изучение указанных компонент ряда, как правило в рамках одной из моделей ряда: либо аддитивной Y=T+C+S+U, либо мультипликативной Y=TCSU.

Некоторые составляющие могут отсутствовать в тех или иных рядах.

В результате анализа временного ряда необходимо определить, какие из неслучайных составляющих присутствуют в разложении ряда, построить для них хорошие оценки, подобрать модель, описывающую поведение остатков и оценить ее параметры.

5.2. Проверка гипотезы о существовании тренда

Для выявления факта наличия или отсутствия неслучайной составляющей f(t), то есть для проверки гипотезы о существовании тренда - Н0: Еy(t)=a=const, используют следующие критерии.

I. Критерий серий. Упорядочим члены ряда по возрастанию: y1, y2, ..., yt, ..., yn. Определим медиану ряда:

Образуем последовательность плюсов и минусов, соответствующую исходному ряду, по правилу: если yt>ymed, то yt соответствует плюс, если yt<ymed, то – минус. Под серией понимается последовательность подряд идущих плюсов и подряд идущих минусов. Подсчитаем общее число серий и протяженность самой длинной серии .

Если хотя бы одно из неравенств:

окажется нарушенным, то гипотеза Н0 отвергается с вероятностью ошибки , заключенной между 0,05 и 0,0975.

II. Критерий "восходящих" и "нисходящих" серий. Аналогично предыдущему критерию исследуется последовательность плюсов и минусов. Правило построения последовательности: если yt+1-yt>0, то yt соответствует плюс, если yt+1-yt<0, то – минус (если подряд идут несколько равных наблюдений, то во внимание принимается одно из них).

Если хотя бы одно из неравенств:

окажется нарушенным, то гипотеза Н0 отвергается с вероятностью ошибки , заключенной между 0,05 и 0,0975. Величина 0 определяется в зависимости от n:

n

n26

26<n153

153<n1170

0

0=5

0=6

0=7

III. Критерий квадратов последовательных разностей (критерий Аббе). Если есть основания полагать, что разброс наблюдений yt относительно своих средних значений подчиняется нормальному закону распределения вероятностей, то применяется критерий Аббе - см. [1], с. 801-802.

5.3. Аналитическое выравнивание временных рядов,                     оценка параметров уравнения тренда

Метод обработки временных рядов, целями которого является устранение случайных колебаний и построение аналитической функции, характеризующей зависимость уровней ряда от времени – тренда, называется аналитическим выравниванием временного ряда.

Суть метода аналитического выравнивания состоит в том, чтобы заменить фактические уровни временного ряда на теоретические . Расчет  осуществляется по некоторому формализованному уравнению, принятому за математическую модель тренда. Для построения трендов чаще всего применяют такие функции, как:

  •  линейная: ;
  •  степенная: ;
  •  гиперболическая: ;
  •  экспоненциальная: ;
  •  полиномы второго и более высоких порядков: .

Расчет параметров тренда производится методом МНК. В качестве зависимой переменной выступают фактические уровни ряда , а независимой переменной является время . Заметим, что для нелинейных трендов необходима процедура линеаризации, аналогичная рассмотренной в разделе 3.

Выбор функции тренда может быть осуществлен несколькими способами. Наиболее простым считается тот, в ходе которого анализируют цепные абсолютные приросты (первые разности уровней ряда) , абсолютные ускорения уровней ряда (вторые разности ряда)  и цепные коэффициенты роста.

Если примерно одинаковы , то ряд имеет линейный тренд, если же примерно постоянны , то для описания тенденции временного ряда следует выбрать параболу второго порядка, и, если примерно равны , необходимо использовать экспоненциальную или степенную функции.

Пример 1.9 Рассчитаем параметры уравнения тренда по следующим данным:

Таблица 5.2

Темпы роста номинальной месячной заработной платы (за 10 месяцев 1999г., % к уровню декабря 1998г.)

Месяц

Темп роста номинальной

заработной платы

Месяц

Темп роста номинальной

заработной платы

Январь

82,9

Июнь

121,6

Февраль

87,3

Июль

118,6

Март

99,4

Август

114,1

Апрель

104,8

Сентябрь

123,0

Май

107,2

Октябрь

127,3

Для выявления тенденции временного ряда рассчитаем цепные абсолютные приросты (первые разности уровней ряда) , абсолютные ускорения уровней ряда (вторые разности ряда)  и цепные коэффициенты роста.

Таблица 5.3

Месяц

t

Январь

1

82,9

-

-

-

Февраль

2

87,3

4,4

-

1,053

Март

3

99,4

12,1

7,7

1,139

Апрель

4

104,8

5,4

-6,7

1,054

Май

5

107,2

2,4

-3,0

1,023

Июнь

6

121,6

14,4

12,0

1,134

Июль

7

118,6

-3,0

-17,4

0,975

Август

8

114,1

-4,5

-1,5

0,962

Сентябрь

9

123,0

8,9

13,4

1,078

Октябрь

10

127,3

3,7

-5,2

1,035

Наибольшей стабильностью отличаются цепные коэффициенты роста. Для описания тенденции временного ряда используем степенной или экспоненциальный тренд. Для того чтобы убедиться в этом, рассчитаем уравнение тренда и коэффициенты детерминации уравнения для наиболее часто применяемых функций, применяя МНК. Получим табл. 5.4. Коэффициенты детерминации рассчитаны по линеаризованным уравнениям регрессии.

Как мы и предполагали, степенной тренд лучше всего описывает тенденцию анализируемого временного ряда, что подтверждается высоким значением коэффициента детерминации.

Таблица 5.4

Уравнения трендов

Тип тренда

Уравнение

Линейный

0,873

Парабола второго порядка

0,920

Степенной

0,931

Экспоненциальный

0,856

Гиперболический

0,728

Интерпретация параметров тренда существенно зависит от его типа.

Если тренд имеет линейную форму, то a - начальный уровень временного ряда в период времени t=0 и b - средний за период абсолютный прирост уровней ряда.

Если же ряд имеет, например, экспоненциальный тренд, то a - начальный уровень временного ряда в период времени t=0 и  - средний за единицу времени коэффициент роста уровней ряда.

Трактовка параметров степенного тренда аналогична трактовке параметров экспоненциального тренда.

Пример (продолжение примера 1). Согласно уравнению линейного тренда  темпы роста заработной платы за 10 месяцев 1999 г. изменялись от начального уровня 82,66% со средним за месяц абсолютным приростом в 4,72 процентных пункта.

Мы можем заменить фактические уровни временного ряда на теоретические , подставляя значения t в уравнение тренда:

Уравнение экспоненциального тренда в исходной форме имеет вид:

Таким образом, начальный уровень ряда в начальный период времени равен 83,96, а средний цепной коэффициент роста - 1,045. Следовательно, темпы роста заработной платы за 10 месяцев 1999 г. изменялись от начального уровня 83,96% со средним за месяц цепным коэффициентом роста в 104,5%. Теоретические значения временного ряда рассчитываются как:

                                        

Уравнение тренда параболы второго порядка имеет вид:

                                               .

Следовательно, темпы роста заработной платы за 10 месяцев 1999 г. изменялись от начального уровня 72,9% со среднемесячным абсолютным приростом, описываемым зависимостью вида . Теоретические значения уровней ряда могут быть рассчитаны как:

                                       

5.4. Метод последовательных разностей

Часто при аналитическом выравнивании ряда используется модель тренда в виде полинома.

Для определения порядка аппроксимирующего полинома в этом случае выделения тренда широко используется метод последовательных разностей членов анализируемого временного ряда.

Метод основан на следующем математическом факте: если временной ряд y1, y2, ..., yt, ..., yn содержит в качестве своей неслучайной составляющей алгебраический полином f(t)=a0+a1t+...+aptp порядка р, то переход к последовательным разностям y(1), y(2), …, y(n), повторенный р+1 раз (то есть переход к последовательным разностям порядка р+1), исключает неслучайную составляющую (включая константу a0), оставляя элементы, выражающиеся только через остаточную случайную компоненту u(t).

Алгоритм метода. Последовательно для k=1,2,… вычисляем разности ky(t) (t=1,2,…, n-k). Анализируем поведение разностей в зависимости от их порядка k. Начиная с некоторого k разности стабилизируются, оставаясь приблизительно на одном уровне при дальнейшем росте k. Это значение k и будет давать порядок сглаживающего полинома, то есть p.

При применении метода следует иметь в виду, что стабилизация разностей не доказывает, что ряд первоначально состоял из полинома плюс случайный остаток, а только то, что он может быть приближенно представлен таким образом.

Пример. Имеются данные о базисных темпах роста среднедушевого дохода населения области за 10 месяцев (в % к январю). Расчет первых и вторых разностей показывает, что для ряда yt тренд может быть адекватно описан полиномом второй степени.

Таблица 5.5

Расчет последовательных разностей

Месяц

Темпы роста среднедушевого дохода (%), yt

yt=yt - yt-1

2yt=yt - yt-1

Февраль

102

-

-

Март

103

1

-

Апрель

107

4

3

Май

114

7

3

Июнь

125

11

4

Июль

139

14

3

Август

157

18

4

Сентябрь

178

21

3

Октябрь

201

23

2

Ноябрь

227

26

3

5.5. Аддитивная и мультипликативная модели временного ряда

Простейшим подходом к моделированию временных рядов, содержащих сезонные колебания, является построение аддитивной или мультипликативной моделей временного ряда.

Выбор одной из этих моделей основывается на анализе структуры временного ряда.

Если амплитуда сезонных колебаний примерно постоянна, то строят аддитивную модель. Если же амплитуда колебаний непостоянна, то есть возрастает или уменьшается, то строят мультипликативную модель.

Процесс построения модели ряда в этом случае включает следующие этапы:

  1.  Выравнивание исходного ряда методом скользящей средней. Расчет значений сезонной компоненты S.
  2.  Устранение сезонной компоненты из исходных уровней ряда и получение выравненных данных (Т+U) в аддитивной или (ТU) в мультипликативной модели.
  3.  Аналитическое выравнивание уровней (Т+U) или (ТU) и расчет значений Т с использованием полученного уравнения тренда.
  4.  Расчет полученных по модели значений (Т+S) или (ТS)
  5.  Расчет абсолютных и/или относительных ошибок.

Рассмотрим процесс построения аддитивной модели на примере.

Пример. Имеются данные о количестве продукции (тыс.шт.), проданной фирмой «Вега» в течение последних 20 кварталов.

Квартал

Объем

продаж

Квартал

Объем

продаж

Квартал

Объем

продаж

Квартал

Объем

продаж

1

8,4

6

9,1

11

10,1

16

12,2

2

8,6

7

9,2

12

10,8

17

11,9

3

8,8

8

9,9

13

10,5

18

12,3

4

9,5

9

9,7

14

10,7

19

12,5

5

8,5

10

9,9

15

11

20

13,2

Этап 1. Проведем выравнивание ряда методом скользящей средней. Для этого просуммируем уровни ряда по 4 кварталам последовательно. Далее разделим полученные суммы на 4 и найдем скользящие средние, уже не содержащие сезонной компоненты. Найдем центрированные скользящие средние, для чего вычислим средние значения из двух последовательных скользящих средних. Вычислим оценки сезонной компоненты как разность между фактическим уровнем продаж и центрированными скользящими средними.

Таблица 5.6

Расчет оценок сезонной компоненты

Квартал

Объем продаж, тыс.шт.

Итого за 4 квартала

Скользящая средняя за 4 квартала

Центрированная скользящая средняя

Оценка сезонной компоненты

1

2

3

4

5

6

1

8,4

2

8,6

35,3

8,825

3

8,8

8,8375

-0,0375

35,4

8,85

4

9,5

8,9125

0,5875

35,9

8,975

5

8,5

9,025

-0,525

36,3

9,075

6

9,1

9,125

-0,025

36,7

9,175

7

9,2

9,325

-0,125

37,9

9,475

8

9,9

9,575

0,325

38,7

9,675

9

9,7

9,7875

-0,0875

39,6

9,9

10

9,9

10,0125

-0,1125

40,5

10,125

11

10,1

10,225

-0,125

41,3

10,325

12

10,8

10,425

0,375

42,1

10,525

13

10,5

10,6375

-0,1375

43

10,75

14

10,7

10,925

-0,225

44,4

11,1

15

11

11,275

-0,275

45,8

11,45

16

12,2

11,65

0,55

47,4

11,85

17

11,9

12,0375

-0,1375

48,9

12,225

18

12,3

12,35

-0,05

49,9

12,475

19

12,5

20

13,2

Используем полученные оценки сезонной компоненты для расчета сезонности S. Для этого найдем средние квартальные оценки сезонной компоненты, использовав данные всех кварталов. Заметим, что сумма значений сезонной компоненты по всем кварталам должна быть равна нулю, поэтому значения сезонной компоненты корректируются на величину, полученную как частное от деления суммы оценок сезонных компонент на число сезонов.

Таблица 5.7

Корректировка значений сезонной компоненты

Показатели

Год

Квартал

1

2

3

4

1

-

-

-0,0375

0,5875

2

-0,525

-0,025

-0,125

0,325

3

-0,0875

-0,1125

-0,125

0,375

4

-0,1375

-0,225

-0,275

0,55

5

-0,1375

-0,05

-

-

Итого за квартал

-0,8875

-0,4125

-0,5625

1,8375

Средняя оценка сезонной компоненты для квартала

-0,2218

-0,1031

-0,1406

0,4593

Скорректированная оценка сезонной компоненты

-0,2203

-0,1015

-0,1390

0,4609

Рассчитаем корректирующий коэффициент:

k=[(-0,22188)+(-0,10313)+( -0,14063)+ 0,459375]/4=-0,00625/4= -0,00156.

Cкорректированные оценки сезонной компоненты определяются путем вычитания из средней оценки сезонной компоненты для квартала корректирующего коэффициента. Полученные таким образом значения занесены в таблицу 5.7.

Этап 2. Устраним сезонную компоненту из исходных уровней ряда и получим выравненные данные Т+U=yi-S (столбец 4).

Таблица 5.8

Расчет выравненных значений Т и ошибок Е в аддитивной модели

t

yi

Si

Т+U=yi-S

T

T+S

U=yi-(T+S)

U2

1

2

3

4

5

6

7

8

1

8,4

-0,2203

8,6203

8,1545

7,9341

0,6861

0,4707

2

8,6

-0,1015

8,7015

8,3845

8,2829

0,4185

0,1751

3

8,8

-0,1390

8,9390

8,6146

8,4755

0,4635

0,2148

4

9,5

0,46093

9,0390

8,8446

9,3056

-0,2666

0,0710

5

8,5

-0,2203

8,7203

9,0747

8,8544

-0,1344

0,0179

6

9,1

-0,1015

9,2015

9,3047

9,2032

-0,0016

0,0000

7

9,2

-0,1390

9,3390

9,5348

9,3957

-0,0566

0,0032

8

9,9

0,46093

9,4390

9,7648

10,2258

-0,7867

0,6189

9

9,7

-0,2203

9,9203

9,9949

9,7746

0,1457

0,0212

10

9,9

-0,1015

10,0010

10,2249

10,1234

-0,1218

0,0148

11

10,1

-0,1390

10,2390

10,4550

10,3159

-0,0769

0,0059

12

10,8

0,46093

10,3390

10,6850

11,1460

-0,8069

0,6511

13

10,5

-0,2203

10,7203

10,9151

10,6948

0,0254

0,0006

14

10,7

-0,1015

10,8015

11,1451

11,0436

-0,2420

0,0585

15

11

-0,1390

11,1390

11,3752

11,2361

-0,0971

0,0094

16

12,2

0,46093

11,7390

11,6052

12,06622

-0,3271

0,1070

17

11,9

-0,2203

12,1203

11,8353

11,6150

0,5052

0,2553

18

12,3

-0,1015

12,4015

12,0653

11,9638

0,4377

0,1916

19

12,5

-0,1390

12,6390

12,2954

12,1563

0,4826

0,2329

20

13,2

0,46093

12,7390

12,5254

12,9864

-0,2473

0,0611

Этап 3. Определим компоненту Т. Для этого проведем аналитическое выравнивание ряда (Т+U) с помощью линейного тренда. Имеем линейный тренд вида:

T = 7,9244+0,2301t.

Стандартная ошибка коэффициента регрессии 0,293. R2=0,95.

Подставляя в уравнение тренда последовательно t= 1,…,20, получим значения тренда для каждого уровня временного ряда (столбец 5, табл. 5.8).

Этап 4. Найдем значения уровней ряда, полученные по аддитивной модели как (T+S) (столбец 6, табл. 5.8).

Этап 5. Рассчитаем абсолютную ошибку как U=yi-(T+S), (столбец 7, табл. 5.8). Качество полученной модели можно проверить, используя сумму квадратов абсолютных ошибок (столбец 8). Сумма квадратов абсолютных ошибок равна 3,18. По отношению к сумме квадратов отклонений исходных уровней ряда от его среднего уровня, равной 40,32, эта величина составит 7,89%.

Следовательно, аддитивная модель объясняет 92,11% общей вариации объема продаж за 20 кварталов. 

Рассмотрим построение мультипликативной модели на примере.

Пример. Имеются поквартальные данные об объеме экспорта одной из областей РФ за 5 лет (млн. долл.).

Таблица 5.9

Квартал

Объем экспорта, млн.долл.

Квартал

Объем экспорта, млн.долл.

Квартал

Объем экспорта, млн.долл.

Квартал

Объем экспорта, млн.долл.

1

19,3

6

15,8

11

20,3

16

25,4

2

12,3

7

17,2

12

22,3

17

31,8

3

13,2

8

19,9

13

29,7

18

23,9

4

15,6

9

26,3

14

21,1

19

25,8

5

21,5

10

19,1

15

23,7

20

27,4

Этап 1. Проведем выравнивание ряда методом скользящей средней. Для этого просуммируем уровни ряда по 4 кварталам последовательно. Далее разделим полученные суммы на 4 и найдем скользящие средние, уже не содержащие сезонной компоненты. Найдем центрированные скользящие средние, для чего вычислим средние значения из двух последовательных скользящих средних. Вычислим оценки сезонной компоненты как частное от деления фактического уровня экспорта на центрированные скользящие средние.

Таблица 5.10

Расчет оценок сезонной компоненты

Квартал

Объем продаж, тыс.шт.

Итого за 4 квартала

Скользящая средняя за 4 квартала

Центрированная скользящая средняя

Оценка сезонной компоненты

1

2

3

4

5

6

1

19,3

2

12,3

60,4

15,1

3

13,2

15,375

0,858537

62,6

15,65

4

15,6

16,0875

0,969697

66,1

16,525

5

21,5

17,025

1,262849

70,1

17,525

6

15,8

18,0625

0,87474

74,4

18,6

7

17,2

19,2

0,895833

79,2

19,8

8

19,9

20,2125

0,984539

82,5

20,625

9

26,3

21,0125

1,251636

85,6

21,4

10

19,1

21,7

0,880184

88

22

11

20,3

22,425

0,90524

91,4

22,85

12

22,3

23,1

0,965368

93,4

23,35

13

29,7

23,775

1,249211

96,8

24,2

14

21,1

24,5875

0,85816

99,9

24,975

15

23,7

25,2375

0,939079

102

25,5

16

25,4

25,85

0,982592

104,8

26,2

17

31,8

26,4625

1,201701

106,9

26,725

18

23,9

26,975

0,886006

108,9

27,225

19

25,8

20

27,4

Используем полученные оценки сезонности для расчета сезонной компоненты S. Для этого найдем средние квартальные оценки сезонной компоненты, используя данные всех кварталов.

Таблица 5.11

Расчет значений сезонной компоненты

Показатели

Год

Квартал

1

2

3

4

1

-

-

0,8585

0,9696

2

1,2628

0,8747

0,8958

0,9845

3

1,2516

0,8801

0,9052

0,9653

4

1,2492

0,8581

0,9390

0,9825

5

1,2017

0,8860

-

-

Итого за квартал

4,9653

3,4990

3,5986

3,9021

Средняя оценка сезонной компоненты для квартала

1,2413

0,8747

0,8996

0,9755

Скорректированная оценка сезонной компоненты

1,2440

0,876

0,9016

0,9776

Заметим, что сумма значений сезонной компоненты по всем кварталам должна быть равна числу периодов в цикле. В нашем примере, цикл – год, в котором соответственно 4 квартала. Поэтому окончательный вариант сезонной компоненты будет получен корректировкой, заключающейся в умножении средней оценки сезонной компоненты для квартала на коэффициент k:

k=4/(1,2413+0,8747+0,8996+0,9755)=4/3,9913=1,0021.

Полученные таким образом значения были занесены в табл. 5.11 (строка 3).

Этап 2. Устраним сезонную компоненту из исходных уровней ряда и получим выравненные данные TU=yi/S (столбец 4, табл. 5.12).

Таблица 5.12

Расчет выравненных значений Т и ошибок U в мультипликативной модели

t

yi

S

TU=yi/S

T

ТU

U=yi-(TS)

U2

1

2

3

4

5

6

7

8

1

19,3

1,2440

15,5139

14,2959

17,7847

0,8723

0,7609

2

12,3

0,8766

14,0303

15,0690

13,2105

1,0620

1,1279

3

13,2

0,9016

14,6402

15,8421

14,2836

1,0249

1,0505

4

15,6

0,9776

15,9563

16,6151

16,2440

0,9822

0,9648

5

21,5

1,2440

17,2823

17,3882

21,6317

0,7989

0,6383

6

15,8

0,8766

18,0227

18,1613

15,9214

1,1319

1,2813

7

17,2

0,9016

19,0767

18,9344

17,0717

1,1174

1,2486

8

19,9

0,9776

20,3546

19,7074

19,2673

1,0564

1,1160

9

26,3

1,2440

21,1407

20,4805

25,4786

0,8297

0,6884

10

19,1

0,8766

21,7869

21,2536

18,6324

1,1693

1,3672

11

20,3

0,9016

22,5149

22,0266

19,8597

1,1336

1,2852

12

22,3

0,9776

22,8094

22,7997

22,2905

1,0232

1,0471

13

29,7

1,2440

23,8738

23,5728

29,3255

0,8140

0,6627

14

21,1

0,8766

24,0683

24,3459

21,3433

1,1276

1,2716

15

23,7

0,9016

26,2859

25,1189

22,6478

1,1606

1,3470

16

25,4

0,9776

25,9802

25,8920

25,3137

1,0263

1,0533

17

31,8

1,2440

25,5618

26,6651

33,1725

0,7705

0,5937

18

23,9

0,8766

27,2622

27,4381

24,0542

1,1333

1,2845

19

25,8

0,9016

28,6150

28,2112

25,4359

1,1249

1,2655

20

27,4

0,9776

28,0259

28,9843

28,3369

0,9890

0,9781

Этап 3. Определим компоненту Т. Для этого проведем аналитическое выравнивание ряда (ТЕ) с помощью линейного тренда. Имеем линейный тренд вида:

T = 13,5229+0,7730t.

Стандартная ошибка коэффициента регрессии 0,735. R2=0,97.

Подставляя в уравнение тренда последовательно t= 1,…,20, получим значения тренда для каждого уровня временного ряда (столбец 5, табл. 5.12).

Этап 4. Найдем значения уровней ряда, полученные по мультипликативной модели как (TS) (столбец 6, табл. 5.12).

Этап 5. Рассчитаем абсолютную ошибку как U=yi-(TS), (столбец 7, табл. 5.12). Качество полученной модели можно проверить, используя сумму квадратов абсолютных ошибок (столбец 8). Общая сумма квадратов абсолютных ошибок равна 21,033. По отношению к сумме квадратов отклонений исходных уровней ряда от его среднего уровня, равной 530,072, эта величина составит 3,9681%:

(21,03378/530,072)100=3,97 %.

Следовательно, мультипликативная модель объясняет 96,03% общей вариации экспорта. 

5.6. Модели стационарных и нестационарных временных рядов          и их идентификация

Модели авторегрессии порядка p (AutoRegressive - AR(p) models).

Достаточно часто экономические показатели, представленные в виде временного ряда, имеют сложную структуру. Моделирование таких рядов путем построения модели тренда, сезонности и периодической составляющей не приводит к удовлетворительным результатам. Ряд остатков часто имеет статистические закономерности. Наиболее распространенными моделями стационарных рядов являются модели авторегрессии и модели скользящего среднего.

Будем рассматривать класс стационарных временных рядов. Задача состоит в построении модели остатков временного ряда ut и прогнозирования его значений.

Авторегрессионная модель предназначена для описания стационарных временных рядов. Стационарный процесс удовлетворяет уравнению авторегрессии бесконечного порядка с достаточно быстро убывающими коэффициентами. В частности поэтому авторегрессионная модель достаточно высокого порядка может хорошо аппроксимировать почти любой стационарный процесс. В связи с этим модель авторегрессии часто применяется для моделирования остатков в той или иной параметрической модели, например регрессионной модели или модели тренда.

Модель авторегрессии порядка 1 AR(1) (марковский процесс).

Марковскими называются процессы, в которых состояние объекта в каждый следующий момент времени определяется только состоянием в настоящий момент и не зависит от того, каким путем объект достиг этого состояния. В терминах корреляционного анализа для временных рядов марковский процесс можно описать следующим образом: существует статистически значимая корреляционная связь исходного ряда с рядом, сдвинутым на один временной интервал, и отсутствует с рядами, сдвинутыми на два, три и т. д. временных интервала. В идеальном случае эти коэффициенты корреляции равны нулю.

Авторегрессионная модель первого порядка определяется соотношением:

u(t)= u(t-1)+(t) ,                                                    (5.1)

где - числовой коэффициент <1, (t) – последовательность случайных величин, образующих «белый шум» (E((t))=0, E((t)(t+))=).

Модель (5.1) называется также марковским процессом.

Имеем:

E(u(t))0.                                                                (5.2)

r(u(t)u(t))=.                                                           (5.3)

Du(t)=2/(1-2).                                                           (5.4)

cov(u(t)u(t))=Du(t).                                              (5.5)

Из (5.3) следует, что при близком к единице дисперсия u(t) будет намного больше дисперсии t. Это значит (учитывая (5.2) =r(u(t)u(t1))=r(1), т.е. параметр может быть интерпретирован как значение автокорреляции первого порядка), что в случае сильной корреляции соседних значений ряда u(t) ряд слабых возмущений t будет порождать размашистые колебания остатков u(t).

Условие стационарности ряда (5.1) определяется требованием <1.

Автокорреляционная функция (АКФ) r() марковского процесса определяется соотношением (5.3).

Частная автокорреляционная функция

rчаст()=r(u(t)u(t+))  u(t+1)=u(t+2)=…=u(t+-1)=0

может быть вычислена по формуле: rчаст(2)=(r(2)-r2(1))/(1-r2(1)). Для второго и выше порядков (см. [1], с. 413, 414) должно быть rчаст()=0 =2,3,… . Это удобно использовать для подбора модели (5.1): если вычисленные по оцененным невязкам u(t)=yt- выборочные частные корреляции статистически незначимо отличаются от нуля при =2,3,…, то использование модели AR(1) для описания случайных остатков не противоречит исходным данным.

Идентификация модели. Требуется статистически оценить параметры и 2 модели (5.1) по имеющимся значениям исходного ряда yt.

Выделяем неслучайную составляющую  и получаем невязки . Находим дисперсию невязок , где  (для большинства методов выделения  автоматически =0). Далее с учетом (5.2), (5.3) получим формулы для оценки параметров модели (5.1):

,

.

Модели авторегрессии р порядка – AR(p) при p2 см. в [1], с. 834-837:

u(t)=1u(t-1)+2u(t-2)+…+(t).                                       (5.6)

Пример. График первой разности ряда, хорошо описывающейся моделью AR(1), представлен на рис. 5.1; график выборочной автокорреляционной функции (АКФ) первой разности этого ряда представлен на рис. 5.2.

Рис. 5.1

Рис. 5.2

Модели скользящего среднего порядка q (Moving Average - MA(q) models).

Часто на показатель в текущий момент времени оказывает воздействие значение показателя в предыдущие моменты. Хотя воздействие отдаленных элементов незначительно, в сумме оно может оказывать существенное влияние на модель. Учесть это воздействие возможно в модели скользящего среднего. Моделирование воздействия всех предшествующих элементов ряда на показатель в текущий момент основано на предпосылке о том, что в ошибках модели за несколько предшествующих периодов сосредоточена информация о всей предыстории ряда.

Моделью скользящего среднего порядка q называется процесс:

u(t)=(t)-1(t-1)-2(t-2)-…-q(t-q).                                   (5.7)

В частности, модели порядка 1 и 2 соответственно имеют вид:

u(t)=(t)-(t-1),                                                     (5.8)

u(t)=(t)-1(t-1)-2(t-2).                                             (5.9)

Переход от формы (5.6) к форме (5.7) осуществляется с помощью последовательной подстановки в правую часть формулы (5.6) вместо u(t-1), u(t-2), … их выражений, вычисленных по формуле (5.6) для моментов времени t-1, t-2, …. Это означает двойственность в представлении анализируемого временного ряда – две эквивалентные формы линейного процесса - и обратимость AR и MA моделей.

В качестве примера рассмотрим модель скользящего среднего первого порядка – МА(1). Данная модель описывается соотношением (5.8). Можно показать, что стационарность u(t) обеспечивается при любом значении параметра . Модель обратима (представима в виде модели авторегрессии бесконечного порядка) при условии <1.

Автокорреляционная функция:

Частная корреляционная функция процесса МА(1), определяющая степень тесноты корреляционной связи между u(t) и u(t), =1,2, … при фиксированных значениях всех промежуточных элементов этого ряда задается выражением:

.

Идентификация модели МА(1). Требуется статистически оценить параметры и 2 модели (5.8) по имеющимся значениям исходного ряда yt. Выделяем неслучайную составляющую  и получаем невязки . Находим оценку автокорреляции :

.

Подставляя  в выражение для автокорреляционной функции, имеем квадратное уравнение для :

2+(1/)+1=0.

Из двух решений приведенного квадратного уравнения (12=1) одно будет меньше единицы – его и выбираем в качестве искомой оценки параметра в модели МА(1).

Оценка 2 получается по формуле: .

Модель скользящего среднего второго порядка – МА(2) отличается более сложным построением - см. [1], с. 843-845.

Важное практическое значение имеют процессы, первая (или более высокая) разность которых стационарна и является процессом МА(q). Подобные процессы устроены как случайные колебания с непостоянным средним уровнем, или (для второй разности) непостоянным углом наклона.

Модели авторегрессии-скользящего среднего (AutoRegressive - Moving Average - ARMA(р, q) models).

На практике для экономичной параметризации анализируемого процесса иногда бывает необходимо включить в модель как члены, описывающие авторегрессию, так и члены, моделирующие остаток в виде скользящего среднего. Такой линейный процесс имеет вид:

u(t)=1u(t-1)+…+рu(t-р)+(t)-1(t-1)-…-q(t-q)                (5.10)

и называется процессом авторегрессии - скользящего среднего порядка (p, q) – ARMA(p, q).

Рассмотрим в качестве примера модель ARMA(1, 1). В соответствии с моделью (5.10) процесс ARMA(1, 1) описывается формулой:

u(t)=u(t-1)+(t)-(t-1) или u(t)-u(t-1)=(t)-(t-1).

Процесс ARMA(1, 1) стационарен, если корень характеристического уравнения AR(1) модели 1-z=0 по модулю больше единицы. То есть должно быть <1. Обратимость процесса ARMA(1, 1) обеспечивается требованием, чтобы корень характеристического уравнения МA(1) модели 1-z=0 по модулю был больше единицы. То есть должно быть <1. АКФ:

Автокорреляционная функция экспоненциально убывает от начального значения r(1), причем это убывание монотонно, если положительно, и колебательно (знакопеременно), если отрицательно.

Из последнего равенства и условий стационарности и обратимости следует, что r(1) и r(2) должны удовлетворять условиям:

Эти условия бывают полезными при проверке гипотезы (по выборочным значениям коэффициентов автокорреляции) о том, что анализируемый процесс может быть описан ARMA(1, 1) моделью.

Идентификация модели ARMA(1, 1). Требуется статистически оценить параметры , и 2 модели по имеющимся значениям исходного ряда yt.

Этап 1.

Этап 2. Из уравнения модели несложно получить систему уравнений вида:

Поделив первое уравнение системы на второе, получим квадратное уравнение относительно :

A=-(1+2)/, где А=

Из двух корней уравнения выбираем тот, который удовлетворяет условию обратимости <1. Оценку 2 определяем из любого уравнения системы.

Модель авторегрессии - проинтегрированного скользящего среднего (AutoRegressive Integrated Moving Average - ARIMA(р, q, k) models).

Модель впервые была предложена Дж.Боксом и Г.Дженкинсом и поэтому известна как модель Бокса-Дженкинса. Это одна из наиболее популярных моделей для построения краткосрочных прогнозов значений временных рядов.

Будем рассматривать нестационарные, однородные временные ряды. То есть ряды, для которых случайный остаток u(t), получающийся после вычитания из ряда y(t) его неслучайной составляющей f(t), представляет нестационарный временной ряд. Модель Бокса-Дженкинса предназначена для описания нестационарных временных рядов со следующими свойствами:

а) в рамках аддитивной модели y(t) включает f(t), имеющий вид алгебраического полинома от t степени k-1, причем коэффициенты полинома могут быть как стохастические, так и нестохастические,

б) ряд yk(t), t=1,2,…, n-k, получившийся из y(t) после применения к нему метода последовательных разностей, может быть описан моделью ARMA(р, q).

Следовательно, модель Бокса-Дженкинса имеет вид:

yk(t)=1yk(t-1)+…+рyk(t-р)+(t)-1(t-1)-…-q(t-q),              (5.11)

где yk(t)=ky(t)=y(t)-Ck1y(t-1)+Ck2y(t-2)-…+(-1)ky(t-k), t=k+1, k+2, …, n. Здесь kk-я последовательная разность анализируемого процесса y(t) (=y(t)-y(t-1), 2=y(t)-y(t-1) и т.п.).

Введем операторы сдвига во времени:

F+yt=yt+1 и Fyt=yt-1.

Причем F+F=1,   Fkyt=yt-k,   Fk+yt=yt+k,   =1F .

Тогда оператор авторегрессии порядка p AR(p) имеет вид:

(F, )=1-1F-2F2- … -pFp ,

а оператор скользящего среднего порядка q MA(q):

(F, )=1-1F-2F2- … -qFq  .

Модель ARIMA(р, q, k) будет с учетом формулы (5.11) и введенных операторов иметь вид:

(F, )ky(t)=(F, )(t).                               (5.11а)

На практике применяются модели ARIMA(р, q, k), в которых р, q, k не превышают 2. Например, ARIMA(1, 1, 1):

(F, )y(t)=(F, )(t) (1-F)(yt-yt-1)=(1-F)t 

yt-yt-1-yt-1+yt-2=t-t-1 

y(t)=(1+)y(t-1)-y(t-2)+(t)-(t-1).

Частным случаем модели ARIMA является модель авторегрессии АR(p), для которой q=k=0. Другой частный случай - модель скользящего среднего MA(q), для которой p=k=0.

Важные специальные классы моделей - модели ARIMA(0, q, k), и модели ARMA(p, q) = ARIMA(р, q, 0).

Модель АR(1) при положительном коэффициенте автокорреляции представляет собой колебательный процесс с преобладанием длинных волн. Если коэффициент корреляции отрицателен, процесс является сильно осциллирующим. Модель ARIMA(0, 1, 1) описывает случайный процесс с непостоянным уровнем. Аналогичное утверждение справедливо для модели ARIMA(0, 2, 2), описывающей случайный процесс с переменным уровнем и углом наклона.

Идентификация ARIMA моделей.

Структура модели ARIMA описывается тремя параметрами (р, q, k). Кроме того, разные по форме модели могут быть довольно близки друг другу. Поэтому весьма важно по возможности правильно определить структуру модели. Рассмотрим этапы идентификации.

1. Подбирается порядок модели k. Для этого используется либо метод последовательных разностей, либо анализ автокорреляционных функций процессов y(t), 2y(t), … - пока не достигнем быстрого затухания (стационарности) автокорреляционной функции для некоторого k. Дж.Бокс и Г.Дженкинс предлагают взять за визуальный критерий стационарности быстрое убывание значений выборочной АКФ. Использование завышенного порядка разности приводит к росту дисперсии ошибок и к заметному росту дисперсии прогноза.

2. Находим yk(t)=ky(t) и идентифицируем ARMA(р, q) модель.

Пример. Для определения порядков авторегрессии и скользящего среднего продемонстрируем вид и свойства теоретических АКФ и частной АКФ простейших моделей.

Пример АКФ и частной АКФ для модели АR(1) представлен на рис. 5.3; 5.4. Пример АКФ и частной АКФ для модели АR(2) содержится на рис. 5.5; 5.6. Из содержания рис. 5.3-5.6 следует, что все значения частной АКФ для лагов, больших порядка авторегрессии, статистически незначимы. Пример АКФ и частной АКФ для модели MА(1) изображен на рис. 5.7; 5.8.

Рис. 5.3

Рис. 5.4

Рис. 5.5

Рис. 5.6

Рис. 5.7.

Рис. 5.8.

Пример АКФ и частной АКФ для модели MА(2) представлен на рис. 5.9; 5.10. Для модели MА(q) все значения АКФ для лагов, больших q, равны нулю. Для модели ARMA(р, q) значения АКФ после лага p-q представляют собой смесь затухающих синусоид и экспонент, а значения частной АКФ ведут себя аналогично после лага q-p.

Рис. 5.9

Рис. 5.10

Общий подход Бокса-Дженкинса к анализу временных рядов показан на рис. 5.11. Схема процесса выбора модели временного ряда показана на рис. 5.12.

Если процесс выбора модели успешно осуществлен, возникает проблема оценки качества построенной модели. Для «хорошей» модели остатки должны быть «белым шумом», т.е. их выборочные автокорреляции не должны значимо отклоняться от нуля. Кроме того, модель не должна содержать лишних параметров, т.е. нельзя уменьшить число параметров без появления значимой автокорреляции остатков. Для диагностики модели необходимо попытаться модифицировать ее, меняя порядки авторегрессии и скользящего среднего. Одновременно повышать оба порядка не рекомендуется ввиду опасности вырождения модели.

5.7. Тестирование стационарности временного ряда

Как было отмечено выше, стационарные временные ряды имеют следующие отличительные черты: значения ряда колеблются вокруг постоянного среднего значения с постоянной дисперсией, которая не зависит от времени, АКФ затухает с увеличением лага. При анализе экономических явлений чаще приходится иметь дело с нестационарными временными рядами, которые не имеют постоянного среднего, дисперсия которых зависит от времени, а АКФ затухает очень медленно. Для подбора модели ряда и прогнозирования его значений необходимо уметь распознавать тип временного ряда.

Рассмотрим процесс авторегрессии первого порядка

y(t)=y(t-1)+(t).

Ряд y(t) является стационарным рядом, если –1<<1. Если =1, то y(t) – нестационарный временной ряд – случайное блуждание со сдвигом: в этом случае считают, что временной ряд y(t) имеет единичный корень.

Вычтем y(t-1) из обеих частей модели: y(t)=y(t-1)+(t), где =-1.

Дики и Фуллер рассмотрели три регрессии:

y(t)=y(t-1)+(t),

y(t)=0+y(t-1)+(t),

y(t)=0+y(t-1)+2t+(t).

Вторая регрессия содержит постоянный элемент 0, а третья, кроме этого, и линейный временной тренд. Во всех трех регрессиях интересующий параметр .

Нулевая гипотеза H0: =0 против альтернативы H1: <0.

Тест Дики-Фуллера (Dickey-Fuller) состоит в следующем. Оцениваются методом наименьших квадратов одно из указанных выше уравнений.

Прогнозирование

Рис. 5.11. Подход Бокса-Дженкинса

Рис. 5.12. Процесс выбора ARIMA модели

Получают оценку , стандартную ошибку и соответствующее значение t – статистики. Сравнивая значение t-статистики с табличным, определяют, принять или отклонить H0. Критическое значение t-статистики имеет нестандартное распределение и зависит от формы регрессии и объема выборки – см в [5].

Критические значения не изменятся, если указанные выше модели заменить авторегрессионным процессом произвольного порядка:

y(t)=y(t-1)++(t),

y(t)=0+y(t-1)++(t),

y(t)=0+y(t-1)+2t++(t).

Для последних моделей Дики и Фуллер предложили три дополнительные статистики для тестирования обобщенных гипотез о коэффициентах:

1: H0: =0=0.

2: H0: =0=2=0.

3: H0: =2=0.

Статистики i конструируются как F тест: , i=1,2,3, где RSSr и RSSur – квадраты ошибок короткой и длинной регрессий, g – число исключенных переменных, n – число наблюдений, k – число параметров в длинной регрессии. Большие значения i  ведут к отклонению нулевой гипотезы. Критические значения статистик вычислены Дики и Фуллером и затабулированы.

5.8. Эконометрический анализ взаимосвязанных временных рядов

Коинтеграция и мнимая регрессия.

Рассмотрим два временных ряда yt и xt. Предположим, что оба ряда имеют единичные корни, то есть являются нестационарными. Предположим далее, что исследователь не знает механизмов, порождающих yt и xt, и оценивает регрессию:

yt =xt + t, t=1,…,n.                                        (5.12)

Если t = ytxt, t=1,…,n является стационарным временным рядом, то временные ряды yt и xt называются коинтегрированными, а вектор (1 –) называется коинтегрирующим вектором.

Примеры.

1. Длинная ставка процента R, короткая ставка процента r: t=Rt rt, вектор коинтеграции (1 –1).

2. Логарифм потребления Ct, логарифм дохода yt: t=Сt yt, вектор коинтеграции (1 –1).

3. Логарифм обменного курса Dt, логарифм внутренней цены Pt, логарифм цен мирового рынка Pt*: t=DtPt+Pt*, вектор коинтеграции (1 –1 1).

В случае коинтегрируемости временных рядов говорят о долгосрочном динамическом равновесии. Если yt и xt коинтегрированы, то yt и xt содержат общую нестационарную компоненту – долговременную тенденцию, а разность ytxt стационарна и совершает флуктуации около нуля.

Таким образом, коинтеграция временных рядов – причинно-следственная зависимость в уровнях временных рядов, которая выражается в совпадении или противоположной направленности их тенденций и случайной колеблемости.

Возможен случай, когда ошибка t = ytxt, t=1,…,n в регрессии (5.12) является нестационарным временным рядом. Тогда условия классической регрессионной модели (п. 3) не выполняются, в частности дисперсия t не является постоянной. Кроме того, МНК оценка параметра не состоятельна, поэтому с ростом объема выборки увеличиваются шансы получения ложных выводов о взаимосвязи yt и xt. Такая ситуация называется ложной (мнимой) регрессией. На практике признаками мнимой регрессии являются высокое значение R2 и малое значение статистики Дарбина-Уотсона.

Для проверки рядов на коинтеграцию используются тесты Энгеля-Гранжера или Йохансена.

Пример. Рассмотрим временные ряды логарифмов доходов и расходов на потребление с августа 1990 г. по январь 1992 г. в России. Графический анализ – рис. 5.1 показывает, что тенденции этих рядов совпадают.

Расчет параметров уравнения регрессии логарифма расходов yt на логарифм доходов xt обычным МНК дает следующие результаты:

=0,9xt + t,

n=25, R2=0,80, критерий Дарбина-Уотсона 1,85, стандартная ошибка коэффициента регрессии 0,009.

Для тестирования рядов на коинтеграцию определим оценки остатков =  - 0,9xt и построим регрессию первых разностей на :

= - 0,95.

Фактическое значение t-критерия для коэффициента последней регрессии равно –4,46, что превышает по абсолютной величине критическое значение 1,94, рассчитанное Энгелем и Гранжером, при уровне значимости 5%, т.е. с вероятностью 0,95 можно утверждать, что временные ряды логарифмов доходов и расходов на потребление коинтегрированы.

При изучении двух взаимосвязанных временных рядов на предварительной стадии регрессионного анализа рекомендуется устранить сезонные или циклические колебания, если они имеются в исследуемых временных рядах, в соответствии с принятой аддитивной или мультипликативной моделями рядов.

Если рассматриваемые временные ряды yt и xt содержат тенденцию, то коэффициент корреляции, характеризующий степень зависимости между yt и xt будет иметь высокое значение. Такая же ситуация будет иметь место тогда, когда yt и xt зависят от переменной времени t. Как в первом, так и во втором случае имеет место ложная корреляция, которая приводит при построении регрессии yt на xt вида (5.12) к автокорреляции в остатках и нестационарности ряда остатков регрессии (ложная регрессия), то есть к нарушению предпосылок МНК.

Рис. 5.13.

Для получения регрессии со стационарным временным рядом остатков t, как уже указывалось ранее, может быть использован метод последовательных разностей, когда переход к некоторым k-м разностям уровней ряда позволяет получить стационарный ряд остатков.

Другими методами исключения тренда из анализируемой модели (5.12) являются методы включения фактора времени и отклонений от тренда.

Метод включения фактора времени.

Для устранения влияния времени на результат и факторы при изучении взаимосвязанных рядов динамики используется прием включения времени t в качестве независимой переменной в модель регрессии, что позволяет зафиксировать воздействие фактора t. Достоинством такого подхода является использование всей имеющейся выборки в отличие от метода последовательных разностей, который приводит к потере некоторого числа наблюдений.

Рассмотрим, например, модель вида:

yt = + 1xt + 2t + t,

которая относится к моделям c включенным фактором времени. Параметры модели определяются обычным МНК.

Пример. Потребительские расходы и доходы населения (тыс. у. е.) за ряд лет характеризуются следующими данными (табл. 5.13).

Таблица 5.13

Показатель

Год

1

2

3

4

5

6

7

8

9

Потребительские расходы

46

50

54

59

62

67

75

86

100

Доходы

59

63

64

66

71

78

89

101

114

Оценим уравнение регрессии потребительских расходов yt на доходы xt вида:

yt = + xt + t.

Получим, применяя МНК:

yt = -5,38 + 0,92xt + t,

причем R2=0,98, стандартная ошибка коэффициента 1 при xt 0,04, статистика Дарбина-Уотсона 0,86. Т.е. имеем случай мнимой регрессии, когда статистика Дарбина-Уотсона показывает наличие положительной автокорреляции остатков t, а коэффициент детерминации близок к единице.

Применяя метод включения фактора времени, оценим регрессию вида:

yt = + 1xt + 2t + t.

Получим, применяя МНК:

yt = 3,88 + 0,69xt + 1,65t + t,

причем R2=0,99, стандартная ошибка коэффициента 1 при xt 0,11, статистика Дарбина-Уотсона 1,3.

Полученное уравнение имеет следующую интерпретацию. Значение параметра 1=0,69, говорит о том, что при увеличении дохода на 1 тыс. у.е., потребительские расходы возрастут в среднем на 0,69 тыс. у.е., если существующая тенденция будет неизменна. Значение 2=1,65 свидетельствует о том, что без учета роста доходов населения ежегодный средний абсолютный прирост потребительских расходов составит 1,65 тыс. у.е.

Метод отклонения уровней ряда от основной тенденции.

Если каждый из рядов yt и xt содержит тренд, то аналитическим выравниванием по каждому из рядов можно найти параметры тренда и определить расчетные по тренду уровни рядов  и . Влияние тенденции можно устранить путем вычитания расчетных значений тренда из фактических. Дальнейший регрессионный анализ проводят с отклонениями от тренда  и .

Пример. Потребительские расходы и доходы населения (тыс. у.е.) за ряд лет характеризуются данными табл. 5.13.

Рассчитаем линейные тренды по каждому из временных рядов методом МНК:

=35,39+6,23t , R2=0,93 стандартная ошибка коэффициента при t 0,63,

=45,33+6,60t , R2=0,89 стандартная ошибка коэффициента при t 0,85.

По трендам определим расчетные значения  и  и отклонения от трендов и .

Таблица 5.14

Тренды и отклонения от трендов для временных рядов доходов и потребительских расходов

Время, t

yt

xt

1

46

59

41,62

51,93

4,38

7,07

2

50

63

47,86

58,53

2,14

4,47

3

54

64

54,09

65,13

-0,09

-1,13

4

59

66

60,32

71,73

-1,32

-5,73

5

62

71

66,56

78,33

-4,56

-7,33

6

67

78

72,79

84,93

-5,79

-6,93

7

75

89

79,02

91,53

-4,02

-2,53

8

86

101

85,26

98,13

0,74

2,87

9

100

114

91,49

104,73

8,51

9,27

Проверим полученные отклонения от трендов на автокорреляцию. Коэффициенты автокорреляции первого порядка составляют:

=0,56, =0,67,

в то время как для исходных рядов =0,99, =0,99.

Таким образом, полученные ряды отклонений от трендов можно использовать для получения количественной характеристики связи исходных временных рядов потребительских расходов и доходов населения. Коэффициент корреляции по отклонениям от трендов равен 0,93, тогда как этот же показатель по начальным уровням ряда был равен 0,99. Связь между потребительскими расходами и доходами населения прямая и сильная.

Результаты построения модели регрессии по отклонениям от трендов следующие:

Константа

0,00

Коэффициент регрессии

0,69

Стандартная ошибка коэффициента регрессии

0,09

R2

0,88

Статистика Дарбина-Уотсона

1,30

Содержательная интерпретация модели в отклонениях от трендов затруднительна, но она может быть использована для прогнозирования.

Библиографический список

  1.  Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. Учебник для вузов. М.: ЮНИТИ, 1998. 1022 с.
    1.  Джонстон Дж. Эконометрические методы.- М.: Статистика, 1980. 432 с.
    2.  Доугерти К. Введение в эконометрику. М.: ИНФРА-М, 2001. 402 с.
    3.  Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М.: Финансы и статистика, 1986. 392 с.
    4.  Магнус Я.Р, Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. М.: Дело, 2000. 400 с.
    5.  Практикум по эконометрике/Под ред. И.И.Елисеевой. М.: Финансы и статистика, 2001. 192 с.
    6.  Эконометрика/Под ред. И.И. Елисеевой. М.: Финансы и статистика, 2001. 344 с.
    7.  Кремер Н., Путко Б. Эконометрика. М.: ЮНИТИ-ДАНА, 2002. 311 с.


Приложение

Статистические таблицы

Критерий Дарбина-Уотсона (d). Значения dL и dU при 5% уровне значимости.

n

k=1

k=2

k=3

k=4

k=5

dL

dU

dL

dU

dL

dU

dL

dU

dL

dU

15

0,95

1,23

0,83

1,40

0,71

1,61

0,59

1,84

0,48

2,09

16

0,98

1,24

0,86

1,40

0,75

1,59

0,64

1,80

0,53

2,03

17

1,01

1,25

0,90

1,40

0,79

1,58

0,68

1,77

0,57

1,98

18

1,03

1,26

0,93

1,40

0,82

1,56

0,72

1,74

0,62

1,93

19

1,06

1,28

0,96

1,41

0,86

1,55

0,76

1,72

0,66

1,90

20

1,08

1,28

0,99

1,41

0,89

1,54

0,79

1,70

0,70

1,87

21

1,10

1,30

1,01

1,41

0,92

1,54

0,83

1,69

0,73

1,84

22

1,12

1,31

1,04

1,42

0,95

1,54

0,86

1,68

0,77

1,82

23

1,14

1,32

1,06

1,42

0,97

1,54

0,89

1,67

0,80

1,80

24

1,16

1,33

1,08

1,43

1,00

1,54

0,91

1,66

0,83

1,79

25

1,18

1,34

1,10

1,43

1,02

1,54

0,94

1,65

0,86

1,77

26

1,19

1,35

1,12

1,44

1,04

1,54

0,96

1,65

0,88

1,76

27

1,21

1,36

1,13

1,44

1,06

1,54

1,99

1,64

0,91

1,75

28

1,22

1,37

1,15

1,45

1,08

1,54

1,01

1,64

0,93

1,74

29

1,24

1,38

1,17

1,45

1,10

1,54

1,03

1,63

0,96

1,73

30

1,25

1,38

1,18

1,46

1,12

1,54

1,05

1,63

0,98

1,73

31

1,26

1,39

1,20

1,47

1,13

1,55

1,07

1,63

1,00

1,72

32

1,27

1,40

1,21

1,47

1,15

1,55

1,08

1,63

1,02

1,71

33

1,28

1,41

1,22

1,48

1,16

1,55

1,10

1,63

1,04

1,71

34

1,29

1,41

1,24

1,48

1,17

1,55

1,12

1,63

1,06

1,70

35

1,30

1,42

1,25

1,48

1,19

1,55

1,13

1,63

1,07

1,70

36

1,31

1,43

1,26

1,49

1,20

1,56

1,15

1,63

1,09

1,70

37

1,32

1,43

1,27

1,49

1,21

1,56

1,16

1,62

1,10

1,70

38

1,33

1,44

1,28

1,50

1,23

1,56

1,17

1,62

1,12

1,70

39

1,34

1,44

1,29

1,50

1,24

1,56

1,19

1,63

1,13

1,69

40

1,35

1,45

1,30

1,51

1,25

1,57

1,20

1,63

1,15

1,69

45

1,39

1,48

1,34

1,53

1,30

1,58

1,25

1,63

1,21

1,69

50

1,42

1,50

1,38

1,54

1,34

1,59

1,30

1,64

1,26

1,69

55

1,45

1,52

1,41

1,56

1,37

1,60

1,33

1,64

1,30

1,69

60

1,47

1,54

1,44

1,57

1,40

1,61

1,37

1,65

1,33

1,69

65

1,49

1,55

1,46

1,59

1,43

1,62

1,40

1,66

1,36

1,69

70

1,51

1,57

1,48

1,60

1,45

1,63

1,42

1,66

1,39

1,70

75

1,53

1,58

1,50

1,61

1,47

1,64

1,45

1,67

1,42

1,70

80

1,54

1,59

1,52

1,62

1,49

1,65

1,47

1,67

1,44

1,70

85

1,56

1,60

1,53

1,63

1,51

1,65

1,49

1,68

1,46

1,71

90

1,57

1,61

1,55

1,64

1,53

1,66

1,50

1,69

1,48

1,71

95

1,58

1,62

1,65

1,65

1,54

1,67

1,52

1,69

1,50

1,71

100

1,59

1,63

1,67

1,65

1,55

1,67

1,53

1,70

1,51

1,72

n - число наблюдений, k - число объясняющих переменных


Таблица критических величин nu  критерия последовательности знаков

n1

n2

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

2

2

2

2

2

2

2

2

2

2

3

2

2

2

2

2

2

2

2

2

3

3

3

3

3

3

4

2

2

2

3

3

3

3

3

3

3

3

4

4

4

4

4

5

2

2

3

3

3

3

3

4

4

4

4

4

4

4

5

5

5

6

2

2

3

3

3

3

4

4

4

4

5

5

5

5

5

5

6

6

7

2

2

3

3

3

4

4

5

5

5

5

5

6

6

6

6

6

6

8

2

3

3

3

4

4

5

5

5

6

6

6

6

6

7

7

7

7

9

2

3

3

4

4

5

5

5

6

6

6

7

7

7

7

8

8

8

10

2

3

3

4

5

5

5

6

6

7

7

7

7

8

8

8

8

9

11

2

3

4

4

5

5

6

6

7

7

7

8

8

8

9

9

9

9

12

2

2

3

4

4

5

6

6

7

7

7

8

8

8

9

9

9

10

10

13

2

2

3

4

5

5

6

6

7

7

8

8

9

9

9

10

10

10

10

14

2

2

3

4

5

5

6

7

7

8

8

9

9

9

10

10

10

11

11

15

2

3

3

4

5

6

6

7

7

8

8

9

9

10

10

11

11

11

12

16

2

3

4

4

5

6

6

7

8

8

9

9

10

10

11

11

11

12

12

17

2

3

4

4

5

6

7

7

8

9

9

10

10

11

11

11

12

12

13

18

2

3

4

5

5

6

7

8

8

9

9

10

10

11

11

12

12

13

13

19

2

3

4

5

6

6

7

8

8

9

10

10

11

11

12

12

13

13

13

20

2

3

4

5

6

6

7

8

9

9

10

10

11

12

12

13

13

13

14

n1

n2

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

2

3

4

9

9

5

9

10

10

11

11

6

9

10

11

12

12

13

13

13

13

7

11

12

13

13

14

14

14

14

15

15

15

8

11

12

13

14

14

15

15

16

16

16

16

17

17

17

17

17

9

13

14

14

15

16

16

16

17

17

18

18

18

18

18

18

10

13

14

15

16

16

17

17

18

18

18

19

19

19

20

20

11

13

14

15

16

17

17

18

19

19

19

20

20

20

21

21

12

13

14

16

16

17

18

19

19

20

20

21

21

21

22

22

13

15

16

17

18

19

19

20

20

21

21

22

22

23

23

14

15

16

17

18

19

20

20

21

22

22

23

23

23

24

15

15

16

18

18

19

20

21

22

22

23

23

24

24

25

16

17

18

19

20

21

21

22

23

23

24

25

25

25

17

17

18

19

20

21

22

23

23

24

25

25

26

26

18

17

18

19

20

21

22

23

24

25

25

26

26

27

19

17

18

20

21

22

23

23

24

25

26

26

27

27

20

17

18

20

21

22

23

24

25

25

26

27

27

28


Двусторонние квантили
t - распределения Стьюдента

m

0,10

0,05

0,025

0,020

0,010

0,005

0,001

1

6,314

12,706

25,452

31,821

63,657

127,3

636,6

2

2,920

4,303

6,205

6,965

9,925

14,089

31,598

3

2,353

3,182

4,177

4,541

5,841

7,453

12,941

4

2,132

2,776

3,495

3,747

4,604

5,597

8,610

5

2,015

2,571

3,163

3,365

4,032

4,773

6,859

6

1,943

2,447

2,969

3,143

3,707

4,317

5,959

7

1,895

2,365

2,841

2,998

3,499

4,029

5,405

8

1,860

2,306

2,752

2,896

3,355

3,833

5,041

9

1,833

2,262

2,685

2,821

3,250

3,690

4,781

10

1,812

2,228

2,634

2,764

3,169

3,581

4,587

12

1,782

2,179

2,560

2,681

3,055

3,428

4,318

14

1,761

2,145

2,510

2,624

2,977

3,326

4,140

16

1,746

2,120

2,473

2,583

2,921

3,252

4,015

18

1,734

2,101

2,445

2,552

2,878

3,193

3,922

20

1,725

2,086

2,423

2,528

2,845

3,153

3,849

22

1,717

2,074

2,405

2,508

2,819

3,119

3,792

24

1,711

2,064

2,391

2,492

2,797

3,092

3,745

26

1,706

2,056

2,379

2,479

2,779

3,067

3,707

28

1,701

2,048

2,369

2,467

2,763

3,047

3,674

30

1,697

2,042

2,360

2,457

2,750

3,030

3,646

1,645

1,960

2,241

2,326

2,576

2,807

3,291

m - число степеней свободы


Квантили распределения
2

Число степеней свободы

Уровень значимости

0,50

0,30

0,20

0,10

0,05

0,01

1

0,455

1,074

1,642

2,706

3,841

6,635

2

1,386

2,408

3,219

4,605

5,991

9,210

3

2,366

3,665

4,642

6,251

7,815

11,341

4

3,357

4,878

5,989

7,779

9,488

13,277

5

4,351

6,064

7,289

9,236

11,070

15,086

6

5,348

7,231

8,558

10,645

12,592

16,812

7

6,346

8,383

9,803

12,017

14,067

18,475

8

7,344

9,524

11,030

13,362

15,507

20,090

9

8,343

10,656

12,242

14,684

16,919

21,666

10

9,342

11,781

13,442

15,987

18,307

23,209

11

10,341

12,899

14,631

17,272

19,675

24,725

12

11,340

14,011

15,812

18,549

21,026

26,217

13

12,340

15,119

16,985

19,812

22,362

27,688

14

13,339

16,222

18,151

21,064

23,685

29,141

15

14,339

18,322

19,311

22,307

24,996

30,578

16

15,338

18,418

20,465

23,542

26,296

32,000

18

17,338

20,601

22,760

25,989

28,869

34,805

20

19,337

22,775

25,038

28,412

31,410

37,566

24

23,337

27,096

29,553

33,196

36,415

42,980

30

29,336

33,530

36,250

40,256

43,773

50,892

Если число степеней свободы больше 30, то выражение  можно рассматривать как переменную со стандартным нормальным распределением, где n - число степеней свободы.


95% квантили распределения Фишера F(n1, n2)

n2

n1

1

2

3

4

5

6

7

8

9

10

12

15

20

24

30

40

60

120

1

161

200

216

225

230

234

237

239

241

242

244

246

248

249

250

251

252

253

254

2

18,5

19,0

19,2

19,2

19,3

19,3

19,4

19,4

19,4

19,4

19,4

19,4

19,4

19,5

19,5

19,5

19,5

19,5

19,5

3

10,1

9,55

9,28

9,12

9,01

8,94

8,89

8,85

8,81

8,79

8,74

8,70

8,66

8,64

8,62

8,59

8,57

8,55

8,53

4

7,71

6,94

6,59

6,39

6,26

6,16

6,09

6,04

6,00

5,96

5,91

5,86

5,80

5,77

5,75

5,72

5,69

5,66

5,63

5

6,61

5,79

5,41

5,19

5,05

4,95

4,88

4,82

4,77

4,74

4,68

4,62

4,56

4,53

4,50

4,46

4,43

4,40

4,37

6

5,99

5,14

4,76

4,53

4,39

4,28

4,21

4,15

4,10

4,06

4,00

3,94

3,87

3,84

3,81

3,77

3,74

3,70

3,67

7

5,59

4,74

4,35

4,12

3,97

3,87

3,79

3,73

3,68

3,64

3,57

3,51

3,44

3,41

3,38

3,34

3,30

3,27

3,23

8

5,32

4,46

4,07

3,84

3,69

3,58

3,50

3,44

3,39

3,35

3,28

3,22

3,15

3,12

3,08

3,04

3,01

2,97

2,93

9

5,12

4,26

3,86

3,63

3,48

3,37

3,29

3,23

3,18

3,14

3,07

3,01

2,94

2,90

2,86

2,83

2,79

2,75

2,71

10

4,96

4,10

3,71

3,48

3,33

3,22

3,14

3,07

3,02

2,98

2,91

2,85

2,77

2,74

2,70

2,66

2,62

2,58

2,54

11

4,84

3,98

3,59

3,36

3,20

3,09

3,01

2,95

2,90

2,85

2,79

2,72

2,65

2,61

2,57

2,53

2,49

2,45

2,40

12

4,75

3,89

3,49

3,26

3,11

3,00

2,91

2,85

2,80

2,75

2,69

2,62

2,54

2,51

2,47

2,43

2,38

2,34

2,30

13

4,67

3,81

3,41

3,18

3,03

2,92

2,83

2,77

2,71

2,67

2,60

2,53

2,46

2,42

2,38

2,34

2,30

2,25

2,21

14

4,60

3,74

3,34

3,11

2,96

2,85

2,76

2,70

2,65

2,60

2,53

2,46

2,39

2,35

3,31

2,27

2,22

2,18

2,13

15

4,54

3,68

3,29

3,06

2,90

2,79

2,71

2,64

2,59

2,54

2,48

2,40

2,33

2,29

2,25

2,20

2,16

2,11

2,07

16

4,49

3,53

3,24

3,01

2,85

2,74

2,66

2,59

2,54

2,49

2,42

2,35

2,28

2,24

2,19

2,15

2,11

2,06

2,01

18

4,41

3,55

3,16

2,93

2,77

2,66

2,58

2,51

2,46

2,41

2,34

2,27

2,19

2,15

2,11

2,06

2,02

1,97

1,92

20

4,35

3,49

3,10

2,87

2,71

2,60

2,51

2,45

2,39

2,35

2,28

2,20

2,12

2,08

2,04

1,99

1,95

1,90

1,84

22

4,30

3,44

3,05

2,82

2,66

2,55

2,46

2,40

2,34

2,30

2,23

2,15

2,07

2,03

1,98

1,94

1,89

1,84

1,78

24

4,26

3,40

3,01

2,78

2,62

2,51

2,42

2,36

2,30

2,25

2,18

2,11

2,03

1,98

1,94

1,89

1,84

1,79

1,73

25

4,24

3,39

2,99

2,76

2,60

2,49

2,40

2,34

2,28

2,24

2,16

2,09

2,01

1,96

1,92

1,87

1,82

1,77

1,71

30

4,17

3,32

2,92

2,69

2,53

2,42

2,33

2,27

2,21

2,16

2,09

2,01

1,93

1,89

1,84

1,79

1,74

1,68

1,62

40

4,08

3,23

2,84

2,61

2,45

2,34

2,25

2,18

2,12

2,08

2,00

1,92

1,84

1,79

1,74

1,69

1,64

1,58

1,51

60

4,00

3,15

2,76

2,53

2,37

2,25

2,17

2,10

2,04

1,99

1,92

1,84

1,75

1,70

1,65

1,59

1,53

1,47

1,39

120

3,92

3,07

2,68

2,45

2,29

2,18

2,09

2,02

1,96

1,91

1,83

1,75

1,66

1,61

1,55

1,50

1,43

1,35

1,25

3,84

3,00

2,60

2,37

2,21

2,10

2,01

1,94

1,88

1,83

1,75

1,67

1,57

1,52

1,46

1,39

1,32

1,22

1,00

 n1 – число степеней свободы числителя,  n2 – число степеней свободы знаменателя


Эконометрика

Учебное пособие

Арженовский Сергей Валентинович

Федосова Оксана Николаевна

Директор издательства                                                                       В.Е. Смейле

Редактор                                                                                                О.Н. Шимко

Корректор                                                                                            Е.В. Барыбин

Компьютерная верстка и макетирование авторов

Изд.№ 47/5577                    Подписано к печати 14.03.2002                Бумага офсетная

Печать офсетная                 Формат 6084/16                                        Объем 6,38 уч.- изд.л.

Заказ №                                Тираж 200 экз.                                           "С" 47

344007, г. Ростов-на-Дону, ул. Б. Садовая, 69. РГЭУ. Издательство.

Отпечатано в отделе оперативной полиграфии РГЭУ «РИНХ».

1 Стандартная ошибка дает только общую оценку степени точности коэффициента регрессии. Ясно, что, чем больше будет величина дисперсии случайного члена (и соответственно ее оценка – выборочная дисперсия остатков), тем существеннее величина  стандартной ошибки, и с большей вероятностью  можно говорить о том, что полученная оценка неточна.

2 Другой возможный путь решения - это известная схема управляемого эксперимента – см., например: Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке. В 2-х т. М.: Мир, 1980.

3 С использованием матричной алгебры можно получить аналитическую формулу для оценок коэффициентов, см., например: Магнус Я.Р, Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс.  М.: Дело, 2000. С. 60-63.

4 Подробнее смотри Эконометрика: Учебник/ Под. ред. Елисеевой И.И.  М.:Финансы и статистика, 2001. С.112-120.

5 См., например: [1], с. 658-661.

6 Этот абзац может быть опущен без ущерба для дальнейшего усвоения материала пособия.

7 Пример взят из [4]

8 Пример из [3].

9 См. [7], с. 235-238.

153




1. ЗАДАНИЕ по производственной практике аудиту студентаки Ткач Юлии Сергеевны 1
2. Тема Педагогическая теория Иогана Фридриха Гербарта 17761841гг
3. Классифик.методов Психологич.html
4. варианте теории субъективной локализации контроля Дж
5. Соедини названия близких цветов из двух столбиков линиями.
6. Тема 9. Особливості захисту прав споживачів при здійсненні окремих видів торговельної діяльності наданні по
7. реферат диссертации на соискание учёной степени кандидата социологических наук.
8. О ДІДОРЕНКА Плани семінарських і практичних занять з навчальної дисципліни
9. Полная коллективная (бригадная) материальная ответственность
10. Методика оценки структуры клиентов компании на примере типографии.html
11. Учение Аристотеля о душе Разум и воля
12. Цитология
13. державними символами України є Державний Прапор України Державний Герб України і Державний Гімн України
14. Вторая мировая война. Жуков в войне
15. Реферат- Раннее и первое детство
16. Is tht nn`s briefcse Yes it`s
17. Задание Изучить структуру и принципы построения ЛВС с шинной топологией со случайным методом доступа к
18. Реактивные двигатели устройство принцип работы
19. а. Для того чтобы измерить неэлектрическую величину с помощью электроизмерительных приборов ее надо преобр
20. 50 ~ задача з відкритою відповіддю.html