У вас вопросы?
У нас ответы:) SamZan.net

Лабораторная работа 1 Парная линейная регрессия Предварительные расчеты ; ; ; ; ; ;

Работа добавлена на сайт samzan.net: 2016-03-13

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Имя

Выберите тип работы:

Принимаю Политику конфиденциальности

Скидка 25% при заказе до 6.7.2025

Лабораторная работа №1

Парная линейная регрессия

Предварительные расчеты:

; ; ; ; ;

; .

Построение таблицы вида

	x	y	xy
…………	……….	………	……..	………	………
Среднее значение

Формулы для расчетов параметров:

, .

При компьютерном подборе в Excel можно использовать встроенную функцию Линейн

Оценка тесноты связи:

а) коэффициент корреляции , или .

Если

, то связь между признаками практически отсутствует;

, связь между признаками слабая;

, связь между признаками умеренная;

, связь между признаками сильная.

При компьютерном анализе можно использовать встроенную функцию Коррел.

б) коэффициент эластичности показывает, на сколько процентов изменится результативный признак при изменении факторного признака на 1%;

в) коэффициент детерминации показывает, какая доля вариации результативного признака y учтена в модели и обусловлена влиянием на нее изменением переменной x. Чем больше доля объясненной вариации, тем лучше линейная модель аппроксимирует исходные данные и ей можно воспользоваться для прогноза значений результативного признака..

Оценка значимости уравнения регрессии в целом:

Предварительные расчеты с построением таблицы вида

	x	y
…………	……….	………	……..	………	………

а) F-критерий Фишера при числе степеней свободы и и уровне значимости 0,05. Расчетное значение критерия:

Критическое значение критерия берется из специальной таблицы критических точек распределения Фишера-Снедекора в приложениях к учебникам по теории вероятностей, статистике и эконометрике. При компьютерном анализе критическое значение можно найти с помощью функции Fраспобр.

Если расчетное значение F- критерия больше критического, нулевая гипотеза об отсутствии значимой связи признаков x и y отклоняется, и делается вывод о существенности этой связи.

б) Средняя ошибка аппроксимации

Оценка значимости параметров регрессии :

а) Стандартная ошибка параметра a рассчитывается по формуле

, где – остаточная дисперсия признака y.

б) Стандартная ошибка коэффициента регрессии b рассчитывается по формуле

в) Стандартная ошибка коэффициента корреляции рассчитывается по формуле

Для проверки нулевой гипотезы о несущественности найденного параметра регрессии применяют t-критерий Стъюдента при числе степеней свободы и уровне значимости 0,05.

Расчетные значения t-статистики вычисляются по формулам:

, , .

Критическое значение берется из специальной таблицы критических точек распределения Стъюдента в приложениях к учебникам по теории вероятностей и эконометрике. При компьютерном анализе критическое значение можно найти с помощью функции Стъюдраспобр.

Если расчетное значение по абсолютной величине превышает табличное, гипотезу о несущественности параметра регрессии можно отклонить, параметр признается значимым.

Связь между F-критерием Фишера и t-критерием Стъюдента выражается равенством

Расчет доверительных интервалов для параметров регрессии:

Доверительный интервал для параметра a определяется как ;

доверительный интервал для коэффициента регрессии определяется как .

При компьютерном анализе использовать в Excel путь Сервис/Анализ данных/Регрессия.

Интервальный прогноз на основе линейного уравнения регрессии:

Пусть – прогнозное значение факторного признака; – точечный прогноз результативного признака. Тогда

а) средняя ошибка прогноза :

;

б) доверительный интервал прогноза

Практические рекомендации по выполнению расчетов

с помощью табличного редактора MS Excel

Активизация надстройки Пакет анализа

Для активизации надстройки Пакет анализа необходимо выполнить следующие действия:

1. Выбрать команду Сервис/Надстройки.

2. В появившемся диалоговом окне установить флажок Пакет анализа.

В соответствии с вариантом задания, используя статистический материал, необходимо:

1. Рассчитать параметры уравнения линейной парной регрессии .

2. Оценить тесноту связи зависимой переменной (результативного фактора) с объясняющей переменной с помощью показателей корреляции и детерминации.

3. Оценить с помощью F-критерия Фишера статистическую надежность моделирования.

4. Оценить статистическую значимость параметров регрессии.

5. Определить среднюю ошибку аппроксимации.

6. Используя коэффициент эластичности, выполнить количественную оценку влияния объясняющего фактора на результат.

7. Выполнить точечный и интервальный прогноз результативного признака y при увеличении объясняющего признака x на 25% от его среднего значения (достоверность прогноза 95%).

8. На одной диаграмме изобразить поле корреляции исходных данных и прямую регрессии.

Пример

Имеются данные о годовой цене программы «Мастер делового администрирования» и числе слушателей в образовательном учреждении.

Цена программы,

тыс. долл., y

4,9

3,8

3,5

3,8

3,7

3,6

3,5

3,4

Число

слушателей, чел., x

I. Вводим исходные данные в документ Excel.

II. Значения фактора x должны быть отсортированы по возрастанию с сохранением соответствующего значения y. Это может быть сделано так Данные/Сортировка/Выделить столбец, в котором необходимо сделать сортировку. Например,

III. Вызываем надстройку Анализ данных в меню Сервис.

IV. Выбираем инструмент Регрессия.

V. Заполняем соответствующие позиции окна Регрессия.

VI. После нажатия ОK получаем протокол решения задачи.

VII. Анализируем полученный протокол.

1) Параметры уравнения линейной парной регрессии .

Коэффициент регрессии ;

Свободный член уравнения регрессии .

Примечание. При необходимости результаты округляются с нужной точностью. Требование по округлению можно провести изначально, задав количество знаков после запятой в меню Формат ячейки.

Уравнение парной линейной регрессии имеет вид: .

2) Оцениваем тесноту связи зависимой переменной (результативного фактора) с объясняющей переменной с помощью показателей корреляции и детерминации.

Коэффициент корреляции , что свидетельствует о тесной связи признаков y и x. Коэффициент детерминации . Полученное уравнение регрессии объясняет 53% вариации признака y, остальные 47% изменчивости этого признака обусловлены влиянием неучтенных в модели факторов.

3) Оцениваем с помощью F-критерия Фишера статистическую надежность моделирования.

Расчетное значение критерия Фишера указано в протоколе, .

Критическое значение этого критерия можно найти с помощь статистической функции FРАСПОБР табличного редактора Еxcel.

Входными параметрами этой функции являются:

– уровень значимости (вероятность), имеется в виду вероятность ошибки отвергнуть верную гипотезу о статистической незначимости построенного уравнения регрессии. Как правило, выбирают уровень значимости, равный 0,05 или 0,01;

– число степеней свободы 1 – совпадает с количеством параметров при переменной x в уравнении регрессии, для парной линейной регрессии это число равно единице;

– число степеней свободы 2 равно для парной линейной регрессии , где n – объем исходных статистических данных.

Выполняем действия Вставка/Функция, выбираем нужное.

Вывод: поскольку расчетное значение F-критерия больше критического, равного 4,84, нулевая гипотеза об отсутствии значимой связи признаков x и y отклоняется и делается вывод о существенности этой связи.

4) Оценить статистическую значимость параметров регрессии.

Оценим статистическую значимость параметров a и b в уравнении регрессии с помощью t- критерия Стъюдента.

Расчетные значения статистики Стъюдента берем из протокола (графа t-статистика): , . Соответствующее критическое значение можно определить через статистическую функцию СТЪЮДРАСПОБР, число степеней свободы равно .

Вывод: поскольку фактические значения по абсолютной величине превышают табличное, равное 2,2, гипотезу о несущественности параметров регрессии можно отклонить.

5) Определяем среднюю ошибку аппроксимации.

Вычисляем среднюю ошибку аппроксимации, . Понадобится выполнение вспомогательных расчетов, оформленных в виде таблицы.

	y	x
	8	5	5,440500341	31,99374573
	5	10	5,143440944	2,868818882
	4,9	12	5,024617185	2,543207862
	4	15	4,846381547	21,15953867
	3,8	20	4,54932215	19,71900394
	3,5	22	4,430498391	26,58566831
	3,8	25	4,252262752	11,90165138
	3,7	30	3,955203355	6,897387976
	3,6	35	3,658143958	1,615109941
	3,5	36	3,598732078	2,820916526
	3,4	40	3,361084561	1,144571747
	3	50	2,766965766	7,767807796
	3	60	2,172846972	27,57176761
Среднее	4,092307692	27,69230769		12,66070741

Вывод: средняя ошибка аппроксимации по данному уравнению регрессии составляет 12,66%, модель парной линейной регрессии можно признать удовлетворительной и пригодной для прогнозирования.

6) Используя коэффициент эластичности, выполним количественную оценку влияния объясняющего фактора на результат.

Для парной линейной регрессии эластичность можно найти по формуле . Имеем

Следовательно, при увеличении количества слушателей на 1% годовая цена уменьшится на 0,4%.

7) Выполним расчет прогноза y при увеличении фактора x на 25% от своего среднего значения.

Среднее значение (чел).

Прогнозное значение .

Точечный прогноз признака y вычисляем по построенному уравнению линейной регрессии: , .

Средняя ошибка прогноза вычисляем по формуле ,

где – остаточная дисперсия, –дисперсия фактора x.

Численное значение суммы в протоколе обозначено как остаточное SS.

Тогда , .

Самый быстрый способ получения вспомогательных характеристик – среднего значения фактора x и - дисперсии, воспользоваться инструментом Описательная статистика в пакете Анализ данных.

Протокол вывода результатов имеет вид

Имеем .

Тогда .

Доверительный интервал прогноза: , где –критическое значение критерия Стъюдента (найдено ранее по функции СТЪЮДРАСПОБР, при уровне значимости ).

Следовательно,

;

т.е. можно быть уверенным на 95%, что цена годового курса при 35 слушателях будет варьироваться в указанных пределах (при точечном прогнозе цены в 3,65825 тыс. долл.).

8) Для построения диаграммы выполним следующие действия:

Шаг 1 Вставка/ Диаграмма/График

Шаг 2 Далее/Диапазон/Выделить столбец исходных значений фактора y

Шаг 3 Ряд/Добавить/Значения/Выделить столбец регрессионных значений фактора – .

Шаг 4 Подписи оси X / Выделить столбец значений x.

Шаг 4 Каждому из рядов присвоить имя, подписать оси координат и название диаграммы.

Задания для самостоятельной работы

Вариант 1

x– энерговооруженность на 10-ти предприятиях, кВт;

y– производительность труда, тыс. руб.

x	2,8	2,2	3	3,5	3,2	3,7	4	4,8	6	5,4
y	6,7	6,9	7,2	7,3	8,4	8,8	9,1	9,8	10,6	10,7

Вариант 2

x– энерговооруженность на 10-ти предприятиях, кВт;

y– производительность труда, тыс. руб.

x	3,2	3,7	4	4,8	6	5,4	5,2	5,4	6	9
y	8,4	8,8	9,1	9,8	10,6	10,7	11,1	11,8	12,1	12,4

Вариант 3

x– качество земли, баллы;

y– урожайность, ц/га.

x	32	33	35	37	38	39	40	41	42	44
y	19,5	19	20,5	21	20,8	21,4	23	23,3	24	24,5

Вариант 4

x– качество земли, баллы;

y– урожайность, ц/га.

x	45	46	47	49	50	52	54	55	58	60
y	24,2	25	27	26,8	27,2	28	30	30,2	32	33

Вариант 5

x– товарооборот;

y–издержки обращения по отношению к товарообороту.

x	7	10	15	20	30	45	60	120
y	10	9	7,5	6	6,3	5,8	5,4	5

Вариант 6

x– электровооруженность на одного рабочего;

y– выпуск готовой продукции на одного рабочего.

x	2	5	3	7	2	6	4	9	8	4
y	3	6	4	6	4	8	6	9	9	5

Вариант 7

x–уровень доходов семьи;

y– расходы на продукты питания ( в расчете на 100 руб. доходов).

x	1,4	3,3	5,5	7,6	9,8	12	14,7	18,9
y	1,1	1,4	2	2,4	2,8	3,1	3,5	4

Вариант 8

x– качество земли, баллы;

y– урожайность, ц/га.

x	35	37	38	39	40	41	42	44
y	23	23,3	24	24,5	24,2	25	27	28

Вариант 9

x– производительность труда;

y– рентабельность производства.

x	0,1	0,2	0,3	0,4	0,5	0,6	0,7	0,8
y	2,6	2,4	3,3	2,9	3,7	4,2	5,5	6,4

Вариант 10

x– производительность труда;

y– рентабельность производства.

x	0,9	1,5	2	2,5	2,8	3	1,2	1,4
y	3,1	5,1	5,9	6,1	7,2	8,1	3,8	5,3

Лабораторная работа №2

Нелинейные модели парной регрессии

Полином 2-го порядка: .

Параметры a, b и c находят, решая методом определителей систему уравнений:

Гипербола: .

Параметры a и b находят, решая систему уравнений

Регрессия

Система нормальных уравнений имеет вид:

Степенная функция: .

Пусть , , . Тогда уравнение примет вид

Параметры модели определяются по следующим формулам:

, .

Показательная функция: .

Пусть , , . Тогда уравнение регрессии примет вид . Параметры модели определяются по следующим формулам:

, .

Полулогарифмическая функция: .

Оценка параметров может быть найдена по формулам:

Логистическая функция: .

Обратная модель вида: .

Оценка параметров может быть найдена по формулам:

Оценка тесноты связи в нелинейной регрессии:

а) индекс корреляции R,

где – общая дисперсия результативного признака, – остаточная дисперсия.

Кроме того,

;

Величина данного показателя находится в границах , чем ближе к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии.

б) индекс детерминации имеет тот же смысл, что и коэффициент детерминации в линейных регрессионных моделях;

в) коэффициент средней эластичности , где – производная функции

Функция	Коэффициент средней эластичности
Парабола
Гипербола
Показательная
Степенная
Экспоненциальная
Полулогарифмическая
Логистическая
Обратная

Проверка статистической значимости в целом уравнения нелинейной регрессии по F-критерию Фишера

где n – число наблюдений, m – число параметров при переменной x.

Средняя ошибка аппроксимации

Обоснования возможности замены нелинейной регрессии линейной функцией

1) если величина не превышает 0,1, то предположение о линейной форме связи считается оправданным;

2) если , то вычисляют ошибку разности между и

и t-критерий Стъюдента

Если , то различие между и существенно, и замена нелинейной регрессии уравнением линейной функции невозможна. Практически, если величина , то различие между и не существенно, и имеет смысл перейти к линейной регрессии.

Практические рекомендации по выполнению расчетов

с помощью табличного редактора MS Excel

Цена программы,

тыс. долл., y

4,9

3,8

3,5

3,8

3,7

3,6

3,5

3,4

Число

слушателей, чел., x

Необходимо:

1. Построить поле корреляции и сформулировать гипотезу о форме связи.

2. Рассчитать параметры параболической, степенной, показательной, полулогарифмической, обратной и гиперболической регрессий.

3. Постройте на одной диаграмме с полем корреляции линию регрессии.

4. В каждом случае оцените тесноту связи с помощью показателей корреляции и детерминации.

5. Оценить с помощью средней ошибки аппроксимации качество модели.

6. Оценить с помощью F-критерия Фишера статистическую надежность результатов регрессионного моделирования.

7. Выберите лучшее уравнение регрессии.

8. Дайте по выбранному уравнению оценку силы связи фактора с результатом с помощью среднего коэффициента эластичности.

9. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его максимального в исходных данных значения. Определите доверительный интервал прогноза для уровня значимости .

Полином 2-го порядка (парабола): .

Параметры a, b и c находят, решая методом определителей систему уравнений:

Необходима вспомогательная таблица расчетов:

	y	x
	8	5	25	125	625	40	200
	5	10	100	1000	10000	50	500
	4,9	12	144	1728	20736	58,8	705,6
	4	15	225	3375	50625	60	900
	3,8	20	400	8000	160000	76	1520
	3,5	22	484	10648	234256	77	1694
	3,8	25	625	15625	390625	95	2375
	3,7	30	900	27000	810000	111	3330
	3,6	35	1225	42875	1500625	126	4410
	3,5	36	1296	46656	1679616	126	4536
	3,4	40	1600	64000	2560000	136	5440
	3	50	2500	125000	6250000	150	7500
	3	60	3600	216000	12960000	180	10800
Сумма	53,2	360	13124	562032	26627108	1285,8	43910,6

Получаем систему уравнений

Составим главный определитель системы, состоящий из коэффициентов при переменных a, b и c,

Вычислить этот определитель можно в Excel, воспользовавшись математической функцией МОПРЕД.

Далее составляем и вычисляем три вспомогательных определителя системы, ;

, ,

Находим параметры a, b и c соответственно по формулам , , .

Таким образом, уравнение параболической регрессии признаков x и y имеет вид: .

Показателем тесноты связи выступает индекс корреляции , коэффициент детерминации . Для расчета этих характеристик, а также для расчета средней ошибки аппроксимации необходимо составить в Excel расчетную таблицу следующего вида:

	y	x
	8	5	6,455490941	2,38550823	15,27006	19,30636324
	5	10	5,610316807	0,3724866	0,823905	12,20633613
	4,9	12	5,304252704	0,16342025	0,652367	8,250055184
	4	15	4,879448212	0,77342916	0,008521	21,98620529
	3,8	20	4,262885156	0,21426267	0,085444	12,18118831
	3,5	22	4,048265484	0,30059504	0,350828	15,66472813
	3,8	25	3,760627639	0,00155018	0,085444	1,036114765
	3,7	30	3,372675661	0,10714122	0,153905	8,846603755
	3,6	35	3,099029222	0,25097172	0,242367	13,91585494
	3,5	36	3,058016599	0,19534933	0,350828	12,62809717
	3,4	40	2,939688322	0,21188684	0,47929	13,53857875
	3	50	2,96392314	0,00130154	1,193136	1,202562007
	3	60	3,445380113	0,19836345	1,193136	14,84600377
Среднее	4,092308					11,96989934
Сумма				5,17626623	20,88923

Тогда , , .

Расчетное значение критерия Фишера равно , где n – число наблюдений, m – число параметров при переменной x. Для параболы , в данном примере .

Выводы:

, что говорит о тесной прямой связи между признаками x и y.
, т.е. 75,22% вариации признака y объясняется за счет признака x данным уравнением регрессии, что является весьма удовлетворительным.
Средняя ошибка аппроксимации не превышает установленного предела в 15%, что свидетельствует о хорошем качестве модели.
Расчетное значение критерия Фишера равно 15,18, оно превышает соответствующее табличное (критическое) значение (4,1). Найденное уравнение параболической регрессии статистически надежно.

Графическая иллюстрация приведена ниже

Степенная функция: .

Пусть , , . Тогда уравнение примет вид

Параметры модели определяются по следующим формулам:

, .

Составим вспомогательную таблицу.

	y	x
	8	5	2,079441542	1,60943791	2,59029	3,3467321
	5	10	1,609437912	2,30258509	5,301898	3,7058677
	4,9	12	1,589235205	2,48490665	6,174761	3,9491011
	4	15	1,386294361	2,7080502	7,333536	3,7541547
	3,8	20	1,335001067	2,99573227	8,974412	3,9993058
	3,5	22	1,252762968	3,09104245	9,554543	3,8723435
	3,8	25	1,335001067	3,21887582	10,36116	4,2972027
	3,7	30	1,30833282	3,40119738	11,56814	4,4498982
	3,6	35	1,280933845	3,55534806	12,6405	4,5541657
	3,5	36	1,252762968	3,58351894	12,84161	4,4892998
	3,4	40	1,223775432	3,68887945	13,60783	4,51436
	3	50	1,098612289	3,91202301	15,30392	4,2977965
	3	60	1,098612289	4,09434456	16,76366	4,4980973
Среднее	4,092308	27,69230769	1,373092597	3,12661091	10,23202	4,1329481


	b	-0,35101802
	A	2,470589356

	a	11,82941654

Степенная регрессия имеет вид: . Для оценки тесноты связи и надежности моделирования составим расчетную таблицу

	y	x
	8	5	6,72376088	1,62878629	15,27006	15,952989
	5	10	5,271634701	0,07378541	0,823905	5,432694022
	4,9	12	4,944828847	0,00200963	0,652367	0,914874437
	4	15	4,572293534	0,32751989	0,008521	14,30733836
	3,8	20	4,13312325	0,1109711	0,085444	8,766401326
	3,5	22	3,997134646	0,24714286	0,350828	14,20384702
	3,8	25	3,821740509	0,00047265	0,085444	0,572118651
	3,7	30	3,584818332	0,01326682	0,153905	3,11301806
	3,6	35	3,395999538	0,04161619	0,242367	5,666679501
	3,5	36	3,362583734	0,01888323	0,350828	3,926179017
	3,4	40	3,240495363	0,02544173	0,47929	4,691312861
	3	50	2,996361745	1,3237E-05	1,193136	0,121275157
	3	60	2,810607494	0,03586952	1,193136	6,31308354
Среднее	4,092308					6,460139305
Сумма				2,52577855	20,88923

Пользуясь формулами для расчета, получим

Примечание. При вычислении статистики Фишера для степенной функции параметр m=1.

Выводы:

, что говорит о тесной прямой связи между признаками x и y.
, т.е. 87,91% вариации признака y объясняется за счет признака x данным уравнением регрессии, что является весьма удовлетворительным.
Средняя ошибка аппроксимации не превышает установленного предела в 15%, что свидетельствует о хорошем качестве модели.
Расчетное значение критерия Фишера равно 79,97, оно превышает соответствующее табличное (критическое) значение (4,8). Найденное уравнение степенной регрессии статистически надежно.

Графическая иллюстрация приведена ниже

Показательная функция: .

Пусть , , . Тогда уравнение регрессии примет вид . Параметры модели определяются по следующим формулам:

, .

Составим вспомогательную таблицу.

	y	x
	8	5	2,079441542	25	10,39721
	5	10	1,609437912	100	16,09438
	4,9	12	1,589235205	144	19,07082
	4	15	1,386294361	225	20,79442
	3,8	20	1,335001067	400	26,70002
	3,5	22	1,252762968	484	27,56079
	3,8	25	1,335001067	625	33,37503
	3,7	30	1,30833282	900	39,24998
	3,6	35	1,280933845	1225	44,83268
	3,5	36	1,252762968	1296	45,09947
	3,4	40	1,223775432	1600	48,95102
	3	50	1,098612289	2500	54,93061
	3	60	1,098612289	3600	65,91674
Среднее	4,092308	27,69230769	1,373092597	1009,53846	34,84409



	B	-0,01310402
	A	1,735973264

	b	0,98698146
	a	5,674447852

Показательная регрессия имеет вид: .

Для оценки тесноты связи и надежности моделирования составим расчетную таблицу

	y	x
	8	5	5,314575517	7,21150465	15,27006	33,56780603
	5	10	5,271634701	0,07378541	0,823905	5,432694022
	4,9	12	4,944828847	0,00200963	0,652367	0,914874437
	4	15	4,572293534	0,32751989	0,008521	14,30733836
	3,8	20	4,13312325	0,1109711	0,085444	8,766401326
	3,5	22	3,997134646	0,24714286	0,350828	14,20384702
	3,8	25	3,821740509	0,00047265	0,085444	0,572118651
	3,7	30	3,584818332	0,01326682	0,153905	3,11301806
	3,6	35	3,395999538	0,04161619	0,242367	5,666679501
	3,5	36	3,362583734	0,01888323	0,350828	3,926179017
	3,4	40	3,240495363	0,02544173	0,47929	4,691312861
	3	50	2,996361745	1,3237E-05	1,193136	0,121275157
	3	60	2,810607494	0,03586952	1,193136	6,31308354
Среднее	4,092308					7,81512523
Сумма				8,10849691	20,88923

Пользуясь формулами для расчета, получим

Выводы:

, что говорит о тесной прямой связи между признаками x и y.
, т.е. 61,18% вариации признака y объясняется за счет признака x данным уравнением регрессии, что является весьма удовлетворительным.
Средняя ошибка аппроксимации не превышает установленного предела в 15%, что свидетельствует о хорошем качестве модели.
Расчетное значение критерия Фишера равно 17,34, оно превышает соответствующее табличное (критическое) значение (4,8). Найденное уравнение показательной регрессии статистически надежно.

Графическая иллюстрация приведена ниже.

Полулогарифмическая функция: .

Оценка параметров может быть по решению системы уравнений:

	y	x
	8	5	1,609437912	2,59029039	12,8755
	5	10	2,302585093	5,30189811	11,51293
	4,9	12	2,48490665	6,17476106	12,17604
	4	15	2,708050201	7,33353589	10,8322
	3,8	20	2,995732274	8,97441185	11,38378
	3,5	22	3,091042453	9,55454345	10,81865
	3,8	25	3,218875825	10,3611616	12,23173
	3,7	30	3,401197382	11,5681436	12,58443
	3,6	35	3,555348061	12,6404998	12,79925
	3,5	36	3,583518938	12,841608	12,54232
	3,4	40	3,688879454	13,6078316	12,54219
	3	50	3,912023005	15,303924	11,73607
	3	60	4,094344562	16,7636574	12,28303
Сумма	53,2	360	40,64594181	133,016267	156,3181

Получаем систему уравнений

Решить эту систему можно любым доступным способом, например, методом подстановки. При использовании Excel это лучше сделать методом определителей.

Для	13	40,64594181	Для	53,2	40,64594181
дельта	40,64594	133,0162668	дельта a	156,318124	133,0162668

Δ	77,11888		Δa	722,768022


Для	13	53,2
дельта b	40,64594	156,318124	a	9,37212778
			b	-1,6886719
	Δb	-130,228493

Уравнение полулогарифмической регрессии имеет вид: .

Для оценки тесноты связи и надежности моделирования составим расчетную таблицу

	y	x
	8	5	6,654315149	1,81086772	15,2700592	16,82106064
	5	10	5,483816959	0,23407885	0,82390533	9,676339186
	4,9	12	5,175935664	0,07614049	0,65236686	5,631340072
	4	15	4,799119411	0,63859183	0,00852071	19,97798528
	3,8	20	4,31331877	0,26349616	0,08544379	13,50838868
	3,5	22	4,152371144	0,42558811	0,3508284	18,63917555
	3,8	25	3,936502518	0,01863294	0,08544379	3,59217152
	3,7	30	3,628621222	0,00509493	0,15390533	1,929156163
	3,6	35	3,368311295	0,05367966	0,24236686	6,435797348
	3,5	36	3,320739926	0,03213417	0,3508284	5,121716394
	3,4	40	3,142820581	0,06614125	0,47928994	7,564100572
	3	50	2,766004328	0,05475397	1,19313609	7,799855721
	3	60	2,458123033	0,29363065	1,19313609	18,06256558
Среднее	4,092308					10,36612713
Сумма				3,97283074	20,8892308

Пользуясь формулами для расчета, получим

n	13	, что говорит о тесной прямой связи между признаками x и y. , т.е. 80,98% вариации признака y объясняется за счет признака x данным уравнением регрессии, что является весьма удовлетворительным. Средняя ошибка аппроксимации не превышает установленного предела в 15%, что свидетельствует о хорошем качестве модели. Расчетное значение критерия Фишера равно 46,84, оно превышает соответствующее табличное (критическое) значение (4,8). Найденное уравнение полулогарифмической регрессии статистически надежно.
R	0,899896887
R2	0,809814407
A	10,36612713
F	46,83824022
Fтабл	4,844335669

Обратная модель вида: .

Оценка параметров может быть найдена по решению системы:

	y	x
	8	5	0,125	0,625	25
	5	10	0,2	2	100
	4,9	12	0,20408163	2,44897959	144
	4	15	0,25	3,75	225
	3,8	20	0,26315789	5,26315789	400
	3,5	22	0,28571429	6,28571429	484
	3,8	25	0,26315789	6,57894737	625
	3,7	30	0,27027027	8,10810811	900
	3,6	35	0,27777778	9,72222222	1225
	3,5	36	0,28571429	10,2857143	1296
	3,4	40	0,29411765	11,7647059	1600
	3	50	0,33333333	16,6666667	2500
	3	60	0,33333333	20	3600
Сумма	53,2	360	3,38565836	103,499216	13124

Получаем систему уравнений:

Решение этой системы и остальные выводы по данной регрессии представлены далее.

Для	13	360	Для	3,38565836	360
дельта	360	13124	дельта a	103,499216	13124

Δ	41012		Δa	7173,66239


Для	13	3,385658355
дельта b	360	103,4992163	a	0,17491618
			b	0,00308819
	Δb	126,6528041

Уравнение обратной регрессии имеет вид: .

	y	x
	8	5	5,253283798	7,54444989	15,2700592	34,33395252
	5	10	4,859132073	0,01984377	0,82390533	2,817358541
	4,9	12	4,717549745	0,0332881	0,65236686	3,723474587
	4	15	4,519998446	0,27039838	0,00852071	12,99996116
	3,8	20	4,225114815	0,18072261	0,08544379	11,18723198
	3,5	22	4,11766073	0,38150478	0,3508284	17,64744942
	3,8	25	3,966351012	0,02767266	0,08544379	4,37765821
	3,7	30	3,737453631	0,00140277	0,15390533	1,012260294
	3,6	35	3,533534037	0,00441772	0,24236686	1,846276747
	3,5	36	3,495391553	2,1238E-05	0,3508284	0,13166991
	3,4	40	3,350715313	0,00242898	0,47928994	1,449549627
	3	50	3,036508307	0,00133286	1,19313609	1,216943553
	3	60	2,7761775	0,05009651	1,19313609	7,460750006
Среднее	4,092308					7,708041274
Сумма				8,51758027	20,8892308

n	13	, что говорит о тесной прямой связи между признаками x и y. , т.е.59,23% вариации признака y объясняется за счет признака x данным уравнением регрессии, что является весьма удовлетворительным. Средняя ошибка аппроксимации не превышает установленного предела в 15%, что свидетельствует о хорошем качестве модели. Расчетное значение критерия Фишера равно 15,98, оно превышает соответствующее табличное (критическое) значение (4,8). Найденное уравнение обратной регрессии статистически надежно.
R	0,769577917
R2	0,592250171
A	7,708041274
F	15,97732585
Fтабл	4,844335669

Гипербола: .

Параметры a и b находят, решая систему уравнений

	y	x	1/ x		y/ x
	8	5	0,2	0,04	1,6
	5	10	0,1	0,01	0,5
	4,9	12	0,083333333	0,00694444	0,40833333
	4	15	0,066666667	0,00444444	0,26666667
	3,8	20	0,05	0,0025	0,19
	3,5	22	0,045454545	0,00206612	0,15909091
	3,8	25	0,04	0,0016	0,152
	3,7	30	0,033333333	0,00111111	0,12333333
	3,6	35	0,028571429	0,00081633	0,10285714
	3,5	36	0,027777778	0,0007716	0,09722222
	3,4	40	0,025	0,000625	0,085
	3	50	0,02	0,0004	0,06
	3	60	0,016666667	0,00027778	0,05
Сумма	53,2	360	0,736803752	0,07155682	3,79450361

Система имеет вид:

Для	13	0,736803752	Для	53,2	0,736803752
дельта	0,736804	0,071556825	дельта a	3,79450361	0,071556825

Δ	0,387359		Δa	1,01101859


Для	13	53,2
дельта b	0,736804	3,794503608	a	2,61003025
			b	26,1529704
	Δb	10,1305873

Уравнение гиперболической регрессии имеет вид:

	y	x
	8	5	5,253283798	7,54444989	15,2700592	34,33395252
	5	10	4,859132073	0,01984377	0,82390533	2,817358541
	4,9	12	4,717549745	0,0332881	0,65236686	3,723474587
	4	15	4,519998446	0,27039838	0,00852071	12,99996116
	3,8	20	4,225114815	0,18072261	0,08544379	11,18723198
	3,5	22	4,11766073	0,38150478	0,3508284	17,64744942
	3,8	25	3,966351012	0,02767266	0,08544379	4,37765821
	3,7	30	3,737453631	0,00140277	0,15390533	1,012260294
	3,6	35	3,533534037	0,00441772	0,24236686	1,846276747
	3,5	36	3,495391553	2,1238E-05	0,3508284	0,13166991
	3,4	40	3,350715313	0,00242898	0,47928994	1,449549627
	3	50	3,036508307	0,00133286	1,19313609	1,216943553
	3	60	2,7761775	0,05009651	1,19313609	7,460750006
Среднее	4,092308					7,708041274
Сумма				8,51758027	20,8892308

n	13	, что говорит об очень тесной прямой связи между признаками x и y. , т.е.97,56% вариации признака y объясняется за счет признака x данным уравнением регрессии, что является весьма удовлетворительным. Средняя ошибка аппроксимации не превышает установленного предела в 15%, что свидетельствует о хорошем качестве модели. Расчетное значение критерия Фишера равно 440,57 оно существенно превышает соответствующее табличное (критическое) значение (4,8). Найденное уравнение обратной регрессии статистически надежно.
R	0,987745189
R2	0,975640558
A	4,638171373
F	440,5702713
Fтабл	4,844335669

Сравним результата регрессионного анализа по разным видам парных регрессий:

Регрессия	Коэффициент детерминации	Средняя ошибка аппроксимации
Парабола
Степенная
Показательная
Полулогарифмическая
Обратная
Гипербола
Линейная

Все уравнения достаточно хорошо описывают исходные данные. Однако предпочтение можно отдать гиперболе , для которой значение коэффициента детерминации наибольшее, а ошибка аппроксимации наименьшая.

Дадим по выбранному уравнению количественную оценку силы связи фактора с результатом с помощью среднего коэффициента эластичности. Для гиперболы он вычисляется по формуле , т.е. . Следовательно, при увеличении количества слушателей программы (фактора x) на 1% цена программы (фактор y) уменьшится на 0,23%.

Рассчитаем прогнозное значение результата y, если прогнозное значение фактора x увеличится на 10% от его максимального в исходных данных значения.

(чел).

(тыс. долл.)

Определим доверительный интервал прогноза для уровня значимости . Для этого найдем среднюю ошибку прогноза ,

где – остаточная дисперсия, –дисперсия фактора x.

Составим расчетную таблицу

	y	x
	8	5	514,9408284	7,84062433	0,0254006
	5	10	313,0177515	5,22532729	0,05077239
	4,9	12	246,2485207	4,78944445	0,01222253
	4	15	161,0946746	4,35356161	0,12500581
	3,8	20	59,17159763	3,91767877	0,01384829
	3,5	22	32,40236686	3,79880163	0,08928242
	3,8	25	7,24852071	3,65614907	0,02069309
	3,7	30	5,325443787	3,48179593	0,04761301
	3,6	35	53,40236686	3,35725798	0,05892369
	3,5	36	69,01775148	3,33650165	0,02673171
	3,4	40	151,4792899	3,26385451	0,01853559
	3	50	497,6331361	3,13308966	0,01771286
	3	60	1043,786982	3,04591309	0,00210801
Сумма	53,2	360	3154,769231	53,2	0,50885001

Тогда

; ;

Предельная ошибка прогнозируемой стоимости программы составит

, где – соответствующее табличное значение критерия Стъюдента.

По функции СТЪЮДРАСПОБР .

Доверительный интервал прогнозируемой стоимости программы составит:

( тыс. долл.),

т.е. при 66 слушателях курса стоимость с вероятностью 95% будет не меньше 2,42 и не больше 3,58 тыс. долл.

Контрольные задания.

Вариант 1

Имеются данные о цене однокомнатной квартиры и величине ее общей площади по 10 сделкам одного района города (табл. 1).

Таблица 1

№ п/п	1	2	3	4	5	6	7	8	9	10
Цена квартиры, тыс.долл.	29	31	35	35	45	46	45	44	38	37
Площадь,	35	35	33	34	38	40	40	39	37	36

Вариант 2

Имеются данные по 10 хозяйствам (табл. 2).

Таблица 2

Номер хозяйства	Урожайность, ц/га, y	Внесено удобрений, кг/га, х
1	15	2,1
2	18	3,6
3	17	3,5
4	22	5,0
5	25	6,5
6	20	4,2
7	24	6,3
8	19	4,0
9	23	6,0
10	27	7,5

Вариант 3

По 17 регионам страны изучается зависимость ежемесячного среднедушевого денежного дохода у от удельного веса населения в трудоспособном возрасте в общей численности населения, х (табл. 3).

Таблица 3

Номер региона	Удельный вес населения в трудоспособном возрасте в общей численности населения, %, х	Среднедушевой ежемесячный денежный доход, тыс. руб., у
1	60,6	3,4
2	59,6	3,1
3	60,8	3,7
4	59,4	3,4
5	60,4	3,6
6	60,8	3,3
7	60,6	3,1
8	59,3	3,3
9	60,3	3,6
10	62,3	4,7
11	60,2	3,2
12	59,0	3,3
13	61,4	4,1
14	58,9	3,4
15	59,0	3,2
16	59,2	3,4
17	61,0	3,9

Вариант 4

По 26 регионам страны изучается зависимость ожидаемой продолжительности жизни при рождении (лет) у от уровня заболеваемости детей в возрасте 0-14 лет на тыс. человек, х (табл. 4).

Таблица 4

Номер региона	Уровень заболеваемости детей в возрасте 0-14 лет на тыс. человек, х	Ожидаемая продолжительность жизни при рождении, лет, у
1	1108,4	67,5
2	1164,4	69,3
3	438,8	75,1
4	618,1	68,7
5	1312,4	66,2
6	982,7	68,1
7	843,0	70,0
8	1233,6	67,3
9	1173,0	67,1
10	1415,5	65,4
11	1608,6	66,4
12	1703,9	66,5
13	1529,0	66,4
14	1516,3	64,0
15	1474,3	66,0
16	1390,5	67,8
17	2208,7	62,1
18	1312,8	66,1
19	1520,5	63,7
20	1809,5	64,0
21	1569,4	65,4
22	1654,2	65,7
23	1749,5	62,3
24	1746,0	65,6
25	1475,1	65,6
26	1753,4	65,3

Вариант 5

По 18 регионам страны изучается зависимость инвестиций в основной капитал у от валового регионального продукта (ВРП) х (табл. 5).

Таблица 5

Номер региона	ВРП, млрд руб., х	Инвестиций в основной капитал, млрд руб., у
1	24,6	5,0
2	41,1	9,0
3	29,5	4,8
4	27,6	5,4
5	31,9	7,4
6	38,8	6,6
7	39,2	7,8
8	40,2	9,3
9	41,6	9,6
10	41,3	8,0
11	47,0	10,8
12	54,7	9,9
13	53,3	10,0
14	46,7	10,0
15	71,1	13,2
16	58,8	10,0
17	67,9	13,9
18	65,7	12,0

Вариант 6

По 21 региону страны изучается зависимость розничной продажи телевизоров, у от среднедушевых денежных доходов в месяц, х (табл. 6).

Таблица 6

Номер региона	Среднедушевой денежный доход в месяц, тыс. руб., х	Розничная продажа телевизоров, тыс. шт., у
1	2,8	28,0
2	2,4	21,3
3	2,1	21,0
4	2,6	23,3
5	1,7	15,8
6	2,5	21,9
7	2,4	20,0
8	2,6	22,0
9	2,8	23,9
10	2,6	26,0
11	2,6	24,6
12	2,5	21,0
13	2,9	27,0
14	2,6	21,0
15	2,2	24,0
16	2,6	24,0
17	3,3	31,9
18	3,9	33,0
19	4,0	35,4
20	3,7	34,0
21	3,4	31,0

Вариант 7

По 17 регионам страны изучается зависимость розничной продажи видеомагнитофонов, у от среднедушевых ежемесячных денежных доходов, х (табл. 7).

Таблица 7

Номер региона	Среднедушевой ежемесячный денежный доход, тыс. руб., х	Розничная продажа магнитофонов, тыс. шт., у
1	2,4	4,8
2	3,0	5,7
3	2,2	5,1
4	2,1	5,5
5	4,0	6,2
6	2,5	4,9
7	5,0	7,0
8	2,3	4,7
9	3,0	4,9
10	3,4	5,5
11	3,9	5,6
12	2,3	4,4
13	3,1	5,8
14	2,6	4,5
15	5,7	7,1
16	5,2	6,5
17	3,0	5,1

Вариант 8

По 17 регионам страны изучается зависимость среднемесячной заработной платы у от инвестиций в основной капитал на душу населения, х (табл. 8).

Таблица 8

Номер региона	Инвестиции в основной капитал на душу населения, тыс. руб., х	Среднемесячная заработная плата, тыс. руб., у
1	4,9	3,9
2	8,5	5,5
3	9,1	4,8
4	5,5	4,0
5	6,1	3,9
6	5,1	3,8
7	4,2	4,1
8	3,8	3,0
9	11,0	6,3
10	6,9	4,8
11	7,5	5,2
12	5,5	3,7
13	5,8	3,5
14	4,9	4,2
15	6,0	4,5
16	10,4	6,6
17	8,8	6,7

Вариант 9

По 27 регионам страны изучается зависимость средней заработной платы, у от валового регионального продукта (ВРП) на душу населения, х (табл. 9).

Таблица 9

Номер региона	ВРП на душу населения, тыс. руб., х	Средняя заработная плата, тыс. руб., у
1	35,8	3,5
2	22,5	2,6
3	28,3	3,2
4	26,0	2,6
5	20,0	2,6
6	31,8	3,5
7	30,5	3,1
8	29,5	2,9
9	41,5	3,4
10	41,3	4,8
11	34,5	3,0
12	34,9	3,1
13	34,7	3,3
14	26,8	2,6
15	32,5	3,3
16	32,4	3,3
17	50,9	3,9
18	44,8	4,7
19	79,1	6,5
20	47,4	5,0
21	53,3	4,5
22	33,1	3,7
23	48,4	4,5
24	61,1	7,2
25	38,9	3,4
26	26,2	2,9
27	59,3	5,4

Лабораторная работа №3

Множественная регрессия

Линейная множественная регрессия:

Степенная функция:

Экспонента:

Гипербола:

Оценка параметров линейной множественной регрессии

1) в натуральном масштабе, т.е. для уравнения система нормальных уравнений имеет вид:

(6.3)

Ее решение может быть найдено, например, методом определителей.

Вычисление параметров линейной множественной регрессии можно провести с помощью инструмента Сервис/Анализ данных/Регрессия.

2) в стандартизированном масштабе:

, (6.4)

где – стандартизированные переменные

;

– стандартизированные коэффициенты регрессии. Решают систему нормальных уравнений вида

(6.5)

Решая ее методом определителей, найдем -коэффициенты.

Определение-коэффициентов:

1) Находим матрицу парных коэффициентов корреляции. Для двухфакторной линейной регрессии она имеет вид:

	y
y	1
		1
			1

Удобнее всего найти эту матрицу Excel, используя инструмент анализа данных Корреляция. Для этого в главном меню нужно последовательно выбрать Сервис/Анализ данных/Корреляция.

2) для стандартизированного уравнения регрессии

имеем

; .

Коэффициенты «чистой» регрессии связаны с -коэффициентами следующим образом:

Методика построения уравнения регрессии при двухфакторном регрессионном анализе

приводит к следующим формулам для оценки параметров:

, , .

Методика построения уравнения регрессии в виде степенной функции

Преобразуем ее в линейный вид:

где переменные выражены в логарифмах. Далее процедура МНК такая же, что и описана выше: строится система нормальных уравнений и определяются параметры, которые затем следует потенцировать.

Оценка тесноты связи и статистической значимости во множественной регрессии

1) коэффициент множественной детерминации ,

;

2) индекс множественной корреляции R;

3)линейный коэффициент множественной корреляции (для )

;

4)в случае двухфакторной линейной модели индекс множественной корреляции R может быть найден по формуле:

5) Скорректированный индекс (коэффициент) корреляции:

; k – число параметров при переменных.

В статистических пакетах прикладных программ в процедуре множественной регрессии обычно приводится скорректированный коэффициент (индекс) множественной корреляции (детерминации).

6) дельта-коэффициенты :

, (6.17)

где – коэффициент парной корреляции между y и ;

– множественный коэффициент детерминации.

7) частные коэффициенты эластичности:

, (6.18)

где – коэффициент «чистой» регрессии при факторе ;

– среднее значение результативного признака;

– среднее значение признака .

Значимость уравнения множественной регрессии в целом

оценивается с помощью F-критерия Фишера:

, (6.19)

где n – число наблюдений, m – число параметров при переменной x. Если расчетное значение критерия с и степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

Прогнозирование по уравнению линейной множественной регрессии

где – ошибка прогнозного значения, вычисляемая по формуле

для двухфакторной модели.

Мерой для оценки включения фактора в модель

служит частный F-критерий, т.е. . Так, если оцениваем значимость влияния фактора после включения в модель факторов , то формула частного F-критерия примет вид:

. (6.20)

Если фактическое значение критерия с и степенями свободы больше табличного при заданном уровне значимости, то дополнительное включение фактора в модель статистически оправдано и коэффициент регрессии при данном факторе статистически значим.

Оценка значимости коэффициентов «чистой» регрессии

Для каждого фактора используется формула

, (6.22)

где – коэффициент «чистой» регрессии при факторе ; – средняя квадратическая ошибка коэффициента регрессии ,

, (6.23)

где – среднее квадратическое отклонение для признака y;

– коэффициент детерминации для уравнения множественной регрессии;

– среднее квадратическое отклонение для признака ;

– коэффициент детерминации для зависимости фактора со всеми другими факторами уравнения множественной регрессии.

Практические рекомендации по выполнению расчетов

с помощью табличного редактора MS Excel

Исследуется зависимость производительности труда y (т/ч) от уровня механизации работ (%), среднего возраста работников (лет) и энерговооруженности (кВт/100 работающих) по данным 14 промышленных предприятий.

	32	30	36	40	41	47	56	54	60	55	61	67	69	76
	33	31	41	39	46	43	34	38	42	35	39	44	40	41
	300	290	350	400	400	480	500	520	590	540	600	700	700	750
y	20	24	28	30	31	33	34	37	38	40	41	43	45	48

По исходным статистическим данным необходимо:

1. Рассчитать параметры линейного уравнения множественной регрессии с полным перечнем факторов.

2. Оценить значимость уравнения в целом, используя значение множественного коэффициента корреляции и общего F-критерия Фишера.

3. Оценить статистическую значимость параметров регрессионной модели с помощью t-критерия.

4. Исследовать коллинеарность между факторами. При наличии мультиколлинеарности исключить какой-либо фактор из уравнения регрессии.

5. Построить новое уравнение множественной регрессии, провести все необходимые исследования, аналогичные проведенным выше.

6. На основании результатов п. 5 найти

а) средние коэффициенты эластичности фактора y от независимых факторов;

б) прогнозное значение результата при значении важнейшей объясняющей переменной, равном максимальному наблюденному значению, увеличенному на 10 %, и при значении второй объясняющей переменной, равном минимальному наблюденному значению, уменьшенному на 15%.

в) Интервальное предсказание значения y с надежностью 0,95.

Решение.

1. Получение протокола расчета. Операция проводится с помощью инструмента Анализ данных/Регрессия. Она аналогична расчету параметров парной линейной регрессии, рассмотренной выше, только в отличие от парной регрессии при заполнении строки входной интервал X в диалоговом окне следует указать сразу все столбцы значений факторных переменных.

Результаты анализа имеют вид:

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,97517313
R-квадрат	0,950962633
Нормированный R-квадрат	0,936251423
Стандартная ошибка	2,038864298
Наблюдения	14

Дисперсионный анализ
	df	SS	MS	F
Регрессия	3	806,1446094	268,7148698	64,64204
Остаток	10	41,56967627	4,156967627
Итого	13	847,7142857

	Коэффициенты	Стандартная ошибка	t-статистика
Y-пересечение	5,711742473	6,18918556	0,922858495
x1	0,148601283	0,340417689	0,436526326
x2	0,064880259	0,162051974	0,400366976
x3	0,037784221	0,033824423	1,11706919

2. Оцениваем статистическую значимость в целом. Изучив результаты, отмечаем, что в целом полученное уравнение линейной множественной регрессии

является статистически значимым. Действительно, . Сравним это число с табличным значением критерия Фишера, полученным при числе степеней свободы и , где n – число наблюдений, m – число параметров при переменной x. В нашем случае , . Табличное значение даст функция FРАСПОБР. , что существенно меньше расчетного значения.

О доле вариации результативного признака y, объясненной построенным уравнением множественной регрессии лучше всего судить по значению нормированного коэффициента корреляции, в данном случае он равен 0,9363. То есть построенное уравнение объясняет почти 94% всей вариации признака y.

3. Оцениваем статистическую значимость по отдельным параметрам. Чтобы оценить статистическую значимость параметров регрессионной модели с помощью t-критерия, найдем соответствующее нашим параметрам табличное значение с помощью функции СТЪЮДРАСПОБР при заданном уровне значимости 0,05 и числе степеней свободы . Коэффициент признается значимым, если выполняется неравенство .

Имеем


0,44	0,4	1,12
2,2281

Таким образом, ни один из факторов не имеет статистически значимого коэффициента регрессии, и построенное уравнение для прогнозирования непригодно.

4. Исследуем коллинеарность между факторами. Матрицу парных коэффициентов корреляции можно получить, используя инструмент Анализ данных/Корреляция. Заполнив диалоговое окно,

получим следующий результат:

Для оценки мультиколлинеарности факторов вычислим определитель матрицы парных коэффициентов корреляции факторов.

Поскольку определитель матрицы межфакторной корреляции близок к нулю, имеем мультиколлинеарность факторов и вытекающую отсюда ненадежность результатов множественной регрессии.

Оценка значимости мультиколлинеарности факторов может быть проведена методом испытания гипотезы о независимости переменных, т.е. . Доказано, что величина имеет приближенное распределение с числом степеней свободы . Если фактическое значение превосходит табличное (критическое), то гипотеза отклоняется, и мультиколлинеарность считается доказанной.

Имеем .

Критическое значение можно найти через статистическую функцию ХИ2ОБР(), где – уровень значимости (по условию 0,05), а n – число степеней свободы. В нашем случае степеней свободы . Получаем . . Мультиколлинеарностью факторов пренебречь нельзя.

Особенно высока коллинеарность факторов и , . Один из этих факторов следует исключить из уравнения регрессии. Логично исключить тот, который имеет меньший коэффициент парной корреляции. Поскольку , а , исключаем фактор .

5. Построим регрессию на факторах и .

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,974693901
R-квадрат	0,950028201
Нормированный R-квадрат	0,940942419
Стандартная ошибка	1,962415214
Наблюдения	14

Дисперсионный анализ
	df	SS	MS	F
Регрессия	2	805,3524775	402,6762388	104,5621
Остаток	11	42,3618082	3,851073473
Итого	13	847,7142857

	Коэффициенты	Стандартная ошибка	t-статистика
Y-пересечение	7,265656067	4,873196972	1,490942416
x2	0,031021017	0,136948082	0,226516625
x3	0,052435862	0,004030875	13,00855684

Получили результаты:

, , , что много больше, чем .


	0,22	13
	2,2281

Таким образом, при весьма удовлетворительной значимости уравнения регрессии в целом, мы добились значимости коэффициента регрессии при переменной .

а) Найдем коэффициенты эластичности:

, (6.18)

где – коэффициент «чистой» регрессии при факторе ;

– среднее значение результативного признака;

– среднее значение признака .

Имеем

	y
Среднее	35,14285714	39	508,5714286
Эластичность

Таким образом, при изменении фактора (среднего возраста работников) на 1%, производительность возрастает незначительно, на 0,03%; при изменении фактора (энерговооруженности) на 1%, производительность труда увеличивается на 0,72%.

б) Выполним прогнозирование. Максимальное наблюденное значение фактора – 750. Минимальное значение фактора – 31. Прогнозные значения факторов:

; .

Тогда .

в) Доверительный интервал для данного прогнозного значения y можно найти, зная предельную ошибку прогноза , где – соответствующее табличное значение критерия Стъюдента, а – ошибка прогнозного значения. В нашем случае .

Ошибку прогнозного значения функции регрессии получим по формуле

1. Параметр S – стандартная ошибка регрессии приведен в последней регрессионной статистике .

2. Матрица состоит из чисел: . То есть ,

3. Матрица X состоит из чисел .

Составляем вспомогательную таблицу:


	…..	…..	….	…..	…..
Сумма

В данном случае, .

4. Транспонируем матрицу X. Поскольку она симметрическая, то

5. Найдем произведение матриц . В Exсel это можно сделать с помощью функции МУМНОЖ.

58537523,04	2158299716	29989312607
2158299716	79577299061	1,10572E+12
29989312607	1,10572E+12	1,53641E+13

6. Найдем обратную матрицу к матрице произведения . В Exсel это можно сделать с помощью функции МОБР.

0,281568563	-0,007773123	9,81695E-06
-0,007773123	0,000215175	-3,13231E-07
9,81695E-06	-3,13231E-07	3,38079E-09

7. Найдем произведение матриц (размерность матрицы произведения ).

0,083373216

-0,002314683

3,84533E-06

8. Найдем произведение матриц (размерность матрицы произведения , то есть только одно число).

9. .

10. .

11. Таким образом, прогнозное значение результата будет с вероятностью 95% находиться в интервале .

Задания.

Вариант 1

x1	32	30	36	40	41	47	56	54	60	55	61	67	69	76
x2	33	31	41	39	46	43	34	38	42	35	39	44	40	41
x3	30	29	35	40	40	48	50	52	59	54	60	70	70	75
y	20	24	28	30	31	33	34	37	38	40	41	43	45	48

Вариант 2

x1	55	46	40	39	35	29	31	75	68	66	60	54	59	53
x2	33	42	45	38	40	30	32	40	39	43	38	34	41	37
x3	50	45	39	40	34	30	30	74	69	66	59	54	60	52
y	33	32	30	29	27	23	19	47	44	42	40	39	37	36

Вариант 3

x1	48	57	55	61	56	62	68	70	77	42	41	37	31	33
x2	44	35	39	43	36	40	45	41	42	47	40	42	32	34
x3	47	56	54	62	56	62	67	70	76	42	40	37	30	32
y	34	35	38	39	41	42	44	46	49	32	31	29	25	21

Вариант 4

x1	52	54	45	39	38	34	28	30	74	67	65	59	53	58
x2	36	32	41	44	37	39	29	31	39	38	42	37	33	40
x3	52	53	45	38	38	34	28	31	73	66	65	60	52	57
y	35	32	31	29	28	26	22	18	46	43	41	39	33	36

Вариант 5

x1	43	49	58	56	62	57	63	69	71	78	34	32	38	42
x2	48	45	36	40	44	37	41	46	42	43	35	33	43	41
x3	42	48	58	55	61	56	62	70	70	78	35	32	38	41
y	33	35	36	39	40	42	43	45	47	50	22	26	30	32

Вариант 6

x1	52	57	51	53	44	38	37	33	27	29	73	66	64	58
x2	32	39	35	31	40	43	36	38	28	30	38	37	41	36
x3	52	56	50	53	45	37	37	32	28	30	72	66	64	59
y	37	35	34	31	30	28	27	25	21	17	45	42	40	38

Вариант 7

x1	39	43	44	50	59	57	63	58	64	70	72	79	35	33
x2	44	42	49	46	37	41	45	38	42	47	43	44	36	34
x3	45	42	50	46	38	40	45	39	41	48	43	44	35	34
y	31	33	34	36	37	40	41	43	44	46	48	51	23	27

Вариант 8

x1	63	57	51	56	50	52	43	37	36	32	26	28	72	65
x2	40	35	31	38	34	30	39	42	35	37	27	29	37	36
x3	39	38	35	35	32	31	28	28	25	25	21	15	45	40
y	39	37	36	34	33	30	29	27	26	24	20	16	44	41

Вариант 9

x1	64	59	65	71	73	80	36	34	40	44	45	51	60	58
x2	46	39	43	48	44	45	37	35	45	43	50	47	38	42
x3	50	40	50	55	50	60	35	34	42	41	48	49	50	50
y	42	44	45	47	49	52	24	28	32	34	35	37	38	41

Вариант 10

x1	46	52	61	59	65	60	66	72	74	81	37	35	41	45
x2	51	48	39	43	47	40	44	49	45	46	38	36	46	44
x3	46	52	60	58	64	61	65	72	74	80	38	34	40	44
y	36	38	39	42	43	45	46	48	50	53	25	29	33	35

Лабораторная работа №4

Проверка адекватности модели регрессии

по особенностям остаточных величин

Практические рекомендации к выполнению задания

Представлены данные о доходах по акциям x и балансовой прибыли y по 11 предприятиям одной отрасли, ден. ед.

x	3	4	5	7	8	10	11	12	15	20	30
y	12	13	20	19	31	24	41	28	52	55	103

Задание

Проверить выполнение следующих требований:

Уровни ряда остатков имеют случайный характер.
Математическое ожидание уровней ряда остатков равно нулю.
Значения независимы друг от друга, т.е. отсутствует автокорреляция.

1. Для проверки случайности ряда остатков можно использовать критерий поворотных точек (пиков). Предварительно составляют таблицу данных:

		…
		…

Точка считается поворотной, если выполняются следующие условия

или . (5.1)

Далее подсчитывается число поворотных точек p. Критерием случайности с 5%-ным уровнем значимости, т.е. с доверительной вероятностью 95%, является выполнение равенства

, (5.2)

где – целая часть числа. Если неравенство выполняется, то модель считается адекватной.

Пусть расчет регрессии дал следующие результаты

	x	y		Остатки
	3	12	9,165277	2,834723
	4	13	12,39552	0,604484
	5	20	15,62576	4,374245
	7	19	22,08623	-3,086233
	8	31	25,31647	5,683528
	10	24	31,77695	-7,77695
	11	41	35,00719	5,992811
	12	28	38,23743	-10,237428
	15	52	47,92815	4,071855
	20	55	64,07934	-9,07934
	30	103	96,38173	6,61827
Среднее				-3,18182E-06

Цветом выделены поворотные точки. Их всего 9, в этом легко убедиться, если просмотреть пики графика (значения фактора x должны быть отсортированы по возрастанию)

Неравенство верное, остатки признаем случайными.

2. Для проверки равенства математического ожидания остаточной последовательности нулю вычисляется среднее значение ряда остатков

. (5.3)

Если , то считается, что модель не содержит постоянной систематической ошибки и адекватна по критерию нулевого среднего. Если , то проверяется гипотеза о равенстве нулю математического ожидания. Для этого вычисляют t-критерий Стъюдента по формуле

, (5.4)

где – среднее квадратическое отклонение ряда остатков, , m – число параметров при переменной x.

Значение t-критерия сравнивают с табличным при заданном уровне значимости. Если выполняется неравенство , то модель неадекватна по данному критерию.

По расчетам , то есть по данному пункту модель признаем адекватной.

3. Проверку независимости последовательности остатков (отсутствие автокорреляции) осуществляют с помощью d-критерия Дарбина-Уотсона. Расчетное значение критерия определяется по формуле

(5.6)

и сравнивается с нижним и верхним критическими значениями статистики Дарбина-Уотсона.

Возможны следующие случаи:

1) Если , то гипотеза о независимости остатков отвергается, и модель признается неадекватной по критерию независимости остатков.

2) Если , включая сами эти значения, то считается, что нет достаточных оснований делать тот или иной вывод.

3) Если , то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию.

4) Если , то это свидетельствует об отрицательной автокорреляции остатков. В этом случае расчетное значение критерия необходимо преобразовать по формуле и сравнивать с критическим значением не d, а .

Составляем вспомогательную таблицу:

	x	y	y~	Остатки ε
	3	12	9,165277	2,834723		8,035654
	4	13	12,39552	0,604484	4,973965997	0,365400906
	5	20	15,62576	4,374245	14,211098	19,13401932
	7	19	22,08623	-3,086233	55,65873199	9,52483413
	8	31	25,31647	5,683528	76,908708	32,30249053
	10	24	31,77695	-7,77695	181,184468	60,4809513
	11	41	35,00719	5,992811	189,606318	35,91378368
	12	28	38,23743	-10,237428	263,420658	104,8049321
	15	52	47,92815	4,071855	204,75558	16,58000314
	20	55	64,07934	-9,07934	172,9539299	82,43441484
	30	103	96,38173	6,61827	246,4149597	43,80149779
Сумма					1410,088418	413,3779817

Определяем значение . Критические значения критерия Дарбина-Уотсона находят по специальным таблицам для заданных объема наблюдений n и числа независимых переменных модели .

В нашем случае . Имеем отрицательную автокорреляцию остатков. Переходим к , .

Так как , модель признается неадекватной, остатки регрессии взаимозависимы. Уравнение регрессии не может быть использовано для прогнозирования. Автокорреляция в остатках может иметь разные причины. Возможно, форма связи неточна, или в уравнение не включен какой-либо существенный фактор.

Значения статистики Дарбина-Уотсона

на 5%-ном уровне значимости

n

6	0,61	1,40
7	0,70	1,36	0,47	1,90
8	0,76	1,33	0,56	1,78	0,37	2,29
9	0,82	1,32	0,63	1,70	0,46	2,13
10	0,88	1,32	0,70	1,64	0,53	2,02
11	0,93	1,32	0,66	1,60	0,60	1,93
12	0,97	1,33	0,81	1,58	0,66	1,86
13	1,01	1,34	0,86	1,56	0,72	1,82
14	1,05	1,35	0,91	1,55	0,77	1/78
15	1,08	1,36	0,95	1,54	0,82	0,75	0,69	1,97	0,56	2,21
16	1,10	1,37	0,98	1,54	0,86	1,73	0,74	1,93	0,62	2,15
17	1,13	1,38	1,02	1,54	0,90	1,71	0,78	1,90	0,67	2,10
18	1,16	1,39	1,05	1,53	0,93	1,69	0,82	1,87	0,71	2,06
19	1,18	1,40	1,08	1,53	0,97	1,68	0,86	1,85	0,75	2,02
20	1,20	1,41	1,10	1,54	1,00	1,68	0,90	1,83	0,79	1,99
21	1,22	1,42	1,13	1,54	1,03	1,67	0,93	1,81	0,83	1,96
22	1,24	1,43	1,15	1,54	1,05	1,66	0,96	1,80	0,86	1,94
23	1,26	1,44	1,17	1,54	1,08	1,66	0,99	1,79	0,90	1,92
24	1,27	1,45	1,19	1,55	1,10	1,66	1,01	1,78	0,93	1,90
25	1,29	1,45	1,21	1,55	1,12	1,66	1,04	1,77	0,95	1,89
26	1,30	1,46	1,22	1,55	1,14	1,65	1,06	1,76	0,98	1,88
27	1,32	1,47	1,24	1,56	1,16	1,65	1,08	1,76	1,01	1,86
28	1,33	1,48	1,26	1,56	1,18	1,65	1,10	1,75	1,03	1,85
29	1,34	1,48	1,27	1,56	1,20	1,65	1,12	1,74	1,05	1,84
30	1,35	1,49	1,28	1,57	1,21	1,65	1,14	1,74	1,07	1,83

Задание

1. Провести проверку адекватности линейной регрессии, построенной в ЛР №1

2. Провести проверку адекватности множественной регрессии, построенной в ЛР №3

Лабораторная работа №5

Анализ построенной модели регрессии

на гетерокедастичность остатков

Практические рекомендации к выполнению задания

Представлены данные о доходах по акциям x и балансовой прибыли y по 11 предприятиям одной отрасли, ден. ед.

x	3	4	5	7	8	10	11	12	15	20	30
y	12	13	20	19	31	24	41	28	52	55	103

Задание

1. Проверить гипотезу о наличии гетерокедастичности в линейной регрессии с помощью теста ранговой корреляции Спирмена при доверительной вероятности 0,95.

2. Проверить гипотезу о гетерокедастичности с помощью теста Гольфельда-Квандта.

3. Дайте график зависимости остатков регрессии от фактора x.

4. Оцените количественно гетерокедастичность остатков с помощью теста Уайта.

5. Если гетерокедастичность обнаружена, попытаться сгладить ее с помощью обобщенного МНК.

Решение.

1) Суть проверки заключается в том, что в случае гетерокедастичности абсолютные остатки коррелированны со значениями фактора . Эту корреляцию можно измерить с помощью коэффициента ранговой корреляции Спирмена:

где d – абсолютная разность между рангами и . Статистическая значимость коэффициента оценивается по критерию Стъюдента. Расчетное значение t-критерия вычисляется по формуле:

Данная величина сравнивается с критической величиной при и числе степеней свободы . Если , то корреляция между и статистически значима, т.е. имеет место гетерокедастичность остатков. В противном случае принимается гипотеза об отсутствии гетерокедастичности остатков.

Прежде всего найдем уравнение линейной регрессии.

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,970082893
R-квадрат	0,941060819
Нормированный R-квадрат	0,934512021
Стандартная ошибка	6,777232983
Наблюдения	11

Дисперсионный анализ
	df	SS	MS	F
Регрессия	1	6600,258	6600,258	143,6998
Остаток	9	413,378	45,93089
Итого	10	7013,636

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение
Y-пересечение	-0,525438344	3,681329	-0,14273	0,889647
x	3,230238574	0,269468	11,98748	7,77E-07

Уравнение регрессии .

Чтобы рассчитать параметр , составим вспомогательную таблицу. Рангом величин, выстроенных в упорядоченный ряд, называется порядковый номер по возрастанию. Переменная x в условиях уже упорядочена. Ранги остатков предстоит найти либо вручную, либо с помощью функции Ранг.

	x	y		Остатки		Ранг x	Ранг	d	d2
	3	12	9,165277	2,834723	2,834723	1	2	1	1
	4	13	12,39552	0,604484	0,604484	2	1	1	1
	5	20	15,62576	4,374245	4,374245	3	5	2	4
	7	19	22,08623	-3,086233	3,086233	4	3	1	1
	8	31	25,31647	5,683528	5,683528	5	6	1	1
	10	24	31,77695	-7,77695	7,77695	6	9	3	9
	11	41	35,00719	5,992811	5,992811	7	7	0	0
	12	28	38,23743	-10,237428	10,237428	8	11	3	9
	15	52	47,92815	4,071855	4,071855	9	4	5	25
	20	55	64,07934	-9,07934	9,07934	10	10	0	0
	30	103	96,38173	6,61827	6,61827	11	8	3	9
Среднее				-3,18182E-06
Сумма									60

Тогда коэффициент ранговой корреляции Спирмена равен . Для оценки его статистической значимости найдем расчетное значение критерия Стъюдента . По функции СТЪЮДРАСПОБР (вероятность 0,05, степеней свободы n-2) находим соответствующее критическое значение Стъюдента . Делаем вывод о наличии гетерокедастичности в остатках регрессии.

2) Применим тест Гольдфельда-Квандта для подтверждения гетерокедастичности остатков.

В расчетной таблице разделим исходные данные на две примерно равные группы (верхнюю и нижнюю).

x	y		Остатки
3	12	9,165277	2,834723
4	13	12,39552	0,604484
5	20	15,62576	4,374245
7	19	22,08623	-3,086233
8	31	25,31647	5,683528
10	24	31,77695	-7,77695
11	41	35,00719	5,992811
12	28	38,23743	-10,237428
15	52	47,92815	4,071855
20	55	64,07934	-9,07934
30	103	96,38173	6,61827

Построим линейную регрессию по каждой группе.

Для верхней группы

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,890348
R-квадрат	0,79272
Нормированный R-квадрат	0,723627
Стандартная ошибка	3,986411
Наблюдения	5

Дисперсионный анализ
	df	SS	MS	F
Регрессия	1	182,3256	182,3256	11,47317
Остаток	3	47,67442	15,89147
Итого	4	230

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение
Y-пересечение	1,418605	5,488159	0,258485	0,812752
Переменная X 1	3,255814	0,961209	3,387207	0,042863

Из всего объема данных нам необходима только остаточная дисперсия , которая в протоколе регресс обозначена как остаточная SS. .

Для нижней группы

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,964861689
R-квадрат	0,930958079
Нормированный R-квадрат	0,913697599
Стандартная ошибка	8,389255527
Наблюдения	6

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	3795,982	3795,982	53,93582	0,00183
Остаток	4	281,5184	70,37961
Итого	5	4077,5

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%
Y-пересечение	-8,661290323	8,753454	-0,98947	0,378445	-32,9648
Переменная X 1	3,622119816	0,493201	7,344101	0,00183	2,252774

Расчетное значение теста получается как отношение большей остаточной дисперсии к меньшей. . Критической значение теста получаем по функции FРАСПОБР, в которой число степеней свободы равно

n-2, в данном случае оно равно 6,59. Поскольку расчетное значение больше критического, остатки признаются гетерокедастичными.

3) Применим тест Уайта, чтобы количественно оценить зависимость дисперсии остатков от значений фактора x.

В эконометрических исследованиях достаточно часто выдвигается гипотеза о том, что

остатки пропорциональны значениям фактора x: ;
дисперсия остатков прямопропорциональна самим значениям x, т.е. ;
зависимость между дисперсией остатков и значениями фактора x квадратичная .

Параметры этих регрессии можно найти МНК. Составим расчетную таблицу.

x	y		Остатки
3	12	9,165277	2,834723	8,035654487
4	13	12,39552	0,604484	0,365400906
5	20	15,62576	4,374245	19,13401932
7	19	22,08623	-3,086233	9,52483413
8	31	25,31647	5,683528	32,30249053
10	24	31,77695	-7,77695	60,4809513
11	41	35,00719	5,992811	35,91378368
12	28	38,23743	-10,237428	104,8049321
15	52	47,92815	4,071855	16,58000314
20	55	64,07934	-9,07934	82,43441484
30	103	96,38173	6,61827	43,80149779

Для регрессии пользуемся Сервис/Анализ данных/Регрессия/…Поставить флажок «Константа-нуль».

Получаем протокол

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,304158793
R-квадрат	0,092512571
Нормированный R-квадрат	-0,01859854
Стандартная ошибка	6,104515756
Наблюдения	10

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	34,19047	34,19047084	0,917493	0,366182
Остаток	9	335,386	37,26511262
Итого	10	369,5765

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение
Y-пересечение	0	#Н/Д	#Н/Д	#Н/Д
Переменная X	-0,172201879	0,179778	-0,957858421	0,363156

Результат неудовлетворительный. коэффициент детерминации всего 0,09.

Аналогично строим регрессию , взяв в качестве входного интервала Y столбец . Получаем протокол

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,864535947
R-квадрат	0,747422404
Нормированный R-квадрат	0,636311293
Стандартная ошибка	26,25750385
Наблюдения	10

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	18362,0291	18362,0291	26,632614	0,000862939
Остаток	9	6205,108576	689,4565085
Итого	10	24567,13768

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение
Y-пересечение	0	#Н/Д	#Н/Д	#Н/Д
Переменная X 1	3,990668767	0,773283573	5,160679613	0,0005945

В данном уравнении достаточная степень детерминации – 0,74, кроме того значимость по критерию Фишера не превосходит допустимые 5% ошибки в расчетах. Принимаем гипотезу о том, что дисперсия остатков прямопропорциональна самим значениям x.

Для проверки гипотезы о квадратичной зависимости решают методом определителей систему уравнений (см. ЛР Нелинейная регрессия):

Определяют индекс корреляции . О наличии или отсутствии гетерокедастичности судят по величине F-критерия Фишера для функции , . При выполнении условия имеет место гетерокедастичность остатков и количественно она выражена значением . По данному расчету предположение о квадратичной зависимости дисперсии остатков от значений x не проверяем (поскольку принята гипотеза ).

5) Улучшим модель, смягчив гетерокедастичность, пользуясь обобщенным методом наименьших квадратов. Если , тогда сами остатки пропорциональны .

Чтобы избавиться от этого, разделим уравнение линейной регрессии на . Получим преобразованное уравнение регрессии, в котором можно сделать замену переменной:

. Пусть , , . Тогда .

Построим вспомогательную таблицу

x	y	X	z	Y
3	12	1,732051	0,577350269	6,92820323
4	13	2	0,5	6,5
5	20	2,236068	0,447213595	8,94427191
7	19	2,645751	0,377964473	7,181324987
8	31	2,828427	0,353553391	10,96015511
10	24	3,162278	0,316227766	7,589466384
11	41	3,316625	0,301511345	12,36196513
12	28	3,464102	0,288675135	8,082903769
15	52	3,872983	0,25819889	13,42634227
20	55	4,472136	0,223606798	12,29837388
30	103	5,477226	0,182574186	18,80514114

Протокол регрессионного анализа имеет вид:

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,986894
R-квадрат	0,9739597
Нормированный R-квадрат	0,8599553
Стандартная ошибка	1,9415488
Наблюдения	11

Дисперсионный анализ
	df	SS	MS	F
Регрессия	2	1268,921	634,4607182	168,3092927
Остаток	9	33,92651	3,769611932
Итого	11	1302,848

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение
Y-пересечение	0	#Н/Д	#Н/Д	#Н/Д
X	3,02343	0,296117	10,21024561	3,00843E-06
z	1,8246585	2,72558	0,669456856	0,520006975

Получаем уравнение регрессии . Или .

Показатели статистической значимости уравнения регрессии улучшены. Увеличился коэффициент детерминации с 94% до 97%. Существенно уменьшилась остаточная дисперсия с 413 ед. до 33 ед.

Задание:

По своим данным ЛР1 выполнить анализ гетерокедастичности остатков. А именно:

2. Проверить гипотезу о гетерокедастичности с помощью теста Гольфельда-Квандта.

3. Оцените количественно гетерокедастичность остатков.

4. При наличии гетерокедастичности, применить обобщенный МНК для ее сглаживания.

Лабораторная работа №6

Анализ динамики временных рядов

Для выявления специфики развития изучаемых явлений за отдельные периоды времени определяют:

абсолютные приросты уровней ряда;
относительные приросты уровней ряда, т.е. темпы роста;
темпы прироста.

Рассматривая данные показатели, необходимо правильно выбирать базу сравнения, которая зависит от цели исследования. При сравнении каждого уровня ряда с предыдущим получаются цепные показатели; при сравнении каждого уровня с одним и тем же уровнем (базой) получаются базисные показатели.

1. Для выражения абсолютной скорости роста или снижения уровней ряда вычисляют абсолютный прирост. Его величина определяется как разность двух сравниваемых уровней. Так, для цепных приростов, используется формула:

2. Интенсивность изменения уровней ряда оценивается отношением текущего уровня к предыдущему или базисному. Этот показатель принято называть темпом роста:

3. Для выражения изменения величины абсолютного прироста уровней ряда в относительных величинах используется темп прироста, который рассчитывается как отношение абсолютного прироста к предыдущему или к базисному уровню:

или .

Также справедлива формула .

Особое внимание уделяют расчетам средних показателей рядов динамики, среди них различают:

средний уровень ;
средний абсолютный прирост ;
средний темп роста , где m – число периодов, по которым вычисляется среднее.
средний темп прироста .

Анализ автокорреляционной функции и коррелограммы позволяет определить лаг, при котором связь между текущим и предыдущим уровнями наиболее тесная. Причем,

если наиболее высоким оказался коэффициент автокорреляции первого порядка, то исследуемый ряд содержит только тренд и не содержит сезонных колебаний;
если временной ряд имеет линейную тенденцию, то его соседние уровни и тесно коррелируют;
если временной ряд содержит сильную нелинейную тенденцию, например, в форме экспоненты, то коэффициент автокорреляции первого порядка по логарифмам исходного уровня будет выше, чем соответствующий коэффициент, подсчитанный по непреобразованным уровням ряда;
если наиболее высоким оказался коэффициент автокорреляции порядка , ряд содержит циклические колебания с периодичностью в моментов времени;
если ни один из коэффициентов автокорреляции не является значимым, можно сделать предположение относительно структуры этого ряда: либо ряд содержит только случайную компоненту, либо содержит сильную нелинейную тенденцию, для выявления которой нужно провести дополнительный анализ.

Выбор уравнения тренда

При выборе уравнения тренда необходимо руководствоваться принципом простоты. Чем сложнее уравнение линии тренда и чем большее число параметров содержит, тем при равной степени приближения труднее дать надежную оценку этим параметрам.

На практике чаще всего используют следующие основные виды трендов временных рядов:

линейный тренд ;
гипербола ;
параболический тренд ;
экспоненциальный тренд или ;
тренд в форме степенной функции ;
логарифмический тренд ;
логистический или .

Для правильного выбора типа тренда, который наилучшим способом отражает тенденцию фактического ряда уровней, следует руководствоваться слудующим:

Построить график ряда в правильно выбранном масштабе. Причем если уровни ряда различаются в большое количество раз, ось ординат следует разметить в логарифмическом масштабе, т.е как .
Линейный тип тренда подходит для отображения тенденции примерно равномерного изменения уровней: равных в среднем величин абсолютного пророста (или абсолютного сокращения) за равные промежутки времени.
Параболический тренд используют, если цепные темпы изменений либо уменьшаются, либо некоторое время возрастают, но при достаточно большом периоде рано или поздно темпы роста обязательно начинают уменьшаться (темпы сокращения уровней начинают возрастать).
Уравнение логарифмического тренда применяют в том случае, когда изучаемый процесс приводит к замедлению роста показателя, но при этом рост не прекращается, а стремится к какому-нибудь ограниченному пределу.
Логистическая форма тренда используется для описания процессов, при которых изучаемый показатель проходит полный цикл развития,

– начиная от нулевого уровня, сначала медленно, но с ускорением возрастая;

– затем ускорение становится нулевым в середине цикла, т.е. рост происходит по линейному тренду;

– далее, в завершающей части цикла рост замедляется по гиперболе по мере приближения к предельному значению показателя.

Если графического анализа недостаточно, то необходимо провести дополнительное исследование:

1) Чтобы снизить искажающее тренд влияние циклических колебаний, проводят сглаживание ряда методом скользящего выравнивания.

2) Исходный (или сглаженный) ряд разбивают на несколько равных или примерно равных подпериодов, и по каждому вычисляют среднюю величину цепных абсолютных приростов . Если она будет постоянной для всех подпериодов, то выбирают линейную форму тренда.

3) Сглаженный ряд разбивают на несколько равных или примерно равных подпериодов, и по каждому вычисляют среднюю величину цепных относительных изменений (темпов прироста) . Если она будет постоянной на всех подпериодах, то выбирают экспоненциальную форму тренда.

4) Если по подпериодам постоянным будет среднее ускорение уровней , то в качестве тренда следует выбрать параболу.

5) Если ни один из предложенных параметров не имеет постоянной тенденции, то можно с помощью t-критерия Стъюдента проверить гипотезу о существенности различия средних значений параметра в разных подпериодах ряда.

Пример1

Администрация банка изучает динамику депозитов физических лиц за несколько лет (млн.$ в сопоставимых ценах).

Время, t	1	2	3	4	5	6	7
Размер депозитов, y	2	6	7	3	10	12	13

Задание.

Обосновать и построить тренд данного ряда. Оценить достоверность модели.

На основании приближенно постоянного среднего абсолютного прироста можно выбрать линейную форму для описания основной тенденции данного ряда. Параметры a и b, а также коэффициент детерминации можно найти следующими способами

На построенный график наложить линейный тренд в меню Диаграмма.
Воспользоваться пакетом анализа в меню Сервис/Анализ данных/Регрессия.

Результаты двух способов ниже:

Регрессионная статистика
Множественный R	0,866025404
R-квадрат	0,75
Нормированный R-квадрат	0,7
Стандартная ошибка	2,342160175
Наблюдения	7

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	82,285714	82,28571	15	0,011725
Остаток	5	27,428571	5,485714
Итого	6	109,71429

	Коэффициенты	Стандартная ошибка	t-статистика
Y-пересечение	0,714285714	1,9794866	0,360844
t	1,714285714	0,4426267	3,872983

Таким образом, модель временного ряда имеет вид , и она достоверна на 75%.

Пример 2

Изучается динамика потребления мяса в регионе. Для этого собраны данные об объемах среднедушевого потребления мяса (кг) за 7 месяцев. Обосновать и построить тренд данного ряда. Оценить достоверность модели.

t	1	2	3	4	5	6	7
y	8,16	8,25	8,41	8,76	9,2	9,78	10,1

Графический анализ:

Анализ цепных абсолютных изменений и темпов изменения уровней ряда:

t	y	Абсолют ный прирост Δ	Средний абсолютный прирост по подпериодам	Темпы прироста	Средний темп прироста
1	8,16
2	8,25	0,09		0,011029
3	8,41	0,16	0,2	0,019394	0,024013
4	8,76	0,35		0,041617
5	9,2	0,44		0,050228
6	9,78	0,58	0,446667	0,063043	0,048664
7	10,1	0,32		0,03272

Выбираем экспоненциальный тренд , поскольку обнаружилось большее сходство именно в средних темпах прироста.

Построенная модель достоверна на 95,78%. Поскольку , то тренд выражает тенденцию усиливающегося замедления роста уровней.

Задания.

Вариант 1

Имеются следующие данные об активах коммерческого банка в одном из регионов за 2003 год на первое число каждого месяца

Определите

среднемесячные уровни активов коммерческого банка за первый, второй кварталы и за полугодие в целом;
абсолютные приросты;
темпы роста;
темпы прироста;
средний темп роста в процентах.

Рассчитать по исходным данным коэффициенты автокорреляции до -го порядка. Сделать выводы по поводу трендовой и сезонной составляющих.

Аргументированнно подобрать линию тренда.

Вариант 2

Остатки вкладов населения в сбербанках города в 2003 году характеризуются следующими данными на 1-е число месяца

Определите

среднемесячные остатки вкладов за первый и второй кварталы;
абсолютные приросты;
темпы роста;
темпы прироста;
средний темп роста в процентах;
абсолютный прирост изменения среднего остатка вклада во втором квартале по сравнению с первым.