Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

Подписываем
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Предоплата всего
Подписываем
10
PAGE 8
Министерство образования и науки Украины
Севастопольский национальный технический университет
Методические указания
к выполнению лабораторной работы
Регрессионный анализ
по дисциплине «Стохастический анализ» для студентов
дневной и заочной форм обучения
направления подготовки 0914 «Компьютеризированные
системы, автоматика и управление»
Севастополь
2011
УДК 62-52.001.24
Методические указания к выполнению лабораторной работы «Регрессионный анализ» по дисциплине «Стохастический анализ» / Сост. Б.А. Скороход Севастополь, 2011. 10с.
В методических указаниях приводится описание лабораторной работы, целью которой является изучение методов регрессионного анализа.
Методические указания предназначены для студентов дневной и заочной форм обучения по направлению подготовки 0914 «Компьютеризированные системы, автоматика и управление».
Методические указания рассмотрены и утверждены на заседании кафедры технической кибернетики
(протокол № от 2011 г.)
Рецензент: д.т.н., профессор Дубовик С.А.
СОДЕРЖАНИЕ
1 Цель работы 4
2 Краткие теоретические сведения 4
3 Задание на работу и порядок ее выполнения 7
4 Содержание отчета и порядок защиты работы 10
5 Контрольные вопросы 11
Библиографический список 11
Изучение методов регрессионного анализа.
Пусть n раз измерены значения факторов x1 , x2 , ..., xk и соответствующие значения отклика - переменной y и справедлива зависимость
yi = o + 1xi1 + ... + k xik+ i , i = 1, ..., n, (1)
(второй индекс у х относится к номеру фактора, а первый - к номеру наблюдения), где - величины, определяющие погрешности линейной аппроксимации у по x1 , x2 , ..., xk в заданных точках. Предполагается, что погрешности являются случайными величинами и удовлетворяют ус ловиям
Mi = 0, M = 2, M(i j) = 0, i j, (2)
т.е. i - некоррелированные случайные величины .
Соотношения (1) удобно записывать в матричной форме:
Y = X + , (3)
где Y = (y1, ..., yk)T - вектор-столбец значений зависимой переменной, Т - символ транспонирования, = (0, 1, ..., k)T - вектор-столбец (размерности k) неизвестных коэффициентов регрессии, = (1 , ..., n)T - вектор случайных отклонений,
-матрица n (k + 1); в i - й строке (1, xi1, ...,xik) находятся значения независимых переменных в i-м наблюдении первая переменная - константа, равная 1.
Оценка коэффициентов регрессии
Построим оценку для вектора так, чтобы вектор оценок = Х зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора Y заданных значений:
по .
Решением является (если ранг матрицы Х равен k +1) оценка
= (XTX)-1 XTY (4)
Нетрудно проверить, что она несмещенная, а ковариационная матрица равна
D = ( ) ( )T = 2 (XTX)1 = 2 Z , (5)
где Z = (XTX)1.
Оценка дисперсии ошибок
Обозначим
e = Y = Y Х = [I X (XTX)1 XT] Y = HY (6)
вектор остатков (или невязок); H = I X (XTX)1 XT матрица. Для остаточной суммы квадратов справедливо соотношение
M = M(n - k -1) 2 ,
откуда следует, что несмещенной оценкой для 2 является
s2 = . (7)
При анализе регрессии часто удобно использовать или нормированные остатки , или стюденторизованные
.
Свойства оценок
Если предположить, что i в (1) нормально распределены, то справедливы следующие свойства оценок:
1. (n - k - 1) имеет распределение - квадрат с n-k-1 степенями свободы;
2. Оценки и s2 независимы.
3. Справедливо соотношение:
или
Tss = Ess + Rss , (8)
в векторном виде: , где = . Поделив обе части на полную вариацию игреков Tss = , получим коэффициент детерминации
R2 = (9)
Коэффициент R2 показывает качество подгонки регрессионной модели к наблюдённым значениям yi. Если R2 = 0, то регрессия Y на x1 , ..., xk не улучшает качество предсказания yi по сравнению с тривиальным предсказанием . Другой крайний случай R2 = 1 означает точную подгонку: все ei = 0, т.е. все точки наблюдений лежат на регрессионной плоскости. Однако, значение R2 возрастает с ростом числа переменных (регрессоров) в регрессии, что не означает улучшения качества предсказания, и потому вводится скорректированный (adjusted) коэффициент детерминации
(10)
Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).
Доверительные интервалы для коэффициентов регрессии
Стандартной ошибкой оценки является величина , оценка для которой
sj = , j = 0, 1, ..., k, (11)
где zjj- диагональный элемент матрицы Z. Если ошибки i распределены нормально, то, в силу свойств 1 и 2, приведенных выше, статистика
(12)
распределена по закону Стьюдента с (n - k - 1) степенями свободы, и потому неравенство
sj , (13)
где - квантиль уровня α этого распределения, задает доверительный интервал для j с коэффициентом доверия 1-.
Проверка гипотезы о нулевых значениях коэффициентов регрессии
Для проверки гипотезы Н0 об отсутствии какой бы то ни было линейной связи между y и совокупностью факторов, Н0: 1 = 2 = ... = k = 0, т.е. об одновременном равенстве нулю всех коэффициентов, кроме коэффициента 0 при константе, используется статистика
F = = = , (14)
распределенная, если Н0 верна, по закону Фишера с k и n - k - 1 степенями свободы. Н0 отклоняется, если
F > F (k, n - k - 1), (15)
где F - квантиль уровня 1 - .
Доверительные интервалы для прогнозируемого
значения выходной переменной
,
Рассмотрим данные, приведенные в таблице 1. Предполагается, что изделия крепятся к каркасу проволокой. Переменные, которые наблюдаются: прочность на разрыв (сила, требуемая для разрыва связи), длина проволоки, высота каркаса.
Таблица 1
Номер наблюдения |
Прочность на разрыв, , кг |
Длина проволоки, , см |
Высота каркаса, , мм |
1 |
9.95 |
2 |
50 |
2 |
24.45 |
8 |
110 |
3 |
31.75 |
11 |
120 |
4 |
35.00 |
10 |
550 |
5 |
25.02 |
8 |
295 |
6 |
16.86 |
4 |
200 |
7 |
14.38 |
2 |
375 |
8 |
9.60 |
2 |
52 |
9 |
24.35 |
9 |
100 |
10 |
27.50 |
8 |
300 |
11 |
17.08 |
4 |
412 |
12 |
37.00 |
11 |
400 |
13 |
41.95 |
12 |
500 |
14 |
11.66 |
2 |
360 |
15 |
21.65 |
4 |
205 |
16 |
17.89 |
4 |
400 |
17 |
69.00 |
20 |
600 |
18 |
10.30 |
1 |
585 |
19 |
34.93 |
10 |
540 |
20 |
46.59 |
15 |
250 |
21 |
44.88 |
15 |
290 |
22 |
54.12 |
16 |
510 |
23 |
56.63 |
17 |
590 |
24 |
22.13 |
6 |
100 |
25 |
21.15 |
5 |
400 |
Требуется:
1. По матричному scatter plot для переменных обосновать принципиальную возможность использования линейной регрессии для аппроксимации экспериментальных данных.
2. Оценить параметры линейной регрессии и доверительные интервалы для них.
3. Обосновать возможность использования, полученной зависимости, проверив предпосылки регрессионного анализа, используя следующие графики: а) нормированные остатки номер наблюдения, б) вероятностный график для остатков, в) нормированные остатки - , г) гистограмму остатков.
4. Спрогнозировать величину значения прочности на разрыв в точке и определить доверительный интервал для него.
Рекомендации. При написании программы использовать функции regress, rcoplot, normplot, lillietest, tinv, inv, gplotmatrix.
Лабораторная работа рассчитана на два занятия. На первом занятии выполняется пункты 1,2 задания, на втором 3-4.
4 Содержание отчета и порядок защиты работы
На основе проведенных исследований необходимо составить отчет, который должен содержать следующие пункты:
1. Постановку задачи.
2. Решение, предложенных задач.
3. Выводы относительно полученных результатов.
На защите лабораторной работы необходимо представить отчет, соответствующий данным требованиям, продемонстрировать на компьютере расчеты в пакете Matlab и ответить на вопросы преподавателя.
5 Контрольные вопросы
1. Что такое регрессия и зачем она нужна.
2. Записать выражение для линейной регрессии и объяснить смысл, входящих в нее составляющих.
3. Сформулировать основные предположения, при которых можно обосновать использование регрессии.
4. Сформулировать основные идеи, лежащие в основе метода наименьших квадратов (МНК).
5. Что понимается под адекватностью линейной регрессии и как она проверяется.
6. Что такое остатки в МНК и как они используются при проверке предположений о регрессии.
7. Какими свойствами обладают оценки МНК.
8. Пояснить назначение следующих функций: regress, rcoplot, normplot, lillietest, tinv, inv, gplotmatrix.
Библиографический список