Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

Подписываем
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Предоплата всего
Подписываем
Методические указания по выполнению лабораторной работы №3 в ССП STATISTICA.
1. Визуализация данных.
Для начала проведем предварительный анализ данных (Yt). Построим ряд специализированных статистических графиков. В меню Graphics - Графика выберем Stats 2D Graphs - 2-х мерные статистические графики, Histogram – Гистограмма; Normal Probability Plots ,– График нормального распределения.
По этим графикам можно судить о близости данных (Yt) к нормальному закону распределения. Чем ближе исходные данные к нормальному закону распределения, тем более обоснованным является применение методов корреляционно-регрессионого анализа. Выбрав Scatterplots – Плоские графики можно посмотреть диаграмму рассеивания наблюдений.
2. Построение трендовой модели.
В пакете STATISTICA построение трендовой модели осуществляется в модуле Statistics/Advanced Linear/Nonlinear Models.
Клавишей Variables – Переменные выберете необходимые для анализа переменные (Y, Т). Если переменные расположены не по порядку, выделяйте их, удерживая клавишу Ctrl. ОК.
Перед вами появится окно Non-linear components regression - Нелинейные компоненты регрессии. В первом столбце – математические символы, в скобках – названия функций нелинейных преобразований, в третьем столбце Valid rang – границы, в которых должны находиться данные, чтобы можно было использовать соответствующую функцию. Необходимо пометить только те преобразования, которые допустимо произвести с вашими данными. О.К.
В окне Model Definition – Определение модели необходимо задать Variables– Переменные. Independent (Независимые) – это Т и все функциональные преобразования Т. Зависимой в уравнении может быть только одна переменная – это либо Y, либо какая-нибудь функция Y (lnY, 1/Y, и т.п.). Далее выбираем Method – Метод. Если независимых компонент много, то целесообразно вместо Standard - Стандартный выбрать, например, Forward stepwise - Прямой пошаговый. Появится окно промежуточных результатов процесса. ОК.
Перед вами окно Multiple Regression Results – Результаты множественной регрессии. Верхняя часть окна – информационная, нижняя содержит функциональные кнопки, позволяющие всесторонне рассмотреть результаты анализа.
В информационной части, прежде всего, обратите внимание на значение коэффициента детерминации R?. Он показывает, какую часть разброса значений относительно среднего объясняет построенное уравнение регрессии.
Далее посмотрите на значение F-критерия и уровень его значимости p. F-критерий (критерий Фишера), используется для проверки значимости уравнения регрессии. Уровень p – это минимальная вероятность ошибки. (1-р) – это вероятность того, что в генеральном (истинном) уравнении хотя бы один параметр при независимой переменной не равен нулю и, следовательно, в правой части генерального уравнения существует хотя бы одна переменная.
Dep. Var – Имя зависимой переменной.
No. of Cases – Количество наблюдений, по которым построена регрессия.
Multiple R – Коэффициент множественной корреляции.
Adjusted R? – Скорректированный коэффициент детерминации R2adj.
Adjusted R? = 1- ((1-R2) * n/(n-p-1))
Этот показатель качества уравнения регрессии более предпочтителен, чем коэффициент детерминации R2, т.к. при вводе незначимой переменной он убывает.
Std. Error of estimate – Стандартная ошибка оценки регрессии. Рассчитывается как корень квадратный из остаточной дисперсии. Показывает среднеквадратическое отклонение наблюдаемых значений от рассчитанных по уравнению регрессии.
Выбрав Summary: Regression results – Краткие результаты регрессии, появится таблица с результатами. В первом столбце перечислены переменные, которые вошли в выборочное уравнение, в столбце В – коэффициенты при этих переменных (b0, b1, bj, bp). Строка Intercept посвящена свободному элементу. Столбец St. Err. of B– Стандартные ошибки коэффициентов регрессии, следующий столбец t(df) – расчетные значения статистики Стьюдента для каждого коэффициента, в скобках указано число степеней свободы (n-p-1). В последнем столбце р-level приводятся вероятности ошибок. Например, число 0,078 (7,8%) означает, что в генеральном уравнении соответствующий коэффициент регрессии с вероятностью 7,8% равен нулю.
В этом смысле критерий Стьюдента более строг, чем критерий Фишера. В значимое по критерию Фишера уравнение могут входить переменные с довольно большими ошибками параметров. С другой стороны, если в выборочном уравнении регрессии присутствуют только те переменные, параметры которых значимы по критерию Стьюдента на уровне (1-р), то тем более все уравнение будет значимо по критерию Фишера на уровне (1-р).
Однако, двух этих критериев не достаточно, чтобы признать уравнение адекватным и иметь возможность делать по нему прогноз, строить доверительные интервалы. Необходимо провести анализ остатков.
В окне Multiple Regression Results – Результаты множественной регрессии необходимо нажать ОК – переходите в окно - Анализ остатков.
Вначале для оценки адекватности модели лучше всего использовать визуальные методы.
Проверить, выполняется ли предположение о нормальном распределении ошибок, можно рассмотрев график остатков на нормальной вероятностной бумаге. Для этого нужно инициировать Normal plot of resids. Плотность распределения можно посмотреть по гистограмме остатков.
Выполнение 2-го условия Гаусса-Маркова можно посмотреть по графику «Предсказанные значения & квадраты остатков»
Выполнение 3-го условия Гаусса-Маркова целесообразно проверить, воспользовавшись тестом Дарбина – Уотсона. Расчетное значение статистики d(DW) можно посмотреть в блоке Advanced, инициировав клавишу Durbin-Watson stat – Статистика Дарбина – Уотсона.
После того, как вы убедились, что построенное уравнение тренда не только качественное (по критериям Фишера и Стьюдента), но и вполне адекватное (по условиям Гаусса-Маркова), можно переходить к прогнозированию.
Прогнозирование.
Клавиша Predict dependent var. – Предсказание зависимой переменной находится в окне Multiple Regression Results – Результаты множественной регрессии. Наряду с прогнозом среднего уровня показателя Y система считает доверительный интервал указанного уровня значимости (Alpha) для среднего (Compute confidents limits) или для прогнозного значения (Compute prediction limits).
Если первоначальные переменные входят в уравнение как функции от них, нужно это учитывать при прогнозировании и не забывать делать обратные преобразования.
Например, в регрессионное уравнение независимая переменная входит не как Т, а как lnТ, тогда, чтобы сделать прогноз на 31-й период, нужно ввести ln31 = 3,4339872. Если в уравнение зависимая переменная входит не как Y, а, например, как 1/Y, то получив расчетное значение прогноза 0,25, естественно сделать вывод, что прогноз среднего уровня Y = 4 (1/0,25).
3. Корреляция и лаговая корреляция временных рядов.
Автокорреляция уровней временного ряда.
Перед тем, как проводить корреляционно-регрессионный анализ, целесообразно проверить ряды на наличие автокорреляции уровней. Для этого нужно выбрать пункт меню Statistics\ Advanced Linear\ Nonlinear Models\ Time Serias\ Forecasting.
Структура стартовой панели.
С помощью кнопки Variables - Переменные, появляется диалоговое окно выбора переменных из открытого файла данных. Имена и расширенные имена выбранных переменных находятся в верхней, информационной части окна.
Клавишей Delete highlighted variable - Удалить высвеченные переменные, вы можете удалять переменные, не имеющие пометку Lock (Замок) в информационной части панели. Клавиша Save variables - Сохранить переменные позволяет сохранять высвеченные переменные в файле данных системы. Клавиша OK (Transformations, Autocorrelations, Crosscorrelations, Plots) - Да (Преобразования, автокорреляции, кросскорреляции, графики) позволяет преобразовать ряд, обнаружить и определить тип автокорреляции, исследовать корреляционные связи между показателями.
Таким образом, высветив клавишей Variables - Переменные необходимые ряды и нажав ОК, перед вами появится окно Transformations of Variables - Преобразование переменных.
В блоке Autocorrelations & crosscorrelations - Автокорреляции, кросскорреляции нужно установить в окне Number of lags максимальную величину лага (≈ четверть от выборки), в окне Alpha устанавливается допустимый уровень ошибки (как правило по умолчанию, 0,05).
Выбрав вкладку Autocorrs и нажав клавишу Autocorrelations - Автокорреляции, перед вами появится график автокорреляционной функции или коррелограмма. Пунктирные линии на графике – это уровень значимости коэффициентов. Если коэффициент значим, то соответствующий столбик пересекает линию. Уровни ряда не автокоррелированы, если все коэффициенты автокорреляции не значимые, а следовательно, все столбики малы и не пересекают пунктирные линии.
Если уровни временного ряда не случайны, т.е. автокоррелированы, это надо учесть при исследовании корреляционных связей между такими рядами. Первоначально нужно привести ряды к стационарному виду.
Преобразования временных рядов.
Преобразования рядов проводят в окне Transformations of variables, том же что и исследование на автокорреляцию. Нужно выбрать вкладку Review & plot. Обратите внимание на опцию Plot variable (series) after each transformation - Построить график переменной (ряда) после каждого преобразования. Установив эту опцию, система будет автоматически показывать вам график преобразованных данных после каждого преобразования ряда. Это позволит сориентироваться в преобразованиях, которые следует сделать, чтобы привести ряд к стационарному виду. После каждого шага преобразований целесообразно посмотреть Autocorrelations - Автокорреляцию уровней преобразованного ряда, чтобы определить направление своих дальнейших действий. Клавишей Plot - График можно посмотреть график подсвеченной переменной.
Нажав кнопку OK (Transform highlighted variable) - ОК (Преобразовать высвеченную переменную) вы окажетесь в окне Time Series Transformations - Преобразования временного ряда. На каждом шаге можно выполнить только одно преобразование значений высвеченной переменной. Все преобразования переменных программа запишет в информационной части диалогового окна. Чтобы выполнить несколько преобразований, вам следует повторить эти действия несколько раз. По умолчанию, в системе каждый раз будет высвечиваться переменная, преобразованная на последнем шаге.
В окне Time Series Transformations - Преобразования временного ряда имеется несколько групп преобразований, объединенных по функциональному признаку.
В первом блоке даны преобразования, получающиеся применениями к ряду некоторых стандартных функций: Х новый = F(Х старый). Этот блок включает следующие преобразования:
Add a constant - Прибавить константу к значениям ряда,
Power - Возвести в степень,
Inverse power - Возвести в обратную степень,
Natural log - Взять натуральный логарифм. Для уменьшения амплитуд колебания временных рядов часто используют логарифмическое преобразование;
Exponent - Выполнить экспоненциальное преобразование,
Mean subtract - Выделение среднего,
Standardize - Стандартизация (нормировка),
Trend subtract - Выделение тренда.
Параметры для двух последних преобразований могут быть либо заданы, либо оценены из данных, если выбрана опция Estimate mean & std. dev. from data или Estimate a and b from data.
Блок Smoothing - Сглаживание включает в себя:
N-pts mov. averg. - Скользящее среднее,
N-pts mov. median. - Медиана,
Simple exponential - Простое экспоненциальное сглаживание.
Следующая группа Two-series transformations - Преобразования двух временных рядов.
Далее Shift relative starting point of series - Сдвинуть относительную начальную точку ряда. Предлагается возможность сдвинуть ряд вперед и назад.
Опции Filtering and other techniques - Фильтрация и другие методы дают возможность для фильтрации ряда и осуществления следующих преобразований:
Differencing - Вычисление последовательных разностей:
Х(t)новое = Х(t)старое – Х(t - лаг).
Если лаг = 1, то из текущего значения ряда вычитается предыдущее и результат представляется в качестве значения нового ряда.
Преобразование взятия разности первого порядка позволяет избавиться от линейного тренда в динамическом ряду.
Если ряд имеет сезонную составляющую, необходимо взять сезонную разность, т.е. это же преобразование, а в качестве лага (сдвига) задать период сезонности. Если период 12, то лаг=12, если период 4, то лаг=4 и т.д.
В этом случае данное преобразование исключает сезонную составляющую.
Каждое преобразование система записывает в информационной части окна Transformations of variables - Преобразования переменных. Сначала идут не преобразованные данные со значком L(lock) - Замок. Эти данные не могут быть удалены. Далее следуют по порядку преобразованные ряды. С помощью клавиши Delete - Удалить можно удалить промежуточные преобразования и оставить только то, которое привело ряд к стационарному виду. Помните, что удаляется подсвеченная переменная.
Клавиша Save - Сохранить переменные позволяет сохранить высвеченные переменные в файле данных системы. Это целесообразно, если преобразованные ряды необходимы для работы в других модулях системы.
После того как путем преобразований ряды приведены к стационарному виду, можно приступать к исследованию корреляционных связей между ними при помощи клавиши Cross-correlations - Перекрестные корреляции. Если ряд изначально не содержал автокорреляцию, то естественно, никаких преобразований с ним проводить не надо.
По приведенному выше графику можно сделать вывод, что значимым является только коэффициент корреляции при лаге 0. Поэтому, с вероятностью не меньше 95% можно утверждать, что генеральный коэффициент корреляции между Yt и X1t не равен 0. Следовательно, между Yt и X1t существует значимая на уровне 5% корреляционная связь. Поскольку значимых лаговых коэффициентов корреляции нет, то можно утверждать, что не обнаружено значимого запаздывающего влияния Х1t-лаг на Yt .
Если результирующий показатель Yt, то интересно проследить влияние на него всех других показателей (X1t, X2t). Таким образом, судя по этим двум графикам на Yt значимо(5%) влияет только Xt. Запаздывающего (лагового) влияния на Yt со стороны X1t и X2t не обнаружено.
4. Регрессия временных рядов.
Поскольку уравнение тренда – это частный случай уравнения регрессии, то все сказанное выше в отношении тренда справедливо и для уравнения регрессии. Вообще в регрессионное уравнение помимо фактора времени могут входить авторегрессионые составляющие, другие факторы, имеющие значимое (5%) влияние на исследуемый признак, а также их лаговые компоненты. В ходе анализа лаговой корреляции отбираются значимые (5%) факторы с соответствующим значением лага или без него. Далее проводится процедура регрессионного анализа, которая была рассмотрена выше.
Прогнозирование.
Проводя прогнозирование по регрессионному уравнению, необходимо первоначально спрогнозировать уровни факторов (Х1,…Хp), которые вошли в модель. При этом качество прогноза исследуемого показателя может значительно снизиться, благодаря ошибкам в прогнозах факторов. Поэтому целесообразно сделать расчеты показателя Y по уравнению регрессии на 3-5 последних периодов, учитывая расчетные значения объясняющих переменных и сравнить с теми, что были в действительности, а также с прогнозами по тренду. Особенно это полезно, если возникает проблема выбора лучшего уравнения, среди нескольких адекватных.
PAGE \* MERGEFORMAT 6