Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Методические указания по выполнению лабораторной работы №3 в ССП STATISTICA.
1. Визуализация данных.
Для начала проведем предварительный анализ данных (Yt). Построим ряд специализированных статистических графиков. В меню Graphics - Графика выберем Stats 2D Graphs - 2-х мерные статистические графики, Histogram Гистограмма; Normal Probability Plots , График нормального распределения.
По этим графикам можно судить о близости данных (Yt) к нормальному закону распределения. Чем ближе исходные данные к нормальному закону распределения, тем более обоснованным является применение методов корреляционно-регрессионого анализа. Выбрав Scatterplots Плоские графики можно посмотреть диаграмму рассеивания наблюдений.
2. Построение трендовой модели.
В пакете STATISTICA построение трендовой модели осуществляется в модуле Statistics/Advanced Linear/Nonlinear Models.
Клавишей Variables Переменные выберете необходимые для анализа переменные (Y, Т). Если переменные расположены не по порядку, выделяйте их, удерживая клавишу Ctrl. ОК.
Перед вами появится окно Non-linear components regression - Нелинейные компоненты регрессии. В первом столбце математические символы, в скобках названия функций нелинейных преобразований, в третьем столбце Valid rang границы, в которых должны находиться данные, чтобы можно было использовать соответствующую функцию. Необходимо пометить только те преобразования, которые допустимо произвести с вашими данными. О.К.
В окне Model Definition Определение модели необходимо задать Variables Переменные. Independent (Независимые) это Т и все функциональные преобразования Т. Зависимой в уравнении может быть только одна переменная это либо Y, либо какая-нибудь функция Y (lnY, 1/Y, и т.п.). Далее выбираем Method Метод. Если независимых компонент много, то целесообразно вместо Standard - Стандартный выбрать, например, Forward stepwise - Прямой пошаговый. Появится окно промежуточных результатов процесса. ОК.
Перед вами окно Multiple Regression Results Результаты множественной регрессии. Верхняя часть окна информационная, нижняя содержит функциональные кнопки, позволяющие всесторонне рассмотреть результаты анализа.
В информационной части, прежде всего, обратите внимание на значение коэффициента детерминации R?. Он показывает, какую часть разброса значений относительно среднего объясняет построенное уравнение регрессии.
Далее посмотрите на значение F-критерия и уровень его значимости p. F-критерий (критерий Фишера), используется для проверки значимости уравнения регрессии. Уровень p это минимальная вероятность ошибки. (1-р) это вероятность того, что в генеральном (истинном) уравнении хотя бы один параметр при независимой переменной не равен нулю и, следовательно, в правой части генерального уравнения существует хотя бы одна переменная.
Dep. Var Имя зависимой переменной.
No. of Cases Количество наблюдений, по которым построена регрессия.
Multiple R Коэффициент множественной корреляции.
Adjusted R? Скорректированный коэффициент детерминации R2adj.
Adjusted R? = 1- ((1-R2) * n/(n-p-1))
Этот показатель качества уравнения регрессии более предпочтителен, чем коэффициент детерминации R2, т.к. при вводе незначимой переменной он убывает.
Std. Error of estimate Стандартная ошибка оценки регрессии. Рассчитывается как корень квадратный из остаточной дисперсии. Показывает среднеквадратическое отклонение наблюдаемых значений от рассчитанных по уравнению регрессии.
Выбрав Summary: Regression results Краткие результаты регрессии, появится таблица с результатами. В первом столбце перечислены переменные, которые вошли в выборочное уравнение, в столбце В коэффициенты при этих переменных (b0, b1, bj, bp). Строка Intercept посвящена свободному элементу. Столбец St. Err. of B Стандартные ошибки коэффициентов регрессии, следующий столбец t(df) расчетные значения статистики Стьюдента для каждого коэффициента, в скобках указано число степеней свободы (n-p-1). В последнем столбце р-level приводятся вероятности ошибок. Например, число 0,078 (7,8%) означает, что в генеральном уравнении соответствующий коэффициент регрессии с вероятностью 7,8% равен нулю.
В этом смысле критерий Стьюдента более строг, чем критерий Фишера. В значимое по критерию Фишера уравнение могут входить переменные с довольно большими ошибками параметров. С другой стороны, если в выборочном уравнении регрессии присутствуют только те переменные, параметры которых значимы по критерию Стьюдента на уровне (1-р), то тем более все уравнение будет значимо по критерию Фишера на уровне (1-р).
Однако, двух этих критериев не достаточно, чтобы признать уравнение адекватным и иметь возможность делать по нему прогноз, строить доверительные интервалы. Необходимо провести анализ остатков.
В окне Multiple Regression Results Результаты множественной регрессии необходимо нажать ОК переходите в окно - Анализ остатков.
Вначале для оценки адекватности модели лучше всего использовать визуальные методы.
Проверить, выполняется ли предположение о нормальном распределении ошибок, можно рассмотрев график остатков на нормальной вероятностной бумаге. Для этого нужно инициировать Normal plot of resids. Плотность распределения можно посмотреть по гистограмме остатков.
Выполнение 2-го условия Гаусса-Маркова можно посмотреть по графику «Предсказанные значения & квадраты остатков»
Выполнение 3-го условия Гаусса-Маркова целесообразно проверить, воспользовавшись тестом Дарбина Уотсона. Расчетное значение статистики d(DW) можно посмотреть в блоке Advanced, инициировав клавишу Durbin-Watson stat Статистика Дарбина Уотсона.
После того, как вы убедились, что построенное уравнение тренда не только качественное (по критериям Фишера и Стьюдента), но и вполне адекватное (по условиям Гаусса-Маркова), можно переходить к прогнозированию.
Прогнозирование.
Клавиша Predict dependent var. Предсказание зависимой переменной находится в окне Multiple Regression Results Результаты множественной регрессии. Наряду с прогнозом среднего уровня показателя Y система считает доверительный интервал указанного уровня значимости (Alpha) для среднего (Compute confidents limits) или для прогнозного значения (Compute prediction limits).
Если первоначальные переменные входят в уравнение как функции от них, нужно это учитывать при прогнозировании и не забывать делать обратные преобразования.
Например, в регрессионное уравнение независимая переменная входит не как Т, а как lnТ, тогда, чтобы сделать прогноз на 31-й период, нужно ввести ln31 = 3,4339872. Если в уравнение зависимая переменная входит не как Y, а, например, как 1/Y, то получив расчетное значение прогноза 0,25, естественно сделать вывод, что прогноз среднего уровня Y = 4 (1/0,25).
3. Корреляция и лаговая корреляция временных рядов.
Автокорреляция уровней временного ряда.
Перед тем, как проводить корреляционно-регрессионный анализ, целесообразно проверить ряды на наличие автокорреляции уровней. Для этого нужно выбрать пункт меню Statistics\ Advanced Linear\ Nonlinear Models\ Time Serias\ Forecasting.
Структура стартовой панели.
С помощью кнопки Variables - Переменные, появляется диалоговое окно выбора переменных из открытого файла данных. Имена и расширенные имена выбранных переменных находятся в верхней, информационной части окна.
Клавишей Delete highlighted variable - Удалить высвеченные переменные, вы можете удалять переменные, не имеющие пометку Lock (Замок) в информационной части панели. Клавиша Save variables - Сохранить переменные позволяет сохранять высвеченные переменные в файле данных системы. Клавиша OK (Transformations, Autocorrelations, Crosscorrelations, Plots) - Да (Преобразования, автокорреляции, кросскорреляции, графики) позволяет преобразовать ряд, обнаружить и определить тип автокорреляции, исследовать корреляционные связи между показателями.
Таким образом, высветив клавишей Variables - Переменные необходимые ряды и нажав ОК, перед вами появится окно Transformations of Variables - Преобразование переменных.
В блоке Autocorrelations & crosscorrelations - Автокорреляции, кросскорреляции нужно установить в окне Number of lags максимальную величину лага (≈ четверть от выборки), в окне Alpha устанавливается допустимый уровень ошибки (как правило по умолчанию, 0,05).
Выбрав вкладку Autocorrs и нажав клавишу Autocorrelations - Автокорреляции, перед вами появится график автокорреляционной функции или коррелограмма. Пунктирные линии на графике это уровень значимости коэффициентов. Если коэффициент значим, то соответствующий столбик пересекает линию. Уровни ряда не автокоррелированы, если все коэффициенты автокорреляции не значимые, а следовательно, все столбики малы и не пересекают пунктирные линии.
Если уровни временного ряда не случайны, т.е. автокоррелированы, это надо учесть при исследовании корреляционных связей между такими рядами. Первоначально нужно привести ряды к стационарному виду.
Преобразования временных рядов.
Преобразования рядов проводят в окне Transformations of variables, том же что и исследование на автокорреляцию. Нужно выбрать вкладку Review & plot. Обратите внимание на опцию Plot variable (series) after each transformation - Построить график переменной (ряда) после каждого преобразования. Установив эту опцию, система будет автоматически показывать вам график преобразованных данных после каждого преобразования ряда. Это позволит сориентироваться в преобразованиях, которые следует сделать, чтобы привести ряд к стационарному виду. После каждого шага преобразований целесообразно посмотреть Autocorrelations - Автокорреляцию уровней преобразованного ряда, чтобы определить направление своих дальнейших действий. Клавишей Plot - График можно посмотреть график подсвеченной переменной.
Нажав кнопку OK (Transform highlighted variable) - ОК (Преобразовать высвеченную переменную) вы окажетесь в окне Time Series Transformations - Преобразования временного ряда. На каждом шаге можно выполнить только одно преобразование значений высвеченной переменной. Все преобразования переменных программа запишет в информационной части диалогового окна. Чтобы выполнить несколько преобразований, вам следует повторить эти действия несколько раз. По умолчанию, в системе каждый раз будет высвечиваться переменная, преобразованная на последнем шаге.
В окне Time Series Transformations - Преобразования временного ряда имеется несколько групп преобразований, объединенных по функциональному признаку.
В первом блоке даны преобразования, получающиеся применениями к ряду некоторых стандартных функций: Х новый = F(Х старый). Этот блок включает следующие преобразования:
Add a constant - Прибавить константу к значениям ряда,
Power - Возвести в степень,
Inverse power - Возвести в обратную степень,
Natural log - Взять натуральный логарифм. Для уменьшения амплитуд колебания временных рядов часто используют логарифмическое преобразование;
Exponent - Выполнить экспоненциальное преобразование,
Mean subtract - Выделение среднего,
Standardize - Стандартизация (нормировка),
Trend subtract - Выделение тренда.
Параметры для двух последних преобразований могут быть либо заданы, либо оценены из данных, если выбрана опция Estimate mean & std. dev. from data или Estimate a and b from data.
Блок Smoothing - Сглаживание включает в себя:
N-pts mov. averg. - Скользящее среднее,
N-pts mov. median. - Медиана,
Simple exponential - Простое экспоненциальное сглаживание.
Следующая группа Two-series transformations - Преобразования двух временных рядов.
Далее Shift relative starting point of series - Сдвинуть относительную начальную точку ряда. Предлагается возможность сдвинуть ряд вперед и назад.
Опции Filtering and other techniques - Фильтрация и другие методы дают возможность для фильтрации ряда и осуществления следующих преобразований:
Differencing - Вычисление последовательных разностей:
Х(t)новое = Х(t)старое Х(t - лаг).
Если лаг = 1, то из текущего значения ряда вычитается предыдущее и результат представляется в качестве значения нового ряда.
Преобразование взятия разности первого порядка позволяет избавиться от линейного тренда в динамическом ряду.
Если ряд имеет сезонную составляющую, необходимо взять сезонную разность, т.е. это же преобразование, а в качестве лага (сдвига) задать период сезонности. Если период 12, то лаг=12, если период 4, то лаг=4 и т.д.
В этом случае данное преобразование исключает сезонную составляющую.
Каждое преобразование система записывает в информационной части окна Transformations of variables - Преобразования переменных. Сначала идут не преобразованные данные со значком L(lock) - Замок. Эти данные не могут быть удалены. Далее следуют по порядку преобразованные ряды. С помощью клавиши Delete - Удалить можно удалить промежуточные преобразования и оставить только то, которое привело ряд к стационарному виду. Помните, что удаляется подсвеченная переменная.
Клавиша Save - Сохранить переменные позволяет сохранить высвеченные переменные в файле данных системы. Это целесообразно, если преобразованные ряды необходимы для работы в других модулях системы.
После того как путем преобразований ряды приведены к стационарному виду, можно приступать к исследованию корреляционных связей между ними при помощи клавиши Cross-correlations - Перекрестные корреляции. Если ряд изначально не содержал автокорреляцию, то естественно, никаких преобразований с ним проводить не надо.
По приведенному выше графику можно сделать вывод, что значимым является только коэффициент корреляции при лаге 0. Поэтому, с вероятностью не меньше 95% можно утверждать, что генеральный коэффициент корреляции между Yt и X1t не равен 0. Следовательно, между Yt и X1t существует значимая на уровне 5% корреляционная связь. Поскольку значимых лаговых коэффициентов корреляции нет, то можно утверждать, что не обнаружено значимого запаздывающего влияния Х1t-лаг на Yt .
Если результирующий показатель Yt, то интересно проследить влияние на него всех других показателей (X1t, X2t). Таким образом, судя по этим двум графикам на Yt значимо(5%) влияет только Xt. Запаздывающего (лагового) влияния на Yt со стороны X1t и X2t не обнаружено.
4. Регрессия временных рядов.
Поскольку уравнение тренда это частный случай уравнения регрессии, то все сказанное выше в отношении тренда справедливо и для уравнения регрессии. Вообще в регрессионное уравнение помимо фактора времени могут входить авторегрессионые составляющие, другие факторы, имеющие значимое (5%) влияние на исследуемый признак, а также их лаговые компоненты. В ходе анализа лаговой корреляции отбираются значимые (5%) факторы с соответствующим значением лага или без него. Далее проводится процедура регрессионного анализа, которая была рассмотрена выше.
Прогнозирование.
Проводя прогнозирование по регрессионному уравнению, необходимо первоначально спрогнозировать уровни факторов (Х1,…Хp), которые вошли в модель. При этом качество прогноза исследуемого показателя может значительно снизиться, благодаря ошибкам в прогнозах факторов. Поэтому целесообразно сделать расчеты показателя Y по уравнению регрессии на 3-5 последних периодов, учитывая расчетные значения объясняющих переменных и сравнить с теми, что были в действительности, а также с прогнозами по тренду. Особенно это полезно, если возникает проблема выбора лучшего уравнения, среди нескольких адекватных.
PAGE \* MERGEFORMAT 6