У вас вопросы?
У нас ответы:) SamZan.net

Визуализация данных

Работа добавлена на сайт samzan.net: 2015-07-05

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Имя

Выберите тип работы:

Принимаю Политику конфиденциальности

Скидка 25% при заказе до 30.6.2025

Методические указания по выполнению лабораторной работы №3 в ССП STATISTICA.

1. Визуализация данных.

Для начала проведем предварительный анализ данных (Yt). Построим ряд специализированных статистических графиков. В меню Graphics - Графика выберем Stats 2D Graphs - 2-х мерные статистические графики, Histogram – Гистограмма; Normal Probability Plots ,– График нормального распределения.

По этим графикам можно судить о близости данных (Yt) к нормальному закону распределения. Чем ближе исходные данные к нормальному закону распределения, тем более обоснованным является применение методов корреляционно-регрессионого анализа. Выбрав Scatterplots – Плоские графики можно посмотреть диаграмму рассеивания наблюдений.

2. Построение трендовой модели.

В пакете STATISTICA построение трендовой модели осуществляется в модуле Statistics/Advanced Linear/Nonlinear Models.

Клавишей Variables – Переменные выберете необходимые для анализа переменные (Y, Т). Если переменные расположены не по порядку, выделяйте их, удерживая клавишу Ctrl. ОК.

Перед вами появится окно Non-linear components regression - Нелинейные компоненты регрессии. В первом столбце – математические символы, в скобках – названия функций нелинейных преобразований, в третьем столбце Valid rang – границы, в которых должны находиться данные, чтобы можно было использовать соответствующую функцию. Необходимо пометить только те преобразования, которые допустимо произвести с вашими данными. О.К.

В окне Model Definition – Определение модели необходимо задать Variables– Переменные. Independent (Независимые) – это Т и все функциональные преобразования Т. Зависимой в уравнении может быть только одна переменная – это либо Y, либо какая-нибудь функция Y (lnY, 1/Y, и т.п.). Далее выбираем Method – Метод. Если независимых компонент много, то целесообразно вместо Standard - Стандартный выбрать, например, Forward stepwise - Прямой пошаговый. Появится окно промежуточных результатов процесса. ОК.

Перед вами окно Multiple Regression Results – Результаты множественной регрессии. Верхняя часть окна – информационная, нижняя содержит функциональные кнопки, позволяющие всесторонне рассмотреть результаты анализа.

В информационной части, прежде всего, обратите внимание на значение коэффициента детерминации R?. Он показывает, какую часть разброса значений относительно среднего объясняет построенное уравнение регрессии.

Далее посмотрите на значение F-критерия и уровень его значимости p. F-критерий (критерий Фишера), используется для проверки значимости уравнения регрессии. Уровень p – это минимальная вероятность ошибки. (1-р) – это вероятность того, что в генеральном (истинном) уравнении хотя бы один параметр при независимой переменной не равен нулю и, следовательно, в правой части генерального уравнения существует хотя бы одна переменная.

Dep. Var – Имя зависимой переменной.

No. of Cases – Количество наблюдений, по которым построена регрессия.

Multiple R – Коэффициент множественной корреляции.

Adjusted R? – Скорректированный коэффициент детерминации R2adj.

Adjusted R? = 1- ((1-R2) * n/(n-p-1))

Этот показатель качества уравнения регрессии более предпочтителен, чем коэффициент детерминации R2, т.к. при вводе незначимой переменной он убывает.

Std. Error of estimate – Стандартная ошибка оценки регрессии. Рассчитывается как корень квадратный из остаточной дисперсии. Показывает среднеквадратическое отклонение наблюдаемых значений от рассчитанных по уравнению регрессии.

Выбрав Summary: Regression results – Краткие результаты регрессии, появится таблица с результатами. В первом столбце перечислены переменные, которые вошли в выборочное уравнение, в столбце В – коэффициенты при этих переменных (b0, b1, bj, bp). Строка Intercept посвящена свободному элементу. Столбец St. Err. of B– Стандартные ошибки коэффициентов регрессии, следующий столбец t(df) – расчетные значения статистики Стьюдента для каждого коэффициента, в скобках указано число степеней свободы (n-p-1). В последнем столбце р-level приводятся вероятности ошибок. Например, число 0,078 (7,8%) означает, что в генеральном уравнении соответствующий коэффициент регрессии с вероятностью 7,8% равен нулю.

В этом смысле критерий Стьюдента более строг, чем критерий Фишера. В значимое по критерию Фишера уравнение могут входить переменные с довольно большими ошибками параметров. С другой стороны, если в выборочном уравнении регрессии присутствуют только те переменные, параметры которых значимы по критерию Стьюдента на уровне (1-р), то тем более все уравнение будет значимо по критерию Фишера на уровне (1-р).

Однако, двух этих критериев не достаточно, чтобы признать уравнение адекватным и иметь возможность делать по нему прогноз, строить доверительные интервалы. Необходимо провести анализ остатков.

В окне Multiple Regression Results – Результаты множественной регрессии необходимо нажать ОК – переходите в окно - Анализ остатков.

Вначале для оценки адекватности модели лучше всего использовать визуальные методы.

Проверить, выполняется ли предположение о нормальном распределении ошибок, можно рассмотрев график остатков на нормальной вероятностной бумаге. Для этого нужно инициировать Normal plot of resids. Плотность распределения можно посмотреть по гистограмме остатков.

Выполнение 2-го условия Гаусса-Маркова можно посмотреть по графику «Предсказанные значения & квадраты остатков»

Выполнение 3-го условия Гаусса-Маркова целесообразно проверить, воспользовавшись тестом Дарбина – Уотсона. Расчетное значение статистики d(DW) можно посмотреть в блоке Advanced, инициировав клавишу Durbin-Watson stat – Статистика Дарбина – Уотсона.

После того, как вы убедились, что построенное уравнение тренда не только качественное (по критериям Фишера и Стьюдента), но и вполне адекватное (по условиям Гаусса-Маркова), можно переходить к прогнозированию.

Прогнозирование.

Клавиша Predict dependent var. – Предсказание зависимой переменной находится в окне Multiple Regression Results – Результаты множественной регрессии. Наряду с прогнозом среднего уровня показателя Y система считает доверительный интервал указанного уровня значимости (Alpha) для среднего (Compute confidents limits) или для прогнозного значения (Compute prediction limits).

Если первоначальные переменные входят в уравнение как функции от них, нужно это учитывать при прогнозировании и не забывать делать обратные преобразования.

Например, в регрессионное уравнение независимая переменная входит не как Т, а как lnТ, тогда, чтобы сделать прогноз на 31-й период, нужно ввести ln31 = 3,4339872. Если в уравнение зависимая переменная входит не как Y, а, например, как 1/Y, то получив расчетное значение прогноза 0,25, естественно сделать вывод, что прогноз среднего уровня Y = 4 (1/0,25).

3. Корреляция и лаговая корреляция временных рядов.

Автокорреляция уровней временного ряда.

Перед тем, как проводить корреляционно-регрессионный анализ, целесообразно проверить ряды на наличие автокорреляции уровней. Для этого нужно выбрать пункт меню Statistics\ Advanced Linear\ Nonlinear Models\ Time Serias\ Forecasting.

Структура стартовой панели.

С помощью кнопки Variables - Переменные, появляется диалоговое окно выбора переменных из открытого файла данных. Имена и расширенные имена выбранных переменных находятся в верхней, информационной части окна.

Клавишей Delete highlighted variable - Удалить высвеченные переменные, вы можете удалять переменные, не имеющие пометку Lock (Замок) в информационной части панели. Клавиша Save variables - Сохранить переменные позволяет сохранять высвеченные переменные в файле данных системы. Клавиша OK (Transformations, Autocorrelations, Crosscorrelations, Plots) - Да (Преобразования, автокорреляции, кросскорреляции, графики) позволяет преобразовать ряд, обнаружить и определить тип автокорреляции, исследовать корреляционные связи между показателями.

Таким образом, высветив клавишей Variables - Переменные необходимые ряды и нажав ОК, перед вами появится окно Transformations of Variables - Преобразование переменных.

В блоке Autocorrelations & crosscorrelations - Автокорреляции, кросскорреляции нужно установить в окне Number of lags максимальную величину лага (≈ четверть от выборки), в окне Alpha устанавливается допустимый уровень ошибки (как правило по умолчанию, 0,05).

Выбрав вкладку Autocorrs и нажав клавишу Autocorrelations - Автокорреляции, перед вами появится график автокорреляционной функции или коррелограмма. Пунктирные линии на графике – это уровень значимости коэффициентов. Если коэффициент значим, то соответствующий столбик пересекает линию. Уровни ряда не автокоррелированы, если все коэффициенты автокорреляции не значимые, а следовательно, все столбики малы и не пересекают пунктирные линии.

Если уровни временного ряда не случайны, т.е. автокоррелированы, это надо учесть при исследовании корреляционных связей между такими рядами. Первоначально нужно привести ряды к стационарному виду.

Преобразования временных рядов.

Преобразования рядов проводят в окне Transformations of variables, том же что и исследование на автокорреляцию. Нужно выбрать вкладку Review & plot. Обратите внимание на опцию Plot variable (series) after each transformation - Построить график переменной (ряда) после каждого преобразования. Установив эту опцию, система будет автоматически показывать вам график преобразованных данных после каждого преобразования ряда. Это позволит сориентироваться в преобразованиях, которые следует сделать, чтобы привести ряд к стационарному виду. После каждого шага преобразований целесообразно посмотреть Autocorrelations - Автокорреляцию уровней преобразованного ряда, чтобы определить направление своих дальнейших действий. Клавишей Plot - График можно посмотреть график подсвеченной переменной.

Нажав кнопку OK (Transform highlighted variable) - ОК (Преобразовать высвеченную переменную) вы окажетесь в окне Time Series Transformations - Преобразования временного ряда. На каждом шаге можно выполнить только одно преобразование значений высвеченной переменной. Все преобразования переменных программа запишет в информационной части диалогового окна. Чтобы выполнить несколько преобразований, вам следует повторить эти действия несколько раз. По умолчанию, в системе каждый раз будет высвечиваться переменная, преобразованная на последнем шаге.

В окне Time Series Transformations - Преобразования временного ряда имеется несколько групп преобразований, объединенных по функциональному признаку.

В первом блоке даны преобразования, получающиеся применениями к ряду некоторых стандартных функций: Х новый = F(Х старый). Этот блок включает следующие преобразования:

Add a constant - Прибавить константу к значениям ряда,

Power - Возвести в степень,

Inverse power - Возвести в обратную степень,

Natural log - Взять натуральный логарифм. Для уменьшения амплитуд колебания временных рядов часто используют логарифмическое преобразование;

Exponent - Выполнить экспоненциальное преобразование,

Mean subtract - Выделение среднего,

Standardize - Стандартизация (нормировка),

Trend subtract - Выделение тренда.

Параметры для двух последних преобразований могут быть либо заданы, либо оценены из данных, если выбрана опция Estimate mean & std. dev. from data или Estimate a and b from data.

Блок Smoothing - Сглаживание включает в себя:

N-pts mov. averg. - Скользящее среднее,

N-pts mov. median. - Медиана,

Simple exponential - Простое экспоненциальное сглаживание.

Следующая группа Two-series transformations - Преобразования двух временных рядов.

Далее Shift relative starting point of series - Сдвинуть относительную начальную точку ряда. Предлагается возможность сдвинуть ряд вперед и назад.

Опции Filtering and other techniques - Фильтрация и другие методы дают возможность для фильтрации ряда и осуществления следующих преобразований:

Differencing - Вычисление последовательных разностей:

Х(t)новое = Х(t)старое – Х(t - лаг).

Если лаг = 1, то из текущего значения ряда вычитается предыдущее и результат представляется в качестве значения нового ряда.

Преобразование взятия разности первого порядка позволяет избавиться от линейного тренда в динамическом ряду.

Если ряд имеет сезонную составляющую, необходимо взять сезонную разность, т.е. это же преобразование, а в качестве лага (сдвига) задать период сезонности. Если период 12, то лаг=12, если период 4, то лаг=4 и т.д.

В этом случае данное преобразование исключает сезонную составляющую.

Каждое преобразование система записывает в информационной части окна Transformations of variables - Преобразования переменных. Сначала идут не преобразованные данные со значком L(lock) - Замок. Эти данные не могут быть удалены. Далее следуют по порядку преобразованные ряды. С помощью клавиши Delete - Удалить можно удалить промежуточные преобразования и оставить только то, которое привело ряд к стационарному виду. Помните, что удаляется подсвеченная переменная.

Клавиша Save - Сохранить переменные позволяет сохранить высвеченные переменные в файле данных системы. Это целесообразно, если преобразованные ряды необходимы для работы в других модулях системы.

После того как путем преобразований ряды приведены к стационарному виду, можно приступать к исследованию корреляционных связей между ними при помощи клавиши Cross-correlations - Перекрестные корреляции. Если ряд изначально не содержал автокорреляцию, то естественно, никаких преобразований с ним проводить не надо.

По приведенному выше графику можно сделать вывод, что значимым является только коэффициент корреляции при лаге 0. Поэтому, с вероятностью не меньше 95% можно утверждать, что генеральный коэффициент корреляции между Yt и X1t не равен 0. Следовательно, между Yt и X1t существует значимая на уровне 5% корреляционная связь. Поскольку значимых лаговых коэффициентов корреляции нет, то можно утверждать, что не обнаружено значимого запаздывающего влияния Х1t-лаг на Yt .

Если результирующий показатель Yt, то интересно проследить влияние на него всех других показателей (X1t, X2t). Таким образом, судя по этим двум графикам на Yt значимо(5%) влияет только Xt. Запаздывающего (лагового) влияния на Yt со стороны X1t и X2t не обнаружено.

4. Регрессия временных рядов.

Поскольку уравнение тренда – это частный случай уравнения регрессии, то все сказанное выше в отношении тренда справедливо и для уравнения регрессии. Вообще в регрессионное уравнение помимо фактора времени могут входить авторегрессионые составляющие, другие факторы, имеющие значимое (5%) влияние на исследуемый признак, а также их лаговые компоненты. В ходе анализа лаговой корреляции отбираются значимые (5%) факторы с соответствующим значением лага или без него. Далее проводится процедура регрессионного анализа, которая была рассмотрена выше.

Прогнозирование.

Проводя прогнозирование по регрессионному уравнению, необходимо первоначально спрогнозировать уровни факторов (Х1,…Хp), которые вошли в модель. При этом качество прогноза исследуемого показателя может значительно снизиться, благодаря ошибкам в прогнозах факторов. Поэтому целесообразно сделать расчеты показателя Y по уравнению регрессии на 3-5 последних периодов, учитывая расчетные значения объясняющих переменных и сравнить с теми, что были в действительности, а также с прогнозами по тренду. Особенно это полезно, если возникает проблема выбора лучшего уравнения, среди нескольких адекватных.

PAGE \* MERGEFORMAT 6

1. Тема- Субъекты градостроительно~архитектурной деятельности
2. Реферат - Генетическая информация
3. процесс формирования социальных качеств различных знаний навыков ценностей
4. Статистичне вивчення робочої сили та робочого часу
5. План- Понятие и принципы налоговой ответственности
6. Тема урока- Лыжная подготовка
7. Попередній розрахунок ПНЧ 7 1
8. Лабораторная работа 10 Задание
9. Юриспруденция специализация
10. космический Маугли

Материалы собраны группой SamZan и находятся в свободном доступе