Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

Подписываем
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Предоплата всего
Подписываем
К(П)ФУ
Институт управления и территориального развития
Тема 3
Методическая разработка
для выполнения котрольного задания №3
по регрессионному анализу
(дисциплина «Статистика»)
Составитель: к.э.н. Шихалёв А.М.
Казань - 2011
РЕГРЕССИОННЫЙ АНАЛИЗ
Изучение корреляционных зависимостей основывается на исследовании таких связей между переменными, при которых значения одной переменной, которая принимается исследователем за зависимую переменную «в среднем» изменяются в зависимости от того, какие значения принимает другая переменная (признак-фактор), рассматриваемая как причина по отношению к зависимой переменной.
Следовательно, первой и основной задачей регрессионного анализа является определение типа функции, с помощью которой характеризуется зависимость между признаками. Причем теоретическая линия регрессии должна расположиться относительно эмпирической, как правило, ломаной кривой, построенной на точках корреляционного поля так, чтобы сумма отклонений точек поля корреляции от соответствующих точек теоретической линии равнялась нулю, а сумма квадратов этих отклонений была бы минимальной величиной.
Таким образом, методологический аппарат регрессионного анализа так или иначе связан с анализом функций на экстремум. Рассмотрим пример из школьного курса (или из курса математического анализа) анализ функции вида y=f(x), где традиционно х принимается нами в качестве известной величины, y неизвестной, а вид функции считается известным.
Пример анализа функции на экстремум рассмотрим для наиболее наглядной для такого случая функции параболической. Перед нами в данном случае стоят две задачи: определить аналитическим путем, есть ли у функции экстремум (максимум или минимум); определить, что же именно максимум или минимум. Пусть вид функции представлен так (1) В общем виде, где а = 1, а b = 3:
y = f(x) = a + (x - b)2 = 1 + (x - 3)2 . (1)
Для лучшей наглядности визуализируем содержание (1), для чего последовательно зададимся некоторыми значениями х, по формуле (1) найдем соответствующие значения y и занесем их в рабочую таблицу 1.
Таблица 1
Рабочая таблица
№ |
Х |
Y |
1 2 3 4 5 |
1,0 2,0 3,0 4,0 5,0 |
5,0 2,0 1,0 2,0 5,0 |
Данные табл. 1 представим графически на рис. 1.
Рис. 1. График функции, исследуемой на экстремум
Из рис. 1 видно, что, во-первых, экстремальное значение функции наблюдается при х=3 и что значение функции при этом минимальное, то есть у=1. При всех остальных значениях х значения функции у будут больше, чем 1.
А теперь сделаем то же самое аналитически. Для этого формулу (1) необходимо продифференцировать, иначе говоря, найти первую производную по х
yх = [1 + (x 3)2] х
dy d d
= [1 + (x 3)2] = 0 + 2 (x - 3) 2 (x 3) = 2 (x 3) = 2x 6 (2)
dx dx dx
Для того, чтобы установить, является ли функция экстремальной, полученное выражение (2) достаточно приравнять к нулю:
2х 6 = 0 (3)
В формуле (3) имеем одно уравнение, линейное по отношению к аргументу х и одно неизвестное. Из (3) находим х = 3 (что видно и из содержания табл. 1). Подставляя х = 1 в выражение (1), получим: у = 1.
Далее следует установить, является ли значение у = 1 для функции (1) максимальным или минимальным по известному правилу: если вторая производная от выражение (2) будет отрицательным, то функция (1) достигает в точке х = 3 свое максимальное значение; если же положительным, то функция (1) достигает в той же экстремальной точке минимальное значение.
d
(2x 6) = 2 > 0 (4)
dx
Из выражения (4) видно, что функция у при значении х = 3 достигает своего минимального значения.
Следовательно, располагая только лишь видом функции, даже не визуализируя ее, можно определить ее экстремальное значение и установить его характер (рассмотрение возможного вопроса о единственности экстремума выходит за рамки данного рассмотрения). Важно, что здесь мы рассматриваем переменную х в качестве аргумента, значения коэффициентов а и b и их взаимосвязь полагаем известными. Задаваясь значениями х, получаем значения функции у.
Однако часто в статистике бывает наоборот: х и у известны, но неизвестны значения коэффициентов а и b.
Решением задач в такой постановке и занимается регрессионный анализ. Если переменных всего две, одна из которых подразумевается аргументом, а другая функцией, что определяется на этапе предшествующего вычислениям в рамках так называемого концептуального (неформализованного) анализа, то аппарат определения неизвестных коэффициентов носит названия парной регрессии или задачей аппроксимации. Если аргументов более одного, то подобная задача решается в терминах множественной регрессии.
Рассмотрим механизм парной регрессии, широко используемый в социально-экономических исследованиях.
При проведении социально-экономических исследований часто приходится иметь дело со взаимосвязанными показателями. Изучить, насколько изменение одного показателя зависит от изменения другого одна из важнейших задач статистики. При этом следует различать функциональные и корреляционные связи. Если каждому значению одной переменной строго соответствует одно определенное значение другой переменной, или, другими словами, обе переменные находятся во взаимно однозначном соответствии, то мы имеем дело с функциональной связью (зависимостью). Если же одному значению переменной (х) вследствие наслоения различных причин может соответствовать множество значений другой переменной (у), то такую связь называют корреляционной.
Примером корреляционной зависимости может служить зависимость производительности труда от стажа работы, зависимость урожайности от сроков сева и т.п.
Наиболее простым случаем корреляционной зависимости является парная корреляция, то есть зависимость между двумя признаками, один из которых называется результативным (у), а другой факторным (х).
Основными задачами при изучении корреляционных зависимостей являются следующие:
1. Устанавливается наличие корреляции (связи)между величинами у и х. Для этого необходимо лишь визуализировать исходную информацию на графике, где по оси х отображается факторный признак, а по оси у результативный признак.
2. Устанавливается форма линии связи (регрессии) методом наименьших квадратов (м.н.к.), то есть отыскивается такая математическая формула, которая бы выражала зависимость у от х, при которой сумма квадратов разностей между фактическими наблюдениями (у) зависимой переменной и расчетными значениями переменной по регрессионной формуле (у) МИНИМАЛЬНА, что можно записать следующим образом:
N
S = (yi ŷi)2 min, (5)
I=1
где N число пар эмпирических значений хi и yi . В этой связи необходимо сделать специальную оговорку в отношении нижнего индекса у переменной ŷi. Поскольку ŷ не дискретная, а котинууальная (непрерывная) зависимость, например, линейного вида
ŷ = а + bx., (6)
то вычисляются значения ŷ для значений xi , взятых из исходных данных.
Совместное решение по выражениям (5) и (6) является решением задачи аппроксимации, когда эмпирические связи моделируются в виде некоторой (не обязательно линейной) функции. В данном случае уравнение связи (6) и является уравнением регрессии, а если точнее уравнением линейной регрессии.
После нахождения вида связи х и у необходимо решить еще две следующие задачи.
3. Определяются параметры линии регрессии (здесь величины и знаки коэффициентов а и b уравнения регрессии (6).
4. Определяются достоверность отдельных параметров (здесь - а и b) и достоверность выбранной нами зависимости (здесь - ŷ = а + bx).
Достоверность отдельных параметров обычно в статистической литературе называется «значимость коэффициентов по Стьюденту», а достоверность выбранной нами зависимости при решении задачи аппроксимации называется «надежностью уравнения по Фишеру». В обоих случаях речь идет о проверке так называемых «нулевых гипотез». В случае полученных величин коэффициентов нулевая гипотеза Н0 состоит в том, что мы полагаем, что полученные значения коэффициентов не отличаются от нуля с наперед заданной вероятностью (в социально-экономических исследованиях обычно принимают вероятность, равную 90% или 95%). В случае исследования надежности полученного уравнения в целом Н0 состоит в том, что все коэффициенты не отличаются от нулевых с теми же заданными вероятностями.
В случае опровержения Н0 в обоих случаях уравнение выбранного вида принимается для дальнейшего применения в соответствии с целями исследования (анализ, оценки, прогнозы и др.) в качестве производственной функции.
Обычно на практике, кроме линейной вида (6), используют следующие формы зависимостей:
1) степенная ŷ = ахb,
b
2) гиперболическая ŷ = а + ,
x
3) показательная ŷ = abx,
4) логарифмическая ŷ = a +blgx
5) параболическая ŷ = a +bx + сх2
и ряд других. Как правило, для этих целей используют специальные компьютерные программы, которые последовательно решают задачу аппроксимации для всего набора парных зависимостей. Например, в пакетах прикладных программ (ППП), таких, как широко распространенные Статграфик и SPSS набор парных зависимостей неодинаков. Выбирается для дальнейшего применения такая зависимость, которая отличается от эмпирической зависимости меньшей величиной ошибки аппроксимации то есть статистического отличия между эмпирическими исходными данными и данными, полученными в результате применения метода наименьших квадратов в отношении выбранного вида зависимости.
Далее рассмотрим процесс получения уравнения линейной регрессии вида (6).
Снова запишем вид соотношения (5) и распишем его подробнее:
N N N
S = (yi ŷi)2 = [yi (a + bxi) ]2 = (yi a - bxi)2 min. (7)
I=1 I=1 I=1
Далее потупим так, как и в случае с вышеприведенным примером по нахождению экстремума у функции вида (1), с тем лишь отличием, что в качестве неизвестных переменных будем рассматривать не функцию у, а коэффициенты уравнения (5) а и b. С целью упрощения последующих записей переменные у знака суммы и остальные индексы обозначать не будем.
Для решения поставленной задачи продифференцируем выражение (7) по двум неизвестным а и b в так называемых частных производных.
∂S
= 2 (y a - bx) (0 1 - 0) = 2 (y a - bx) (-1) = 0. (8)
∂a
Разделим обе части равенства (8) на (-1), в правой части равенства (8) останется 0. Понятно, 2 ≠ 0, следовательно,
(y a - bx) = 0. (9)
Распишем выражение (9) следующим образом.
(y a - bx) = у - а - b = 0; у = а + b х = а + b х.
Поскольку = 1= (1 + 1 + … + 1) = N, то выражение (9) примет вид:
у = аN + b х (10)
В уравнении (10) все переменные, то есть у, х и N, известные величины, суть исходные данные для получения уравнения регрессии, коэффициент а неизвестная величина.
Проделаем подобные операции по отношению к еще одной неизвестной величине коэффициенту b.
∂S
= 2 (y a - bx) (0 0 x) = 2 (y a - bx) (-x) = 0. (11)
∂b
Если в выражении (11) 2 ≠ 0, то остальная часть равенства (11) примет вид:
(yx ax bx2) = yx - ax - bx2 = 0;
xy = a x + b x2 (12)
Таким образом, выражение (8) и (12) составляют систему двух уравнений (13) с двумя неизвестными, коэффициентами а и b, а это, в свою очередь, означает, что данная система уравнений имеет единственное решение.
а N + b х = у
{ (13)
a x + b x2 = xy
Решение системы уравнений (13) может быть осуществлено несколькими способами: методом подстановки, когда одно неизвестное выражается через другое, методом Крамера (метод определителей) и матричным методом. Заметим, однако, что применение первых двух способов оправдано лишь в случаях, когда число неизвестных не превышает трех. Матричный метод наиболее универсальный, и именно он используется в вычислительных процедурах на ЭВМ средствами ППП, что рассмотрим несколько ниже.
Для решения системы уравнений (13) воспользуемся методом определителей, как наиболее наглядным, для чего перепишем систему (13) в следующем виде.
(для а) (для b) (для правых частей выражения 13)
N х у
= (14)
х x2 xy
Вычислим главный и частные определители по известным правилам, когда столбцы при соответствующих неизвестных замещаются правыми частями выражения (14):
∆ = N x2 - (х )2 ,
∆ a = у x2 - х xy ,
∆ b = N xy - х у.
Тогда искомые значения коэффициентов а и b будут следующими:
∆ a у x2 - х xy
а = = , (15)
∆ N x2 - (х )2
∆ b N xy - х у
b = = , (16)
∆ N x2 - (х )2
Если коэффициенты регрессии а и b вычислены правильно, то в этом легко убедиться по тождеству (16а), иллюстрирующего тот факт, что если мы подставим среднее значение х, то при найденных коэффициентах получим среднее значение у:
уср ≡ а + b хср . (16а)
Далее рассмотрим процесс нахождения величин коэффициентов линейной функции вида (6) на конкретном, т.н. «модельном» примере.
Пример. В качестве примера обратимся к следующим исходным данным. Пусть некая фирма в текущем году с января по июнь располагает следующими данными по ежемесячной прибыли: в январе, феврале и марте по 1 тыс.руб.; в апреле 3 тыс.руб.; в мае 4 тыс.руб. Требуется построить прогноз ожидаемой прибыли на июнь и оценить ее достоверность при прочих равных условиях. Под равными условиями этим имеется в виду неизменность (постоянство) внутренних и внешних условий деятельности фирмы (структура производства, позиционирование продукции, коньюнктура, уровень инфляции и др.).
Введем обозначения. Поскольку мы имеем дело с моментным временным рядом, представим месяцы как варианты вариационного ряда элементы множества Х = {xi}, где xi месяцы текущего года, i=1,n; n=5. То есть x1= 1 (первый месяц), x2= 2, x3= 3, x4= 4, x5= 5 (пятый месяц). Тогда прибыль У = {yi}, где yi - ежемесячная прибыль в тыс.руб.
Исходные (эмпирические) данные в принятых нами обозначениях представим в виде рабочей таблицы (табл. 2). Причем в табл. 2 предусмотрим такие столбцы, наличие которых позволило бы вычислить все элементы формул (15) и (16).
Таблица 2
Эмпирические данные и промежуточные вычисления
i |
xi |
yi |
xi yi |
xi2 |
yi2 |
1 2 3 4 5 |
1 2 3 4 5 |
1 1 1 3 4 |
1 2 3 12 20 |
1 4 9 16 25 |
1 1 1 9 16 |
i = N = 5 |
xi = 15 |
yi = 10 |
xi yi = 38 |
xi2 = 55 |
yi2 = 28 |
Опуская для большей наглядности индексы и подставляя данные табл. 2 в выражения (15) и (16), получим следующее.
у x2 - х xy 10•55 - 15•38 550 570 - 20
а = = = = = - 0,4; (17)
N x2 - (х )2 5•55 - (15)2 275 - 225 50
N xy - х у 5•38 - 15•10 190 150 40
b = = = = = + 0,8. (18)
N x2 - (х )2 5•55 - (15)2 275 - 225 50
Коэффициенты найдены, и символьное выражение (6) примет явный вид:
ŷ = - 0,4 + 0,8 • х.. (19)
Осуществим проверку корректности вычисления коэффициентов уравнения линейной регрессии по выражению (16а). Тождество (16а) выполняется:
2 ≡ - 0,4 + 0,8 • 3 = - 0,4 + 2,4 = 2
Следовательно, коэффициенты а и b найдены верно.
Выражение (19) относится ко всем действительным значениям х. Однако для нас представляет интерес именно его вещественные значения - дискретные положительные значения 1, 2, 3 и т.д., - в частности нас интересует прибыль в 6-м месяце текущего года (в июне). Поэтому перепишем (19) с учетом ранее опущенных индексов:
Рис. 2. Эмпирические данные, линия регрессии и прогноз.
ŷi = - 0,4 + 0,8хi. (20)
Для нахождения прогнозного значения прибыли достаточно в выражение (20) подставить х6=6:
ŷi = - 0,4 + 0,8хi = - 0,4 + 0,8•6 = -0,4 + 4,8 = 4,4 (тыс.руб.). (21)
Эмпирические данные (Ряд 1), линия регрессии и прогноз на следующий месяц (Ряд 2) приведены на рис. 1.
Вполне очевидно, что в общем случае прогноз тем точнее, чем период ретроспекции (здесь - январь-май, то есть 5 месяцев) больше прогнозируемого периода (здесь - июнь, то есть 1 месяц). Иными словами, картину, полученную в виде (19) или (20), мы экстраполируем за пределы проведенной нами аппроксимации представления некоторой эмпирической зависимости (2 и 3 столбцы табл. 1) в виде некоторой аналитической функции (19), в данном случае линейной.
Заметим также, что с января по май в одноименных точках по оси абцисс ОХ сумма квадратов разностей эмпирических значений прибыли У (Ряд 1) и их аналитических значений по выражению (20) (Ряд 2) будет минимальной в рамках любой другой линейной функции, то есть функции со значениями коэффициентов а и b, отличных от найденных (а≠-0,4; b≠0,8), что и составляет сущность метода наименьших квадратов (МНК), символически записанной в выражении (5).
Y Y
y = a + bx y = a - bx
0 X 0 X
Рис. 3 Рис. 4
Y Y
y = -a + bx y = a
0 X 0 X
Рис. 5 Рис. 6
Во всех приведенных случаях значение коэффициент «а» со своим знаком иллюстрируется величиной ординаты, отсекаемой прямой от оси ОY. Значение коэффициента «b» есть не что иное, как величина тангенса угла наклона прямой к оси ОХ (отношение длины катета, противолежащего углу, к длине катета, прилежащего к углу). Особенно это наглядно можно проиллюстрировать на примере уравнения прямой y = а + bx, если а = 0, а b = 1, то есть y = 0 + 1x = х.
Иными словами, уравнение у = х является уравнением биссектрисы угла, которое делит координатную плоскость строго пополам; тангенс такого угла равен единице: какое значение задаем на оси ОХ, такое же значение получим и по оси OY. И если свободный член уравнения прямой отражает пересечение оси OY в точке 0 на оси OX, то коэффициент при аргументе «х» отражает скорость изменения функции «у».
Действительно, если при увеличении х величина у возрастает (рис. 3, 5), то значение b > 0, скорость изменения у положительна. И наоборот: если при увеличении х величина у убывает (рис. 2), то значение b < 0, скорость изменения у отрицательна. Если же при увеличении х величина у остается без изменений (рис. 6), то значение b = 0, скорость изменения у равна нулю или отсутствует: y = const.
Итак, после того, как искомые коэффициенты уравнения линейной регрессии а и b найдены и прогноз построен, для завершения поставленной задачи остается оценить точность аппроксимации, вычислить величину коэффициента линейной корреляции, а также оценить значимость полученных коэффициентов и надежность уравнения в целом.
Различия в представлении эмпирической зависимости по отношению к моделирующей ее аналитической функции оценивается коэффициентом аппроксимации ε, который вычисляется как среднее модуля величин эмпирических и теоретических значений, отнесенных к соответствующим эмпирическим значениям. То есть относительная ошибка аппроксимации данной нам эмпирической зависимости с помощью линейной функции может быть вычислена как:
1 │ yi - ŷi │
ε = ∑│ │∙ 100%. (22)
n │ yi │
Схема вычисления суммы в выражении (22) приведена в рабочей таблице 3.
Таблица 3
Рабочая таблица для вычислении суммы выражения (22)
i |
yi |
ŷi по выражению (20) |
│yi - ŷi │ |
│yi - ŷi / yi │ |
1 2 3 4 5 |
1 1 1 3 4 |
0,4 1,2 2,0 2,8 3,6 |
0,6 0,2 1,0 0,2 0,4 |
0,60 0,20 1,00 0,06 0,13 |
∑ │ yi - ŷi / yi │ = 1,99 |
1
Тогда ε = ∙ 1,99 ∙ 100% = 38,6%,
5
что, конечно, свидетельствует о далеко не малой ошибке. Обычно аппроксимирующую функцию подбирают так, чтобы ошибка аппроксимации не превышала единиц процентов. В данном случае задачу аппроксимации методом наименьших квадратов было бы целесообразно решить еще раз, скажем, для степенной или показательной функции. Однако вычисления по сравнению с линейной функцией немного усложнятся вследствие необходимости предварительной линеаризации аппроксимирующей функции.
При использовании стандартных компьютерных пакетов прикладных программ Статграфик, SPSS и др. от пользователя требуется лишь занесение исходных данных. Затем они используются всеми имеющимися парными функциями различного вида, и пользователю предоставляется возможность выбрать ту функцию (не обязательно линейную), относительная ошибка аппроксимации которой является минимальной среди имеющегося встроенного банка функций ŷi.
Вычисление коэффициента линейной корреляции
Коэффициент линейной корреляции может быть вычислен по следующей формуле:
N ∑xy ─ ∑x ∑y
ρ = . (23)
{[N ∑x2 ─ (х )2] [N ∑y2 (y)2]} 1/2
Для нашего примера
5 • 38 15 • 10 40
ρ = = = 0,894.
([5 • 55 ─ (15)2] [5 • 28 (102)]}1/2 44,72
Отметим, что по степени тесноты между двумя переменными по своей абсолютной величине (модулю) корреляционные связи считаются «слабыми» при │ρ │ = 0,2 0,3; «существенными» при │ρ │= 0,5 0,7 и «сильными» при │ρ│≈ 0,9. Корреляция отсутствует при │ρ│≈ 0.
Область изменения коэффициента линейной корреляции находится в пределах: - 1 ≤ ρ ≤ + 1.
В данном случае имеем сильную зависимость между временем ( в месяцах) и величиной прибыли (в тыс. руб.).
Нам остается лишь выяснить степень достоверности вычисленной тесноты связи.
Формирование и проверка нулевых гипотез
В общем случае для оценки тесноты связи аргумента и функции, значимости полученных коэффициентов и надежности уравнения регрессии исследователь формирует для каждого названного этапа т.н. соответствующие «нулевые гипотезы» и производит их верификацию по соответствующим правилам.
Общее правило формирования нулевых гипотез состоит в следующем. Сначала формулируется утверждение о том, что то, что мы собираемся установить в качестве реально существующего с заданным уровнем значимости, как бы отсутствует. Здесь рассмотрим лишь формирование и поверку нулевой гипотезы Н0 относительно тесноты связи аргумента и функции.
Нулевая гипотеза Н0 в данном случае формируется так. Прибыль «у» и время «х» функционально не связаны: у ≠ f(х), или, иными словами, размер прибыли от времени не зависит.
Для опровержения или принятия данной гипотезы необходимо произвести дополнительные вычисления рассчитать параметр tрас и сравнить его значение с табличным параметром tтаб с заданным уровнем значимости Р (в процентах или относительных единицах) либо с заданным уровнем ошибок ά (в относительных единицах):
│ρ│(N 2)1/2
tрас = . (24)
(1 - ρ2)1/2
Вполне очевидно, что величина tрас всегда больше нуля. При подстановке наших данных в выражение (24) получим:
│ρ│(N 2)1/2 0,894 • (5 2)1/2
tрас = = = 4,76.
(1 - ρ2)1/2 (1 0,894)1/2
Далее производится сравнение расчетного и табличного параметра. При этом, если
tрас ≥ tтаб , (25)
с заданным уровнем значимости Р (%), то нулевая гипотеза Н0 отвергается, то есть связь между переменными х и у существует и является значимой. То есть у = f(x). Нулевая гипотеза отвергается. Если нестрогое неравенство (25) не выполняется, то нулевая гипотеза принимается для заданного уровня значимости.
Для определения табличных значений tтаб воспользуемся таблицей Стьюдента, приведенной в табл. 4. Вход в таблицу осуществляется по числу степеней свободы df, которое вычисляется следующим образом:
df = N 1. (26)
В нашем случае df = 5 1 = 4.
Обычно в социально-экономических исследованиях приняты уровни значимости Р в 90%, 95% и 99%, что соответствует значениям ά в 0,10; 0,05 и 0,01 соответственно.
Здесь неравенство (25) выполняется на строке таблицы (выделено шрифтом) для вероятности более, чем 99% (т.е. с ошибкой менее 1%).
Таблица 4
Значение t-критерия Стьюдента при уровне значимости ά
Число степеней свободы df |
Упрвень значимости ά |
||
0,10 |
0,05 |
0,01 |
|
1 2 3 4 5 6 7 8 9 10 |
6,3138 2,2900 2,3534 2,1318 2,0150 1,9432 1,8946 1,8595 1,8331 1,8125 |
12,706 4,3027 3,1825 2,7764 2,5706 2,4469 2,3646 2,3060 2,2622 2,2281 |
63,657 9,9248 5,8409 4,6041 4,0321 3,7074 3,4995 3,3554 3,2498 3,1693 |
Следовательно, можно сделать следующий вывод: нулевая гипотеза о несвязанности аргумента и функции может быть опровергнута с вероятностью, не менее 99% (или принята с вероятностью менее 1%). То есть, отвергая Н0, мы можем ошибиться менее, чем в одном случае из ста, тогда как принимая ее, мы ошибемся в более, чем 99-ти случаях из 100.
Таким образом, полученным результатам прогнозирования мы в известном смысле доверяем. Задача решена.
Общие выводы
Вначале мы располагали лишь эмпирическими данными между временем (в месяцах) и размерами прибыли (в тыс. руб.). В результате применения метода наименьших квадратов для аппроксимирующей функции линейного вида получили значения коэффициентов а и b, построили прогноз на шестой месяц, рассчитали ошибку аппроксимации, оценили степень тесноты связи функции и аргумента и сделали выводы о приемлемости нулевой гипотезы с помощью параметра Стьюдента.
Хотя и аргумент и функция связаны достаточно тесно, однако ошибка аппроксимации довольно высока. Поэтому надежность полученного прогноза вызывает известные сомнения. Для повышения точности прогноза необходимо попытаться аппроксимировать данную нам эмпирическую зависимость каким-либо другим видом парной зависимости (показательной, степенной и др.).
Далее предлагается провести подобные расчеты для вариантов, приведенных в табл. 5 и интерпретировать полученные результаты по следующему алгоритму.
Порядок выполнения контрольной работы
1. Оформить титульный лист с указанием номера группы, специальности, ФИО исполнителя и номера варианта.
2. Переписать исходные данные из табл. 4 для своего варианта.
3. Представить исходные данные в графическом виде, как это показано на рис. 2 и определить примерный характер аппроксимирующей линейной функции (см. рис. 3 6) с оценкой знаков при искомых коэффициентах.
4. Рассчитать коэффициенты уравнения линейной регрессии по формулам (15) и (16).
5. Убедиться в том, что знаки и значения коэффициентов найдены верно по выражению (16а).
6. Представить линейную зависимость на том же графике, где ранее отображены эмпирические данные.
7. Определить прогноз на следующий месяц по общему виду (6), как это сделано в выражении (21).
8. Отобразить значение прогноза на том же графике, как это показано на рис. 2.
7. Рассчитать относительную ошибку аппроксимации по выражению (22).
8. Найти степень тесноты связи (коэффициент линейной корреляции между аргументом и функцией) по выражению (23) и сделать выводы о степени тесноты связи («слабая», «существенная» «сильная», «практически отсутствует»).
Проверить нулевую гипотезу о несвязанности х и у, для чего:
9. Рассчитать значение параметра Стьюдента по формуле (24).
10. Определить значение степеней свободы по выражению (26).
11. Выбрать в табл. 4 пороговые табличные значения параметра Стьюдента для вероятностей 90, 95 и 99 процентов.
10. Осуществить сравнение рассчитанного и табличных параметров Стьюдента по нестрогому неравенству (25).
11. Сделать вывод о степени принятия или непринятия нулевой гипотезы о взаимосвязи функции и аргумента.
12. Сформулировать общий вывод по сделанной работе.
Выполненная и оформленная контрольная работа должна быть представлена в учебную часть вуза до начала очередной сессии.
Варианты контрольной работы по дисциплине «Статистика»
Предлагаются варианты, где в течение семи месяцев оценивается прибыль малого предприятия (в десятках тыс. руб.). Требуется составить прогноз на прибыль на следующий, восьмой месяц и сделать необходимые выводы.
Таблица 5
Варианты контрольной работы
Месяц |
i |
Варианты уi |
|||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
||
Январь Февраль Март Апрель Май Июнь Июль |
1 2 3 4 5 6 7 |
4 5 3 2 1 1 1 |
3 4 6 1 2 1 1 |
4 5 5 3 1 2 1 |
6 7 2 4 2 1 1 |
4 7 3 1 2 1 1 |
5 4 3 2 1 0 1 |
4 5 2 3 2 0 1 |
5 6 3 2 0 1 1 |
Месяц |
i |
Варианты уi |
|||||||
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
||
Январь Февраль Март Апрель Май Июнь Июль |
1 2 3 4 5 6 7 |
1 2 3 4 5 6 8 |
3 1 4 3 2 2 2 |
5 7 4 0 1 1 1 |
7 5 4 2 0 1 1 |
8 9 5 4 3 2 2 |
5 8 4 7 1 1 1 |
2 4 3 7 1 1 1 |
3 5 2 1 0 1 0 |
Месяц |
i |
Варианты уi |
|||||||
17 |
18 |
19 |
20 |
21 |
22 |
23 |
24 |
||
Январь Февраль Март Апрель Май Июнь Июль |
1 2 3 4 5 6 7 |
2 3 4 0 1 1 1 |
8 7 3 2 1 0 1 |
9 3 5 3 2 2 2 |
8 4 7 9 9 9 9 |
3 2 3 4 5 6 6 |
2 2 5 4 5 6 6 |
2 2 5 1 0 1 0 |
5 6 3 2 2 1 2 |