Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Определение. Дискретная переменная Х с множеством допустимых значений Ах называется случайной, если все ее возможные значения появляются в некотором опыте со случайными исходами А:(x=t) и если для нее задан закон распределения вероятностей
Первое свойство - объединяет все случайные переменные
Второе свойство обеспечивает индивидуальность каждой случайной переменной
Закон распределения дискретной случайной переменной
Определение. Законом распределения дискретной случайной величины Х называется функция Px(t), определенная на всей числовой оси, значения которой характеризуют вероятность появления в данном опыте события В:(x=t), и определяется по правилу:
где: Р(х=t) вероятность события В:(x=t)
Закон распределения ДСП называют вероятностной функцией
Классические примеры дискретных случайных переменных
Пример 1. Бросание кубика
Ax={1,2,3,4,5,6} область определения
X- цифра на верхней грани (СДП)
Закон распределения
Пример равновероятного закона распределения
Графическое представление равновероятного закона распределения
Пример 2. Бросание одновременно двух кубиков
X-сумма чисел на верхних гранях кубиков
Ax={2,3,4,5,6,7,8,9,10,11,12} - область определения
Закон распределения Х имеет вид
Каждый столбец - суть вероятность появления в опытах соответствующего значения переменной Х
В случае, когда Х непрерывная случайная переменная, ее закон распределения вероятностей выражается с помощью функции плотности вероятностей, который по определению есть:
где: P(t≤x≤t+Δt) вероятность того, что случайная переменная Х примет в опыте значение, лежащее в интервале (t, t+Δt)
Примеры законов распределения непрерывных случайных переменных
1. Закон равномерного распределения Х на отрезке [a, b]
График функции плотности вероятности отрезок прямой параллельной оси Х внутри отрезка [a,b] и ноль вне его
2. Нормальный закон распределения Гаусса
где a и s параметры закона распределения.
Именно, с помощью значений этих параметров удается персонифицировать различные случайные переменные, подчиняющиеся нормальному закону распределения
Определение. Выборка это случайный вектор, составленный из результатов наблюдений, каждое из которых суть независимая случайная величина
Пусть y1, y2,…,yn результаты наблюдения за поведением случайной величины Y c законом распределения Py(t,A)
Тогда выборка есть вектор, собранный из результатов наблюдений Y=(y1, y2,…,yn)T
Каждый элемент выборки есть случайная величина и, следовательно, имеет свой закон распределения
Py(y1, a1,a2,…,ak)
Py(y2, a1,a2,…, ak)
…………………..
Py(yn, a1,a2,…,ak);
Свойства случайной выборки
Тогда для них справедлива теорема умножения вероятностей:
Py(y1,y2,…,ynA)=Py(t1, A) Py(t2, A)… Py(tn, A)
Это выражение закон распределения выборки
Задача заключается в том, чтобы найти процедуры, с помощью которых можно найти значения параметров распределения.
A = F(y1,y2,…,yn)
Оценка представляет собой частный случай случайной величины
Например. Рассмотрим оценку математического ожидания в виде среднего значения:
Замечание
Любую случайную величину можно представить в виде: Xi = μ + Ui
где: Ui случайная величина
μ константа равная математическому ожиданию Xi
1. Несмещенность оценки
Процедуры, которые дают такие оценки будим называть
несмещенными
Замечание. Несмещенных процедур может быть много
Пример. Рассмотрим процедуру оценки математического ожидания
Эта процедура несмещенная т.к
Вопрос. Можно ли найти иную несмещенную процедуру?
Пусть имеем выборку наблюдений за случайной величиной Х с законом распределения Px(t) из двух значений x1 и x2, следовательно для нее справедливо:
Пусть такой процедурой будет: Z=λ1x1+λ2x2
Тогда
Вывод. Все процедуры, для которых λ1+λ2=1 дают несмещенные оценки среднего значения.
2. Эффективность оценки
Определение. Оценка называется эффективной среди всех оценок параметра, если она имеет минимальную дисперсию среди всех возможных оценок: σ2(ã) =min
Задача. При каких значениях λ1 и λ2 оценка среднего значения будет эффективной?
Найдем при каких значениях λ1 и λ2 достигается минимум дисперсии оценки Z
Учитывая, что (λ1+λ2)=1 или λ2= (1-λ1), получим:
(4.13)
Тогда для нахождения минимума выражения (4.13) составляем уравнение
Откуда следует, что λ1= 1/2
Вторая производная положительна, следовательно, это минимум
Вывод. Оценка (4.11) является несмещенной и эффективной
Аналогичным образом можно показать, что известная оценка дисперсии также не смещена и эффективна
Определение. Оценка, достигающая выполнения условий несмещенности и эффективности вне зависимости от объема выборки называется несмещенной и эффективной
Определение. Оценка, достигающая выполнения условий несмещенности и эффективности при неограниченном увеличении объема выборки называется ассимптотически несмещенной и эффективной
Определение. Оценка, достигающая выполнения условий несмещенности при неограниченном увеличении объема выборки называется состоятельной
ММП позволяет получить по крайней мере асимптотически несмещенные и эффективные оценки параметров распределения
В основе ММП лежит понятие функции правдоподобия выборки
Определение. Пусть имеем случайную величину Y, которая имеет функцию плотности вероятностей Py(t, a1,a2,…,ak) и случайную выборку Y(y1,y2,…,yn )наблюдений за поведением этой величины. Тогда функцией правдоподобия выборки Y(y1,y2,…,yn) называется функция L, зависящая от аргументов а={a1,a2,…,ak}, и от элементов выборки как от параметров и определяется равенством:
Функция правдоподобия:
Основные свойства функции правдоподобия
1. Правая часть равенства имеет смысл значения закона распределения выборки при случайных значениях параметров t1=y1, t2=y2,…, tn=yn.
Следовательно, функция правдоподобия L также случайная величина при любых значениях аргументов а={a1,a2,…,ak}
2. Все значения функции правдоподобия L ≥0.
Эти свойства являются следствием свойств выборки
Идея метода.
В качестве оценки неизвестного параметра принимается такое, которое обеспечивает максимум функции правдоподобия при всех возможных значениях случайной величины Y
Математически это выражается так:
ãj= argmax(L(a1,a2,…,ak, y1,y2,…,yn)
Очевидно, что оценка ãj зависит от случайной выборки, следовательно, ãj= f(y1,y2,…,yn), где f есть процедура вычисления оценки ãj по результатам выборки
Алгоритм решения задачи
Предполагается:
1. Вид закона распределения известен;
2. Функция плотности вероятности гладкая во всей области определения
Последовательность решения:
1. Составляется функция правдоподобия
2. Вычисляется логарифм функции правдоподобия
3. Оценки параметров получаются в результате решения системы уравнений вида:
4. Проверяется условие максимума функции правдоподобия
Задача 1. Пусть опытом является инвестирование капитала в обыкновенную акцию (например ЛУКОЙЛ)
В качестве события «В» примем получение положительной доходности на эту акцию
Обозначим символом i(B) индикатор появления события «В»
(5.1)
Закон распределения случайной величины (5.1)
(5.2)
Для того, чтобы определить вероятность появления события «В» (положительной доходности по акциям ЛУКОИЛ) необходимо знать значение «p» параметр закона распределения (5.2)
Найти: значение параметра p
Имеем выборку наблюдений за поведением доходности акций за некоторый период времени:
(5.3)
Выборка (5.3) представляет собой набор 1 и 0
Воспользуемся методом максимального правдоподобия
Решение.
Шаг 1. Запишем функцию правдоподобия выборки (5.3)
(5.4)
Шаг 2. Логарифмирование функции (5.4)
(5.5)
Для удобства введем обозначение:
(5.6)
Шаг 3. Вычисляем производную функции ln(L) и приравниваем ее нулю
(5.7)
Уравнение (5.7) имеет единственный корень:
(5.8)
Убедимся, что корень (5.8) соответствует максимальному значению функции правдоподобия (5.4)
Вычисляем вторую производную логарифма функции правдоподобия (5.4):
< 0
Шаг 4. Проверка выполнения условий оптимальности
Несмещенность
Вывод. Получена несмещенная оценка при выборке любого объема
Метод проверки условия эффективности базируется на использовании неравенства Рао-Крамера
Оно позволяет оценить нижнюю границу точности, с которой можно несмещенно оценить неизвестные параметры
Нижняя граница соответствует минимальной дисперсии оценки
Следовательно, если дисперсия полученной оценки равна нижней границе, то эта оценка удовлетворяет условию эффективности
Теорема. Для любой ковариационной матрицы любой несмещенной оценки вектора параметров «а» неравенство Рао-Крамера имеет вид:
Cov(ã,ã) ≥ I-1
где: I квадратная матрица, информационная матрица Фишера:
Если число оцениваемых параметров равно 1, то матрица Фишера вырождается в число, которое называют информационным количеством Фишера
Оценим нижнюю границу дисперсии параметра p
Найдем значение информационного количество Фишера
Следовательно, неравенство Рао-Крамера для σ2(р) имеет вид:
Вычислим дисперсию оценки
В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей функции получили название регрессионного анализа
Основными задачами регрессионного анализа являются установление зависимости между переменными и оценка (прогноз) значений зависимой переменной
В экономических исследованиях часто заданному значению одной переменной может соответствовать множество значений другой переменной
Другими словами, каждому значению одной переменной соответствует условное распределение другой переменной
Зависимость, при которой каждому значению одной переменной соответствует условное математическое ожидание другой называется регрессионной
Начнем с построения модели в виде линейного уравнения парной регрессии
(6.1)
Постановка задачи
Дано:
Выборка наблюдений за поведением переменных yt и xt
Найти:
1. Оценки значений параметров a0 и a1
2. Оценки точности σ(a0) и σ(a1).
3. Оценка рассеяния случайного возмущения σu
4. Оценку точности прогнозирования σ(y(x0))
Введем следующие обозначения и определения
1. Выборка 2. Система уравнений наблюдений
(6.2)
3. В е к т о р а 4. Матрица коэффициентов при параметрах
Идея метода.
Пусть имеем выборку из 4-х точек (n=4):
P1 =(x1, y1)
P2 =(x2, y2)
P3 =(x3, y3)
P4 =(x4, y4)
На практике мы имеем возможность наблюдать только исходные точки
Предполагаем, что существует теоретическая прямая, которая наилучшим образом проходит через них
Задача: оценить с некоторой точностью, как может проходить эта прямая
Итак, оценки параметров модели парной регрессии согласно МНК будем искать из условия:
(6.2)
Условиями минимума функции являются равенство нулю первых производных и положительность вторых производных по ã0 и ã1
(6.3)
Система (6.3) называется системой нормальных уравнений для вычисления оценок параметров уравнения парной регрессии (6.1)
Упростим систему нормальных уравнений (6.3)
(6.4)
Убеждаемся, что решение системы уравнений (6.4) будет соответствовать минимуму функции (6.1)
Для этого вычисляем значения вторых частных производных функции (6.1)
Вторые производные больше нуля функция (6.1) принимает м минимальное значение в точке ã0 , ã1
Для решения системы (6.4) выразим из первого уравнения ã0, подставим его во второе уравнение
(6.5)
Решив второе уравнение системы (6.5) получим:
(6.6)
Проанализируем выражение (6.6)
Для этого вычислим COV(x,y) и σ2(x)
(6.7)
Проверим выполнение условия несмещенности для оценки (6.7)
Для этого вычислим числитель выражения (6.7)
Подставив в (6.7) полученное выражение получим:
(6.8)
Математическое ожидание выражения (6.7) имеет вид:
(6.9)
Выводы:
1. Метод наименьших квадратов имеет следующие преимущества:
- не требуется знания закона распределения случайного возмущения
- дает оценки по крайней мере состоятельные
- в случае нормального распределения случайного возмущения оценки параметров линейной модели несмещенные и эффективные
2. Для получения несмещенных и эффективных оценок параметров в случае, если случайное возмущение имеет закон распределения отличный от нормального, необходимо наложить на него дополнительные требования
Вопрос 19. Оценка параметров уравнения парной регрессии с помощью ММП
Исходные предположения
2. Случайное возмущение имеет нормальное распределение с параметрами 0 и σu
3. Для получения ММП-оценок имеем выборку из n наблюдений
Тогда:
Закон распределения для случайного возмущения принимает вид:
1. Функция правдоподобия получит вид:
2. Логарифм функции правдоподобия
3. Составляем уравнения для вычисления оценок a0 и a1
Получили систему уравнений совпадающую с (6.3)
Следовательно, и решения совпадут.
Вопрос 20. Уравнение множественной регрессии
Наилучшая линейная процедура получения оценок параметров уравнения и условия, при которых эта процедура дает несмещенные и эффективные оценки, сформулирована в теореме Гаусса-Маркова
Постановка задачи:
Имеем случайную выборку наблюдений за поведением экономического объекта объемом n
Выборка наблюдений за переменными модели (7.1)
Первый индекс номер регрессора
Второй индекс номер наблюдения
(7.2) Система уравнений наблюдений,
связывающая наблюдения в выборке
Сформируем вектора и матрицу коэффициентов на основе системы (7.2)
Y вектор выборочных значений эндогенной переменной
U вектор выборочных значений случайного возмущения
A - вектор неизвестных параметров модели
х вектор регрессоров
X матрица коэффициентов при неизвестных параметрах
По данным выборки найти: Ã, Cov(ÃÃ), σu, σ(ỹ(z))
Теорема (Гаусса Маркова)
Если матрица Х неколлинеарна и вектор случайных возмущений удовлетворяет следующим требованиям:
Математическое ожидание всех случайных возмущений равно нулю
Дисперсия случайных возмущений постоянна во всех наблюдениях
(условие ГОМОСКЕДАСТИЧНОСТИ)
Случайные возмущения в разных наблюдениях не зависимы
Случайные возмущения и регрессоры не зависимы
Тогда наилучшей линейной процедурой оценки параметров модели (7.1) является:
(7.3)
которая удовлетворяет методу наименьших квадратов
При этом:
Доказательство
Воспользуемся методом наименьших квадратов
(7.4)
Где (7.5)
Подставив (7.5) в (7.4) получим
Для получения необходимого условия экстремума дифференцируем (7.6) по вектору параметров
Откуда система нормальных уравнений для определения искомых параметров получает вид
(7.7)
Решение системы (7.7) в матричном виде есть
Выражение (7.3) доказано
Докажем несмещенность оценок (7.3)
Несмещенность оценки (7.3) доказана
Вычислим ковариационную матрицу оценок (7.3)
В результате получено выражение (7.4)
Выводы:
1. Теорема Гаусса-Маркова формулирует наилучшую линейную процедуру расчета оценок параметров линейной модели множественной регрессии
2. Линейная процедура соответствует методу наименьших квадратов
3. Предпосылки теоремы обеспечивают получение оценок, обладающих свойствами несмещенности и эффективности
4. При выполнении предпосылок свойства эффективности и несмещенности достигаются при любом законе распределения случайного возмущения
Вопрос 21. Оценка уравнений множественной регрессии с помощью EXCEL
Процедура «ЛИНЕЙН» в приложении EXCEL
Алгоритм использования процедуры:
2. Вызов процедуры «ЛИНЕЙН»
3. Ввод исходных данных в процедуру
4. Анализ результата
Вопрос 22. Качество спецификации модели
Под качеством спецификации модели понимается:
- качество выбора функции уравнения регрессии;
- качество выбора набора регрессоров (факторов)
Пусть имеем модель в виде уравнения парной регрессии:
Yt = a0 + a1xt + ut (11.1)
Задача: оценить степень влияния экзогенной переменной Х (фактора) на величину эндогенной переменной Y
Другими словами: насколько правильно предположение, что поведение эндогенной переменной зависит от значения фактора Х
В качестве меры влияния принимаются дисперсии переменных Y, X и u
Знаем, что уравнение регрессии описывает поведение среднего значения эндогенной переменной:
Y* = a0 + a1xt (11.3)
Тогда уравнение (11.1) можно записать как: Yt = Y*t +ut (11.4)
Вычислим дисперсию Y в уравнении (11.4)
Вычислим COV(Yt*,ut):
Таким образом,
(11.5)
Введем обозначения:
Здесь: TSS общая сумма квадратов эндогенной переменной (Total sum of squares )
RSS регрессионная сумма квадратов (Regression sum of squares)
ESS сумма квадратов остатков (ошибок) (Error sum of squares)
С учетом принятых обозначений выражение (11.4) можно записать в виде:
TSS = RSS + ESS (11.5)
В качестве показателя степени влияния выбранного регрессора на поведение эндогенной переменной принимается отношение:
(11.6)
R2 называется коэффициентом детерминации
Замечание. Коэффициент детерминации R2 имеет смысл (определен) только для моделей, в спецификации которой присутствует коэффициент a0
Если коэффициент a0 отсутствует, то нарушается равенство (11.5)
Если R2 =1, т.е. RSS=TSS, a ESS=0, то такая модель называется «абсолютно хорошей»
Это означает, что выбранный регрессор полностью объясняет поведение эндогенной переменной.
Если R2 =0, т.е. RSS=0, а ESS=TSS, то такую модель называют «абсолютно плохой»
В этом случае весь диапазон изменения эндогенной переменной объясняется влиянием случайного возмущения, а выбранный регрессор не оказывает влияния, не объясняет поведение эндогенной переменной
Отметим следующее:
R2 величина случайная, т.к. его конкретное значение вычисляется по результатам случайной выборки
Это означает, что полученное значение коэффициента детерминации отличное от нуля еще не является достаточным основанием считать модель качественной
Необходимо проверить статистическую гипотезу о не равенстве нулю R2: (H0: R2>0)
Внимание! Формулируется гипотеза о не равенстве нулю R2, т.е гипотеза о том, что модель не плохая
Для проверки гипотезы H0: R2=0 :
1. Формируем случайную величину с известным законом распределения
где: к - количество параметров в модели
n количество наблюдений в выборке
Случайная величина FTest подчиняется закону распределения вероятностей Фишера
Критическое значение зависит от уровня доверительной вероятности и двух параметров: k-1 и (n-k)
Для проверки гипотезы H0: R2>0 :
2. Вычисляется по данным выборки значение FTest.
3. Находится по таблице значение Fкр(Pдов, k-1, n-k).
4. Сравниваются значения Fкр и FTest.
Если FTest > Fкр
то гипотеза H0: R2>0 не отвергается
Значит модель имеет не плохое качество спецификации
Т.е. выбранный регрессор объясняет поведение эндогенной переменной.
Замечание. Значения R2 и FTest вычисляются функцией «ЛИНЕЙН» в EXCEL
Замечание. Значения коэффициента детерминации растет с увеличение числа регрессоров.
В случае модели в виде уравнения множественной регрессии применяется модифицированный коэффициент детерминации Ř2:
Здесь: R2 - коэффициент детерминации в форме (11.6)
n объем выборки
k количество регрессоров в модели
Замечание. При анализе модели в виде уравнения множественной регрессии принятие гипотезы H0: R2=0 означает, что все регрессоры не объясняют (не влияют) поведение эндогенной переменной
Отклонение гипотезы H0: R2=0, означает, что не все регрессоры объясняют (влияют) поведение эндогенной переменной
Другими словами, в составе выбранных на этапе спецификации модели регрессоров есть как влияющие, так и не влияющие регрессоры
Вопрос. Как определить влияющие и не влияющие регрессоры?
Ответ. Необходимо проверить гипотезу H0: ai=0
Проверка статистической гипотезы H0: ai=0
Известно, что в схеме Гаусса-Маркова дробь (11.10) подчиняется закону распределения Стьюдента
где: ãi оценка i-го параметра модели
с заданная константа
σai-оценка стандартной ошибки оценки параметра
В данном случае с=0, т.е. сравнивается вычисленное значение оценки с нулем
Если гипотеза не отвергается для i-го регрессора, то этот регрессор не оказывает влияние на эндогенную переменную и его можно исключить из уравнения модели
Выводы:
1. Одним из показателей качества спецификации является коэффициент детерминации R2
2. Качество спецификации проверяется путем с помощью статистической гипотезы Н0: R2 >0
Если гипотеза Н0 принимается модель не плохая!
3. Критерий принятия решения Ftest
4. В моделях в виде множественной регрессии осуществляется проверка статистической гипотезы H0: ai=0
Если гипотеза Н0 принимается, то регрессор хi следует исключить из модели как статистически незначимый!
5. При принятии гипотезы о некачественной спецификации необходимо вернуться к первому этапу построения модели