Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

тематического ожидания и дисперсии для нормального распределения

Работа добавлена на сайт samzan.net:

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 31.5.2024

Лекция 3

Статистическое оценивание параметров распределения и построение

доверительных интервалов (5 часов +4 часа ПЗ)

Основные вопросы лекции:

Введение    

  1.  Понятие о точечной  оценке параметров. Требования к оценкам.
    1.  Свойства выборочного среднего и выборочной дисперсии.
    2.  Свойства оценок математического ожидания и дисперсии для нормального    распределения.
    3.  Метод моментов получения оценок параметров генерального распределения.
    4.  Метод максимального правдоподобия получения оценок параметров генерального распределения.
    5.  Понятие об интервальном оценивании параметров.
    6.  Доверительный интервал, точность и надёжность оценки.
    7.  Точность и надёжность оценивания при большом объёме выборки.
    8.  Доверительный интервал для МО и СКО нормальной генеральной совокупности.

 Заключение

Основные понятия, используемые при оценивании.

     Оценивание — это определение приближенного значения неизвестной характеристики или параметра распределения (генеральной совокупности), иной оцениваемой составляющей математической модели реального (экономического, технического и др.) явления или процесса по результатам наблюдений. Иногда формулируют более коротко: оценивание — это определение приближенного значения неизвестного параметра генеральной совокупности по результатам наблюдений. При этом параметром генеральной совокупности может быть либо число, либо набор чисел (вектор), либо функция, либо множество или иной объект нечисловой природы. Например, по результатам наблюдений, распределенных согласно биномиальному закону, оценивают число — параметр p (вероятность успеха). По результатам наблюдений, имеющих гамма-распределение, оценивают набор из трех чисел — параметры формы a, масштаба b и сдвига c. Способ оценивания функции распределения дается теоремами В. И. Гливенко и А. Н. Колмогорова. Оценивают также плотности вероятности, функции, выражающие зависимости между переменными, включенными в вероятностные модели экономических, управленческих или технологических процессов, и так далее. Целью оценивания может быть нахождение упорядочения инвестиционных проектов по экономической эффективности или технических изделий (объектов) по качеству, формулировка правил технической или медицинской диагностики и так далее (Упорядочения в математической статистике называют также ранжировками. Это — один из видов объектов нечисловой природы.)

      Оценивание проводят с помощью оценок — статистик, являющихся основой для оценивания неизвестного параметра распределения. В ряде литературных источников термин «оценка» встречается в качестве синонима термина «оценивание». Употреблять одно и то же слово для обозначения двух разных понятий нецелесообразно: оценивание — это действие, а оценка — статистика (функция от результатов наблюдений), используемая в процессе указанного действия или являющаяся его результатом.

      Оценивание бывает двух видов — точечное оценивание и оценивание с помощью доверительной области. Точечное оценивание — способ оценивания, заключающийся в том, что значение оценки принимается как неизвестное значение параметра распределения.

Пример . Пусть результаты наблюдений x1,x2,...,xn рассматривают в вероятностной модели как случайную выборку из нормального распределения N(m,σ). Т. е. считают, что результаты наблюдений моделируются как реализации n независимых одинаково распределенных случайных величин, имеющих функцию нормального распределения N(m,σ) с некоторыми математическим ожиданием m и средним квадратическим отклонением , неизвестными статистику. Требуется оценить параметры m и σ (или σ2) по результатам наблюдений. Оценки обозначим m * и ( ) * соответственно. Обычно в качестве оценки m * математического ожидания m используют выборочное среднее арифметическое , а в качестве оценки 2) * дисперсии σ2 используют выборочную дисперсию s2, то есть

.

Для оценивания математического ожидания m могут использоваться и другие статистики, например, выборочная медиана , полусумма минимального и максимального членов вариационного ряда

и др. Для оценивания дисперсии σ2 также имеется ряд оценок, в частности, (см. выше) и оценка, основанная на размахе R, имеющая вид

,

где коэффициенты a(n) берут из специальных таблиц. Эти коэффициенты подобраны так, чтобы для выборок из нормального распределения

.

Наличие нескольких методов оценивания одних и тех же параметров приводит к необходимости выбора между этими методами.

3.1. Понятие точечной статистической оценки. Требования к оценкам

Определение 3.1. Точечной статистической оценкой неизвестной числовой характеристики или параметра  распределения называется функция , зависящая от элементов выборки, приближенно равная :

                                                                                                                 (3.1)

Для каждой конкретной выборки - это число, т. е. точка на числовой оси.

Определение 3.2. Статистикой называется любая функция выборочных элементов (наблюдений).

Таким образом, статистическая точечная оценка - это статистика, по значениям которой можно судить о величине . Слова «точечная», «статистическая» в применении к оценкам в пределах главы в дальнейшем для простоты будут опускаться. Для одной и той же неизвестной величины  можно составить бесконечно много различных оценок. Например, в качестве оценки математического ожидания m нормального распределения могут служить выборочное среднее , выборочная медиана med, полусумма квартилей tq, полусумма крайних элементов tR.

В силу многообразия оценок, применяемых для оценивания одной и той же неизвестной величины, возникает задача выбора из них лучшей в определенном смысле. К оценкам предъявляется ряд требований. Заметим предварительно, что все статистические оценки являются случайными, так как случайными являются элементы выборки.

Определение 3.3. Оценка  называется состоятельной оценкой , если она стремится по вероятности к  сростом n:                                   (3.2)

Это означает, что для любого  > 0 выполняется соотношение

                                                                                                             (3.3)

Это требование означает сближение  и  с ростом n в вероятностном смысле. В математической статистике, как правило, применяются только состоятельные оценки.

Пример 3.1. Из предельной теоремы Бернулли теории вероятностей следует, что относительная частота Р*(А) события А является состоятельной оценкой вероятности Р(А) этого события:

Определение 3.4. Оценка  называется несмещенной оценкой , если математическое ожидание оценки равно :        М=.                                                                             (3.4)

В противном случае оценка называется смещенной.

Разность М-.называется смещением оценки. Требование несмещенности означает, что выборочные значения ,i оценок, полученные в результате повторения выборок, группируются около их математического ожидания, а не около оцениваемой величины .

Определение 3.5. Оценка  величины  называется робастной, если она устойчива по отношению к выбросам в статистических данных.

Выбросы в выборке могут появиться вследствие сбоев регистрирующего прибора, грубых ошибок оператора. Выбросы группируются на концах вариационного ряда наблюдений.

Поэтому оценки, не имеющие в своем составе элементов, близких к концам вариационного ряда, будут робастными. Это, например, выборочная медиана med и полусумма квартилей tq.

Понятие робастности оценок понимается более широко, чем об этом сказано в определении 3.5, так как нарушения в составлении выборки могут происходить не только по причине появления выбросов. Например, выборка может быть неоднородной вследствие примешивания элементов из другой генеральной совокупности. Мы ограничимся только случаем появления выбросов.

Определение 3.6. Оценка  числовой характеристики или параметра  распределения называется эффективной в рассматриваемом классе Т состоятельных и несмещенных оценок, если она имеет в этом классе минимальную дисперсию:

                                                                                                                (3.5)

Для рассматриваемого распределения и рассматриваемого класса оценок Т эффективная оценка может не существовать, а удается лишь определить нижнюю грань дисперсий оценок inf. Тогда возникает задача построения оценок, дисперсии которых будут возможно ближе к этой грани.

Определение 3.7. Из двух оценок  и  одной и той же числовой характеристики или параметра  распределения в классе Т состоятельных и несмещенных оценок более эффективной считается та, дисперсия которой меньше.

Если имеет место неравенство    D<D                                                              (3.6)

то  - более эффективная оценка , чем .

Отношение D/D                                                                                                         (3.7)

называется относительной эффективностью оценки  относительно оценки, а отношение

                                                                                                                       (3.8)

называется эффективностью оценки  в рассматриваемом классе оценок Т.

Пример 1.2. Для нормального распределения оценкой математического ожидания m могут служить выборочное среднее  и выборочная медиана med в силу симметричности нормального распределения. Доказано, что  (для любого n) и  (при больших n). Следовательно, при больших n относительной эффективностью выборочной медианы относительно  будет

Определение 3.8. Оценка  параметра  распределения называется асимптотически эффективной в классе Т состоятельных и несмещенных оценок, если существует предел

                                                               =1,.                                              (3.9)

Асимптотически эффективные оценки дает метод максимального правдоподобия получения оценок, который рассматривается далее. В более общем случае, если отказаться от требования несмещенности оценки  параметра , то в качестве меры разброса значений  относительно  вместо дисперсии обычно выбирается величина среднего квадрата ошибки, то есть второй момент вида . Тогда оценка  называется эффективной в классе Т состоятельных оценок, если выполняется равенство

                                                                                        (3.10)

Отношение

                                                                            (3.11)

называется эффективностью оценки  в классе Т состоятельных оценок.

3.2. Свойства выборочного среднего и выборочной дисперсии

1. Свойства .

Свойство 1. Выборочное среднее  является состоятельной оценкой генерального математического ожидания m= МX, что следует из предельной теоремы Чебышёва:

                                                                                                                     (3.12)

Свойство 2.  является несмещенной оценкой m:

                                              .                                                                                   (3.13)

Свойство 3.  не является робастной оценкой т, так как в своем составе имеет крайние элементы вариационного ряда.

Свойство 4.                                                                                                          (3.14)

Этот результат означает, что с ростом n рассеяние  уменьшается обратно пропорционально n .

Аналогично доказывается, что выборочный начальный момент порядка l также является состоятельной и несмещенной оценкой генерального начального момента  порядка l:

                                                                                                   (3.15)

Свойства выборочной дисперсии

Свойство 1. Выборочная дисперсия является состоятельной оценкой генеральной дисперсии:

                                                                                                           (3.16)

Свойство 2. Вспомогательная формула для выборочной дисперсии

                                                                                                (3.17)

Свойство 3. Выборочная дисперсия    - смещенная оценка генеральной дисперсии  с отрицательным смещением -

                                                                                                              (3.18)

Вследствие смещённости выборочной дисперсии возникает задача создания несмещённой оценки дисперсии. Так как , то смещение можно устранить, умножив  на множитель :                                                               (3.19)

является несмещённой оценкой . Действительно,

                                         

В заключение заметим, что  не является робастной оценкой .

3.3. Свойства оценок для m и  в случае нормального распределения

Свойства оценок математического ожидания т.

Рассматриваем 4 выборочных характеристики , med, tq, tR. Так как нормальное распределение  - симметричное, то эти выборочные характеристики являются оценками m. Действительно, выборочная медиана med является оценкой генеральной медианы Ме, полусумма выборочных квартилей является оценкой полусуммы генеральных квартилей Q, а так как m = Ме = Q, то все они оценивают m. Оценка в силу симметричности конструкции также оценивает m. Все эти оценки состоятельные и несмещенные, tq  и med являются робастными оценками,  и tR  - нет. Относительная эффективность этих оценок различна. При n > 4 имеют место неравенства

                                                                                          (3.20)

Доказано, что для нормального распределения при известном а выборочное среднее  является эффективной оценкой параметра m [11].

Свойства оценок среднего квадратического отклонения .

Рассматриваем    4    выборочных    характеристики:     - интерквартильная широта,

R=xmax -xmin -  размах. Все они характеризуют рассеяние, но являются смещенными оценками , выражаются через , следовательно, после нормирования, означающего деление на соответствующий нормирующий коэффициент

,  эти характеристики станут несмещенными оценками. Таблица нормирующих коэффициентов приведена в приложении (таблица VII).

Образуем несмещенные оценки :

Нормированное среднее квадратическое отклонение s’=s/ks(n); ks(n)= . Нормированное среднее абсолютное отклонение d*=d/kd(n).

Нормированная интерквартильная широта q*=q/kq(n).

Нормированный размах R*=R/kR(n).

      Все эти оценки - состоятельные [11], qявляется робастной оценкой, остальные - нет. Относительная эффективность этих оценок различна, так как различны их дисперсии. При n > 6 имеют место следующие неравенства [11]:

                                     

3.4. Метод моментов получения оценок параметров генерального распределения

Пусть известен вид генерального закона распределения, а параметры в него входящие, неизвестны. Возникает задача их статистического оценивания. Метод моментов Пирсона (К. Пирсон - англ. математик, 1857-1936) - один из первых методов получения таких оценок, основанный на сравнении выборочных и генеральных моментов распределения. Идейно он очень прост. Предполагается, что имеется выборка (x1,x2,…xn) из исследуемой генеральной  совокупности.   На   ее   основе   вычисляются  m начальных   моментов a1,a2am.. Так как вид генерального закона известен, то, следовательно, можно найти   m   первых  начальных  генеральных   моментов ,…,, которые выражаются через неизвестные параметры. Выборочные и генеральные моменты одинакового порядка приравниваются:

                                                                                                                 (3.21)

        Получили систему m уравнений с неизвестными величинами . Решение () этой системы дает оценки  неизвестных параметров . При выполнении достаточно общих условий полученные оценки состоятельные:

                                              (i=1,2,…,m)                                                                   (3.22)

Среднее значение такой оценки отличается от истинного значения параметра на величину порядка 1/n [10]. В общем случае они - смещенные и не являются эффективными и асимптотически эффективными. Вместо начальных моментов можно использовать центральные.

Пример. Для показательного закона с плотностью

известно, что Так как a =, то система (3.21) в этом случае сводится к одному уравнению 1/ = , из которого находим .

3.5. Метод максимального правдоподобия получения оценок параметров генерального распределения

Метод максимального правдоподобия, созданный Фишером (Р. Фишер -англ. математик, 1890-1962), является достаточно универсальным и плодотворным методом оценивания.

Пусть имеется выборка (x1,x2,…xn) из генеральной совокупности с плотностью вероятности f(x,, содержащей один неизвестный параметр . Выборка является n -мерной случайной величиной, компоненты xi  которой взаимно независимы, одинаково распределены с плотностью f(x, . Тогда плотность распределения n-мерной случайной величины (x1,x2,…xn) будет равна

                                                                      (3.23)

Эта функция называется функцией правдоподобия для рассматриваемой выборки.

Будем считать  переменной неслучайной величиной, а элементы (x1,x2,…xn) выборки фиксированными, так как выборка фактически осуществлена. Если придавать  различные значения, то естественно ожидать, что плотность  примет максимальное значение в случае, когда  окажется равным истинному его значению, так как при других значениях  менее вероятно за один раз получить именно данную выборку.

Эти интуитивные соображения приводят к тому, что за оценку  берут такое значение , при котором функция правдоподобия достигает максимума. Технически (так как L состоит из произведений) удобнее искать max lnL (точка , дающая максимум lnL, дает и максимум L). Итак, для отыскания имеем уравнение

                                                                                                                   (3.24)

которое называется уравнением правдоподобия, а его решение , зависящее от элементов выборки, оценкой максимального правдоподобия.

При выполнении достаточно общих условий оценки максимального правдоподобия являются состоятельными и асимптотически эффективными. В общем случае они являются смещенными [10]. В случае, когда генеральная плотность вероятности  содержит k параметров, вместо одного уравнения правдоподобия решается система уравнений

                                                                                                          (3.35)                                      

Пример. Рассмотрим показательный закон с плотностью

                                      

Функция правдоподобия при х > О имеет вид

                  

                         

Отсюда                              

Оценки максимального правдоподобия и метода моментов параметра показательного

Замечание. Выше рассмотрены два наиболее употребительных на практике метода получения оценок параметров закона распределения - методы моментов и максимума правдоподобия. Существуют и другие методы, освещенные в литературе. Назовем еще методы квантилей, минимума хи-квадрат, наименьших квадратов, наименьших абсолютных отклонений, минимакса [10,11].

Интервальное оценивание числовых характеристик и параметров распределения генеральной совокупности

Точечные оценки, рассмотренные в предыдущей главе, хотя и являются численными, не дают всей желательной информации об оцениваемых генеральных характеристиках. Если, например,  = 10, то совершенно неясно, насколько точно число 10 оценивает неизвестное математическое ожидание m. Мы лишь знаем некоторые качественные свойства , такие, как состоятельность и несмещенность которые дают уверенность, что  - хорошая оценка по сравнению с другими возможными. А следовало бы связать точечную оценку с объемом выборки, выработать показатели ее точности и надежности. Эти вопросы решаются в теории интервального оценивания.

3.6. Доверительный интервал. Точность и надежность оценки

Пусть  - неизвестная числовая характеристика или параметр генерального распределения.

Определение 3.9. Если выполняется соотношение

                                                                                                        (3.26)

то интервал () называется доверительным интервалом, который накрывает неизвестную генеральную характеристику  с доверительной вероятностью .

Здесь - известные функции выборочных элементов , т. е. статистики. Они вычисляются по выборке. Число  называется также надежностью, с которой доверительный интервал накрывает . Число  называется уровнем значимости. Статистики  и  в соотношении (3.26) являются точечными оценками . Одна дает левую, а другая - правую границы, между которыми содержится  с надежностью . Половину длины доверительного интервала  называют точностью интервального оценивания.

Пусть теперь известна одна точечная оценка  генеральной числовой характеристики или параметра распределения .

Определение 3.10. Если выполняется соотношение  то число  называется точностью, а число - надежностью оценки  генеральной числовой характеристики .

Здесь - статистика, т. е. функция выборочных элементов. Если известны  и у, то легко построить доверительный интервал для  с помощью ее точечной оценки . Действительно,

                                    

Тогда   , и мы от соотношения в определении 3.10 приходим к соотношению в определении (3.9). Как находить , строить доверительный интервал () в конкретных случаях будет рассмотрено в следующих параграфах. Эти вопросы будут рассмотрены для практически наиболее важных случаев оценивания: вероятности события р, математического ожидания m и среднего квадратического отклонения .

3.7. Точность и надежность оценивания вероятности события с помощью его относительной частоты при большом объеме выборки

Пусть р - вероятность события А, а р* = - его относительная частота. По теореме Муавра - Лапласа теории вероятностей при больших n справедливо приближенное равенство

                                                                                                       (3.27)

где

                                               

- функция Лапласа.

Из формулы (3.27) находим

Отсюда

Из формулы видно, что в этих построениях р отличается от р* =  на величину порядка  . Так как р неизвестно, то его заменяем на р*, а q соответственно на q* = 1 - р*. Это означает, что под корнем в формуле мы пренебрегаем малыми слагаемыми порядка 1/(n). Получаем формулу   

Полагаем                       

Отсюда             

Решая это уравнение, находим его корень

                         

- квантиль нормального распределения N(0,1) порядка (1 +  )/2.

Тогда  

Эти формулы связывают три величины . Задавая две из них, можно найти третью. Тем самым будет построен доверительный интервал для неизвестной вероятности р:

                                        

Решенной задаче может быть придано, например, следующее реальное содержание. В результате проведенного социологического опроса n = 1600 человек рейтинг кандидата N в президенты составляет 20%. Тогда доверительный интервал позволяет утверждать, что с надежностью  = 0.95 действительный рейтинг кандидата N заключен в пределах 18%-20%. Этот результат можно выразить и иначе: рейтинг N равен 20% ± 2% с 5-процентной ошибкой.

Вероятность р, оцениваемая с помощью доверительного интервала и точечной оценки р*, является параметром биномиального закона распределения случайной величины X: Р{Х = к) =  k= 0,1,…,m.

3.8. Доверительный интервал для математического ожидания m нормальной генеральной совокупности

Известно [10], что для выборки объема n из нормальной генеральной совокупности случайная величина  распределена по закону Стьюдента с n-1 степенями свободы. Таблица квантилей распределения Стьюдента - таблица III приложения.) Здесь s - выборочное среднее квадратическое отклонение. Так как плотность этого распределения - функция четная, то получаем

                 

Здесь  - функция распределения закона Стьюдента с n -1 степенями свободы. Отсюда находим

                                        

Полагаем 2Fn-1(x)-1= . Тогда  

По таблице квантилей распределения Стьюдента с n-1 степенями свободы находим квантиль порядка (1 +  )/2

                                    

и получаем искомый доверительный интервал для m:

                            

3.9. Доверительный интервал для среднего квадратического отклонения  нормальной генеральной совокупности

Известно [10], что для выборки объема n из нормальной генеральной совокупности случайная величина  распределена по закону  (хи-квадрат) с n -1 степенями свободы. Зададимся доверительной вероятностью   и по таблице IV приложения найдем квантили   и  распределения хи-квадрат с n-1 степенями свободы соответственно порядков (1-)/2 и (1 + )/2. Это значит, что для случайной величины  имеют место соответствующие соотношения, позволяющие окончательно получить:

                           

что и дает доверительный интервал для генерального среднего квадратического отклонения  с доверительной вероятностью .

Любой доверительный интервал можно построить неоднозначно. Всегда применяется какой-нибудь дополнительный принцип его построения. При построении этого доверительного интервала исходили из принципа, что вероятности попадания  в промежутки левее доверительного интервала и правее его равны между собой.

3.10. Доверительный интервал для математического ожидания m любой генеральной совокупности при большом объеме выборки

Выборочное среднее  является суммой большого числа независимых одинаково распределённых слагаемых. В силу центральной предельной теоремы   при   большом   объеме   выборки   (n>30)   случайная   величина  - распределена приблизительно нормально N(0,1). В результате преобразований доверительный интервал для m с надёжностью  имеет вид:

                              

Здесь - квантиль нормального распределения N(0,1) порядка (1+)/2.

3.11. Доверительный интервал для среднего квадратического отклонения  любой генеральной совокупности при большом объеме выборки

Выборочная дисперсия  является суммой большого числа практически независимых одинаково распределенных слагаемых (имеется одна связь: . В силу центральной предельной теоремы случайная величина    распределена приблизительно нормально N(0,1). В результате ряда преобразований доверительный интервал для  с доверительной вероятностью  имеет вид:

            

Здесь -безразмерная выборочная числовая характеристика , называемая выборочным эксцессом.  - выборочный 4-й центральный момент.

Вопросы для самопроверки

1. Дайте определение точечной статистической оценки.

2. Что такое статистика?

3. Какая оценка называется состоятельной, несмещенной, робастной, эффективной?

4. Какая из двух оценок считается более эффективной?

5. Что такое относительная эффективность, эффективность, асимптотическая эффективность оценки?

6. Какими свойствами обладает выборочное среднее  ?

7. Какие свойства имеет выборочная дисперсия s2 ?

8. Укажите статистические оценки математического ожидания m для случая
нормального распределения.

9. Укажите статистические оценки среднего квадратического отклонения
для случая нормального распределения.

10. Опишите метод моментов получения оценок.

11.Опишите метод максимального правдоподобия получения оценок.

12. Дайте определение доверительного интервала.

13. Что такое точность и надёжность оценки?

14. Постройте доверительный интервал для математического ожидания нормальной генеральной совокупности.

15. Постройте доверительный интервал для математического ожидания любой генеральной совокупности при большом объёме выборки.




1. модуль 4 Налоги и налогообложение Вариант 15 Определить НДС подлежащий уплате в бюджет и заполнить н
2. рефератов из интернета не принимаются
3. Задание- выбрать верныеБригадир пути осматривает все пути и стрелочные переводы не реже- 1 одного раз
4. Меркантилизм- теория и государственная политика
5. Организация здравоохранения России в годы Великой Отечественной Войны 1941-1945 гг
6. ДИПЛОМНАЯ РАБОТА на тему- Рынок ценных бумаг на примере финансовохозяйственной деятельности Ф
7. Порядок определения среднегодовой стоимости имущества предприятий
8. недосмотр законодателя
9. Докладчик- Преподаватель- Студент группы М951
10. РЕФЕРАТ Кодирование изображений
11. С точки зрения философии познание бывает- чувственное; рациональное; житейское; научное; интуитивное; худо
12. Изложение- ДБ Эльконин Психология игры
13. Мейрамхана ісі ж~не ~она~ ~й бизнесі Маманды~- 5В091200 Мейрамхана ісі ж~не ~она~ ~й бизнесі 1 билет
14. тема напуска обеспечивает испарение вещества и вводит его в массспектрометр
15. К видам мотивации относятся- а материальное стимулирование;
16. Термиты и симбиотические жгутиконосцы
17. Контрольная работа- Понятие, виды и стратегия поведения в конфликте
18. Тема 4- Организация и ее социально психологическая структура
19. Сердечные аритмии Артериальные гипертензии (Интерактивное занятие Кейс-стади)
20. Реферат- Учение о тканях (гистология)