Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

тематической статистики см

Работа добавлена на сайт samzan.net:


3. Точечные оценки неизвестных параметров

3.1. Определение и свойства точечной оценки

Большинство случайных величин, рассмотренных в курсе теории вероятностей, имели распределения, зависящие от одного или нескольких параметров. Так, биномиальное распределение зависит от параметров и , нормальное – от параметров и , распределение Пуассона – от параметра и т.п. Одной из основных задач математической статистики (см. главу 1) является оценивание этих параметров по наблюдаемым данным, т.е. по выборочной совокупности. В главе 2 были рассмотрены выборочные среднее и дисперсия, которые интерпретировались как приближенные значения неизвестных значений математического ожидания и дисперсии изучаемой случайной величины , т.е. являлись оценками этих неизвестных характеристик.

Выборочная характеристика, используемая в качестве приближенного значения неизвестного параметра генеральной совокупности, называется точечной оценкой этого параметра. В этом определении слово "точечная" означает, что значение оценки представляет собой число или точку на числовой оси.

Обозначим через некоторый неизвестный параметр генеральной совокупности, а через – точечную оценку этого параметра. Оценка есть функция от независимых экземпляров генеральной совокупности, где – объем выборки (см. п. 2.1). Поэтому оценка , как функция случайных величин, также является случайной, и свойства можно исследовать с использованием понятий теории вероятностей.

В общем случае точечная оценка не связана с оцениваемым параметром . Поэтому естественно потребовать, чтобы была близка к . Это требование формулируется в терминах несмещенности, состоятельности и эффективности.

Оценка параметра называется несмещенной, если для любого фиксированного объема выборки математическое ожидание оценки равно оцениваемому параметру, т.е.

 .    (3.1)

Поясним смысл этого равенства следующим примером. Имеются два алгоритма вычисления оценок для параметра . Значения оценок, построенных первым алгоритмом по различным выборкам объема генеральной совокупности, приведены на рис. 3.1,а, а с использованием второго алгоритма – на рис. 3.1,б. Видим, что среднее значение оценок на рис. 3.1,а совпадает с , и, естественно, такие оценки предпочтительнее по сравнению с оценками на рис. 3.1,б, которые концентрируются слева от значения и для которых , т.е. эти оценки являются смещенными.

Оценка называется состоятельной, если

,

т.е. для любого при

  .   (3.2)

Поясним смысл этого предельного соотношения. Пусть – очень малое положительное число. Тогда (3.2) означает, что чем больше число наблюдений , тем больше уверенность (вероятность) в незначительном отклонении от неизвестного параметра . Очевидно, что "хорошая" оценка должна быть состоятельной, иначе она не имеет практического смысла, так как увеличение объема исходной информации не будет приближать нас к "истинному" значению .

Предположим, что имеются две состоятельные и несмещенные оценки

 (3.3)

одного и того же параметра . Как из двух этих оценок выбрать лучшую? Каждая из них является случайной величиной, и мы не можем предсказать индивидуальное значение оценки в каждом частном случае. Однако, рассматривая в качестве меры концентрации распределения оценки около значения параметра величину, мы можем теперь точно охарактеризовать сравнительную эффективность оценок и . В качестве меры эффективности принимается отношение

.    (3.4)

Если , то оценка более эффективна, чем . В случае несмещенных оценок  , и поэтому

  ,     (3.5)

a

б

где – дисперсия оценки .

Рис. 3.1. К определению несмещенной оценки

a

б

Рис. 3.2. К определению эффективной оценки

 

Таким образом, несмещенная оценка параметра называется несмещенной эффективной, если она среди всех других несмещенных оценок того же параметра обладает наименьшей дисперсией.

Приведенная на рис. 3.2,а оценка является более эффективной по сравнению с оценкой, значения которой нанесены на рис. 3.2,б (почему?).

Как же выяснить, является ли несмещенная оценка эффективной? Очевидно, для этого необходимо сравнить дисперсию этой оценки с минимальной дисперсией.

Для широкого класса оценок неравенство Рао–Крамера указывает точную нижнюю границу для дисперсий различных оценок одного и того же параметра. Если существует оценка, дисперсия которой в точности равна этой нижней границе, то она называется эффективной оценкой. Оценка, имеющая наименьшую дисперсию среди оценок данного класса, называется эффективной в данном классе оценок. Поясним понятие эффективной оценки несколькими примерами.

Предположим, что генеральная совокупность распределена по нормальному закону с параметрами и , причем – математическое ожидание, подлежащее оценке, а – известная дисперсия. Оказывается, что для любой несмещенной регулярной оценки имеет место неравенство

 ,    (3.6)

где – объем выборки, по которой производится оценивание. Если в качестве принять , то дисперсия этой оценки, как будет показано ниже, равна , т.е. – эффективная оценка параметра а, так как для нее достигается нижняя грань в неравенстве (3.6).

Рассмотрим на примере понятие эффективной в данном классе оценки. Предположим, что один и тот же предмет, истинная величина которого равна , измеряется раз различными приборами, имеющими различную точность. Пусть – результаты i-го измерения. Тогда

если считать, что измерения проводятся без систематических ошибок. Дисперсия характеризует точность измерений. Для оценки истинного значения параметра рассмотрим класс линейных оценок, т.е. оценок вида

,

где – некоторые неизвестные константы. Из всех несмещенных оценок данного класса нужно выбрать ту, которая имеет наименьшую дисперсию.

Из несмещенности оценок получим

.

Значит,

   (3.7)

Пользуясь свойствами дисперсии и независимостью проведенных измерений, получим

.

Числа должны удовлетворять условию (3.7) и обеспечивать минимум функции

.

Мы получим задачу на условный экстремум, которую можно решить с помощью функции Лагранжа:

.

Найдем критические точки функции Лагранжа:

;

.

Отсюда находим значение

    (3.8)

Полученный результат имеет простой физический смысл: чем меньше точность данного прибора, тем с меньшим значением коэффициента его результат должен входить в оценку.

Заметим, что если все приборы имеют одинаковую точность, т.е. , то и в качестве оценки получим .

3.2. Точечная оценка математического ожидания

Математическое ожидание генеральной совокупности назовем генеральной средней , т.е.

.

Теорема 3.1. Выборочное среднее есть состоятельная и несмещенная оценка генеральной средней .

Доказательство. Вначале покажем, что есть состоятельная оценка для , т.е.

.

По следствию из теоремы Чебышева для одинаково распределенных случайных величин имеем

.

Так как , то, используя свойства математического ожидания, получим

Теорема доказана.

Теорема 3.2. Пусть случайная величина имеет нормальное распределение , где – математическое ожидание, – дисперсия случайной величины . Тогда выборочное среднее является эффективной несмещенной оценкой для .

Доказательство. Необходимо показать, что дисперсия совпадает с минимальной дисперсией, равной в случае нормального распределения , а ее математическое ожидание равно .

Найдем дисперсию :

.      (3.9)

Мы проверили при доказательстве теоремы 3.1, что . Так как дисперсия равна минимальному значению, то выборочное среднее является эффективной несмещенной оценкой.

Теорема доказана.

Таким образом, показано, что выборочное среднее имеет все три свойства "хорошей" оценки. Этим и объясняется ее широкое использование в качестве оценки математического ожидания генеральной совокупности.

Напомним, что по конкретной выборке вычисляется (см. (2.10)–(2.12)) "конкретное" значение , являющееся одним из множества возможных значений случайной величины .

3.3. Точечные оценки дисперсии

Дисперсию генеральной совокупности будем называть генеральной дисперсией , т.е.

.   (3.10)

Теорема 3.3. Выборочная дисперсия является состоятельной, но смещенной оценкой генеральной дисперсии .

Доказательство. Получим сначала формулу для вычисления . Согласно определению

.

С другой стороны,

Тогда из определения дисперсии следует

.

Воспользовавшись теперь следствием из теоремы Чебышева для одинаково распределенных случайных величин и свойствами предела по вероятности, получаем

и, значит,

.

Следовательно, выборочная дисперсия является состоятельной оценкой для генеральной дисперсии. Вычислим математическое ожидание и убедимся, что . Имеем

,

где означает сумму произведений величин и для всех значений и от 1 до , но не равных между собой. Так как и независимы при , то

.

Поэтому, продолжая вычисления , получаем

Множитель объясняется тем, что по правилу произведения количество различных пар ( при равно . Итак, мы получили, что

,   3.11)

следовательно, Dв – смещенная оценка для генеральной дисперсии.

Теорема доказана.

Полученная формула (3.11) для вычисления математического ожидания выборочной дисперсии позволяет указать состоятельную и несмещенную оценку для генеральной дисперсии. Для этого рассмотрим случайную величину

 ,    (3.12)

называемую исправленной дисперсией. Понятно, что

,

так как при . С другой стороны,

.

Тем самым доказана

Теорема 3.4. Исправленная дисперсия является состоятельной и несмещенной оценкой для генеральной дисперсии .

Заметим, что для выборок большого объема множитель близок к 1, поэтому случайные величины и мало отличаются друг от друга. Однако для выборок малого объема это отличие может быть существенным.

Возникает вопрос: будет ли несмещенная оценка эффективной?

Предположим, что случайная величина подчиняется нормальному распределению , а величины , как обычно, – независимых экземпляров независимой величины Х. Тогда минимальная дисперсия несмещенной оценки для дисперсий равна

.            (3.13)

В п. 4.1 будет показано, что величина представима в виде

 ,   (3.14)

где – случайная величина, имеющая 2-распределение с степенями свободы. Поэтому

,      (3.15)

из этого следует

 .   (3.16)

Следовательно, , будучи несмещенной оценкой дисперсии , не является эффективной оценкой. Однако при достаточно больших увеличение по сравнению с пренебрежимо мало.

Заметим, что несмещенная эффективная оценка дисперсии нормально распределенной величины имеет вид:

.

Однако в эту формулу входит математическое ожидание , которое, как правило, заранее неизвестно.

3.4. Точечная оценка вероятности события

Обозначим через неизвестную вероятность события в одном испытании. Для оценивания проведем независимых испытаний, в которых событие произошло раз. Тогда случайная величина

    (3.17)

является частностью (относительной частотой) события . Свойства этой точечной оценки определяет

Теорема 3.5. Относительная частота появления события в испытаниях есть состоятельная, несмещенная и эффективная оценка вероятности .

Доказательство. Состоятельность оценки вытекает из теоремы Бернулли, согласно которой для любого выполняется неравенство

 ,  (3.18)

или в других обозначениях:

.

Для доказательства несмещенности этой оценки зафиксируем число испытаний . Найдем математическое ожидание частности m/n, имея в виду, что в условиях испытаний Бернулли величина т имеет биномиальный закон распределения с характеристиками М(т) = пр, D(m) = пр(1 р). Имеем

.

Следовательно, является несмещенной оценкой вероятности р(А).

Для доказательства эффективности укажем, что минимум среди дисперсий различных несмещенных оценок вероятности р(А) равен

.   (3.19)

Определим дисперсию оценки :

.

Так как D(p*) совпадает с минимальной дисперсией , то частность р*, будучи несмещенной оценкой, является также и эффективной.

Теорема доказана.

3.5. Метод максимального правдоподобия

В предыдущих пунктах были рассмотрены различные точечные оценки, являющиеся некоторыми функциями от результатов наблюдения. Однако осталось неясным, почему были взяты именно эти функции. Рассмотрим один из методов, позволяющих их получить. Для понимания его сущности обратимся к следующему примеру.

Предположим, что график плотности распределения генеральной совокупности Х имеет вид равнобедренного треугольника АВС, длина основания и высота которого зафиксированы, а неизвестным параметром является абсцисса точки D – середины отрезка АВ. Пусть выборка из генеральной совокупности X. Зададимся вопросом: в какую точку оси абсцисс необходимо поместить точку D, если в результате опыта получена именно выборка ? Конечно, никаких ограничений для ее расположения на оси х нет. Но если мы сдвинем треугольник далеко влево или вправо от элементов выборки, то вероятность получения выборки, попавшей в промежуток , которому принадлежит точка D, будет равна нулю, так как

.

Поэтому точка D должна лежать в "гуще" выборки, т.е. таким образом, чтобы значения ординат были в совокупности как можно больше. Тогда становится правдоподобным получение именно выборки . Данный метод называется методом максимального правдоподобия. Итак, параметр , согласно этому методу, нужно выбирать так, чтобы вероятность получения набора значений случайной величины Х при этом значении  была наибольшей. Конечно, о вероятности получения данного набора значений мы строго можем говорить лишь в том случае, когда рассматриваемая генеральная совокупность распределена дискретно. Напомним, что для непрерывных случайных величин любые конкретные значения появляются с нулевой вероятностью. Поэтому метод максимального правдоподобия имеет некоторые различия в случае дискретных и непрерывных генеральных совокупностей.

Дискретная генеральная совокупность. Пусть Х дискретная генеральная совокупность, распределение которой зависит от некоторого параметра , т.е.

,

где j = 1,..., m; y1,…, ym  все различные значения, которые может принимать случайная величина X, а вероятности, с которыми эти значения появляются, зависят от параметра . Предположим, что выборка из генеральной совокупности X, причем значение yj встречается в выборке nj раз, т.е. nj частота значения yj, и поэтому имеет место равенство

.

Учитывая независимость случайных величин , вероятность получения выборки можно представить как

.

Эта вероятность есть функция от , которая называется функцией максимального правдоподобия и обозначается .

Учитывая, что значение встречается в выборке nj раз, получаем

.

Как уже было сказано, суть метода максимального правдоподобия состоит в том, что в качестве параметра берется такое значение, которое максимизирует функцию . Полученное значение, если оно существует, является функцией от, т.е. . Заменяя элементы случайными величинами, получаем оценку максимального правдоподобия .

Точка максимума функции удовлетворяет нелинейному (в общем случае) уравнению

 ,   (3.20)

и поэтому конкретное значение оценки определяют как корень уравнения (3.20).

Функции и достигают максимума при одном и том же значении . Поэтому вместо отыскания максимума функции находят максимум функции ln. Эта функция получила название логарифмической функции правдоподобия.

Построение оценки максимального правдоподобия можно разбить на следующие этапы:

Этап 1. Определяют производную логарифмической функции правдоподобия по параметру .

Этап 2. Приравнивая производную к нулю, находят критическую точку корень уравнения правдоподобия

.

Этап 3. Находят вторую производную и ее значение в точке . Если вторая производная в точке меньше нуля, то в точке функция достигает максимума.

Найденная таким образом является функцией случайных величин и, следовательно, сама является случайной величиной. Конкретное значение оценки получается при подстановке в вместо значений выборки .

Непрерывная генеральная совокупность. Рассмотрим случай, когда генеральная совокупность имеет непрерывный ряд распределения. Функцию максимального правдоподобия определим по правилу

,

где плотность распределения генеральной совокупности. Все остальное, изложенное для дискретного случая, переносится на непрерывный.

Пример 3.1. Проводится п независимых опытов, в каждом из которых событие А повторяется с неизвестной вероятностью р. Рассмотрим генеральную совокупность Х количество появлений события А в одном опыте. По выборке из генеральной совокупности Х необходимо оценить параметр р.

Решение. Выборка состоит из нулей и единиц, причем , если в i-м опыте событие А произошло, и , если событие не произошло. Предположим, что т частота появления события А в п опытах. Тогда выборка содержит единиц и нулей. Так как , то

.

Найдем точку максимума логарифмической функции максимального правдоподобия

.

Определим из уравнения

критическую точку. Имеем

.

Решая уравнение

,

находим . Убедимся, что при данном значении параметра функция достигает максимума. Для этого нужно проверить, что

.

Подставляя в это неравенство вместо значение, убеждаемся в его справедливости. Значит, – оценка максимального правдоподобия, т.е. . Заметим, что полученная оценка относительная частота является состоятельной и несмещенной оценкой для параметра . ☻

Пример 3.2. Найти оценку максимального правдоподобия для параметра распределения Пуассона.

Решение. Напомним, что распределение Пуассона имеет вид

,

где принимает любые целые неотрицательные значения. Пусть – выборка из генеральной совокупности . Тогда

.

Преобразовав произведение, получим

.

Поэтому логарифмическая функция максимального правдоподобия имеет вид:

.

Находим критическую точку, решая уравнение

.

Получим

.

Отсюда . Так как

при , то найденная критическая точка есть точка максимума. Поэтому оценка максимального правдоподобия для параметра является случайной величиной

т.е. . ☻

Пример 3.3. Найти оценку максимального правдоподобия для параметра показательного распределения

  (3.21)

Решение. По выборке , состоящей из положительных чисел, находим

.

Поэтому

.

Решая уравнение

,

находим . Так как условие

при выполняется, то оценкой максимального правдоподобия для параметра является

. ☻

Пример 3.4. Найти оценки максимального правдоподобия для параметров а и нормально распределенной генеральной совокупности.

Решение. Учитывая, что плотность распределения в данном случае

,

получим по выборке

Отсюда

Находим критические точки этой функции, решая систему уравнений

.

Вычисляя частные производные, получим

,

.

Отсюда

;    (3.22)

.   (3.23)

Проверим, что при найденных значениях и функция принимает максимальное значение. Для этого нужно проверить выполнение неравенств

,  

Вычислим вторые производные:

;

;

. (3.24)

Подставляя значения для и из (3.22) и (3.23), получаем:

 (3.25)

 

где – значения выборочной дисперсии.

Вычисляя определитель в критической точке, получим

.

Поэтому при значениях и , определенных по формулам (3.22) и (3.23), функция принимает максимальное значение. Следовательно, оценками максимального правдоподобия будут

. ☻

 Пример 3.5. Генеральная совокупность распределена равномерно на интервале . По выборке оценить параметры и .

Решение. Найдем оценки максимального правдоподобия для параметров и . Плотность генеральной совокупности имеет вид:

 .  (3.26)

Поэтому функция максимального правдоподобия

равна нулю, если хотя бы один сомножитель произведения равен нулю, и больше нуля, если все значения лежат на интервале , т.е.

.  (3.27)

Тогда . Значение этой функции будет максимальным, если величина минимальна. Учитывая (3.27), получим

,

т.е.     . ☻

3.6. Вычисление точечных оценок в Excel

Вычисление исправленной дисперсии. В п. 3.3 показано, что оценка

   (3.28)

является несмещенной точечной оценкой для дисперсии случайной величины, и такую оценку часто называют исправленной дисперсией.

Для вычисления выборочного значения этой оценки можно использовать статистическую функцию Excel ДИСП, обращение к которой имеет вид:

=ДИСП(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числа или адреса ячеек, содержащих числовые величины.

♦ Пример 3.6. По выборке примера 2.3 вычислить оценку (3.28).

Решение. Первоначально, начиная с ячейки А3, введем в столбец А 55 элементов выборки (рис. 3.3). Затем, используя функции КВАДРОТКЛ, ДИСП (как показано на рис. 3.3), вычислим оценку (3.28). Видно ожидаемое совпадение двух вычисленных значений. ☻

Рис. 3.3. Фрагмент вычисления исправленной дисперсии

Вычисление оценок максимального правдоподобия. В п. 3.5 были рассмотрены оценки, вычисляемые из условия максимума функционала правдоподобия. В приведенных примерах из условий максимума были получены алгебраические уравнения, решения которых определялись достаточно просто.

В общем случае не удается получить таких простых соотношений и оценки вычисляются непосредственным определением точек максимума функционала правдоподобия, т.е. необходимо решить оптимизационную задачу.

Для решения такой задачи в Excel есть команда Поиск решения пункта меню Сервис. Эта команда позволяет решать не только задачи безусловной оптимизации, но и задачи условной оптимизации, т.е. когда ищется максимум функционала с учетом дополнительных ограничений на значения искомых оценок. Например, значение дисперсии не может быть отрицательным.

Применение команды Поиск решения для вычисления оценок максимального правдоподобия покажем на следующем примере.

Пример 3.7. По выборке примера 2.3 вычислить оценки максимального правдоподобия для математического ожидания и дисперсии из условия максимума функционала правдоподобия вида:

,         (3.29)

предполагая при этом, что выборка порождена случайной величиной, подчиняющейся нормальному распределению.

Решение. Первоначально, начиная с ячейки А3, введем в столбец А 55 элементов выборки (диапазон А3:А57). Затем в ячейку С8 занесем произвольное значение (например, 10), в ячейку D8 – значение (например, значение 4 > 0), в ячейке Е8 вычислим . В ячейках В3:В57 запрограммируем вычисление разностей (рис. 3.4). В ячейке С5 запрограммируем вычисление величины функционала (3.29). В верхней части документа на рис. 3.4 показана запрограммированная формула.

После этих подготовительных операций можно перейти к выполнению команды Поиск решения. Для этого необходимо обратиться к пункту основного меню Сервис и в появившемся меню щелкнуть мышью на команде Поиск решения. Затем в появившемся диалоговом окне выполнить следующие действия (см. рис. 3.4):

  1.  в поле ввода Установить целевую ячейку: ввести адрес ячейки, в которой вычисляется значение минимизируемого функционала (в нашем примере С5);
  2.  включить опцию Равной: максимальному значению (ищутся значения, при которых функционал достигает максимального значения);
  3.  в поле Изменяя ячейки: ввести адреса ячеек, в которых находятся значения искомых оценок (в нашем примере это ячейки С8:D8);
  4.  щелкнув мышью на кнопке Добавить, сформировать ограничения на значения искомых оценок (в нашем примере это требование , чтобы не был равен –).

Рис. 3.4. Задание параметров команды Поиск решения

После выполнения этих операций щелкнуть на кнопке Выполнить. Начинается поиск решения введенной оптимизационной задачи. Спустя некоторое время на экране появится новое диалоговое окно Результаты поиска решения (рис. 3.5). Для сохранения найденных значений оценок в соответствующих ячейках необходимо включить опцию Сохранить найденное решение и щелкнуть на кнопке ОК.

Рис. 3.5. Результаты выполнения команды Поиск решения

Из рис. 3.5 видно, что вычисленные значения оценок находятся в ячейках С8, D8 и равны а = 17.907,  = 2.933. Ячейка С5 содержит значение максимизируемого функционала, равное –137.22. Сравнивая вычисленные значения оценок и с выборочными оценками примера 2.11 (см. рис. 2.7), видим их полное совпадение. ☻

Задание 3.1. Предполагая, что выборка примера 2.1 порождена случайной величиной, имеющей показательное распределение (3.21), вычислить оценку максимального правдоподобия для параметра , используя команду Поиск решения.

Рекомендация. Оценку максимального правдоподобия осуществлять из условия максимума функционала

при ограничении. При вызове команды Поиск решения использовать пример 3.7. ♥

Функции Excel для вычисления других точечных оценок.

Для вычисления среднеквадратичных отклонений можно использовать следующие функции Excel.

Функция СТАНДОТКЛОН  вычисляет

.

Обращение к ней имеет вид:

=СТАНДОТКЛОН(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, содержащих числовые данные.

Функция СТАНДОТКЛОНП вычисляет

.

Обращение к ней имеет вид:

=СТАНДОТКЛОНП(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, содержащих числовые данные.

Функция ЭКСЦЕСС вычисляет оценку

для характеристики эксцесс , которая определяет островершинность или плосковершинность плотности распределения.

Обращение к функции имеет вид:

=ЭКСЦЕСС(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, содержащих числовые данные.

Функция МОДА вычисляет наиболее часто встречающееся значение в заданных аргументах функции, т.е. значение, встречающееся в выборке с максимальной частотой.

Обращение к функции имеет вид:

=МОДА(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, содержащих числовые данные.

Если в заданных значениях аргументов нет повторяющихся значений, то функция возвращает признак ошибки #Н/Д.

Функция МЕДИАНА вычисляет значение выборки, приходящееся на середину упорядоченной выборочной совокупности. Если выборка имеет четное число элементов, то значение функции будет равно среднему двух значений, находящихся по середине упорядоченной выборочной совокупности. Например, медиана выборки (200, 236, 250, 305, 337, 220) будет равна (236 + 250) / 2 = 243.

Обращение к функции имеет вид:

=МЕДИАНА(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, содержащих числовые данные.

Функция СКОС вычисляет оценку

для характеристики асимметрии , которая для симметричной плотности распределения равна 0.

Обращение к функции имеет вид:

=СКОС(арг1; арг2; …; арг30),

где арг1; арг2; …; арг30 – числовые константы или адреса ячеек, содержащих числовые данные.

Вычисление описательных статистик. Описательные статистики можно разделить на следующие группы:

  1.  характеристики положения описывают положение данных на числовой оси (среднее, минимальное и максимальное значения, медиана и др.);
  2.  характеристики разброса описывают степень разброса данных относительно своего центра (дисперсия, размах выборки, эксцесс, среднеквадратическое отклонение и др.);
  3.  характеристики асимметрии определяют симметрию распределения данных относительно своего центра (коэффициент асимметрии, положение медианы относительно среднего и др.);
  4.  характеристики, описывающие закон распределения (частоты, относительные частоты, гистограммы и др.).

Основные характеристики положения, разброса и асимметрии можно вычислить, используя режим Описательная статистика команды Пакет анализа.

Для вызова режима Описательная статистика необходимо обратиться к пункту Сервис, команде Пакет анализа, выбрать в списке режимов Описательная статистика и щелкнуть на кнопке ОК. В появившемся диалоговом окне Описательная статистика задать следующие параметры (рис. 3.6):

Входной интервал: – адреса ячеек, содержащих элементы выборки.

Группирование: – задает способ расположения (по столбцам или по строкам) элементов выборки.

Метки в первой строке – включается, если первая строка (столбец) во входном интервале содержит заголовки.

Рис. 3.6. Параметры режима Описательная статистика

Выходной интервал: / Новый рабочий лист: / Новая рабочая книга – определяет место вывода результатов вычислений. При включении Выходной интервал: в поле вводится адрес ячейки, начиная с которой будут выводиться результаты.

Итоговая статистика: – включается, если необходимо вывести по одному полю для каждой из вычисленных характеристик.

Уровень надежности: – включается, если необходимо вычислить доверительный интервал для математического ожидания с задаваемым () уровнем надежности .

К-й наименьший: – включается,  если необходимо вычислить к-й наименьший (начиная с ) элемент выборки. При к = 1 вычисляется наименьшее значение.

К-й наибольший: – включается, если необходимо вычислить к-й наибольший (начиная с ) элемент выборки. При к = 1 вычисляется наибольшее значение.

Пример задания параметров приведен на рис. 3.6.

Результаты работы режима Описательная статистика выводятся в виде таблицы, в левом столбце которой приводится название вычисленной характеристики (рис. 3.7), позволяющее однозначно трактовать характеристику. Тем не менее, поясним следующие названия характеристик:

  1.  Интервал – определяет размах выборки ;
  2.  Сумма – определяет сумму всех элементов выборки;
  3.  Счет – определяет число обработанных элементов выборки;
  4.  Уровень надежности – определяет величину , от которой зависит доверительный интервал для математического ожидания, имеющий вид

,

где – выборочное среднее (подробнее см. п. 4.3).

Пример 3.8. По выборке примера 2.3 вычислить описательные статистики, используя режим Описательная статистика.

Решение. Первоначально, начиная с ячейки А3, введем в столбец А 55 элементов выборки. После этого обратимся к пункту Сервис, команде Пакет анализа. В списке режимов выберем Описательная статистика. В появившемся диалоговом окне включим параметры, показанные на рис. 3.6, и щелкнем ОК. Вычисленные характеристики приведены на рис. 3.7. ☻

Рис. 3.7. Результаты работы Описательная статистика

Задание 3.2. Сравните значения характеристик (см. рис. 3.7) со значениями аналогичных характеристик, вычисленных в предыдущих примерах. ♥


4. Интервальные оценки неизвестных параметров

4.1. Некоторые распределения выборочных характеристик

Генеральные совокупности часто имеют нормальный закон распределения. В этом случае многие выборочные характеристики, в том числе , выражаются через небольшое число распределений. Как правило, в математической статистике используются не плотности этих распределений, а некоторые характеристики, представленные таблицами. Чаще всего в качестве такой характеристики выступает квантиль распределения.

Квантилем уровня или р-квантилем случайной величины Х называется такое число dp, что вероятность равна заданной величине р.

Из определения следует, что если непрерывная случайная величина Х имеет плотность распределения , то квантиль определяется равенством

.    (4.1)

Это означает, что площадь фигуры, ограниченной осью абсцисс, кривой и прямой , равна величине р. На рис. 4.1,а показан квантиль , а на рис. 4.1,б – квантиль . Площади заштрихованных фигур равны 0.1 и 0.9 соответственно.

Рассмотрим несколько распределений, которым подчиняются выборочные характеристики и которые используются для построения интервальных оценок.

Распределение 2 (распределение К. Пирсона). Пусть   независимые нормально распределенные случайные величины с параметрами (0,1). Распределение случайной величины

           (4.2)

называется распределением 2 с п степенями свободы, а сама величина  случайной величиной 2 с п степенями свободы.

Заметим, что количество степеней свободы п является единственным параметром 2-распределения и значения неотрицательны, т.е. .

p(x)

d0.1

x

а

p(x)

d0.9

x

б

Рис. 4.1. К определению квантилей случайной величины

Определим математическое ожидание величины . По определению (4.2) имеем

,

так как . Но , а значит, . Нетрудно вычислить и дисперсию случайной величины . Так как случайные величины независимы, то

.   (4.3)

Плотность распределения случайной величины N1 равна , значит,

.

Последний интеграл вычисляется методом интегрирования по частям. Далее, так как , то . Таким образом, 2-распределение с п степенями свободы имеет следующие числовые характеристики:

.  (4.4)

Согласно центральной предельной теореме, если случайные величины независимы, одинаково распределены и имеют конечные дисперсии, то последовательность асимптотически нормальна. Другими словами, при больших значениях п распределение случайной величины близко к нормальному распределению с параметрами . Однако при малых значениях п функция плотности случайной величины значительно отличается от кривой Гаусса.

На рис. 4.2 показаны плотности распределения р(x) случайной величины при и . Видно, что при увеличении плотность р(x) "приближается" к плотности нормального распределения.

Рис. 4.2. Плотность распределения 2

Обратим внимание на одно замечательное свойство распределения . Строго говоря, это свойство можно доказать, используя, например, производящие функции. Свойство состоит в том, что сумма независимых случайных величин также распределена по закону 2 с  степенями свободы. Объясняется это тем, что случайная величина представляется в виде суммы квадратов случайных величин, независимых и нормально распределенных с параметрами (0,1).

Распределение Стьюдента (t-распределение). Пусть – нормально распределенная случайная величина с параметрами , а независимая от случайная величина, подчиняющаяся распределению 2 с  степенями свободы. Тогда распределение случайной величины

    (4.5)

называется t-распределением или распределением Стьюдента. Сама случайная величина (4.5) называется t-величиной с п степенями свободы. Плотность вероятности случайной величины имеет вид , где некоторая константа, удовлетворяющая условию нормирования . При больших значениях п кривая близка к кривой нормального распределения . Поэтому в практических расчетах при п > 30 часто считают, что

.

Заметим, что функция плотности симметрична относительно оси ординат.

Распределение Фишера (F-распределение). Пусть и  независимые случайные величины, имеющие 2-распределение с п и m степенями свободы соответственно. Распределение случайной величины

    (4.6)

называется F-распределением или распределением Фишера с п и m степенями свободы, а сама величина (4.6) –величиной. Так как случайные величины и то .

В дальнейшем мы часто будем ссылаться на следующую теорему о распределении выборочных характеристик  и , доказанную Р. Фишером.

Теорема 4.1 (о распределении выборочных характеристик). Если генеральная совокупность Х распределена по нормальному закону с параметрами и , то:

а) случайная величина распределена нормально с параметрами ;

б) имеет распределение ;

в) случайные величины и независимы.

Мы не будем полностью доказывать эту теорему, а ограничимся доказательством утверждения а). Очевидно, что есть линейная комбинация

независимых, нормально распределенных случайных величин. Как отмечалось в курсе теории вероятностей, в этом случае случайная величина распределена нормально. Легко получить, что

,

.

Тем самым первое утверждение теоремы доказано.

Как следует из в), используя случайные величины и , можно составить случайную величину . Действительно, пронормировав , получим . Так как и независимы, то по (4.5)

.

Итак, мы получили

Следствие. Если условия теоремы о распределении выборочных характеристик выполнены, то случайная величина

имеет распределение Стьюдента с () степенями свободы.

Напомним, что исправленная дисперсия определяется как

.

Тогда получаем новое

Следствие. Если условия теоремы о распределении выборочных характеристик выполнены, то случайная величина

имеет распределение с () степенями свободы.

4.2.  Понятие интервальной оценки параметра случайной величины

Вычисляя на основании результатов наблюдений точечную оценку неизвестного параметра , мы понимаем, что величина является (в силу своей случайности) лишь приближенным значением параметра . При большом числе наблюдений точность приближения бывает достаточной для практических выводов в силу несмещенности, состоятельности и эффективности "хороших" оценок. Для выборок малого объема точечные оценки могут значительно отличаться от оцениваемого параметра и вопрос о точности получаемых оценок становится очень важным. В математической статистике он решается введением интервальных оценок.

Интервальной оценкой для параметра  называется такой интервал со случайными границами, что

 .    (4.7)

Вероятность называется надежностью интервальной оценки или доверительной вероятностью, случайные величины доверительными границами, а сам интервал иногда называют доверительным интервалом. Центром этого интервала является значение точечной оценки .

Надежность принято выбирать равной 0.95, 0.99. Тогда событие, состоящее в том, что интервал покроет параметр , будет практически достоверным.

Общая теория построения интервальных оценок заключается в определении случайной величины, зависящей от оцениваемого параметра. Зная распределение этой случайной величины, находят соответствующие доверительные границы и сам доверительный интервал с требуемой точностью. Посмотрим, как эта идея реализуется для различных параметров.

4.3. Интервальные оценки математического ожидания нормального распределения

Пусть генеральная совокупность Х распределена по нормальному закону , причем параметр известен, а параметр требуется оценить с надежностью . По теореме о распределении выборочных характеристик случайная величина распределена по закону . На рис. 4.3 изображен график функции плотности этой случайной величины, т.е. кривая . Выберем число так, что заштрихованная площадь равна , т.е.

.        (4.8)

х

р(х)

Рис. 4.3. К построению доверительных интервалов

Это значение легко находится с использованием интегральной функции Лапласа . Действительно,

. (4.9)

Значение , удовлетворяющее нелинейному уравнению

,    (4.10)

находится по табл. П1.

Так как  > 0, то события  и эквивалентны, а значит, их вероятности равны:

.     (4.11)

Таким образом, для параметра мы построили доверительный интервал (интервальную оценку), левая граница которого , правая, а точность. Центр этого интервала находится в точке с координатой , а длина интервала . Если объем выборки неограниченно возрастает, то интервал стягивается в одну точку , которая является состоятельной и несмещенной оценкой для параметра .

Пример 4.1. По выборке объема п = 9 найдено среднее значение . Считая, что генеральная совокупность распределена по нормальному закону с , определить интервальную оценку для математического ожидания с надежностью .

Решение. Используя табл. П1, находим, что

при . Тогда  и доверительный интервал (4.11) имеет границы . Таким образом, с вероятностью 0.95 можно быть уверенным в том, что интервал

    (4.12)

накроет параметр или, другими словами, с вероятностью 0.95 значение дает значение параметра а с точностью = 1.31.

Заметим, что эта трактовка неверна, если вместо случайной величины использовать вычисленное по конкретной выборке значение = 1.5. Тогда границы интервала (0.19, 2.81) будут не случайными и возможны два случая:

  1. точка а лежит внутри этого интервала, тогда

Р(0.19 < а < 2.81) = 1;

  1. точка а не лежит внутри (0.19, 2.81), тогда

Р(0.19 < а < 2.81) = 0.

Поэтому только для интервала (4.12) со случайными границами можно утверждать, что

.

Определим теперь интервальную оценку для неизвестной генеральной средней нормально распределенной генеральной совокупности Х в том случае, когда генеральная дисперсия  неизвестна, т.е. построим доверительный интервал для параметра , если параметр  неизвестен.

В отличие от предыдущего случая, вместо случайной величины , распределенной по закону , рассмотрим случайную величину , которая согласно следствию из теоремы 4.1 распределена по закону Стьюдента . При заданном значении , пользуясь табл. П2, вычислим значение из условия

,   (4.13)

где надежность интервальной оценки. Заметим, что в табл. П2 означает не число степеней свободы, а объем выборки. Число степеней свободы будет равно .

Замена случайной величины на случайную величину вызвана тем, что закон распределения последней случайной величины известен и в ее запись не входит неизвестный в данном случае параметр . Из условия (4.13) получаем

.

Таким образом, интервальная оценка надежности для неизвестной генеральной средней а имеет границы

.

Выразим границы интервала через исправленную дисперсию . Так как , то . Поэтому

.

Значит, границы доверительного интервала можно записать как

,    (4.14)

а точность интервальной оценки определить соотношением

.     (4.15)

Как и в предыдущем случае, центр интервала находится в точке , но длина интервала является случайной величиной, принимающей тем меньшие значения, чем больше значение п. Это объясняется тем, что наличие большей информации о генеральной совокупности Х позволяет сузить интервал.

Пример 4.2. По выборке объема п = 9 из нормально распределенной генеральной совокупности найдены значения и . Построить интервальную оценку для математического ожидания с надежностью .

Решение. Пользуясь табл. П2, находим величину . Тогда точность  определяется соотношением (см. (4.15)): , а интервальная оценка имеет границы , которые зависят от двух случайных величин: и S. Подставляя вместо S ее вычисленное значение s = 2, получаем интервал

.

Сравнивая эту оценку с интервальной оценкой примера 4.1 (см. (4.12)), видим, что замена неизвестной величины вычисляемой величиной s приводит к уменьшению точности интервальной оценки и увеличению длины доверительного интервала. Подставив вместо случайной величины ее конкретное значение , получаем конкретное значение границ (0, 3).

4.4. Интервальные оценки дисперсии нормального распределения

Как и при построении интервальных оценок для математического ожидания, в данном случае также необходимо определить случайную величину, распределение которой было известно и включало оцениваемый параметр . В соответствии с теоремой 4.1 такой отправной точкой для построения доверительного интервала может быть случайная величина , распределенная по закону 2 с степенями свободы. Заметим, что доверительные интервалы, построенные для параметра , вообще говоря, можно было выбрать несимметричными относительно и это не противоречило бы определению интервальной оценки. Но такой выбор интервала, когда в его середине лежит состоятельная и несмещенная оценка параметра, являлся предпочтительным. В данном случае целесообразно выбрать два предела и так, что

,

где – надежность интервальной оценки.

Следовательно, – квантиль -распределения уровня , – уровня . Тогда имеет место равенство , а интервал

    (4.16)

является интервальной оценкой для надежности .

Так как , то и интервал

   (4.17)

является также интервальной оценкой для дисперсии 2 надежности .

Заметим, что границы интервалов (4.16), (4.17) являются случайными величинами (почему?) и с вероятностью можно утверждать, что интервалы (4.16), (4.17) накроют неизвестную дисперсию .

 Пример 4.3. По выборке объема п = 20 из нормально распределенной генеральной совокупности вычислено значение дисперсии выборки . Построить интервальную оценку для параметра 2 надежности = 0.96.

Решение. Значения , находим из условий:

Эти условия означают, что есть квантиль 2-распределения с 19 степенями свободы уровня 0.02, а квантиль уровня 0.98. По табл. П3 квантилей 2-распределения находим

; .

Тогда интервальная оценка (4.16) принимает вид

.

Подставляя вычисленное значение случайной величины , получаем

 

4.5. Интервальная оценка вероятности события

В п. 3.4 было показано, что "хорошей" точечной оценкой вероятности р события является частность (см. (3.17)), где п общее число независимых испытаний, в каждом из которых событие А может произойти с вероятностью р, а m  число испытаний, в которых произошло событие А.

Зададимся надежностью интервальной оценки и найдем числа , такие, чтобы выполнялось соотношение

.   (4.18)

Интервальную оценку построим для двух случаев: когда число испытаний п сравнительно велико и для малого числа испытаний.

Интервальная оценка вероятности при большом числе испытаний. Если , то распределение случайной величины можно аппроксимировать нормальным распределением . Следовательно, при этих же условиях распределение величины близко к нормальному с нулевым математическим ожиданием и единичной дисперсией, т.е.

.

По аналогии с (4.8) найдем такое число x , для которого справедливо равенство

.   (4.19)

Это число является корнем уравнения

,

где – функция Лапласа, и корень может быть найден с помощью табл. П1.

Неравенство, стоящее в скобках выражения (4.19), разрешим относительно р. Для этого неравенство перепишем в виде эквивалентного неравенства . Возведем в квадрат, в результате получим . Далее, возведя в квадрат и перенеся все члены влево, получим

.

Корни и квадратного трехчлена, стоящего в правой части неравенства, определяются выражениями

 (4.20)

.   (4.21)

Корни этого уравнения и являются границами интервальной оценки (4.18)

.    (4.22)

Если п >> 100, то для вычисления можно использовать приближенные формулы:

(4.23)

Видно, что границы интервала (4.18) являются случайными величинами и конкретные значения границ получаются в результате подстановки наблюдаемого значения случайной величины р*.

Пример 4.4. Событие А в серии из п = 100 испытаний произошло т = 78 раз. Построить интервальную оценку для вероятности р события с надежностью .

Решение. Значение точечной оценки вероятности р равно . По табл. П1 определяем и вычисляем по формулам (4.20), (4.21) значения при . Таким образом, получили реализацию доверительного интервала (0.705, 0.848) для вероятности р события А.

Интервальная оценка вероятности при малом числе испытаний. При малом числе испытаний п предположение о приближенном распределении случайной величины m по нормальному закону становится несправедливым. Для описания распределения величины необходимо использовать формулу Бернулли:

.

Можно показать, что граничные точки интервальной оценки (4.18) являются решениями следующих нелинейных уравнений:

;   (4.24)

,   (4.25)

где надежность интервальной оценки. Вновь заметим, что решения  этих уравнений являются случайными величинами (почему?) и только при подстановке конкретного значения т (количество испытаний, в которых появилось событие А) будут получены конкретные значения граничных точек интервальной оценки (4.18).

Корни уравнений (4.24), (4.25) могут быть найдены одним из известных численных методов решения нелинейных уравнений. Кроме этого, существуют специальные таблицы для нахождения , удовлетворяющих уравнениям (4.24), (4.25) по заданным . Фрагмент этих таблиц представлен в приложении (табл. П4).

♦ Пример 4.5. В пяти испытаниях событие А произошло три раза. Построить интервальную оценку для вероятности р события А с надежностью .

Решение. Из условий примера имеем п = 5, m = 3, = 0.95. По табл. П4 находим , а интервальная оценка определяется как (0.147,0.947).

Сравнивая интервальные оценки примеров 4.4, 4.5, видим, что длина доверительного интервала для примера 4.5 (равная 0.8) существенно больше длины доверительного интервала примера 4.4 (0.143). Это является следствием разного объема выборок (n = 5 и n = 100) и различных дисперсий случайной величины .

4.6. Вычисление границ доверительных интервалов в Excel

Границы доверительных интервалов зависят от некоторой величины, которая зависит от распределения точечной оценки и доверительной вероятности. Эта величина находится по специальным таблицам. Поэтому часто возникает необходимость интерполяции или экстраполяции табличных данных и, следовательно, требуются дополнительные вычисления. В табличном процессоре Excel определены функции, позволяющие вычислять величины, входящие в интервальные оценки для различных числовых характеристик случайной величины.

Вычисление величины , входящей в доверительный интервал (4.11):

.    (4.26)

Величина является корнем нелинейного уравнения (4.10) и вычисляется с помощью функции НОРМСТОБР:

,

где – надежность интервальной оценки (4.26).

Вычисление величины  осуществляется с помощью функции ДОВЕРИТ:

,

где , – известное среднеквадратичное отклонение, – объем выборки. Тогда интервальную оценку (4.26) можно записать в виде .

Вычисление величины , входящей в доверительный интервал

,

осуществляют с использованием функции СТЬЮДРАСПОБР, обращение к которой имеет вид:

,

где , число степеней свободы (обратите на это внимание).

Вычисление величин , , входящих в доверительный интервал (4.17), для дисперсии :

,

где – исправленная дисперсия. Используется функция ХИ2ОБР:

;

  ,

где , – надежность интервальной оценки.

Задание 4.1. Используя функции Excel, вычислите интервальные оценки для примеров 4.1 и 4.2. ♥

Задание 4.2. Используя функции Excel, вычислите интервальные оценки для примера 4.3. ♥




1. шествляться однообразно по единой методике
2. Курсовая работа- Локальная вычислительная сеть бухгалтерского отдела.html
3. 2014 уч.года Дисциплина Преподаватель вид атте
4. Реферат- Розвиваючі ігри
5. Шоковой терапии
6. Реферат- Культура як соціальне явище
7. МОДУЛЬ 2 ОНТОЛОГІЯ Семінар 3 6 неділя ФІЛОСОФС
8. Персонифицированный учет в системе государственного пенсионного страхования
9. Сбербанк России.
10. Тема5Бойове застосування ЗРК 9К33М3 при підготовці до ведення бою
11. тема1
12. Основные концепции и методология анализа конкурентоспособности продукции промышленных предприятий
13. Управления труда и занятости Орловской области 2
14. Страшные сказки о безопасности Windows и Интернет
15. Особенности формирования ценностно-мотивационной сферы социального работника
16. 1 Наименование работ и процессов- Разбивка трассы газопровода трассировка срезка растительного с
17. Первая разновидность наиболее характерна для США Канады Австралии и Новой Зеландии
18. У лукоморья дуб зеленый это стихотворение я помню выучил еще в 5 лет романтичное Я помню чудное мгновен
19. тема- ldquo;Мотивация преступного поведения ldquo; Слушателя 1го курса заочного факул
20. Строение Земли Вулканизм и землетрясения Тектоника материков Атмосфера Земли, климат и погода