Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Лекция 2: Построение вариационных рядов и вычисление
статистических характеристик (3 часа +2 часа ПЗ)
Основные вопросы лекции:
1. Введение
2. Первичная статистическая совокупность, её упорядочение.
3. Выборочная функция распределения.
4. Выборочные числовые характеристики распределения.
5. Группированный статистический ряд. Гистограмма.
6. Выравнивание статистических распределений.
7. Заключение
2.1. Введение
В своей практике естествоиспытателю приходится обрабатывать большие массивы данных, полученных в результате эксперимента путем измерений, наблюдений, анализа проб и т.п. Часто этим данным присуща изменчивость, вызванная случайными ошибками. Природа этих ошибок может быть различной: погрешность измерительных приборов, неоднородность образцов проб и др. Как правило, экспериментатор имеет возможность многократно повторить свой опыт и получить большое количество однородных данных. Затем перед исследователем встает задача обработки этих данных, чтобы извлечь как можно более точную информацию об измеряемой величине. Решение этих задач основано на базовых принципах и методах статистической обработки данных.
Задачи, решаемые математической статистикой, являются, в некотором смысле, обратными задачам теории вероятностей. Вероятностные задачи, как правило, устроены следующим образом: распределения случайных величин считаются изначально известными, основываясь на знании этих распределений требуется найти вероятности различных событий, математические ожидания, дисперсии, моменты распределений и т.п. В статистических задачах само распределение считается неизвестным, и целью исследования является получение более или менее достоверной информации об этом распределении на основе данных, собранных в результате наблюдений (экспериментов). Основополагающее понятие в вероятностно-статистических методах принятия решений выборка. Выборка это набор наблюдаемых значений или множество объектов, отобранные из изучаемой совокупности. Например, единицы продукции, отобранные из контролируемой партии или потока продукции для контроля и принятия решений. Наблюдаемые значения обозначим x1, x2,…, xn, где n объем выборки, т.е. число наблюдаемых значений, составляющих выборку. В вероятностной модели выборки первого вида наблюдаемые значения обычно рассматривают как реализацию независимых одинаково распределенных случайных величин . При этом считают, что полученные при наблюдениях конкретные значения x1, x2,…, xn соответствуют определенному элементарному событию , т.е. .
При повторных наблюдениях будут получены иные наблюдаемые значения, соответствующие другому элементарному событию . Цель обработки статистических данных состоит в том, чтобы по результатам наблюдений, соответствующим элементарному событию , сделать выводы о вероятностной мере Р и результатах наблюдений при различных возможных .
Применяют и другие, более сложные вероятностные модели выборок. Например, цензурированные выборки соответствуют испытаниям, проводящимся в течение определенного промежутка времени. При этом для части изделий удается замерить время наработки на отказ, а для остальных лишь констатируется, что наработки на отказ для них больше времени испытания. Для выборок второго вида отбор объектов может проводиться в несколько этапов. Например, для входного контроля сигарет могут сначала отбираться коробки, в отобранных коробках блоки, в выбранных блоках пачки, а в пачках сигареты. Четыре ступени отбора. Ясно, что выборка будет обладать иными свойствами, чем простая случайная выборка из совокупности сигарет.
Из приведенного выше определения математической статистики следует, что описание статистических данных дается с помощью частот. Частота это отношение числа Х наблюдаемых единиц, которые принимают заданное значение или лежат в заданном интервале, к общему числу наблюдений n, т.е. частота это Х/n. (В более старой литературе иногда Х/n называется относительной частотой, а под частотой имеется в виду Х. (В старой терминологии можно сказать, что относительная частота это отношение частоты к общему числу наблюдений.) Обсуждаемое определение приспособлено к нуждам одномерной статистики. В случае многомерного статистического анализа, статистики случайных процессов и временных рядов, статистики объектов нечисловой природы нужны несколько иные определения понятия «статистические данные». В подавляющем большинстве практических постановок исходные статистические данные это выборка или несколько выборок. А выборка это конечная совокупность соответствующих математических объектов (чисел, векторов, функций, объектов нечисловой природы).Число Х имеет биномиальное распределение, задаваемое вероятностью р того, что случайная величина, с помощью которой моделируются результаты наблюдений, принимает заданное значение или лежит в заданном интервале, и общим числом наблюдений n. Из закона больших чисел (теорема Бернулли) следует, что при n→∞ (сходимость по вероятности), т.е. частота сходится к вероятности. Теорема Муавра-Лапласа позволяет уточнить скорость сходимости в этом предельном соотношении. Пусть требуется изучить данную совокупность объектов относительно некоторого признака. Например, рассматривая работу диспетчера (продавца, парикмахера,...), можно исследовать: его загруженность, тип клиентов, скорость обслуживания, моменты поступления заявок и т. д. Каждый такой признак (и их комбинации) образует случайную величину, наблюдения над которой мы и производим. Совокупность всех подлежащих изучению объектов или возможных результатов всех мыслимых наблюдений, производимых в неизменных условиях над одним объектом, называется генеральной совокупностью. Более строго: генеральная совокупность - это с. в. Х(w), заданная на пространстве элементарных событий , с выделенным в нем классом S подмножеств событий, для которых указаны их вероятности. Зачастую проводить сплошное обследование, когда изучаются все объекты (например перепись населения), трудно или дорого, экономически нецелесообразно (например не вскрывать же каждую консервную банку для проверки качества продукции), а иногда невозможно. В этих случаях наилучшим способом обследования является выборочное наблюдение: выбирают из генеральной совокупности часть ее объектов («выборку») и подвергают их изучению. Выборочной совокупностью {выборкой) называется совокупность объектов, отобранных случайным образом из генеральной совокупности. Более строго: выборка это последовательность Х1,Х2, ..,Хп независимых одинаково распределенных случайных величин, распределение каждой из которых совпадает с распределением генеральной случайной величины. Число объектов (наблюдений) в совокупности, генеральной или выборочной, называется ее объемом иобозначается соответственно через N и п. Конкретные значения выборки, полученные в результате наблюдений (испытаний), называют реализацией выборки и обозначают строчными буквами x1,x2…xn. Метод статистического исследования, состоящий в том, что на основе изучения выборочной совокупности делается заключение о всей генеральной совокупности, называется выборочным. Для получения хороших оценок характеристик генеральной совокупности необходимо, чтобы выборка была репрезентативной (или представительной), т. е. достаточно полно представлять изучаемые признаки генеральной совокупности. Условием обеспечения репрезентативности выборки является, согласно закону больших чисел, соблюдение случайности отбора, т. е. все объекты генеральной совокупности должны иметь равные вероятности попасть в выборку. Различают выборки с возвращением (повторные) и без возвращения (бесповторные). В первом случае отобранный объект возвращается в генеральную совокупность перед извлечением следующего; во втором - не возвращается. На практике чаще используется бесповторная выборка. Заметим, если объем выборки значительно меньше объема генеральной совокупности, различие между повторной и бесповторной выборками очень мало, его можно не учитывать.
В зависимости от конкретных условий для обеспечения репрезентативности применяют различные способы отбора: простой, при котором из генеральной совокупности извлекают по одному объекту; типический, при котором генеральную совокупность делят на «типические» части и отбор осуществляется из каждой части (например, мнение о референдуме спросить у случайно отобранных людей, разделенных по признаку пола, возраста,...); механический, при котором отбор производится через определенный интервал (например, мнение спросить у каждого шестидесятого...); серийный, при котором объекты из генеральной совокупности отбираются «сериями», которые должны исследоваться при помощи сплошного обследования. На практике пользуются сочетанием вышеупомянутых способов отбора.
Пример. Десять абитуриентов проходят тестирование по математике. Каждый из них может набрать от 0 до 5 баллов включительно. Пусть Хk- количество баллов, набранных k-м (к = 1,2,..., 10) абитуриентом. Тогда значения 0, 1, 2, 3, 4, 5 все возможные количества баллов, набранных одним абитуриентом, - образуют генеральную совокупность.
Выборка Х1,Х2,Х3,..., Х10 - результат тестирования 10 абитуриентов. Реализациями выборки могут быть следующие наборы чисел:.{5, 3. 0, 1, 4, 2, 5, 4, 1, 5} или {4, 4, 5, 3, 3, 1, 5, 5, 2, 5} или {3, 4, 5, 0, 1, 2, 4, 5, 4} и т.д.
В соответствии с поставленными основными задачами математической статистики рассмотрим абстрактный эксперимент Е. В результате его проведения мы измеряем (наблюдаем) значение х изучаемой случайной величины X. В реальных условиях случайной величиной X являются, например, высота волн в акватории, амплитуда отражённого от объекта сигнала, любой общий количественный признак определенного множества объектов.
Определение 2.1. Генеральной совокупностью называется множество возможных значений изучаемой случайной величины X с приписанным этому множеству законом распределения X: L(Х).
Примеры.
Числа, составляющие генеральную совокупность, называются ее элементами. Закон L(X) распределения случайной величины X называется генеральным законом распределения, а числовые характеристики X - генеральными числовыми характеристиками.Так как генеральная совокупность - большая, то перебрать все ее элементы невозможно, поэтому для изучения генеральной совокупности из нее делают выборку и по ее свойствам судят о свойствах генеральной совокупности.
Определение 2.2. Выборкой называется множество измеренных значений хъхг,...,хn случайной величины X.
Выборка записывается в виде n-мерной точки (х1х2...хn). Числа, составляющие выборку, называются ее элементами; их количество п объемом выборки. Выборку нельзя составлять произвольно. Иначе она не будет правильно характеризовать генеральную совокупность.
Определение 2.3. Процесс составления выборки называется выбором.
Различных типов выбора существует несколько. Следует, во-первых, различать выбор с возвращением и без возвращения. Оба типа выбора имеют смысл для конечной перенумерованной генеральной совокупности. Их можно уподобить выбору шаров из урны. При выборе без возвращения шары выбираются последовательно и в урну не возвращаются. При выборе с возвращением шар вынимается из урны, запоминается его номер, а далее шар возвращается обратно в урну. Таким образом, при последующих выборах он снова может быть извлечен.
Кажущееся различие этих двух типов выбора на самом деле не меняет вероятности попадания каждого элемента в выборку при условии, что элемент попадает в выборку только один раз в случае выбора с возвращением, хотя выбран может быть много раз (не будете же вы опрашивать одного и того же респондента несколько раз при социологическом опросе или исследовать одну и ту же деталь при контроле на брак партии).
Действительно, при выборе с возвращением вероятность вынуть конкретный шар из урны, содержащей N шаров, равна 1/N - одна и та же при каждом выборе шара. При выборе без возвращения вероятность попадания меченого шара в выборку при к -м выеме (к = 1,2,...,N) равна
т. е. также одна и та же независимо от того, на каком этапе составления выборки шар в ней появится. Это есть вероятность того, что при последнем к -м выеме меченый шар появился, а во всех предыдущих (к -1) выемах - нет.
Во-вторых, будем различать выбор случайный, т. е. проводимый с помощью какого-либо случайного механизма, и неслучайный (пристрастный, по закономерности). В статистике применяется в основном случайный выбор как более надежный в отражении свойств генеральной совокупности.
Определение 2.4. Простым случайным выбором называется выбор, удовлетворяющий следующим требованиям:
Реально такой выбор можно осуществить на основе урновой схемы из конечной генеральной совокупности, перенумеровав все ее элементы, а затем выбирая номера с помощью какого-либо случайного механизма: выбор карточек из колоды, чисел из таблицы равномерно распределенных случайных чисел (таблица VI приложения), одинаковых шаров из барабана и т. д. (выбор без возвращения или с возвращением). Так можно выбирать массивы экспериментальных данных по перечню для исследования, корабли и суда определённого типа для испытания, приборы из партии для контроля и т. д.
В реальных условиях простой случайный выбор не всегда осуществим. Он является как бы эталонным идеальным выбором. Реальный выбор лишь приближенно можно считать простым случайным. Его нельзя, например, осуществить из бесконечной генеральной совокупности (время обслуживания, отклонение результата измерения от нормы), из генеральной совокупности, образование которой не завершено и может продолжаться бесконечно долго (исследуется средняя температура июля в Санкт-Петербурге; июли могут продолжаться потенциально бесконечно долго).
Виды реальных выборов.
Механический выбор. В этом случае элементы генеральной совокупности выбираются по какой-либо закономерности. Например, измерения производятся через равные промежутки времени, контролируется каждая десятая деталь, сходящая с конвейера, каждый пятый человек по списку. Применяется для автоматизированного контроля.
Серийный выбор. Элементы в этом случае выбираются не по одному, а сериями. Например, контролю подвергается не одна таблетка лекарства, а упаковка, не один человек из какой-либо группы, а вся группа. Диктуется условиями производства и обследования.
Типический выбор. В этом случае генеральная совокупность делится на непересекающиеся части. Из каждой части выбираются элементы в количестве, пропорциональном объему части. Так можно получить сведения о средней зарплате в отрасли, об урожайности поля, о политических предпочтениях людей. Характерен для экономических и социологических исследований.
Все типы выборов могут комбинироваться между собой. Существуют и другие типы выборов. В математической статистике рассматривается только простой случайный выбор. Отметим одно его важное свойство - случайность (рандомизированность). Случайный выбор - объективен, гарантирует от пропуска скрытых закономерностей в генеральной совокупности, поэтому реальный выбор следует организовывать так, чтобы свойство случайности присутствовало. В механическом и субъективном выборах случайность отсутствует, поэтому они менее надежны. (Например, каждая десятая деталь, снимаемая с конвейера, может поставляться бракоделом. Такой контроль может исказить результаты).
Обратимся снова к анализу выборки. Повторяя выборку (x1,x2,…,xn) несколько раз, мы будем в общем случае получать каждый раз новые элементы, поэтому элементы выборки рассматриваются как случайные величины. Так как они принимают значения из одной и той же генеральной совокупности, то распределены одинаково - так же, как случайная величина X, образующая рассматриваемую генеральную совокупность x1,x2,…,xn - это n копий случайной величины X. Далее, так как каждый элемент выборки получен независимо от остальных, то все элементы выборки рассматриваются как взаимно независимые случайные величины.
Итак, с теоретической точки зрения выборка (x1,x2,…,xn) - это n-мерная случайная величина, все компоненты которой - взаимно независимые одинаково распределенные случайные величины. Их закон распределения - такой же, как у изучаемой случайной величины X. Такую теоретическую выборку следует отличать от ее реализации, т. е. набора n чисел, полученных в конкретном выборе (в конкретных измерениях). Чтобы подчеркнуть это различие, теоретическую выборку, т. е. n-мерную случайную величину, иногда обозначают символом (Х1, Х2,..., Хn), составленным из больших букв, а ее реализацию символом (x1,x2,…,xn ), составленным из малых букв. В дальнейшем с целью упрощения записей и теоретическую выборку, и ее реализацию будем обозначать одним и тем же символом (x1,x2,…,xn), так как из текста обычно ясно, о чем идет речь. Обсудим еще последнее свойство простого случайного выбора - о том, что все элементы выборки получаются в равных условиях. Это свойство можно выразить, введя случайную величину X* , принимающую выборочные значения x1,x2,…,xn с одной и той же вероятностью 1/n. Дискретное равномерное распределение с законом, заданным формулой
Р(Х*=xk) = 1/n, k= 1,2,...,n, (2.1)
называется выборочным распределением, а его числовые характеристики - выборочными числовыми характеристиками (иначе - числовыми характеристиками выборки).
К выборкам, как и к выбору, предъявляется ряд требований. Важнейшим из них является требование репрезентативности (представительности). Это требование означает, что выборка должна хорошо представлять всю генеральную совокупность. Например, изучая среднюю зарплату отрасли, нельзя ограничиться данными одного завода, одного месяца и т. д. Для составления репрезентативной выборки более всего подходит типический выбор. Простой случайный выбор тоже репрезентативен, так как теоретически любой элемент генеральной совокупности может попасть в выборку, но менее надежен, чем типический, так как в силу независимости и случайности выбора элементов возможна их концентрация и, следовательно, недостаточно представительный охват генеральной совокупности.
Другим требованием является требование однородности выборки. Это означает, что условия проведения экспериментов для получения выборки не должны меняться. Выборка должна быть получена из одной генеральной совокупности, а не из нескольких. В ней должны отсутствовать выбросы. Неоднородная выборка не может дать правильного прогноза. Различают малые и большие выборки, так как они отличаются методами обработки. Для обработки большой выборки привлекаются асимптотические методы, основанные на центральной предельной теореме. В статистической практике принято считать выборку с объемом п > 30 большой. Для изучения двумерной случайной величины (Х,У) создается двумерная выборка, представляющая таблицу пар чисел (xi, yi) (i = 1,2,...,n).
Существуют выборки любой размерности.
2.2.Первичная статистическая совокупность, её упорядочение
Если наблюдаемая случайная величина Х дискретна, то статистическим аналогом ряда распределения является статистический ряд, полностью аналогичный ряду распределения случайной величины Х, с той разницей, что вместо вероятностей в нём стоят частоты соответствующих событий: . На этом вопросе мы больше не будем останавливаться. Гораздо сложнее (и чаще на практике встречается) задача обработки опытов над непрерывной случайной величиной Х. Первым этапом является описание результатов серии из n независимых опытов, в каждом из которых зарегистрировано значение непрерывной случайной величины Х, и простейшей обработкой этих результатов.
Первым документом полевых измерений является протокол, в котором зарегистрировано значение непрерывной случайной величины и номер опыта k.Такой протокол называют первичной статистической совокупностью. Этот материал является совершенно необработанным.
Пример
Измерено n=100 сопротивлений определённого вида. В таблице 2.1 приведены: номер опыта k и соответствующее значение сопротивления (в Омах).
Рассмотрение и осмысление таблицы такого типа (особенно при большом числе n) затруднительно, и по ней практически нельзя представить себе характер случайной величины Х. Первый этап обработки полученных материалов это упорядочение полученных данных, расположение в порядке возрастания значений случайной величины. Протокол результатов опыта, в котом они перенумерованы и расположены в порядке возрастания, называют упорядоченной статистической совокупность или вариационным рядом.
Определение 2.5. Вариационным рядом называется последовательность всех элементов выборки, расположенных в неубывающем порядке. Одинаковые элементы повторяются.
Запись вариационного ряда: x(1),x(2),…,x(n). Элементы вариационного ряда называются порядковыми статистиками. Минимальный и максимальный элементы называются крайними, иначе - экстремальными элементами вариационного ряда: x min =x(1). x max=x(n). (2.2)
Разность между максимальным и минимальным элементами называется размахом, или широтой выборки: R = xmax-xmin. (2.3)
Определение 2.6. Средний элемент вариационного ряда, если n - нечетное, или полусумма двух средних элементов, если п - четное, называется медианой выборки и обозначается теd:
med= x(l+1) при т=2l+1; med=(x(l)+x(l+1))/2 при n=2l. (2.4)
Определение 2.7. Элементы вариационного ряда, на четверть отстоящие от краёв, называются соответственно нижней и верхней квартилями и обозначаются z1/4 и z3/4.
Математически квартили определяются по формулам:
z1/4=x(i); z3/4=x(n-i+1), где i=[n/4]+1 при n/4 дробном, n/4 при n/4 целом (2.5)
[a]-целая часть числа а, наибольшее целое число, не превосходящее а.
Числа xmin, z1/4, med, z3/4, xmax дают сжатую информацию о выборке, а значит и о генеральной совокупности. Они могут быть изображены в виде так называемого ящика с усами.
Определение 2.8. Статистическим рядом называется последовательность элементов zi вариационного ряда с указанием частот ni повторения элементов
Статистический ряд может быть получен из вариационного ряда и записан в виде таблицы или графически в виде полигона (многоугольника), откладывая по оси абсцисс элементы статистического ряда, а по оси ординат частоты (или относительные частоты). Полученные точки на плоскости соединяются отрезками. Полигон частот (или относительных частот) даёт хорошее представление о распределении частот в выборке. Элемент, соответствующий наибольшей частоте по сравнению с соседними элементами статистического ряда, называется выборочной модой (mod).
В таблице 2.1 приведён пример первичной статистической совокупности, а в таблице 2.2 приведены те же данные, что в таблице 2.1, но расположенные в порядке возрастания значений случайной величины Х. Здесь номер значения обозначен i (в отличие от номера опыта k). Если в таблице 2.2 одно и то же значение встречается несколько раз, его пишут столько раз, сколько оно встретилось.
Таблица 2.1 Первичная статистическая совокупность
k |
xk |
k |
xk |
k |
xk |
k |
xk |
k |
xk |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
87 85 91 94 102 80 75 102 99 101 100 120 122 101 88 80 97 92 91 94 |
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
82 111 115 99 96 101 115 100 97 91 87 116 121 101 123 97 95 88 104 111 |
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 |
88 90 101 95 93 92 88 94 98 99 102 101 122 99 97 95 105 112 116 118 |
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 |
108 95 99 92 100 118 103 102 89 90 94 106 112 122 100 92 93 82 111 102 |
81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 |
84 105 110 102 104 107 120 108 107 98 96 106 110 115 95 109 111 103 88 108 |
Таблица 2.2 Упорядоченная статистическая совокупность
k |
k |
k |
k |
k |
|||||
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 |
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 |
81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 |
2.3. Выборочная функция распределения.
Чтобы от отдельных событий перейти к одновременному рассмотрению многих событий, используют накопленную частоту. Так называется отношение числа единиц, для которых результаты наблюдения меньше заданного значения, к общему числу наблюдений. (Это понятие используется, если результаты наблюдения действительные числа, а не вектора, функции или объекты нечисловой природы.) Функция, которая выражает зависимость между значениями количественного признака и накопленной частотой, называется выборочной (эмпирической) функцией распределения.
Определение 2.9. Выборочной (эмпирической) функцией распределения называется относительная частота события X<x, полученная по выборке: <x). Эмпирическая функция распределения содержит всю информацию о результатах наблюдений. Чтобы записать выражение для эмпирической функции распределения в виде формулы, введем функцию с(х, у) двух переменных:
(2.6)
Случайные величины, моделирующие результаты наблюдений, обозначим . Тогда эмпирическая функция распределения Fn(x) имеет вид
(2.7)
Из закона больших чисел следует, что для каждого действительного числа х эмпирическая функция распределения Fn(x) сходится к функции распределения F(x) результатов наблюдений, т.е. Fn(x) → F(x) (2.8)
при n → ∞. Советский математик В.И. Гливенко (1897-1940) доказал в 1933 г. более сильное утверждение: сходимость в (2.7) равномерна по х, т.е.
(2.9)
при n → ∞ (сходимость по вероятности). Здесь использовано обозначение sup (читается как «супремум»). Для функции g(x) под понимают наименьшее из чисел a таких, что g(x)<a при всех x. Если функция g(x) достигает максимума в точке х0, то . В таком случае вместо sup пишут max. Хорошо известно, что не все функции достигают максимума. В том же 1933 г. А.Н.Колмогоров усилил результат В.И. Гливенко для непрерывных функций распределения F(x). Рассмотрим случайную величину
(2.10)
и ее функцию распределения По теореме А.Н.Колмогорова при каждом х, где К(х) функция распределения Колмогорова.
Рассматриваемая работа А.Н. Колмогорова породила одно из основных направлений математической статистики непараметрическую статистику. И в настоящее время непараметрические критерии согласия Колмогорова, Смирнова, омега-квадрат широко используются. Они были разработаны для проверки согласия с полностью известным теоретическим распределением, т.е. предназначены для проверки гипотезы . Основная идея критериев Колмогорова, омега-квадрат и аналогичных им состоит в измерении расстояния между функцией эмпирического распределения и функцией теоретического распределения. Различаются эти критерии видом расстояний в пространстве функций распределения. Аналитические выражения для предельных распределений статистик, расчетные формулы, таблицы распределений и критических значений широко распространены, поэтому не будем их приводить. По упорядоченной статистической совокупности типа таблицы 2.2 можно построить выборочную функцию распределения:
(2.11)
Функция F*(x) разрывная ступенчатая функция, непрерывная слева, равная нулю левее наименьшего наблюдённого значения случайной величины Х и единице правее наибольшего. Теоретически она должна иметь n скачков, где n число опытов, а величина каждого скачка должна быть равна 1/n частоте наблюдённого значения случайной величины Х. Практически, если одно и то же значение наблюдалось несколько раз, соответствующие скачки сливаются в один, так что общее число скачков равно числу различных наблюдённых значений случайной величины. Каждый скачок в точке равен «кратности» значения в статистической совокупности, делённой на число опытов n. График выборочной функции распределения называют кумулятой (линия накопленных относительных частот).
Например, для данных таблицы 2.3 статистическая функция распределения F*(x) ведёт себя следующим образом: до точки х= 75 (и включая её) она равна нулю; в ней она совершает скачок, равный 1/n = 0,01 и сохраняет значение 0,01 до точки х = 80 (включая её); здесь она делает скачок, равный 2/n = 0,02, становится равной 0,03 и сохраняет это значение до точки х = 82 (включая её) и так далее. Вычисляя таким образом функцию F*(x), получают таблицу её значений на интервалах между скачками (таблица 2.3).
Таблица 2.3 Таблица значений статистической функции распределения
х |
F*(x), |
х |
F*(x), |
x<75 75<x<80 80<x<82 82<x<84 84<x<85 85<x<87 87<x<88 88<x<89 89<x<90 90<x<91 91<x<92 92<x<93 93<x<94 94<x<95 95<x<96 96<x<97 97<x<98 98<x<99 99<x<100 100<x<101 |
0 0,01 0,03 0,05 0,06 0,07 0,09 0,14 0,15 0,17 0,20 0,24 0,26 0,29 0,35 0,37 0,41 0,43 0,48 0,52 |
101<x<102 102<x<103 103<x<104 104<x<105 105<x<106 106<x<107 107<x<108 108<x<109 109<x<110 110<x<111 111<x<112 112<x<115 115<x<116 116<x<118 118<x<120 120<x<121 121<x<122 122<x<123 123 |
0,58 0,64 0,66 0,68 0,70 0,72 0,74 0,77 0,78 0,80 0,84 0,86 0,89 0,91 0,93 0,95 0,96 0,99 1,00 |
По материалам этой таблицы может быть построен график функции F*(x), по которому можно сделать представление о характере распределения случайной величины Х; разумеется, самое общее представление, так как ясно, что некоторые особенности кривой F*(x) случайны и связаны с выбором именно тех, а не других сопротивлений для измерения. Другие 100 опытов дали бы несколько иной график функции F*(x), но общая тенденция сохранилась бы. При неограниченном увеличении n скачки кривой F*(x) станут более мелкими, кривая станет плавнее и будет приближаться (сходиться по вероятности) к функции распределения случайной величины Х. На рис. 2.1. показан пример такого графика для выборки объёма, равного 16, который называют кумулятой.
Рис. 2.1. Кумулята (график выборочной функции распределения)
Этот способ является довольно трудоёмким и на практике применяются другие, более простые способы построения законов распределения случайных величин по опытным данным.
2.4. Выборочные числовые характеристики распределения
Кроме эмпирической функции распределения, для описания данных используют её числовые характеристики. Числовые характеристики случайной величины X* называются выборочными числовыми характеристиками. Случайная величина X* аппроксимирует изучаемую случайную величину Х в силу того, что (x) по вероятности стремится к при . При этом следует ожидать, что и выборочные числовые характеристики будут аппроксимировать соответствующие генеральные характеристики, т.е. являться их оценками. Такой метод образования оценок генеральных числовых характеристик называется методом аналогии (или подстановки). Вместо числовых характеристик Х рассматриваются аналогичные числовые характеристики X*. Это означает также, что во все формулы для генеральных числовых характеристик вместо Х подставляется случайная величина X*, её аппроксимирующая.
Определение 2.10. Выборочной оценкой генеральной числовой характеристики называется её приближённое значение, найденное по выборке.
В качестве выборочных средних величин постоянно используют выборочное среднее арифметическое, т.е. сумму значений рассматриваемой величины, полученных по результатам испытания выборки, деленную на ее объем:
где n объем выборки, xi результат измерения (испытания) i-ого элемента выборки.
Другой вид выборочного среднего выборочная медиана. Она определяется через порядковые статистики. Порядковые статистики это члены вариационного ряда, который получается, если элементы выборки x1, x2,…, xn расположить в порядке неубывания:
х(1)<x(2)<…<x(k)<…<x(n).
Пример 1. Для выборки x1 = 1, x2 = 7, x3 = 4, x4 = 2, x5 = 8, x6 = 0, x7 =5, x8 = 7 вариационный ряд имеет вид 0, 1, 2, 4, 5, 7, 7, 8, т.е. х(1) = 0 = x6, х(2) = 1 = x1, х(3) = 2 = x4, х(4) = 4 = x3, х(5) = 5 = x7, х(6) = х(7) = 7 = x2 = x8, х(8) = 8 = x5.
В вариационном ряду элемент x(k) называется k-той порядковой статистикой. Порядковые статистики и функции от них широко используются в вероятностно-статистических методах принятия решений, в эконометрике и в других прикладных областях [2]. Выборочная медиана - результат наблюдения, занимающий центральное место в вариационном ряду, построенном по выборке с нечетным числом элементов, или полусумма двух результатов наблюдений, занимающих два центральных места в вариационном ряду, построенном по выборке с четным числом элементов. Таким образом, если объем выборки n нечетное число, n = 2k+1, то медиана = x(k+1), если же n четное число, n = 2k, то медиана = [x(k) + x(k+1)]/2, где x(k) и x(k+1) порядковые статистики. В качестве выборочных показателей рассеивания результатов наблюдений чаще всего используют выборочную дисперсию, выборочное среднее квадратическое отклонение и размах выборки. Согласно [8] выборочная дисперсия s2 это сумма квадратов отклонений выборочных результатов наблюдений от их среднего арифметического, деленная на объем выборки:
Выборочное среднее квадратическое отклонение s неотрицательный квадратный корень из дисперсии, т.е. В некоторых литературных источниках выборочной дисперсией называют другую величину:
Она отличается от s2 постоянным множителем:
Соответственно выборочным средним квадратическим отклонением в этих литературных источниках называют величину Тогда, очевидно,
Различие в определениях приводит к различию в алгоритмах расчетов, правилах принятия решений и соответствующих таблицах. Поэтому при использовании тех или иных нормативно-технических и инструктивно-методических материалов, программных продуктов, таблиц необходимо обращать внимание на способ определения выборочных характеристик. Выбор , а не s2, объясняется тем, что
где Х случайная величина, имеющая такое же распределение, как и результаты наблюдений. В терминах теории статистического оценивания это означает, что - несмещенная оценка дисперсии (см. ниже). В то же время статистика s2 не является несмещенной оценкой дисперсии результатов наблюдений, поскольку
Однако у s2 есть другое свойство, оправдывающее использование этой статистики в качестве выборочного показателя рассеивания. Для известных результатов наблюдений x1, x2,…, xn рассмотрим случайную величину У с распределением вероятностей
и Р(Y = х) = 0 для всех прочих х. Это распределение вероятностей называется эмпирическим. Тогда функция распределения Y это эмпирическая функция распределения, построенная по результатам наблюдений x1, x2,…, xn. Вычислим математическое ожидание и дисперсию случайной величины Y:
Второе из этих равенств и является основанием для использования s2 в качестве выборочного показателя рассеивания.
Отметим, что математические ожидания выборочных средних квадратических отклонений М(s) и М(s0), вообще говоря, не равняются теоретическому среднему квадратическому отклонению σ. Например, если Х имеет нормальное распределение, объем выборки n = 3, то
Кроме перечисленных выше статистических характеристик, в качестве выборочного показателя рассеивания используют размах R разность между n-й и первой порядковыми статистиками в выборке объема n, т.е. разность между наибольшим и наименьшим значениями в выборке: R = x(n) x(1). В ряде вероятностно-статистических методов применяют и иные показатели рассеивания. В частности, в методах статистического регулирования процессов используют средний размах среднее арифметическое размахов, полученных в определенном количестве выборок одинакового объема. Популярно и межквартильное расстояние, т.е. расстояние между выборочными квартилями x([0,75n]) и x([0,25n]) порядка 0,75 и 0,25 соответственно, где [0,75n] целая часть числа 0,75n, а [0,25n] целая часть числа 0,25n.
Оценка числовых характеристик случайных величин по ограниченному
числу опытов
На практике часто бывает либо заранее известен закон распределения и требуется найти лишь параметры его, либо знание его несущественно, а нужно знать только его некоторые характеристики, когда по ограниченному объёму выборки необходимо производить такие оценки. Как правило, это относится к первым двум моментам. Постановка задачи следующая.
Предположим, что независимые опыты ещё не произведены, их результаты неизвестны, случайны. Обозначим Xi значение, которое примет случайная величина Х в i-м опыте, а результаты опыта n независимых случайных величин: Будем рассматривать их как n «экземпляров» случайной величины Х, каждый из которых имеет тот же закон распределения, что и сама величина Х. Если мы определяем некоторый параметр a по результатам опыта, то его приближённое значение называют оценкой. Любая оценка, вычисляемая на основе экспериментальных данных, является функцией этих случайных величин и значит тоже случайная величина Например, для МО, как было показано выше, естественной оценкой является среднее арифметическое её наблюдённых значений:
(2.12)
Итак, любая оценка параметра является случайной величиной её закон распределения зависит от закона распределения Х и от вида функции , выражающей через , а значит и от числа опытов n. К оценке предъявляются требования обладания рядом свойств:
Состоятельность оценка приближается при увеличении числа опытов (сходится по вероятности) к искомому параметру
Несмещённость отсутствие систематической ошибки
Эффективность наличие минимальной дисперсии по сравнению с другими На практике не всегда удаётся удовлетворить всем этим требованиям.
Определим и дисперсию Выше указывалось, что для среднее арифметическое (или статистическое среднее):
(2.13)
Состоятельность этой оценки следует из закона больших чисел, согласно которому при увеличении числа опытов она сходится по вероятности к МО случайной величины Х.
Несмещённость можно показать, найдя её математическое ожидание:
, (2.14)
т.е.оценка для является несмещённой.
Найдём дисперсию этой оценки:
. (2.15)
Эффективность оценки зависит от вида закона распределения Х, можно показать, что для нормально распределённой величины оценка для математического ожидания является и эффективной. Для дисперсии, на первый взгляд, наиболее естественной является статистическая дисперсия , т.е. среднее арифметическое квадратов отклонений значений от среднего:
(2.16)
Для проверки её состоятельности выразим её через статистический второй начальный момент, т.е. через среднее арифметическое квадратов наблюдённых значений:
(2.18)
Первый член в правой части среднее арифметическое наблюдений случайной величины сходится по вероятности к её МО: Второй член сходится по вероятности к , вся величина по вероятности сходится к Значит оценка состоятельна.
Для проверки её несмещённости выполним следующее:
(2.19)
Так как статистическая дисперсия не зависит от того, где выбрать начало координат, выберем его в точке , т.е. отцентрируем все случайные величины Тогда
(2.20)
Найдём МО величины
(2.21)
Но и эта формула даёт:
(2.22)
Отсюда видно, что величина не является несмещённой оценкой для дисперсии , её МО не равно , а несколько меньше. Чтобы ликвидировать систематическую ошибку, достаточно ввести поправку, умножив на
Тогда для несмещённой оценки для дисперсии получим:
равную статистической дисперсии, умноженной на соответствующий коэффициент. При больших значениях этот множитель становится близким к единице и его можно не применять.
Окончательно, для приближённых оценок имеем:
(2.23)
Вместо последнего выражения часто удобно использовать:
(2.24)
Можно показать, что такой же поправочный множитель нужно вводить и при вычислении несмещённой оценки для ковариации двух случайных величин и
2.5. Группированный статистический ряд. Гистограмма.
Для представления о законе распределения нет необходимости строить статистическую функцию распределения F*(x) по каждому наблюдённому значению случайной величины. Этим целям лучше служат группированный статистический ряд и гистограмма.
Группированный статистический ряд можно изобразить в виде таблицы, где в верхней строке указаны разряды, в нижней соответствующие им частоты
Х:
… |
… |
||||
Причём
Частота события вычисляется как отношение числа опытов, в которых значение случайной величины Х попало в i-й разряд , к общему числу n произведённых опытов. Для примера, приведённого выше, можно построить группированный статистический ряд, выбрав «круглые» границы разрядов: (70-80); (80-90); (90-100); (100-110); (110-120); (120-130).
Подсчитывая количество значений случайной величины, попавших в каждый разряд (считая половинки от попавших в границу между разрядами) и деля на число опытов n=100, получим группированный статистический ряд:
[(70-80)-0,02]; [(80-90)-0,14]; [(90-100)-0,34]; [(100-110)-0,29]; [(110-120)-0,15]; [(120-130)-0,06].
Деля каждую частоту на длину соответствующего разряда получим таблицу плотностей частоты : [(70-80)-0,002]; [(80-90)-0,014]; [(90-100)-0,034]; [(100-110)-0,029]; [(110-120)-0,015]; [(120-130)-0,006].
Определение 2.11. Совокупность промежутков и соответствующих им частот называется группированным статистическим рядом.
При выборе k руководствуются соображениями, вытекающими из условий, что при слишком большой его величине картина распределения будет искажена случайными колебаниями частот, а при слишком малом будут сглажены и затушеваны характерные особенности распределения. На практике при пользуются полуэмпирической формулой
, (2.25)
или формулой Старджесса (2.26)
Длина промежутков определяется по формуле
.
Вместо группы элементов, попавших в интервал , рассматривается один их представитель, в качестве которого обычно берут среднюю точку промежутка. Откладывая по оси абсцисс разряды и строя на каждом разряде как на основании прямоугольник площади, получим гистограмму статистический аналог кривой распределения.
Рис. 2.2. Гистограмма и полигон группированного статистического ряда
Определение 2.12. Гистограммой выборки называется фигура, образованная прямоугольниками с основаниями и высотами (i=1,…,k).
Имея группированный статистический ряд, можно приближённо построить статистическую функцию распределения F*(x)
F*(70)=0; F*(80)=P*{X<80}=0,02; F*(90)=P*{X<90}=0,16; F*(100)=P*{X<100}=0,50; F*(110)=P*(X<110}=0,79; F*(120)=P*{X<120}=0,94; F*(130)=1.
2.6.Выравнивание статистических распределений
В связи с ограниченностью числа опытов в статистических распределениях присутствуют элементы случайности, которые сглаживаются лишь при большом числе опытов. Для удобства пользования данными на практике подбирают для данного статистического распределения аналитическую функцию, выражающую лишь существенные черты статистического материала. Такая задача называется задачей выравнивания статистических распределений. Это чаще всего применяется к гистограммам, заменяя их плавной кривой с простым аналитическим выражением для использования в дальнейшем в качестве плотности распределения f(x).
В методе подбора значителен элемент творчества, опыта, интуиции, знания физической сущности изучаемого явления.
Рис. 2.3. Примеры выбора функций для выравнивания статистических распределений
На рисунках показаны примеры выбора функций по статистическим данным измерений. При сглаживании часто используют «метод наименьших квадратов», для которого сумма квадратов отклонений обращается в минимум.
На практике часто бывает, что случайная величина складывается из многих независимых или слабо зависимых слагаемых, сравнимых по порядку влияния на рассеивание суммы. В этом случае естественна в качестве выравнивающей нормальная плотность:
(2.27)
и необходимо подбирать, исходя из опытных данных только параметры и m в этом выражении. Если, например, случайная величина Х есть расстояние между соседними событиями потока, то в качестве выравнивающего закона можно взять показательный или какой-нибудь из законов Эрланга.
При этом необходимо иметь ввиду, что любая аналитическая функция f(x), используемая для выравнивания гистограммы, должна обладать основными свойствами плотности:
(2.28)
Параметры, входящие в функцию f(x), подбирают для лучшего согласования статистического и аналитического распределения различными методами, чаще всего методом моментов, когда совпадают важнейшие моменты: математическое ожидание, дисперсия, иногда высшие моменты (моментами выше четвёртого порядка пользоваться нерационально, т.к. точность вычисления моментов резко падает с увеличением их порядка.
Пример 2.1.
Угол высоты объекта над горизонтом измеряется с помощью секстана, где случайная величина Х ошибка измерения угла. Для оценки точности прибора произведено 500 измерений ошибки (в тысячных долях радиана). Результаты измерений сведены в группированный статистический ряд:
Х:
Разряды |
(-4)-(-3) |
(-3)-(-2) |
(-2)-(-1) |
(-1)-(0) |
0-1 |
1-2 |
2-3 |
3-4 |
Частоты |
0,012 |
0,050 |
0,144 |
0,266 |
0,240 |
0,176 |
0,092 |
0,020 |
Число попаданий в i-й разряд ni |
6 |
25 |
72 |
133 |
120 |
88 |
46 |
10 |
Здесь ni = n
Построить гистограмму распределения. Выровнять статистическое распределение с помощью нормального закона:
, (2.29)
Подобрав параметры и m так, чтобы сохранить неизменными первые два момента статистического распределения: математическое ожидание и дисперсию.
Решение.
Для этого нужно знать статистическое среднее и статистическую дисперсию случайной величины Х. Известно, что при большом числе наблюдений среднее арифметическое сходится по вероятности к её МО, а среднее арифметическое их квадратов ко второму начальному моменту . В данном случае мы не располагаем всеми 500 значениями Х, а если бы и располагали, процесс вычисления был бы громоздким. Ограничимся определением так называемых «грубых» моментов по группированному ряду. Для этого выбираем в качестве «представителя» i-го разряда его середину и этому значению и приписываем ему частоту . Приближённое значение статистического среднего найдём как сумму произведений всех на :
=-3,5.0,012-2,5.0,050-1,5.0,144-0,5.0,266+0,5.0,240+1,5.0,176+2,5.0,092+3,5.0,0200,168.
Статистический второй начальный момент:
=(-3,5)2.0,012+(-2,5)2.0,050+(-1,5)2.0,144+
+(-0,5)2.0,266+0,52.0,240+1,52.0,176+2,52.0,092+3,52.0,0202,126
Вычитая из квадрат среднего значения ()2 , получим статистическую дисперсию: 2,098, откуда
Полагая в выражении нормальной плотности m=0,168; , и пользуясь таблицей значений нормальной плотности распределения, получим значения на границах разрядов:
f(-4)=0,0045; f(-3)=0,0256; f(-2)=0,0895; f(-1)=0,1986; f(0)=0,2740; f(1)=0,2343; f(2)=0,1244; f(3)=0,0435.
По этим можно построить гистограмму и выравнивающую её нормальную кривую распределения.
Вопросы для самопроверки
1. Что такое генеральная совокупность, выборка, выбор?
2. Сформулируйте определение простого случайного выбора.
3. Какие существуют виды реальных выборов?
4. Какая выборка называется репрезентативной, однородной?
5. Дайте определение вариационного, статистического ряда.
6.Дайте определения крайних элементов вариационного ряда, размаха, медианы, квартилей.
7.Что такое полигон частот?
8. Дайте определение выборочной функции распределения.
9. Что такое оценка генеральной числовой характеристики?
10. Опишите метод аналогии (подстановки) формирования оценок.
11. Перечислите основные выборочные оценки генеральных числовых характеристик.
12. Что такое группированный статистический ряд?
13. Что такое гистограмма выборки?
14. Объясните суть выравнивания статистических распределений.
15. В чём отличие частоты события от его вероятности?