Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

Лабораторная работа 2 Методы статистической обработки выборочных данных Цель работы- 1

Работа добавлена на сайт samzan.net:


29

Лабораторная работа №2

Методы статистической обработки

выборочных данных

Цель работы:  1. Научиться применять на практике методы статистической обработки выборочных данных.

                       2. Познакомиться с компьютерными программами   по статистической обработке.

Литература

  1.   1 , Гл. 2; §§ 2.3, 2.5 - 2.9.
  2.   2 , §§ 98; 100.
  3.   5 , стр. 22 - 24.

Лекции по теории вероятностей и математической статистике.

Вопросы входного контроля

  1.  Виды статистических совокупностей?
  2.  Способы задания статистических распределений?
  3.  Числовые характеристики статистических распределений?
  4.  Эффективность и несмещенность точечных оценок.
  5.  Стандартные интервалы в законе нормального распределения.
  6.  Интервальная оценка параметров генеральной совокупности.
  7.  Определение значения коэффициента Стьюдента.
  8.  Нулевая и альтернативная гипотезы. В чем их суть?
  9.  Критерии достоверности отличия между числовыми характеристиками двух выборочных совокупностей.
  10.  Что показывает корреляционная зависимость между статистическими совокупностями?
  11.  Характеристика корреляционной зависимости по значению коэффициента парной корреляции.
  12.  Цель регрессионного анализа.
  13.  Способы нахождения уравнений регрессии.
  14.  Связь коэффициентов уравнений регрессии с коэффициентом корреляции и их геометрический смысл.
  15.  Построение графиков регрессии.

1. Краткая теория

При измерении одного и того же параметра у группы испытуемых получается статистическая совокупность количественных данных х1, х2, …хn, которую для удобства обработки представляют в виде ранжированного ряда распределения. Ряд распределения обычно представляют в виде таблицы или  графика.

X

x1

x2

 

xk

K

m1

m2

mk

P

p1

p2

pk

В первой строке (Х) перечисляют все значения параметра в возрастающем или убывающем порядке;

во второй строке  (К) – показывают сколько раз встречается значение данного параметра в статистической совокупности;

в третьей строке (Р) – относительную частоту повторяемости данного параметра .

Рис.1.

При построении графика (рис.1) по оси абсцисс откладываются все полученные значения параметра хi, а по оси ординат – их частота рi.

Линия, соединяющая получаемые точки называется ломаной распределения, а сам график - полигон частот.

Расчет числовых характеристик выборки и их оценка для соответствующей генеральной совокупности производится по следующему плану:

I. Вычисление выборочных характеристик.

  1.   Выборочная средняя:    .

(В медицинских исследованиях эта величина часто обозначается буквой М).

  1.  Выборочная дисперсия:  
  2.  Среднеквадратическое выборочное отклонение: .

II. Оценка генеральных характеристик по выборочным.

  1.  Оценка выборочной дисперсии:  .
  2.  Оценка среднеквадратического выборочного  отклонения:

.

  1.  Оценка средней квадратической погрешности выборочной средней:

.

(В медицинских исследованиях эта величина часто обозначается буквой m).

  1.  Доверительный интервал:

= mt,

где t - коэффициента Стьюдента, который определяется исходя из объема выборки и доверительной вероятности.

  1.  Окончательный результат .

Таким образом, хотя мы не можем определить точное числовое значение характеристики изучаемого параметра в генеральной совокупности по известному значению ее для некоторой выборки. Однако по выборочной характеристике можно указать границы доверительного интервала, в пределах которого с доверительной вероятностью находится характеристика генеральной совокупности. Размер интервала зависит от объема выборки и от величины той ошибки, которую мы считаем в данном случае допустимой.

Доверительная вероятность – это вероятность гарантии того, что числовое значение параметра любого объекта, выбранного из генеральной совокупности, будет находится в интервале (-; +). Уровень значимости определяет вероятность допускаемой ошибки, т.е. =1-р.

В практике научных и лабораторных исследований вполне допустимым считается уровень значимости = 0,05, т.е. уровень допускающий ошибочность вывода лишь в 5% случаев от их общего количества. В некоторых особых случаях, требующих повышенной точности выводов, применяется 1% и менее уровни значимости. При окончательных выводах необходимо всегда указывать тот уровень значимости, для которых они приведены.  

В том случае, если аналогичные параметры снимались и в другой выборке, возможно получение двух отличающихся значений выборочной средней и выборочной дисперсии, а значит, будут различными и соответствующие оценки для генеральной совокупности:

 и  

Критерии сравнения достоверности отличия между двумя выборочными средними и дисперсиями позволяют проанализировать причины, вызвавшие эти отличия, т.е. зависят они от метода измерения и выбора объектов выборки (отличия достоверны) или объясняются статистическим характером разброса данных в генеральной совокупности, и каждой отдельно взятой выборке (отличия незначимы).

В случае незначимости отличий можно принять нулевую гипотезу о равенстве генеральных средних  и генеральных дисперсий . В противном случае принимается альтернативная гипотеза.

Критерии позволяют найти экспериментальное значение параметра Пэксп. и сравнить его с критическим параметром Пкр при заданной доверительной вероятности. Если Пэксп  Пкр, то делают вывод о согласии экспериментальных результатов  с нулевой гипотезой. Если Пэксп  Пкр, то нулевую гипотезу отвергают в пользу альтернативной.

Следует помнить, что описанные методы проверки нулевой гипотезы носят статистический характер, выраженный в том, что утверждение о справедливости нулевой гипотезы принимается не абсолютно, а лишь при некоторой доверительной вероятности или некотором уровне значимости.

Сравнение генеральных средних зависит от объема выборок.

Критерий Лапласа используется при больших объемах выборок (n 30) с любым даже неизвестным законом распределения:

;

tкр определяется из соотношения Ф (tкр) = , где Ф (t) – функция Лапласа, р – доверительная вероятность.

При малых выборках разного объема, если известно , что генеральные совокупности подчиняются закону нормального распределения, можно воспользоваться критерием Фишера-Стьюдента:

t эксп = ;

tкр (р;f) – значение коэффициента Стьюдента при доверительной вероятности р и количестве степеней свободы f = n1 + n2 – 2.

Критерий Фишера – Снедекора позволяет сделать выбор между нулевой и альтернативной гипотезами для равенства генеральных дисперсий:

, где - оценка дисперсии  с большим значением, и - оценка дисперсии с меньшим значением;

находят по таблице распределения Фишера-Снедекора, где - уменьшенный на единицу объем выборки c большей   дисперсией, а f2 – уменьшенный на единицу объем выборки с меньшей дисперсией.

Корреляционный и регрессионный анализ позволяет выявить наличие статистической зависимости между двумя рядами Х и Y различных параметров и подобрать функцию, наиболее точно описывающую эту зависимость и позволяющую исследовать характер влияния изменения одного признака на изменение другого.

Значение выборочного коэффициента парной корреляции   rху можно вычислить  по формуле:

   

         Основные свойства коэффициента корреляции:

  1.  Коэффициент корреляции двух независимых величин равен нулю.
  2.  Коэффициент корреляции двух величин, связанных линейной функцией равен 1 (+ - возрастающая; - убывающая зависимость).
  3.  Абсолютная величина коэффициента корреляции не превышает единицы:

.

Характер и тесноту корреляционной зависимости различают по величине коэффициента корреляции:

rxy  0 – прямая,

rxy  0 – обратная,

  1 – тесная,

  0,7 – средняя,

0  0,4 – слабая.

Для оценки достоверности коэффициента корреляции определяют его погрешность:

и вычисляют коэффициент Стьюдента:

Зная коэффициент Стьюдента, находят по таблице доверительную вероятность с учетом степени свободы: f = n – 2.

Или иначе:

  •  для того, чтобы убедиться, что коэффициент парной корреляции, вычисленный по данным выборочного исследования, будет соответствовать тесноте корреляционной связи в генеральной совокупности, применяют критерий Стьюдента для определения tтабл по числу степеней свободы f = n – 2.

Тогда:

  •  если tэксп  tтабл., то при принятой вероятности делают вывод о значимости коэффициента корреляции;
  •  если tэксп  tтабл., то такого вывода сделать нельзя.

Коэффициент корреляции указывает лишь на направление и тесноту связи между двумя переменными величинами, но не дает возможности судить о том, как количественно меняются величины одного признака по мере изменения величины другого признака. Ответ на этот вопрос дает применение метода регрессии.

Регрессия – это функция, позволяющая по величине одного коррелирующего признака определить средние величины другого признака.

Функция регрессии может иметь любой вид (линейная, степенная, показательная и т.д.) и методы регрессионного анализа позволяют отыскать внешний вид этой функции. Подробнее познакомимся с линейной регрессией.

Между коэффициентом корреляции rxy, числовыми характеристиками выборок и коэффициентами уравнений линейной регрессии существует определённая связь.

Для уравнения регрессии Y на Х: :   ;   .

Для уравнения регрессии Х на Y: :   ;   .

Имея частные значения уравнений линейной регрессии, можно построить их графики (рис.2):

Линии регрессии пересекаются в точке ().

При этом: tg =A;

   tg =C.

Рис. 2.

По величине выборочных коэффициентов регрессии судят о силе корреляционной связи между изучаемыми величинами. Так, например, чем больше коэффициент A линейной регрессии  на X, тем сильнее изменяется значение величины  при изменении величины X на единицу.

Ориентировочно о силе корреляционной зависимости можно судить по корреляционному полю. Корреляционное поле представляет собой множество точек с координатами (xi; yi) (рис.3):

     

Рис. 3а.                                               Рис. 3б.

Чем больше разброс точек (рис. 3а), тем слабее зависимость и, наоборот, если точки группируются вдоль некоторой линии, можно приближённо судить даже о виде функции регрессии (рис. 3б).

2. Практическая часть

Задание 1. Провести статистическую обработку данных выборочных исследований.

  1.  Используя данные прямых измерений предыдущей лабораторной работы (масса тела, рост и объём лёгких) сформировать следующие выборочные совокупности:

Х1 – масса тела девушек группы;

Х2 – масса тела юношей группы;

Y1 – рост девушек группы;

Y2 – рост юношей группы;

Z1 – объём лёгких девушек группы;

Z2 – объём лёгких юношей группы*.

Примечание: *) выборочная совокупность пригодна для дальнейшей работы, если её объём не менее трёх объектов (n3).

  1.  Построить ряд распределения для каждой выборочной совокупности в виде таблицы и графика.
  2.  Дать точечную и интервальную оценку истинного значения измеряемой величины с доверительной вероятностью p=0,95.

Задание 2. Используя данные задания 1 полученные другой группой (по предложению преподавателя) сравнить достоверности отличия генеральных средних и дисперсий для однотипных рядов.

Задание 3. По выборкам Xi, Yi и Zi провести попарный корреляционный анализ.

  1.  Вычислить выборочный коэффициент парной корреляции и по его значению дать характеристику корреляционной зависимости.
  2.  Оценить достоверность коэффициента корреляции.
  3.  Найти уравнения линейной регрессии.
  4.  Построить в одних осях координат для каждой пары рядов корреляционное поле и линии регрессии.

Задание 4.** (для УИРС – учебно-исследовательской работы студентов).

Сформировать выборочные совокупности V1 – объем легких девушек группы и V2  - объем легких юноши группы, используя данные косвенных измерений.

Провести их статистическую обработку и проверить корреляцию с соответствующими выборками Z1 и Z2.

Задание 5.** (для УИРС).

  1.  Провести статистическую обработку выборочных данных, используя компьютерные программы по статистической обработке (Excel, Stadia, Diasta).
  2.  Сравнить полученные при  этом результаты с результатами ’’ручной’’ обработки данных.

Задание 6.** (для УИРС).

Используя данные выполнения задания 3, найти коэффициент множественной корреляции и построить регрессионную поверхность = Ax + By + C.

Вопросы  выходного  контроля

  1.  Как обеспечить репрезентативность выборки?
  2.  Какой минимальный объём выборочной совокупности необходим для дальнейшей обработки выборочных данных? Как он определяется?
  3.  Как провести оценку параметров выборочной совокупности?
  4.  Какие требования учитываются при выборе значения коэффициента Стьюдента?
  5.  Как оценить достоверность коэффициента корреляции?
  6.  Что можно сказать о корреляционной зависимости между парами вариационных рядов:

масса – рост человека;

масса – объём лёгких;

рост – объём лёгких?

  1.  Можно ли по виду линий регрессии оценить корреляционную зависимость между признаками?
  2.  Какими методами можно оценивать достоверность отличия между генеральными средними и генеральными дисперсиями 2-х рядов однотипных показателей?

9.** Какая программа использовалась при машинной обработке статистических данных?

10.** Как различаются результаты машинной и ручной обработки статистических данных?

11.** Что представляет собой регрессионная поверхность, полученная при выполнении 5 задания.

 ** Вопросы по заданиям для УИРС.




1. варианта ответов соответствующие трем видам направленности личности
2. общее обозначение философских учений утверждающих что сознание мышление психическое духовное первично
3. XVI вв которые привели к ускоренному развитию международной торговли драгоценностями пряностями благородн
4. тематики З досвіду роботи вчителя математики Калинівської загальноосвітньої школи ІІІІ ступенів 2г.
5. Тюменский государственный университет Филиал в г
6. Химические методы борьбы с солеобразованием в скважинах и системе сбора применяют главным образом при вы
7. Советская политическая система и особенности ее развития в 30’50-тые годы ХХ века.html
8. Идеология избирательных кампаний
9. теоретичної конференції молодих вчених і студентів Менеджмент та маркетинг- сучасні глобальні викликиrdq
10. Лекция 2 ЛИЧНОСТЬ ЧЕЛОВЕКА И ЕЕ СТРУКТУРА В первых лекциях данного раздела речь пойдет о некоторых понятиях
11. Пуск в работу питательного электронасоса после ремонта.html
12. вариант 1 II фаза менстр
13. Задание 1. Текст выделенный зеленым цветом отформатируйте в 3 колонки
14. Возможности графологии
15. Тема- Электрический ток в проводниках и полупроводниках Выполнил- Сазанов Сергей 11 ldquo;Бrd
16. Ошерова ДЕЙСТВУЮЩИЕ ЛИЦА Ипполит
17. Пояснительная записка Государственная аттестационная практика будет проходить в период с марта по а
18. Трудовая адаптация работников
19. Марафон Козла Доминиканская меренга I Урания
20. ВАРИАНТ 1 115 гр трениров