У вас вопросы?
У нас ответы:) SamZan.net

тематическая статистика

Работа добавлена на сайт samzan.net:

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 27.12.2024

Математическая статистика.

Вариационный ряд.

Пусть изучается признак Х, который может принимать значение х. Например:

Х1 – размер обуви;

х1 – 35; 36;

Х2 – рост;

х2 Є (140;210)

Пусть исследуется n объектов, которые являются носителями признака Х. Результаты изучения признака можно занести в таблицу, которая называется вариационным рядом. Вариационный ряд – таблица, в которой значения признака расположены в порядке возрастания, и которая содержит соответствующие частоты. Если значение признака хi встречаются n и t раз, то число ni называется частотой данной варианты.

таблица 1.


Можно также рассматривать частости для каждой варианты.


Замечание: частости являются аналогом вероятности.

Если значения признака не дискретны, т.е. заполняют некоторый интервал, то этот интервал разбивают на несколько возрастающих интервалов и получают так называемый интервальный вариационный ряд.

таблица 2.

 

Любой интервальный ряд можно превратить в дискретный, используя вместо хi середины интервалов.

Числовые характеристики дискретного числового ряда.

  1.  Среднее значение (аналог математического ожидания).

(1)

  1.  Дисперсия вариационного ряда (аналог дисперсии случайной величины).

(2)  

  1.  Среднее квадратическое отклонение вариационного ряда (аналог среднего квадратического отклонения случайной величины).

(3)

Свойства числовых характеристик вариационного ряда аналогичны свойствам характеристик случайных величин.

Пример:

Х – рост.

150-160

155

2

160-170

165

2

170-180

175

6

Выборочный метод.

Определение: Пусть требуется изучить признак Х. Все элементы подлежащие изучению называются генеральной совокупностью.

Обозначение: N – количество элементов генеральной совокупности (объем генеральной совокупности).

На всей генеральной совокупности признак Х имеет следующий вариационный ряд.

таблица 1.

Вариационный ряд для всей генеральной совокупности называется генеральным вариационным рядом.

Характеристики генерального вариационного ряда называются генеральными характеристиками.

  1.  Генеральное среднее:

(1)

  1.  Генеральная дисперсия:

(2)

  1.  Генеральное среднее квадратическое отклонение:

(3)

  1.  Генеральная доля или вероятность признака:

(4)

Как правило, распределение признака Х во всей генеральной совокупности неизвестно, т.е. неизвестен генеральный вариационный ряд, неизвестны все генеральные характеристики (формула 1-4).

Неизвестные параметры генеральной совокупности можно оценить с помощью результатов случайной выборки. Обследование всей генеральной совокупности бывает либо слишком дорого, либо практически невозможно (разрушаются элементы генеральной совокупности).

Определение: Часть элементов генеральной совокупности отобранных случайно называются случайной выборкой.

Количество элементов в выборке называется объемом выборки.

Выборка должна обладать свойством репрезентативности, т.е. она должна представлять всю генеральную совокупность. Для этого выборка должна отвечать следующим требованиям:

  1.  Выборка должна быть достаточно большой, чтобы проявились массовые закономерности.
  2.  Выборка должна быть случайной, чтобы каждый элемент генеральной совокупности мог иметь одинаковый с другими шанс попасть в выборку.

Существуют различные способы образования выборки (см. учебник).

Математическая статистика рассматривает собственно случайную выборку с повторным и бесповторным отбором членов. При повторном отборе элемент после обследования возвращается в генеральную совокупность, при бесповторном не возвращается. Бесповторная выборка более информативна, т.к. один и тот же элемент не может попасть в выборку дважды.

Пусть образована выборка объема n. В результате изучения признака Х на этой выборке получаем вариационный ряд, который называется выборочным вариационным рядом.

таблица 2.  

Все характеристики выборочного вариационного ряда называются выборочными характеристиками:

  1.  Выборочное среднее:

(5)

  1.  Выборочная дисперсия:

(6)

  1.  Выборочная средняя квадратическая ошибка:

(7)

  1.  Выборочная доля или частость:

(8)

Все характеристики выборочного вариационного ряда являются случайными величинами, т.к. отобраны случайным образом.

Точечные оценки.

Характеристики генеральной совокупности называются неизвестными параметрами.

Обозначение: θ (тэта).

Определение: Оценкой неизвестного параметра θ называется случайная величина Х, с помощью которой делаются выводы о неизвестном значении данного параметра.

Для практических целей вместо неизвестного параметра берут приближенно значение его оценки θ ≈ Х.

Для оценки неизвестных параметров 1, 2, 3, 4 генеральной совокупности, как правило, берут оценки 5, 6, 7, 8 соответственно, т.е.:

Параметр

Оценка

Теоремы об оценках.

Теорема 1: Для повторной и бесповторной выборок при достаточно большом объеме выборки n выборочное среднее является случайной величиной распределенной по нормальному закону со следующими характеристиками (для средних): 

(9)

(10)   - повторная выборка

- бесповторная выборка

Теорема 2: Для повторной и бесповторной выборок при достаточно большом объеме выборки n выборочная доля является случайной величиной, распределенной по нормальному или почти нормальному закону со следующими характеристиками:

(11)

- повторная выборка

(12)

- бесповторная выборка

     

Требования к оценкам.

Пусть случайная величина Х является оценкой неизвестного параметра θ:

  1.  Оценка называется несмещенной, если математическое ожидание оценки совпадает с оцениваемыми параметрами, т.е.:

(13)

  1.  Оценка называется состоятельной, если при достаточно большом объеме выборки n практически достоверно, что оценка сколь угодно мало отличается от оцениваемого параметра.

  1.  Состоятельная оценка называется эффективной, если она имеет наименьшую дисперсию на всех выборках данного объема n.

Теорема 3 (для средней): Выборочная средняя является несмещенной состоятельной оценкой для генеральной средней:

Теорема 4 (для доли): Выборочная доля является несмещенной состоятельной оценкой для генеральной доли:

Теорема 5 (для дисперсии): Выборочная дисперсия является смещенной состоятельной оценкой для генеральной дисперсии:

Несмещенной состоятельной оценкой для генеральной дисперсии является та называемая "исправленная" выборочная дисперсия:

(14)

Замечание: при достаточно большом объеме выборки n множитель , поэтому , поэтому для практических целей можно применять любую из этих двух величин.

Средние квадратические ошибки.

Определение: Среднеквадратической ошибкой для выборочной средней называется среднеквадратическое отклонение выборочной средней.

Обозначение:

(15)

Определение: Среднеквадратической ошибкой для выборочной доли называется среднеквадратическое отклонение выборочной доли.

(16)

В теоремах 1 (для средней) и 2 (для доли) имеются формулы для соответствующих дисперсий (10, 12). Однако каждая из этих формул содержит неизвестные генеральные параметры:

  •  в формуле 10 неизвестна генеральная дисперсия ;
  •  в формуле 12 неизвестна генеральная доля р;

поэтому формулы 10 и 12 практически не применяются.

Для того чтобы можно было применять эти формулы на практике, заменяем неизвестные параметры их выборочными оценками:

;

Тогда получим расчетные формулы для средних квадратических ошибок.

Табл. 3 Среднеквадратические ошибки.

Повторная выборка

Бесповторная выборка

Средняя

Доля

Замечания:

  1.  т.к. , то средние квадратические ошибки для бесповторной выборки меньше, чем для повторной (если ошибки меньше, то они лучше, т.е. бесповторная выборка лучше, чем повторная);
  2.  если объем генеральной совокупности N очень велик, то . В этом случае результаты повторной и бесповторной выборок практически совпадают;

Доверительная вероятность.

Интервальное оценивание.

Заменяя неизвестный параметр θ его оценкой Х, мы допускаем некоторую ошибку ∆, т.е. .

∆ - называется предельной ошибкой выборки, т.е. предельная ошибка выборки – max отклонение по модулю оценки от оцениваемого параметра, которое мы можем гарантировать с определенной надежностью.

Определение: Надежностью или доверительной вероятностью называется вероятность того, что оценка отличается от оцениваемого параметра не более, чем на ∆.

(17)  - доверительная вероятность (надежность).

Р – доверительная вероятность (надежность);

х – оценка, случайная величина;

θ – неизвестный параметр, число;

∆ – предельная ошибка выборки;

Доверительная вероятность при оценивании среднего значения.

Пусть требуется оценить неизвестное генеральное среднее, т.е. параметр . В соответствие с теоремой 3 его оценкой  является выборочная средняя. По теореме 3 она имеет нормальный закон распределения, параметры которого известны из теоремы 1 (формулы 9 и 10).

Рассмотрим формулу *:

 

Применим формулу * к выборочной средней. Получаем:

(18) - доверительная вероятность для оценки выборочной средней, где:

Р – доверительная вероятность (надежность);

 - выборочное среднее, случайная величина, оценка, имеет нормальный закон распределения;

- генеральное среднее, неизвестный параметр;

∆ - предельная ошибка выборки;

- средняя квадратическая ошибка для выборочной средней (среднее квадратическое отклонение для выборочной средней) (см. табл. 3).

Доверительная вероятность при оценивании генеральной доли (вероятности).

Пусть требуется оценить неизвестный генеральный параметр. Р – генеральная доля (вероятность), т.е. в формуле 17 неизвестным параметром является θ. В качестве оценки Х берем выборочную долю w (в соответствие с теоремой 4). Т.к. по теореме 2 выборочная доля w имеет нормальный закон распределения с параметрами 11, 12, то применим формулу * к случайной величине w:

(19) - доверительная вероятность для оценки доли, где:

Р – доверительная вероятность;

w – выборочная доля, случайная величина, имеет нормальный закон распределения, оценка;

р – генеральная доля или вероятность признака, неизвестный параметр;

∆ - предельная ошибка;

- средняя квадратическая ошибка для доли (см. табл. 3, 2-я строчка), среднее квадратическое отклонение для выборочной доли.

Для решения задач:

  1.  для доли или для средней;
  2.  определение доверительной вероятности;
  3.  определение (оценка) предельной ошибки ∆ и доверительного интервала (х-∆; х+∆);
  4.  определение необходимого объема выборки n – повторная, n' – бесповторная;

Пример:

С целью изучения средней производительности ткачей по схеме случайной бесповторной выборки было отобрано 100 ткачей из 2000. результаты занесены в таблицу.

1) Определить вероятность того, что средняя производительность ткача на всем комбинате отличается от средней производительности в выборке не более чем на 2 метра (по модулю).  

Дано:

бесповторная выборка

производительность в метрах

α - β

кол-во ткачей

ni

xi

xi *ni

55-65

3

60

180

1438,83

65-75

20

70

1400

2832,2

75-85

40

80

3200

144,4

85-95

29

90

2610

1902,69

95-105

8

100

800

2620,88

m = 5

n = 100

Формула доверительной вероятности для средней:

- средняя производительность ткача

2) В условиях предыдущей задачи определить какова максимальная ошибка Δ и каков доверительный интервал для средней производительности ткача, который можно гарантировать с вероятностью Р = 0,95.

Дано:

Используя формулу 18 и данные, полученные в предыдущей задаче:

используя таблицу наоборот, получаем

 

(80,9; 93,71)

Замечание: Доверительный интервал имеет границы, которые являются случайными величинами.

Ответ: с доверительной вероятностью 0,95 можно утверждать, что интервал (80,9; 93,71) генеральную среднюю – среднюю производительность ткачей на всем комбинате.

3) Какой должен быть объем повторной и бесповторной выборок, чтобы в условиях данной задачи с доверительной вероятностью Р равной 0,95 можно было гарантировать ошибку Δ = 1,81 для средней производительности ткачей.

Дано:

Используя формулу 18 и данные, полученные в предыдущей задаче:

используя таблицу наоборот, получаем

а) пусть выборка повторная:

Объем повторной выборки при оценке среднего значения:

(20)

б) бесповторная выборка:

Объем бесповторной выборки при оценке среднего значения:

(21)

Ответ: нужно обследовать 105 ткачей для повторной выборки (100 для бесповторной) чтобы с вероятностью Р = 0,95 гарантировать наибольшее отклонение Δ = 1,81 для средней производительности ткачей.

4) В условиях исходной задачи определить вероятность того, что доля ткачей, у которых производительность не более 75 метров на всем комбинате отличается от доли таких ткачей в выборке по модулю не более чем на 0,05.

Дано:

- выборочная доля

Ответ: с вероятность 0,778 можно утверждать, что доля ткачей, у которых производительность не более 75 метров на всем комбинате отличается от доли таких ткачей в выборке по модулю не более чем на 0,05.

5) В условиях задачи найти Δ и доверительный интервал для доли ткачей на всем комбинате, чья производительность не более 75 метров, который можно гарантировать с вероятностью Р=0,778

Дано:

Используя формулу 19 и данные, полученные в предыдущей задаче:

(0,18; 0,28)

Замечание: Доверительный интервал имеет границы, которые являются случайными величинами.

Ответ: с вероятностью 0,778 можно утверждать , что доверительный интервал (0,18; 0,28) содержит генеральную долю ткачей, чья производительность  не более 75 метров.

6) В условиях первоначальной задачи определить, сколько надо обследовать ткачей в случае повторной и бесповторной выборки, чтобы с вероятностью Р = 0,778 можно было гарантировать наибольшее отклонение Δ равное 0,05 для доли ткачей, чья производительность не более 75 метров. Ответ дать для случая:

а) когда есть предварительная выборка;

б) когда никаких предварительных данных нет;

Дано:

а) предварительная выборка:

1) повторная выборка:

Объем повторной выборки при оценке доли:

(22)

2) бесповторная выборка:

Ответ: нужно обследовать 105 ткачей для повторной выборки (100 для бесповторной) чтобы с вероятностью Р = 0,778 гарантировать Δ = 0,05 для доли ткачей, чья производительность не более 75 метров.

б) никаких предварительных данных нет (т.е. нет исходной таблицы)

Тогда рассмотрим формулу 22 как функцию переменной W:

и ищем при каких W достигается max этой функции. Можно доказать, что max достигается при w = 0,5. Тогда →

Объем выборки при оценке доли, если никаких предварительных данных нет:

(23)

Проверка гипотез.

Критерии согласия.

В некоторых случаях нас интересует неизвестный закон распределения изученного признака Х во всей генеральной совокупности. В этом случае информация о законе распределения поступает с помощью выборки.

Формируется гипотеза Н0 о неизвестном законе распределения и по выборочным данным эта гипотеза либо отвергается либо принимается.

Правило, по которому решается отвергнуть гипотезу Н0 или нет называется критерием согласия.

Гипотеза Н0 может быть выдвинута не только о неизвестном законе распределения. Поскольку о признаке Х в генеральной совокупности, как правило, ничего не известно, то любое предположение относительно этого признака нуждается в подтверждении с помощью результатов выборки.

Гипотеза Н0 это любое предположение о признаке Х во всей генеральной совокупности.

Критерий согласия это правило, по которому эту гипотезу отвергаем или принимаем.

Для проверки гипотезы Н0 образуется выборка. С каждым критерием согласия связана некоторая случайная величина, которая называется статистикой данного критерия.

Закон распределения этой статистики, как правило, известен и затабулирован. При постановке задачи устанавливается уровень значимости α (т.е. та вероятность, которую решено принять).

В соответствие с уровнем значимости α по таблицам устанавливается критическое значение статистики критерия.

По результатам выборки вычисляется опытное (эмпирическое) значение этой статистики. Если опытное значение превосходит критическое, то гипотеза Н0  отвергается. В противном случае – не отвергается. При использовании критерия согласия для проверки гипотезы возникают 2 типа ошибок:

  1.  возможность отвергнуть правильную гипотезу;
  2.  возможность принять неверную гипотезу;

При выборе того или иного критерия согласия учитывается величина и характеристика ошибки, которая с ними связана.

Проверка гипотезы о нормальном законе распределения.

Критерий согласия Пирсона (критерий согласия (хи)).

Пусть закон распределения случайной величины Х во всей генеральной совокупности неизвестен. Образована выборка объема n. По результатам выборки получено значение . Данные выборки позволяют сформулировать гипотезу Н0  о том, что случайная величина Х имеет нормальный закон распределения с параметрами . Для проверки этой гипотезы применяется критерий согласия Пирсона, статистика которого

(1) , где

- вероятность того, что случайная величина заключена в интервале . И эти вероятности вычислены с предположением, что гипотеза Н0  верна, т.е. Х имеет нормальный закон распределения с параметрами . Тогда для вычисления можно применить формулу для нормального закона.

(2)

Случайная величина имеет известный закон распределения, который затабулирован на странице 558.

Значение , полученное по ф. (1) – опытное (эмпирическое), т.к. получено по результатам выборки.

Критическое значение находим по таблице стр. 558 и определяется двумя параметрами α и k, где

α – уровень значимости;

k – называется числом степеней свободы и равняется m = 3, где m – это количество интервалов признака в выборке.

Если , то (гипотеза о нормальном законе отвергается). В противном случае принимается.

Пример:

По результатам обследования 100 станков из 10000 для определения времени бесперебойной работы станка, получены данные, которые занесены в таблицу.

  1.  Проверить гипотезу Н0 о нормальном законе распределения случайной величины Х – времени бесперебойной работы станка. Применить критерий согласия при уровне значимости равном 0,05;
    1.  Выписать плотность вероятности и функцию распределения этой случайной величины;
    2.  Найти вероятность того, что время бесперебойной работы станка будет не менее 35 часов;
    3.  Построить гистограмму и кривую распределения этой случайной величины;

Дано:

Время бесперебойной работы t

α - β

кол-во станков

ni

xi

xi *ni

20-30

10

25

250

2890

0,1

0,084

8

0,29

30-40

30

35

1050

1470

0,3

0,321

32

0,14

40-50

40

45

1800

360

0,4

0,400

40

0,00

50-60

20

55

1100

3380

0,2

0,164

16

0,79

m = 4

n = 100

 

 ;

По таблице получено опытное значение

По таблице на странице 558 получено критическое значение

Опытное значение < , следовательно Н0 не отвергается.

2)

Неизвестные параметры α и σ приближенно равны их выборочным оценкам . При достаточно большом объеме выборки в соответствии с законом больших чисел практически достоверно, что разница между оценкой и параметром сколь угодно мала.

3)

Расхождение между теоретическим и опытным значением связано с тем, что изучалась не вся совокупность, а лишь ее часть.

Замечание:

Расхождение между теоретическими и опытными данными неизбежно, т.к. рассматривается лишь часть генеральной совокупности, однако, если расхождение велико, то это заставляет предполагать, что теоретическая модель неадекватна реальности.

Двумерная случайная величина.

Двумерной случайной величиной называется упорядоченная пара случайных величин .

Каждое значение двумерной случайной величины Z это упорядоченная пара чисел x и y. Вероятность этого значения это вероятность совместного наступления событий:

Пусть двумерная случайная величина Z принимает только дискретные значения, т.е. обе случайные величины x и y  являются дискретными. Тогда каждое значение случайной величины Z определяется парой и характеризуется совместной вероятностью .

Закон распределения дискретной двумерной величины можно записать в виде таблицы, которая называется корреляционной таблицей и содержит значения случайных величин X и Y  и их совместные вероятности.

таблица 1.

...

...

...

...

В нижней строчке таблицы стоят полные вероятности для каждого из значений Х.

(1) 

В крайнем правом столбце таблицы стоят полные вероятности для каждого из значений Y.

(2)

Из каждой из составленной случайной величины можно составить отдельный закон распределения.

таблица 2.

...

таблица 3.

...

Для случайных величин X  и Y по таблице 2 и 3 можно вычислить M и D  по обычным формулам.

Пример № 1.

Пусть двумерная случайная величина Z (X; Y) задана корреляционной таблицей. Найти:

  1.   вероятность того, что P (Z), где Z (10;200)
    1.   M(X), D(X), σ(X)

 M(Y), D(Y), σ(Y)

10

20

30

100

0,1

0,2

0,1

0,4

200

0,3

0,1

0,2

0,6

0,4

0,3

0,3

  1.  Р (10;200)=0,3
  2.   

10

20

30

0,4

0,3

0,5

100

200

0,4

0,6

Для двумерной случайной величины вводят понятие условного распределения. Фиксируем какое-либо значение одной из случайных величин и находим условную вероятность для другой случайной величины.

(3) , где

- условная вероятность того, что при условии, что Y принимает значения i и j;

- совместная вероятность того, что , , т.е.

- полная вероятность того, что Y приняло значение , т.е.

(3)

Аналогично можно определить условную вероятность того, что Y принимает значение при фиксированном значении Х.

(4)

Пример № 1 (продолжение):

  1.   вычислить условную вероятность, что х = 30 при y = 100;
    1.   составить условное распределение для х при y = 200;
    2.   найти условную вероятность, что y = 100 при х = 20;
    3.   составить условное распределение для y при х = 10;

1)

2) y = 200

10

20

30

3)

4) x = 10

100

200

Условные математические ожидания.

Если построить условное распределение, т.е. ряд распределения одной случайной величины при фиксированном значении другой случайной величины, то можно для каждого из условных распределений посчитать математическое ожидание, которое называется условным математическим ожиданием.

Если фиксировано значение , то условное математическое ожидание для y вычисляется по формуле:

(5)

Если фиксировано значение , то условное математическое ожидание для х определяется формулой:

(6)

Пример № 1 (продолжение):

1) вычислить условное математическое ожидание для х при условии y = 200;

2) вычислить условное математическое ожидание для y при условии х = 10;

1) y = 200

10

20

30

2) x = 10

100

200

Условные математические ожидания являются функциями от той переменной, которая задает условия.

(7)

Уравнения, выражающие зависимость условного математического ожидания от условия называются уравнениями регрессии, т.е. уравнения 7 это уравнения регрессии.

Виды зависимости между случайными величинами.

  1.  Функциональная – если каждому значению х соответствует единственное значение y.
  2.  Статистическая – если каждому значению х соответствует целый ряд распределения значения y (и наоборот). Такая зависимость задается корреляционной таблицей 1.
  3.   Корреляционная – это функциональная зависимость между значениями одной случайной величины и условными математическими ожиданиями другой случайной величины. Корреляционная зависимость выражается уравнениями регрессии.

Частота или мера корреляционной зависимости определяется корреляционным моментом.

Корреляционный момент это:

(8)

Если случайны величины Х и Y независимы, то корреляционный момент равен 0. обратное неверно.

Если , то случайные величины называются не корреляционными.

Линейная регрессия.

Если уравнение регрессии является линейным, то говорят, что между x и y существует линейная корреляционная зависимость.

Линейная корреляционная зависимость задается следующими уравнениями зависимости:

(I) - I линейное уравнение регрессии y по х;

(II) - II линейное уравнение регрессии х по y;

Как правило параметры a, b, c, d неизвестны.

Чтобы их найти организуют случайную выборку и по результатам этой выборки методом наименьших квадратов определяют параметры a, b, c, d.

Мерой тесноты линейной корреляционной зависимости является коэффициент линейной корреляции.

(9)

По результатам выборки неизвестные характеристики генеральной совокупности заменяются их выборочными оценками.

Генеральная совокупность

Выборочная оценка

Генеральная совокупность

Выборочная оценка

μ – выборочный корреляционный момент

(10)

(11) - выборочный коэффициент линейной корреляции;

- групповые средние y по x, т.е. средние значения y вычисленные при фиксированном значении x;

- групповые средние x по y, т.е. средние значения x вычисленные при фиксированном значении y;

Свойства коэффициента линейной корреляции.

  1.   r служит для определения тесноты линейной корреляционной зависимости;
  2.   r принимает значения от ;
  3.  если r = 0, то между х и y не существует линейной корреляционной зависимости (но может быть не линейная);
  4.  чем ближе модуль r к 1, тем теснее линейная корреляционная связь;
  5.  если
  6.  если , то между х и y возникает функциональная зависимость. Обе прямые регрессии совпадают;


  1.  значение r совпадает со знаком μ (см. ф-лу 11);

Если , то между х и y существует прямая корреляционная зависимость, т.е. с ростом одной переменной другая, в среднем, тоже возрастает.

Если , то между х и y существует обратная корреляционная зависимость, т.е. с ростом значений одной переменной, другая, в среднем, убывает.

Нахождение параметров линейных уравнений регрессии методом наименьших квадратов.

После того, как сделана выборка, в линейных уравнениях регрессии I и II условные математические ожидания заменяются их оценками – групповыми средними. Тогда уравнения регрессии принимают следующий вид:

- I

- II 

Метод наименьших квадратов состоит в том, что неизвестные параметры a и bI, c, dII находятся из принципа минимизации суммы квадратов расстояний от опытных точек, полученных по выборке, до теоретических точек, полученных соответственно по уравнениям I и II.

Для нахождения min указанной суммы, находятся частный производные и приравниваются к 0. Получается сумма уравнений, которые называются нормальными системами:

I 

Коэффициент а в уравнении регрессии I называют коэффициентом регрессии y по x и обозначается:

(12) 

Тогда уравнение регрессии I приобретает вид:

- I

В дальнейшем для удобства  обозначается y и уравнение I приобретает вид:

- I, где 

II аналогично с помощью M и K составляем систему нормальных уравнений для нахождения параметров c  и d.

Коэффициент с обозначением называется коэффициентом регрессии x  по y.

(13)

Тогда уравнение регрессии II приобретает вид:

- II

В дальнейшем для удобства  обозначается y и уравнение II приобретает вид:

- II, где 

Свойства коэффициентов регрессии.

  1.  коэффициенты регрессии имеют одинаковый знак , совпадающий со знаком μ;
  2.  коэффициенты регрессии являются угловыми коэффициентами для соответствующих прямых I и II относительно  соответствующих осей, поэтому, если μ > 0 и коэффициент регрессии отрицателен, то обе прямые наклонены налево.

Замечание: Прямые регрессии пересекаются в точке А с координатами .

Связь между коэффициентами корреляции и коэффициентами регрессии.

Сравнивая формулы 11, 12 и 13 получаем, что

, где значение r выбирается так, чтобы он совпадал со знаком μ.

Проверка значимости коэффициента корреляции.

Выдвигается гипотеза Н0, которая заключается в том, что между переменными х и y во всей генеральной совокупности не существует линейной корреляции не существует линейной корреляционной зависимости.

Коэффициент линейной корреляции R равен 0, а его оценка r не равна 0 только потому что вместо всей генеральной совокупности рассматривается выборка. Фактически по выборке ни о чем не говорит. Значение r не равное 0 не значимо. Т.е. проверяется гипотеза Н0: R = 0, линейной корреляционной связи нет. Для проверки этой гипотезы применяется t-критерий Стьюдента, статистика которого вычисляется по формуле:

(15)

Эта статистика затабулирована в учебнике.

Критическое значение  определяется 2-мя параметрами:

1 – α, где α – уровень значимости;

n – объем выборки;

Опытное, или эмпирическое, значение t определяется по формуле 15.  Если t больше tкритич. , то гипотеза Н0 отвергается, т.е. значение значимо, между х и y существует линейная корреляционная зависимость.

Пример № 3:

10 участков земли обследуются с целью определения взаимосвязи между урожайностью Y и количеством внесенных удобрений Х. данные приведены в таблице. Предполагаем, что между переменными х и y существует корреляционная зависимость. Выполнить следующие задания:

1) Вычислить групповые средние для х и для y и изобразить их на корреляционном поле, построив эмпирические линии регрессии;

2) Написать уравнения регрессии х по y и y по x и построить их графики на том же чертеже.

3) Вычислить коэффициент корреляции r и проверить его значимость при α = 0,05. сделать выводы о тесноте и направлении корреляционной связи.

4) Используя соответствующие уравнения регрессии вычислить среднюю урожайность когда количество удобрений равно 10 кг и сравнить с соответствующей средней.

12

13

14

15

5

2

1

3

10

2

2

1

5

15

1

1

2

2

3

3

2

1)

а) групповые средние y по x:

б) групповые средние x по y:

Предварительный анализ: по групповым средним построены эмпирические линии регрессии, точки которых образуют так называемое корреляционное поле. По результатам выборки можно предварительно заключить, что связь между переменными х и y прямая, т.е. с ростом значений одной переменной, групповые средние для другой переменной возрастают. Т.к. линии расположены близко друг к другу, можно предположить, что связь между х и y достаточно тесная.  

2) для уравнений регрессии нужно вычислить:

5

3

15

10

5

50

15

2

30


12

2

24

13

3

39

14

3

42

15

2

30


      

 

3) коэффициент линейной корреляции r можно вычислить по 2-м формулам:

Вывод:

  1.  т.к. , то между переменными х и y существует прямая зависимость, т.е. с ростом одной переменной, другая в среднем возрастает;
    1.  т.к. , то связь между х и y – тесная;
    2.  т.к. коэффициенты регрессии > 0, то обе прямые наклонены направо;
    3.  т.к. связь тесная, то угол между прямыми маленький, прямые близко расположены друг к другу;

Проверка значимости коэффициента корреляции.

.

Т.к. , то коэффициент корреляции r значим, между урожайностью и количеством удобрений существует тесная корреляционная зависимость;

4) Дано: Х = 10 – аргумент.

Выберем то уравнение регрессии, в котором х является аргументом. Это уравнение I. Подставляем туда 10 и получаем.

Такой будет средняя урожайность при 10 кг удобрений.

значит модель адекватна действительности.

Замечания:

  1.  по уравнениям регрессии I и II можно делать прогнозы, однако эти прогнозы адекватны реальности (соответствуют действительности) только вблизи центра корреляционного поля (точки );
  2.  если предположить, что между х и y существует не линейная корреляционная зависимость, т.е. уравнения I и II не линейные, то их неизвестные параметры тоже можно найти методом наименьших квадратов.

4




1. Трудовые ресурсы предприятия2
2. Под Куполом- Астрель; Москва; 2012 ISBN 9785271406782 Аннотация Новый роман короля ужасов Стивена Кинга Н
3. доиндустриального общества
4. Тема 1. Финансы как экономическая категория Сущность и функции финансов Финансовая система- сущнос
5. Определение числа предприятий объема продукции среднесписочного числа работников
6. Фрэнсис Крик
7. Контрольная работа- Основные фонды и оборотные средства предприятия
8. тематике При применении чек-рейза важную роль играют следующие факторы- Акция на префлопе- Если мы бы
9. Тема 7 Студентки1 курса гр
10. тематическое и целенаправленное порождение и усвоение нововведений включая реализацию достижений научнот
11. гражданское общество называют Аристотеля
12. О языках народов Российской Федерации
13. за размера и преждевременной эякуляциив 30 о том будут ли они вообще когданибудь еще заниматься сексомв 40
14. Полимерные композиты на основе диальдегилцеллюлозы и полигуанилинметакрилата
15. Тема ’5 Философия XVIII ~ начала XX веков П л а н - Иммануил Кант.html
16. Способы отражения реалий во французском языке
17. ВВЕДЕНИЕ Современные информационные и коммуникационные технологии созданные отнюдь не для нужд системы
18. Халы~~а емдеу профилактикалы~ ~ызметті ~йымдастыру
19. Уральский государственный технический университет УПИ Физическая химия Те.
20. 1По уровню его устойчивости- абсолютноустойчив