Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

МЕХАНИКА Регрессионный анализ для случая одной независимой величины Л 4 4.html

Работа добавлена на сайт samzan.net:


60

PAGE  63

ЭКСП. МЕХАНИКА Регрессионный анализ для случая одной независимой величины (Л 4)

4. регрессионный анализ для случая

одной независимой величины

В рассматриваемой кибернетической модели объекта исследования, представленной схематично рисунком

до сих пор оценивалось влияние на отклик Y неконтролируемых факторов dn . Наличие этих факторов определяет вероятностный характер случайной величины Y.

Перейдем к рассмотрению воздействия на функцию отклика Y контролируемых факторов, представленных в кибернетической модели объекта исследований величиной hn . К таким факторам относятся прежде всего неуправляемые или плохо управляемые факторы, т.е. факторы, величину которых возможно задать только с определенной вероятностью. Контролируемые, но не управляемые факторы являются случайными величинами и имеют свой закон распределения.

Контролируемые, но неуправляемые (или слабо управляемые) факторы широко распространены в реальных условиях как при проведении эксперимента, так в условиях действующего производства. Например: химический состав металла, металлургического сырья, газа и т.п., усилие обработки давлением и резание металла, трение на поверхности инструмента при обработке давлением и т. д.

Часто бывает необходимым выявить взаимное влияние и установить связь между контролируемыми факторами и откликами. Порой это является одной из важнейших задач экспериментальных исследований.

Связи между различными явлениями сложны и разнообразны, однако, их можно определенным образом классифицировать.

Естествознание и техника часто имеет дело с понятием функциональной зависимости, существо которой заключается в том, что какая-либо физическая величина определяется как однозначная функция одной или нескольких величин. То есть, когда каждому допустимому значению независимой переменной (аргументу Х) соответствует конкретное, определенное значение другой переменной (функции Y).

В случаях, когда речь идет о случайных величинах, связь между переменными теряет строгую функциональность, а исследуемый объект при изменении уровней факторов переходит не в определенное состояние, а в одно из возможных состояний. Здесь речь может идти только о так называемой стохастической (вероятностной) связи. Стохастическая связь состоит в том, что одна случайная переменная реагирует на изменение другой изменением своего закона распределения.

Изменение случайной величины Y в связи с изменением другой случайной величины X может быть представлено в виде двух составляющих. Первая составляющая называется стохастической, связана с взаимной зависимостью рассматриваемых случайных величин и определяется действием общих факторов. Вторая составляющая, называемая случайной, обусловлена действием индивидуальных случайных факторов, влияющих на какую-нибудь одну из рассматриваемых величин. Если стохастическая составляющая равна нулю, то случайные величины X и Y являются независимыми. Если же эта составляющая отлична от нуля, то между указанными величинами существует стохастическая связь. При отсутствии случайной составляющей между величинами X и Y существует функциональная зависимость.

В дальнейшем, при рассмотрении стохастической связи ограничимся наиболее широко распространенным случаем, когда отклик Y является случайной величиной, имеющей нормальный закон распределения, а фактор X может быть как случайной, так и неслучайной величиной. Если между рассматриваемыми величинами существует стохастическая связь, то с изменением величины X, в общем случае, меняется закон распределения случайной величины Y. Так для нормально распределенной случайной величины Y могут меняться обе характеристики - математическое ожидание и дисперсия:

,                                                       (4.1)

.                                                       (4.2)

Первую зависимость называют уравнением линии регрессии, а вторую - скедастической зависимостью.

Регрессионный анализ результатов экспериментов предусматривает оценку параметров уравнения регрессии с учетом скедастической зависимости, а также проверку гипотезы о соответствии выбранной функции (4.1) данным наблюдений, т.е. проверку гипотезы об адекватности выбранной математической модели.

Форма связи (4.1) определяется видом уравнения регрессии, в качестве которого может быть использовано уравнение прямой линии, или уравнение какой то другой кривой, например, показательной функции. Ограничимся рассмотрением первого случая - линейной регрессии.

Уравнение теоретической линии регрессии имеет вид

,                                                       (4.3)

где my/x - условное математическое ожидание величины Y при фиксированном значении X=x; b0 и b1 - теоретические коэффициенты регрессии.  

Оценкой теоретической линии является эмпирическая линия регрессии

,                                                       (4.4)

где b0 и b1 - выборочные коэффициенты регрессии.

Для большинства задач можно принять, что условная дисперсия Y не зависит от x, т.е. уравнение (79), отражающее скедастическую зависимость  имеет вид . Это утверждение может быть проверено с использованием соответствующих критериев.

Рассмотрим как можно получить эмпирические, в частности линейные зависимости, т.е. каким образом можно дать оценки для коэффициентов регрессии b0 и b1 по выборочным данным, полученным в результате пассивного эксперимента.

Пусть имеются n пар наблюдений отклика yi полученных при фиксированных значениях переменной xi. Такие наблюдения могут быть получены в результате проведения любого эксперимента (как например, на рис. 4.1).

Задача состоит в построении прямой линии, наиболее точно описывающей имеющуюся зависимость между переменными.

Можно выбрать много способов проведения такой прямой, используя различные правила, например:

  1.  устремив наибольшее абсолютное отклонение расчетной величины  от экспериментально наблюдаемой yi при фиксированном значении xi к минимуму, т.е.                               ;
  2.  устремив сумму абсолютных отклонений расчетных величин  от экспериментально наблюдаемых yi при фиксированном значении xi к минимуму, т.е.                                        ;
  3.  устремив сумму квадратов отклонений расчетных величин  от экспериментально наблюдаемых yi при фиксированном значении xi к минимуму, т.е.                                       ;

и так далее.

Выбор наилучшего варианта подбора коэффициентов уравнения регрессии целесообразно произвести используя те же критерии, что и для точечной оценки случайной величины, а именно: состоятельность, несмещенность и эффективность. Для рассматриваемого нормального закона распределения случайной величины отклика этим критериям будет отвечать третий из приведенного списка возможных вариантов. Такой способ построения уравнения линейной регрессии носит название метод наименьших квадратов (сокращенно МНК). МНК разработан независимо друг от друга Лежандром и Гауссом в начале XIX века.

4.1. Метод наименьших квадратов

В МНК линию регрессии строят таким образом, чтобы сумма квадратов отклонений вдоль оси OY экспериментальных точек yi от проведенной прямой была минимальной, т.е.

.                                (4.5)

Условие (4.5) будет выполняться когда частные производные функции Q по значениям коэффициентов уравнения регрессии будут равны нулю, т.е.

,  , ...    (4.6)

Решение последней системы линейных уравнений относительно величин b0 и b1 может быть произведено любым из известных методов, например методом Кронекера (методом определителей).

,       ,                                             (4.7)

где

,                                                (4.8)

,                                  (4.9)

,                                   (4.10)

откуда

,                                                (4.11)

.                                                     (4.12)

Таким образом уравнение регрессии построено. Однако, учитывая стохастический характер полученной зависимости, возникает ряд вопросов, ответы на которые необходимо получить для выяснения степени адекватности полученного уравнения:

  1.  Был ли смысл строить зависимость? Может быть Х не влияет на У и достаточно было воспользоваться точечной или интервальной оценками значений Х и У?
  2.  Может быть нужно использовать другой, более сложный, вид зависимости между Х и У, отличный от линейного ?
  3.  Отличны ли от нуля теоретические коэффициенты уравнения регрессии?

Ответы на поставленные вопросы могут быть получены (как это вообще принято в статистике) путем проверки соответствующих статистических гипотез.

4.2. Проверка значимости уравнения регрессии

Суть этой проверки заключается в ответе на вопрос: есть ли смысл строить математическую модель объекта исследования в виде уравнения регрессии (4.3), или можно считать, что фактор Х не влияет на математическое ожидание отклика (), т.е. между X и Y нет никакой связи, а в качестве оценки  можно просто использовать выборочное среднее отклика по всем имеющимся экспериментальным данным ().

Другими словами, нужно сравнить между собой следующие две модели:                                 

и                          .

Разброс экспериментальных данных от построенного уравнения регрессии можно характеризовать остаточной дисперсией , точечная оценка для которой рассчитывается как выборочная остаточная дисперсия:

.                                                     (4.13)

Разброс экспериментальных данных от выборочного среднего  оценивается дисперсией самого отклика по всем результатам наблюдений

.                                                     (4.14)

Погрешности обеих моделей могут оказаться одинаковыми  только в том случае, когда фактор Х никак не влияет на отклик Y. В этой ситуации построение уравнения регрессии в виде (4.3) не имеет смысла и можно считать, что .

И наоборот, если , можно считать, что Х влияет на Y, т.е. построение уравнения регрессии имело смысл - уравнение регрессии значимо.

Нулевую гипотезу Н0: =.при альтернативной НА: > можно проверить с использованием F-критерия Фишера. Для чего вычисляют дисперсию Y (4.14), остаточную дисперсию (4.13) и F-отношение

,                                                          (4.15)

которое сравнивают с табличным значением при выбранном уровне значимости a и степенях свободы n1=N-1 и n2=N-2.

При выполнения неравенства принимают нулевую гипотезу Н0: =, говорящую о независимости Х и Y. При выполнении же неравенства принимают альтернативную гипотезу НА: > говорящую о том, что уравнение регрессии строить стоило.

В случае, когда при каждом фиксированном значении фактора Х проводится несколько параллельных опытов - М, оценки для  и  рассчитывают по формулам

,                                               (4.16)

где ,

,                                                     (4.17)

где .

4.3. Проверка линейности регрессии

Оценка линейности регрессии может быть выполнена только в том случае, если каждому из k значений xi соответствует ni значений y . То есть, если общее число значений уi  окажется больше чем общее количество k значений xi. В этом случае каждому значению xi соответствует случайная величина Yi , характеризуемая своим законом распределения (как оговорено выше, скедастическая зависимость отсутствует).

Для проверки линейности регрессии используют остаточную дисперсию, которая отражает отклонение групповых средних  от прямой регрессии и для случая наличия параллельных наблюдений может быть подсчитана по выражению

                                           (4.18)

и дисперсию воспроизводимости, которая отражает отклонение сумму отклонений значений yi от групповых средних :

                                           (4.19)

Идея проверки линейности может быть пояснена рис. 4.2.

В случае расположения точек, показанном на рис. 4.2.а., очевидно вполне достаточно использовать линейную регрессию, так как рассчитанная прямая линия проходит через интервалы рассеянья (или доверительные интервалы) случайных величин yi. При этом дисперсия воспроизводимости должна быть равна остаточной дисперсии. В случае же показанном на рис. 4.2.б., рассчитанная прямая линия не проходит не через все интервалы рассеянья случайных величин yi . Линейной аппроксимации опытных данных может оказаться недостаточно и требуется использовать более сложную зависимость. В этом случае дисперсия воспроизводимости окажется меньше остаточной дисперсии.

Поэтому можно сформулировать статистические гипотезы следующим образом:

Нулевая гипотеза: Н0: =,

Альтернативная гипотеза: Н1: <.

Для проверки нулевой гипотезы следует использовать F-отношение

,                                                          (4.20)

которое в случае справедливости Н0 должно быть не больше табличного значения критерия Фишера для выбранного уровня значимость a и числа степеней свободы n1=k-2 и n2=N-k :

.

В случае выполнения нулевой гипотезы можно рассчитать общую дисперсию

.                                           (4.21)

После постановки составляющих в последнее выражение и проведения преобразований, можно получить следующее уравнение:

.                                                    (4.22)

4.4. Проверка значимости коэффициентов уравнения регрессии

Для статистического оценивания значимости коэффициентов регрессии проверяют отличается ли статистически значимо оценка коэффициента регрессии от нуля. Нулевая гипотеза: Н0: bi=0.

Для проверки гипотезы рассчитывают оценки дисперсий коэффициентов регрессии .

Для коэффициентов уравнения регрессии b0 и b1 оценки дисперсий коэффициентов определяются из выражений

,                                                           (4.23)

.                                                           (4.24)

Далее рассчитывают t-отношения:

,                                                (4.25)

 ,                                                (4.26)

и сравнивают их с табличным значением распределения Стьюдента для уровня значимость a и степени свободы n=N-2. Если , то нулевую гипотезу отвергают, т.е. полагают, что bi значимо отличается от нуля.

Доверительные границы для параметров уравнения теоретической линии регрессии и генерального среднего значения вычисляют по формулам

,                                           (4.27)

.                                           (4.28)




1. Реализация компетентностного подхода в процессе обучения школьному курсу информатики на основе применения кейс-метода
2. Проектная деятельность по УГАТУ в номинации Лучшая инвестиционная идея
3. Творческий поиск Сборник лекций по курсу Основы экономики Астана 2.html
4. Географические и культурные особенности Египта
5. тематизация которая заключается в условном делении исторического процесса на определённые хронологические
6. статьях главы 22 УК РФ Преступления в сфере экономической деятельности за исключением статей 174 1741 178 185 185
7. Забор материала 2
8. Новое пришествие управленческого учета
9. кодному Если между двумя таблицами существует отношение одинкодному то это означает что каждая запись в
10. на тему- Методика преподавания конституционного права в школе Томск ~ 2009 Соде
11. Контрольная работа по химии 1 Вариант А Среди перечисленных укажите объекты которые изучает хими
12. Тема Перевод двоичных чисел в десятичную систему счисления
13. Тема 1.2. Аналіз освітньої політики- загальнонаціональний та міжнародний виміри.
14. 1430 61 Луц Г
15. Проблемы профессиональной этики
16. психологическую совместимость членов группы неформальные групповые структуры и т
17. ИНТЕРНАТОВСКАЯ ДЕВОЧКА Споткнуться в своей жизни может каждый человек
18. Здравствуйте гости дорогие Милости просим на нашу защиту проекта кукольного театра Гости желанные милы
19. Методология маркетингового исследования.html
20. Курсовая работа- Институт необходимой обороны