У вас вопросы?
У нас ответы:) SamZan.net

МЕХАНИКА Регрессионный анализ для случая одной независимой величины Л 4 4.html

Работа добавлена на сайт samzan.net:

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 29.12.2024

60

PAGE  63

ЭКСП. МЕХАНИКА Регрессионный анализ для случая одной независимой величины (Л 4)

4. регрессионный анализ для случая

одной независимой величины

В рассматриваемой кибернетической модели объекта исследования, представленной схематично рисунком

до сих пор оценивалось влияние на отклик Y неконтролируемых факторов dn . Наличие этих факторов определяет вероятностный характер случайной величины Y.

Перейдем к рассмотрению воздействия на функцию отклика Y контролируемых факторов, представленных в кибернетической модели объекта исследований величиной hn . К таким факторам относятся прежде всего неуправляемые или плохо управляемые факторы, т.е. факторы, величину которых возможно задать только с определенной вероятностью. Контролируемые, но не управляемые факторы являются случайными величинами и имеют свой закон распределения.

Контролируемые, но неуправляемые (или слабо управляемые) факторы широко распространены в реальных условиях как при проведении эксперимента, так в условиях действующего производства. Например: химический состав металла, металлургического сырья, газа и т.п., усилие обработки давлением и резание металла, трение на поверхности инструмента при обработке давлением и т. д.

Часто бывает необходимым выявить взаимное влияние и установить связь между контролируемыми факторами и откликами. Порой это является одной из важнейших задач экспериментальных исследований.

Связи между различными явлениями сложны и разнообразны, однако, их можно определенным образом классифицировать.

Естествознание и техника часто имеет дело с понятием функциональной зависимости, существо которой заключается в том, что какая-либо физическая величина определяется как однозначная функция одной или нескольких величин. То есть, когда каждому допустимому значению независимой переменной (аргументу Х) соответствует конкретное, определенное значение другой переменной (функции Y).

В случаях, когда речь идет о случайных величинах, связь между переменными теряет строгую функциональность, а исследуемый объект при изменении уровней факторов переходит не в определенное состояние, а в одно из возможных состояний. Здесь речь может идти только о так называемой стохастической (вероятностной) связи. Стохастическая связь состоит в том, что одна случайная переменная реагирует на изменение другой изменением своего закона распределения.

Изменение случайной величины Y в связи с изменением другой случайной величины X может быть представлено в виде двух составляющих. Первая составляющая называется стохастической, связана с взаимной зависимостью рассматриваемых случайных величин и определяется действием общих факторов. Вторая составляющая, называемая случайной, обусловлена действием индивидуальных случайных факторов, влияющих на какую-нибудь одну из рассматриваемых величин. Если стохастическая составляющая равна нулю, то случайные величины X и Y являются независимыми. Если же эта составляющая отлична от нуля, то между указанными величинами существует стохастическая связь. При отсутствии случайной составляющей между величинами X и Y существует функциональная зависимость.

В дальнейшем, при рассмотрении стохастической связи ограничимся наиболее широко распространенным случаем, когда отклик Y является случайной величиной, имеющей нормальный закон распределения, а фактор X может быть как случайной, так и неслучайной величиной. Если между рассматриваемыми величинами существует стохастическая связь, то с изменением величины X, в общем случае, меняется закон распределения случайной величины Y. Так для нормально распределенной случайной величины Y могут меняться обе характеристики - математическое ожидание и дисперсия:

,                                                       (4.1)

.                                                       (4.2)

Первую зависимость называют уравнением линии регрессии, а вторую - скедастической зависимостью.

Регрессионный анализ результатов экспериментов предусматривает оценку параметров уравнения регрессии с учетом скедастической зависимости, а также проверку гипотезы о соответствии выбранной функции (4.1) данным наблюдений, т.е. проверку гипотезы об адекватности выбранной математической модели.

Форма связи (4.1) определяется видом уравнения регрессии, в качестве которого может быть использовано уравнение прямой линии, или уравнение какой то другой кривой, например, показательной функции. Ограничимся рассмотрением первого случая - линейной регрессии.

Уравнение теоретической линии регрессии имеет вид

,                                                       (4.3)

где my/x - условное математическое ожидание величины Y при фиксированном значении X=x; b0 и b1 - теоретические коэффициенты регрессии.  

Оценкой теоретической линии является эмпирическая линия регрессии

,                                                       (4.4)

где b0 и b1 - выборочные коэффициенты регрессии.

Для большинства задач можно принять, что условная дисперсия Y не зависит от x, т.е. уравнение (79), отражающее скедастическую зависимость  имеет вид . Это утверждение может быть проверено с использованием соответствующих критериев.

Рассмотрим как можно получить эмпирические, в частности линейные зависимости, т.е. каким образом можно дать оценки для коэффициентов регрессии b0 и b1 по выборочным данным, полученным в результате пассивного эксперимента.

Пусть имеются n пар наблюдений отклика yi полученных при фиксированных значениях переменной xi. Такие наблюдения могут быть получены в результате проведения любого эксперимента (как например, на рис. 4.1).

Задача состоит в построении прямой линии, наиболее точно описывающей имеющуюся зависимость между переменными.

Можно выбрать много способов проведения такой прямой, используя различные правила, например:

  1.  устремив наибольшее абсолютное отклонение расчетной величины  от экспериментально наблюдаемой yi при фиксированном значении xi к минимуму, т.е.                               ;
  2.  устремив сумму абсолютных отклонений расчетных величин  от экспериментально наблюдаемых yi при фиксированном значении xi к минимуму, т.е.                                        ;
  3.  устремив сумму квадратов отклонений расчетных величин  от экспериментально наблюдаемых yi при фиксированном значении xi к минимуму, т.е.                                       ;

и так далее.

Выбор наилучшего варианта подбора коэффициентов уравнения регрессии целесообразно произвести используя те же критерии, что и для точечной оценки случайной величины, а именно: состоятельность, несмещенность и эффективность. Для рассматриваемого нормального закона распределения случайной величины отклика этим критериям будет отвечать третий из приведенного списка возможных вариантов. Такой способ построения уравнения линейной регрессии носит название метод наименьших квадратов (сокращенно МНК). МНК разработан независимо друг от друга Лежандром и Гауссом в начале XIX века.

4.1. Метод наименьших квадратов

В МНК линию регрессии строят таким образом, чтобы сумма квадратов отклонений вдоль оси OY экспериментальных точек yi от проведенной прямой была минимальной, т.е.

.                                (4.5)

Условие (4.5) будет выполняться когда частные производные функции Q по значениям коэффициентов уравнения регрессии будут равны нулю, т.е.

,  , ...    (4.6)

Решение последней системы линейных уравнений относительно величин b0 и b1 может быть произведено любым из известных методов, например методом Кронекера (методом определителей).

,       ,                                             (4.7)

где

,                                                (4.8)

,                                  (4.9)

,                                   (4.10)

откуда

,                                                (4.11)

.                                                     (4.12)

Таким образом уравнение регрессии построено. Однако, учитывая стохастический характер полученной зависимости, возникает ряд вопросов, ответы на которые необходимо получить для выяснения степени адекватности полученного уравнения:

  1.  Был ли смысл строить зависимость? Может быть Х не влияет на У и достаточно было воспользоваться точечной или интервальной оценками значений Х и У?
  2.  Может быть нужно использовать другой, более сложный, вид зависимости между Х и У, отличный от линейного ?
  3.  Отличны ли от нуля теоретические коэффициенты уравнения регрессии?

Ответы на поставленные вопросы могут быть получены (как это вообще принято в статистике) путем проверки соответствующих статистических гипотез.

4.2. Проверка значимости уравнения регрессии

Суть этой проверки заключается в ответе на вопрос: есть ли смысл строить математическую модель объекта исследования в виде уравнения регрессии (4.3), или можно считать, что фактор Х не влияет на математическое ожидание отклика (), т.е. между X и Y нет никакой связи, а в качестве оценки  можно просто использовать выборочное среднее отклика по всем имеющимся экспериментальным данным ().

Другими словами, нужно сравнить между собой следующие две модели:                                 

и                          .

Разброс экспериментальных данных от построенного уравнения регрессии можно характеризовать остаточной дисперсией , точечная оценка для которой рассчитывается как выборочная остаточная дисперсия:

.                                                     (4.13)

Разброс экспериментальных данных от выборочного среднего  оценивается дисперсией самого отклика по всем результатам наблюдений

.                                                     (4.14)

Погрешности обеих моделей могут оказаться одинаковыми  только в том случае, когда фактор Х никак не влияет на отклик Y. В этой ситуации построение уравнения регрессии в виде (4.3) не имеет смысла и можно считать, что .

И наоборот, если , можно считать, что Х влияет на Y, т.е. построение уравнения регрессии имело смысл - уравнение регрессии значимо.

Нулевую гипотезу Н0: =.при альтернативной НА: > можно проверить с использованием F-критерия Фишера. Для чего вычисляют дисперсию Y (4.14), остаточную дисперсию (4.13) и F-отношение

,                                                          (4.15)

которое сравнивают с табличным значением при выбранном уровне значимости a и степенях свободы n1=N-1 и n2=N-2.

При выполнения неравенства принимают нулевую гипотезу Н0: =, говорящую о независимости Х и Y. При выполнении же неравенства принимают альтернативную гипотезу НА: > говорящую о том, что уравнение регрессии строить стоило.

В случае, когда при каждом фиксированном значении фактора Х проводится несколько параллельных опытов - М, оценки для  и  рассчитывают по формулам

,                                               (4.16)

где ,

,                                                     (4.17)

где .

4.3. Проверка линейности регрессии

Оценка линейности регрессии может быть выполнена только в том случае, если каждому из k значений xi соответствует ni значений y . То есть, если общее число значений уi  окажется больше чем общее количество k значений xi. В этом случае каждому значению xi соответствует случайная величина Yi , характеризуемая своим законом распределения (как оговорено выше, скедастическая зависимость отсутствует).

Для проверки линейности регрессии используют остаточную дисперсию, которая отражает отклонение групповых средних  от прямой регрессии и для случая наличия параллельных наблюдений может быть подсчитана по выражению

                                           (4.18)

и дисперсию воспроизводимости, которая отражает отклонение сумму отклонений значений yi от групповых средних :

                                           (4.19)

Идея проверки линейности может быть пояснена рис. 4.2.

В случае расположения точек, показанном на рис. 4.2.а., очевидно вполне достаточно использовать линейную регрессию, так как рассчитанная прямая линия проходит через интервалы рассеянья (или доверительные интервалы) случайных величин yi. При этом дисперсия воспроизводимости должна быть равна остаточной дисперсии. В случае же показанном на рис. 4.2.б., рассчитанная прямая линия не проходит не через все интервалы рассеянья случайных величин yi . Линейной аппроксимации опытных данных может оказаться недостаточно и требуется использовать более сложную зависимость. В этом случае дисперсия воспроизводимости окажется меньше остаточной дисперсии.

Поэтому можно сформулировать статистические гипотезы следующим образом:

Нулевая гипотеза: Н0: =,

Альтернативная гипотеза: Н1: <.

Для проверки нулевой гипотезы следует использовать F-отношение

,                                                          (4.20)

которое в случае справедливости Н0 должно быть не больше табличного значения критерия Фишера для выбранного уровня значимость a и числа степеней свободы n1=k-2 и n2=N-k :

.

В случае выполнения нулевой гипотезы можно рассчитать общую дисперсию

.                                           (4.21)

После постановки составляющих в последнее выражение и проведения преобразований, можно получить следующее уравнение:

.                                                    (4.22)

4.4. Проверка значимости коэффициентов уравнения регрессии

Для статистического оценивания значимости коэффициентов регрессии проверяют отличается ли статистически значимо оценка коэффициента регрессии от нуля. Нулевая гипотеза: Н0: bi=0.

Для проверки гипотезы рассчитывают оценки дисперсий коэффициентов регрессии .

Для коэффициентов уравнения регрессии b0 и b1 оценки дисперсий коэффициентов определяются из выражений

,                                                           (4.23)

.                                                           (4.24)

Далее рассчитывают t-отношения:

,                                                (4.25)

 ,                                                (4.26)

и сравнивают их с табличным значением распределения Стьюдента для уровня значимость a и степени свободы n=N-2. Если , то нулевую гипотезу отвергают, т.е. полагают, что bi значимо отличается от нуля.

Доверительные границы для параметров уравнения теоретической линии регрессии и генерального среднего значения вычисляют по формулам

,                                           (4.27)

.                                           (4.28)




1. Русско-Японская война (1904-1905)
2. ЛЕКЦИЯ 4РАЗВИТИЕ КЛАССИЧЕСКОЙ ПОЛИТИЧЕСКОЙ ЭКОНОМИИ В ТРУДАХ ЭКОНОМИСТОВ XIX ВЕКА- ПОСЛЕДОВАТЕЛИ И ОППОНЕНТЫ1
3. рабочая документация на объекте автомобильная дорога Москва ~ СанктПетербург
4. нефротическая форма наблюдается преимущественно у дошкольников имеет рецидивирующее течение
5. Общая врачебная практика внутренние болезни код дисциплины OVP 43051 специальности 051301 ~ Общая медицина.html
6. сосудистой системы нарушение мозгового кровообращения высокое артериальное давление кровотече
7. денатурация белка Назовите структурную единицу ответственную за синтез определенной молекулы белка
8. тематического изучения социальноэкономического политического культурного и этноконфессионального разви
9. Тема свободы в лирике Пушкина Его надо сослать в Сибирь
10. Стихотворение А. С. Пушкина «На холмах Грузии лежит ночная мгла»- поэтика и грамматика
11. тема координат. Інформація наука технології у глобальних історичних вимірах
12. реферату- Можливості ldquo;1С БухгалтеріїРозділ- Бухгалтерський облік оподаткування Можливості ldquo;1С Бухгал
13. Состав ~ структура ~ свойство Состав ~ это качественная и количественная характеристика веществ сос
14. . Укажите правильное объяснение постановки запятой или ее отсутствия в предложении- Молодые великанысосны.
15. ТРИУМФ Зал 1 1400 Зал 1 1
16. Введение Наш психический мир многообразен и разносторонен
17. Семейная кухня эпохи кризиса сборник Мария Воронова Клиника измены
18. естествознание и наука
19. Контрольная по фармакологии 2 ОТВЕТЫ НА БИЛЕТЫ Билет 1
20. Он проходит через поиск собственной идентичности он ищет свою группу круг людей для самоидентификации к