Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
PAGE 206
Лекция 5
РЕГРЕССИОННЫЙ АНАЛИЗ
5.1. Общие положения
Регрессия это зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких других величин. В отличие от чисто функциональной зависимости y=f(x), когда каждому значению независимой переменной х соответствует одно определённое значение зависимой переменной у, при регрессионной связи одному и тому же значению независимой переменной (фактору) х могут соответствовать в зависимости от конкретного случая различные значения зависимой переменной (отклика) у. Если при каждом значении х=хi наблюдается ni значений yij; то зависимость средних арифметических значений: от xi и является регрессией в статистическом понимании этого термина. Изучение регрессии основано на том, что случайные величины Х и Y связаны между собой вероятностной зависимостью: при каждом конкретном значении Х=х величина Y является случайной величиной с вполне определённым распределением вероятностей. Зависимость зависимой переменной отклика от одной независимой переменной фактора или нескольких факторов называется уравнением регрессии. По количеству факторов выделяют парную (однофакторную) и множественную (многофакторную) регрессию. Для парной будем рассматривать следующие методы регрессии: линейную, показательную, экспоненциальную, гиперболическую и параболическую.
Регрессионный анализ это раздел математической статистики, изучающий регрессионную зависимость между случайными величинами по статистическим данным. Цель регрессионного анализа состоит в определении общего вида уравнения регрессии, вычислении оценок неизвестных параметров, входящих в уравнение регрессии проверке статистических гипотез о регрессионной связи.
При проведении экспериментов рекомендуется подбирать переменные, участвующие в экспериментах так, чтобы они были случайными, количественными и непрерывными. В этом случае для обработки результатов рекомендуется применять регрессионный анализ, обладающий свойствами сравнительной простоты и конструктивности, которые заключаются в возможности использования регрессионных уравнений для генерации эффективных решений на основе оптимизационных методов. Отметим, что если переменные не количественные, а качественные, то рекомендуется использовать дисперсионный анализ. Если же часть переменных количественная, а часть качественная, то рекомендуется корреляционный анализ.
Регрессионный анализ основан на методе наименьших квадратов, который требует, чтобы сумма квадратов отклонений экспериментальных значений от вычисленных по аппроксимирующей зависимости была минимальной. Запишем это условие для однофакторной зависимости:
(5.1.1)
где xi* - i-ое экспериментальное значение фактора;
yi* - i-ое экспериментальное значение отклика;
f(xi*) i-ое вычисленное значение отклика;
n общее количество экспериментальных значений.
Запишем то же условие для многофакторной зависимости:
(5.1.2)
где xij* - i-ое экспериментальное значение j-го фактора;
yi* - i-ое экспериментальное значение отклика;
f(xi1*,xi2,…xim*) i-ое вычисленное значение отклика;
m количество факторов;
n общее количество экспериментальных значений.
В лучшем случае при обработке результатов экспериментов нам известен вид математической зависимости между переменными и тогда следует вычислить только неизвестные коэффициенты. Чаще всего вид математической зависимости неизвестен. В этом случае рекомендуется использовать степенные полиномы, которые при повышении степени полинома позволяют получать аппроксимирующие зависимости с любой заданной точностью. Запишем степенной полином для однофакторной зависимости:
(5.1.3)
Запишем полином второго порядка для двухфакторной зависимости:
y = b0х0+b1x1+b2x2+b12x1x2+b11x12+b22x22 . (5.1.4)
Технология регрессионного анализа
Для проведения регрессионного анализа предлагается технология, состоящая из следующих четырёх этапов.
абсцисс делается масштабирование для фактора x, по оси ординат для отклика y. В принятой системе координат размещаются экспериментальные точки, по характеру размещения которых делается предположение о виде зависимости y=f(x). Для многофакторных зависимостей этот пункт не выполняется.
нейной зависимости и нормальность распределения фактора и отклика то для оценки тесноты связи между переменными рекомендуется использовать коэффициент линейной корреляции, вычисляемый по формуле:
(5.1.5)
В формуле (5.1.5) оценки математических ожиданий переменных х, у и их произведения вычисляются по формулам:
(5.1.6)
Оценки вторых начальных моментов требуются для вычисления средних квадратических отклонений. Для этого используются следующие формулы:
(5.1.7)
(5.1.8)
Если коэффициент линейной корреляции близок к 1, то корреляционная связь между переменными положительная, близкая к линейной. Если коэффициент линейной корреляции близок к -1, то корреляционная связь между переменными отрицательная, близкая к линейной. Если коэффициент линейной корреляции близок к 0, то между переменными имеется слабая корреляционная связь. Для независимых переменных коэффициент линейной корреляции равен нулю.
Оценить существенность коэффициента линейной корреляции между случайными переменными по критерию Стьюдента можно при условии, что распределения этих случайных величин подчиняется нормальному закону и что они имеют совместное двумерное нормальное распределение.
В случае, если значение коэффициента линейной корреляции, вычисленное по (5.1.5), по абсолютной величине не меньше 0,8, то можно ожидать наличие между переменными линейной зависимости. Если значение коэффициента линейной корреляции по абсолютной величине меньше 0.8 то рекомендуется в качестве факторов попробовать использовать сравнительно несложные функции от факторов. Рекомендуется использовать следующие функции от факторов xi; : для увеличения масштаба фактора х относительно результативного показателя эффективности у; - для уменьшения масштаба фактора х относительно результативного показателя эффективности у; - для отображения обратной связи между фактором х и результативным показателем эффективности у. Естественно, что после вычисления коэффициента линейной корреляции для простых функций от факторов, для регрессионного анализа выбираются функции, коэффициент линейной корреляции которых с откликом имеет наибольшее значение. Таким образом, и выбирается вид регрессионной зависимости между переменными.
Эмпирическое корреляционное отношение может использоваться для любых распределений случайных величин без введения каких-либо ограничений. Оно вычисляется по формуле
(5.1.9)
где δ* оценка межгруппового среднего квадратического отклонения;
σу* оценка среднего квадратического отклонения результативного
признака.
Оценка межгруппового среднего квадратического отклонения вычисляется по формуле:
. (5.1.10)
коэффициентов равнения регрессии.
Для построения регрессионной зависимости применяется метод наименьших квадратов (МНК), требующий, чтобы сумма квадратов отклонений экспериментальных значений от вычисленных по аппроксимирующей зависимости была минимальной. Так как нам требуется найти некоторое количество коэффициентов, значения которых на данном этапе неизвестно, то по (5.1.3) запишем требование МНК в более общем виде с вводом в неё и искомых коэффициентов (5.1.11)
Найдём значения коэффициентов обеспечивающих минимальное значение левой части (5.1.11). Для этого продифференцируем её по и приравняем производные нулю. Получим систему уравнений, получивших название нормальных:
(5.1.12)
.
.
.
Составленная система нормальных уравнений (5.1.12) не решается в общем виде, далее по тексту лекций она будет решена для нескольких частных случаев.
Найти значения коэффициентов можно и другим наиболее часто используемым на практике методом решением системы уравнений в матричном виде.
(5.1.13)
Главный показатель качества аппроксимации стандартная ошибка и
ещё более сильный показатель отношение стандартной ошибки к среднему значению. Стандартная ошибка для множественной регрессии вычисляется по формуле:
(5.1.14)
где xij* - i-ое экспериментальное значение j-го фактора;
yi* - i-ое экспериментальное значение отклика;
f(xi1*,xi2,…xim*) i-ое вычисленное значение отклика;
m количество факторов;
q количество переменных в уравнении регрессии;
n общее количество экспериментальных значений.
Отношение стандартной ошибки к среднему значению должно не превышать рекомендуемый уровень 0.05 (5 процентов)
(5.1.15)
Отметим, что воспользоваться рекомендацией (5.1.15) можно только в случаях, если
Применение дисперсионного анализа для оценки качества уравнений регрессии. Дисперсионный анализ основан на разложении общей изменчивости результативного показателя (общей дисперсии) на объяснённую дисперсию, которую удалось объяснить изменением переменных, вошедших в уравнение регрессии, и остаточную регрессию, которую объяснить не удалось. Для проведения дисперсионного анализа вычисляются.
(5.1.16)
с количеством степеней свободы:
среднее значение суммы квадратов:
(5.1.17)
(5.1.18)
с количеством степеней свободы:
среднее значение суммы квадратов:
(5.1.19)
(5.1.20)
с количеством степеней свободы:
Должно выполняться равенство:
(5.1.21)
с количеством степеней свободы:
часть изменения результативного показателя удалось объяснить изменением переменных, вошедших в уравнение регрессии.
(5.1.22)
с количеством степеней свободы:
По статистическим таблицам для критерия Фишера и коэффициента множественной детерминации с вышеприведёнными количествами степеней свободы и рекомендуемого уровня значимости 0.05 находят их критические значения. Если вычисленные значения критерия Фишера и коэффициента множественной детерминации не меньше критических значений, то результаты аппроксимации признаются удовлетворительными.
случайным величинам, то они и сами являются случайными величинами. Поэтому можно вычислить их стандартные ошибки и по ним определить критерий Стьюдента и уровни их значимости.
(5.1.23)
где
- диагональный элемент матрицы
(5.1.24)
чем больше величина , тем лучше.
По статистическим таблицам для вычисления , для n-1 степеней свободы, для рекомендованного уровня значимости вычисляем критическое значение критерия Стьюдента . Если вычисленное значение превышает критическое, то считаем, что уровень значимости не превышает рекомендуемого значения , и поэтому вычисленные значения коэффициентов приемлемы для отображения экспериментальных данных. В противном случае рекомендуется подобрать другие значения переменных в аппроксимирующее уравнение регрессии, в виде каких-либо функций от аргументов.
5.2. Линейная однофакторная зависимость
Естественно желание представить регрессионную зависимость как можно проще и самое простое линейной зависимостью:
(5.2.1)
Требуется подобрать значения параметров: b0 и b1 так, чтобы выполнялось требование метода наименьших квадратов (5.1.1).
Продифференцируем (5.2.1) по b0 и b1:
(5.2.2)
Приведём запись уравнения в матричном виде и проведём его преобразование для получения формулы для вычисления коэффициентов полинома.
По (5.1.1) запишем два нормальных уравнения для вычисления b0 и b1:
(5.2.3)
(5.2.4)
В формулах (5.2.3) и (5.2.4) раскроем скобки и произведём суммирование:
(5.2.5)
(5.2.6)
Разделим оба уравнения (5.2.5) и (5.2.6) на n:
(5.2.7)
(5.2.8)
В уравнениях (5.2.7) и (5.2.8) заменим суммы, поделённые на n, на соответствующие им начальные моменты:
(5.2.9)
(5.2.10)
По уравнению (5.2.9) запишем формулу для вычисления b0 и подставим её в уравнение (5.2.10):
(5.2.11)
(5.2.12)
Преобразовав уравнение (5.2.12) получим формулу для вычисления b1:
(5.2.13)
Подставив в формулу (5.2.12) значение b1, вычисляемое по формуле (5.2.13), получим формулу для вычисления b0:
(5.2.14)
Тот же самый результат можно получить с помощью формулы для вычисления коэффициентов уравнения регрессии в матричном виде (5.1.10). В уравнение регрессии (5.2.1) к коэффициенту b0 подпишем так называемый фиктивный фактор x0, во всех случаях равный единице. Естественно, что его введение нисколько не меняет (5.2.1).
(5.2.15)
Составим матрицы ,В, и в соответствии с (5.1.10) запишем:
(5.2.16)
Проведём несложные матричные преобразования и получим промежуточные формулы для вычисления коэффициентов полинома (5.2.15):
(5.2.17)
Требуется провести обращение матрицы , т. е. получить матрицу
Умножение обратной и «своей» прямой матрицы даёт в произведении единичную матрицу, в которой элементы главной диагонали равны единице, а остальные элементы равны нулю.
(5.2.18)
(5.2.19)
После несложных преобразований систем уравнений (5.2.19) получим расчётные формулы для вычисления коэффициентов элементов матрицы А.
(5.2.20)
Проведём проверку результатов проведённых преобразований, обозначив знаменатель у всех коэффициентов :
Таким образом все преобразования проведены корректно. Всё решено правильно. Запишем окончательный результат:
(5.2.21)
Перейдём от матричной записи результатов вычислений (5.2.21) к обычным формулам, предварительно поделив в строках матрицы числители и знаменатели на n2, и проведя переход к моментам.
(5.2.22)
(5.2.23)
Формула (5.2.2) полностью совпадает с формулой (5.2.14), а формула (5.2.23) с формулой (5.2.13), полученные ранее другим методом, поэтому будем считать полученные результаты корректными. Отметим, что иногда в расчётах нет необходимости в вычислениях моментов и тогда можно пользоваться формулами (5.2.21).
Чтобы не производить матричных вычислений, для однофакторной линейной зависимости получены простые формулы для вычисления критериев Стьюдента.
(5.2.24)
где
(5.2.25)
Приведём формулы для определения ошибок вычисления :
(5.2.26)
и :
(5.2.27)
Рассмотрим аппроксимацию экспериментальных данных частным случаем линейной зависимости без свободного члена:
. (5.2.28)
Вычислим частную производную от (5.2.28):
(5.2.29)
Для вычисления коэффициента b составим нормальное уравнение:
(5.2.30)
Разделим уравнение (5.2.30) на n:
(5.2.31)
В уравнении (5.2.31) заменим суммы, поделённые на n, на соответствующие им начальные моменты:
(5.2.32)
Преобразовав уравнение (5.2.32) получим формулу для вычисления b1:
(5.2.33)
Формулу для вычисления коэффициента уравнения регрессии b
получим по матричной форме.
(5.2.34)
Произведём промежуточные вычисления:
(5.2.35)
Получим формулу для вычисления коэффициента уравнения (5.2.28):
(5.2.36)
Поделив числитель и знаменатель формулы (5.2.36) на n получим:
(5.2.37)
Формула (5.2.37) совпадает с ранее полученной формулой (5.2.33) поэтому результаты вычислений по двум методам признаем корректными.
По уравнению регрессии проведём прямую линию на рис.5.1.1.
у (5;9.8)
9 •
8 •
7 •
4 •
1 •
(0;-0.2) 1 2 3 4 5 х
Рис.5.1.1. Координаты экспериментальных точек и аппроксимиру-
щая их линейная зависимость
Если линейное уравнение регрессии не удовлетворяет поставленным требованиям по каким-либо параметрам, то рекомендуется перейти к нелинейной регрессии;
Для таких степенных полиномов, как правило, коэффициенты вычисляют в матричном виде с применением ПК по (5.1.13). Если нелинейность сравнительно невысокая, то можно использовать и другие математические зависимости, например, сводимые к линейной зависимости с помощью логарифмирования.
5.3. Аппроксимация экспериментальных данных нелинейными
зависимостями, сводимыми к линейным логарифмированием
Если нелинейность между переменными сравнительно невысокая, то для аппроксимации можно использовать математические зависимости, которые несложными преобразованиями, например, логарифмированием можно свести к линейным:
(5.3.1)
(5.3.2)
(5.3.3)
С помощью логарифмирования получим математические зависимости, по которым введя замену переменных, получим линейные формы записи:
(5.3.4)
(5.3.5)
. (5.3.6)
y = b0 +b1 · x.
При такой замене переменных, можно использовать ранее полученные формулы для линейной аппроксимации (5.2.21), подставив в них для (5.3.4)
ln Y вместо y и ln X вместо x; для (5.3.5) и (5.3.6) ln Y вместо y и X вместо х.
Для зависимости (5.3.4) расчётные формулы для вычисления коэффициентов линеаризованной зависимости получим преобразованием формул (5.2.21) и они примут следующий вид:
(5.3.7)
(5.3.8)
Для зависимостей (5.3.5) и (5.3.6) формулы для вычисления коэффициентов линеаризованной зависимости примут следующий вид:
(5.3.9)
(5.3.10)
Запишем формулы для перехода от коэффициентов линеаризованных зависимостей к исходным зависимостям для (5.3.1): (5.3.11)
Запишем формулы для перехода от коэффициентов линеаризованных зависимостей к исходным зависимостям для (5.3.2): (5.3.12)
Запишем формулы для перехода от коэффициентов линеаризованных зависимостей к исходным зависимостям для (5.3.3): (5.3.13)
Линеаризация зависимостей (5.3.2) и (5.3.3) в геометрической интерпретации может быть представлена как логарифмическое изменение масштабов по оси Y, которое приводит нелинейную зависимость в линейную форму представления, как это показано на рис.5.3.1. В геометрической интерпретации использованный метод линеаризации для зависимости (5.3.1) может быть представлен как логарифмическое изменение масштабов осей X и Y, которое приводит нелинейную зависимость в линейную форму представления, как это показано на рис.5.3.2.
• •
Y y=lnY
•
•
•
•
•
•
X=x
Рис.5.3.1
Y, y=ln (Y)
•
•
•
• •
• X, x=lnX
Рис.5.3.2
5.4. Аппроксимация экспериментальных данных нелинейными
зависимостями, сводимыми к линейным заменой переменных
Логарифмическая зависимость
Некоторые сравнительно несложные зависимости можно свести к линейным простой заменой переменных. Например, логарифмическую зависимость:
Y=b lnX. (5.4.1)
Для её линеаризации достаточно принять, что lnX=x Y=y,тогда получим линейную зависимость
y=bx (5.4.2) Для зависимости (5.4.2) получена формула для расчёта коэффициента b :
(5.4.3)
Например, логарифмическую зависимость:
Y=b0+b1 lnX. (5.4.4)
Для её линеаризации достаточно принять, что lnX=x Y=y,тогда получим линейную зависимость
y=b0+b1x (5.4.5) Для зависимости (5.4.5) преобразованием (5.2.21) получены следующие формулы для расчёта коэффициентов b0 и b1:
(5.4.6)
(5.4.7)
По (5.4.6) и (5.4.7) находят искомые коэффициенты.
В геометрической интерпретации процесс линеаризации сводится к логарифмическому изменению масштаба оси абсцисс.
y=Y
• •
• •
•
•
X, x=lnX
Рис.5.4.1
Гиперболическая зависимость
Зависимость называется гиперболической. Для того, чтобы для вычисления коэффициентов b0 и b1 использовать формулы, полученные для линейной зависимости y=b0+b1x (5.2.21), достаточно произвести замену переменных и получить формулы для расчёта коэффициентов гиперболтческой зависимости:
b0= . (5.4.8)
b1= . (5.4.9)
По уравнению регрессии проведём прямую линию на рис.5.4.2.
у (0.1;9.8)
9 •
8 •
7 •
4 •
(0.5;1.8)
1 •
0.1 0.2 0.3 0.4 0.5 х
Рис.5.4.2. Координаты экспериментальных точек и аппроксимиру-
щая их гиперболическая зависимость
5.5. Параболическая регрессия
Ещё один вид однофакторной регрессии аппроксимация степенными полиномами вида:
(5.5.1)
Естественно желание получить как можно простую зависимость, ограничиваясь степенным полиномам второй степени, т.е. параболической зависимостью: (5.5.2)
Вычислим частные производные по коэффициентам b0, b1 и b2:
(5.5.3)
Приравнивая производные нулю получим нормальных систему уравнений:
(5.5.4)
Решая систему нормальных уравнений (5.5.2) для конкретного случая значений xi*, yi*; получим оптимальные значения b0, b1 и b2. Для аппроксимации зависимостью (5.5.2) и тем более (5.5.1) не получены простые формулы для вычисления коэффициентов и как правило их вычисление производят по стандартным процедурам в матричном виде:
(5.5.5)
На рис.5.5.1 приведён типовой пример аппроксимации параболической зависимостью:
у
9 • (5;9)
8
7
•
4 •
(1;1) •
1 •
1 2 3 4 5 х
Рис.5.5.1. Координаты экспериментальных точек и аппроксимиру-
щая их параболическая зависимость
Пример 5.1. Провести аппроксимацию результатов эксперимента, приведённых в таблице 5.1.1, линейным уравнением регрессии .
Таблица 5.1.1
1 |
1 |
2 |
4 |
3 |
7 |
4 |
8 |
5 |
9 |
Построим экспериментальные точки по координатам, указанным в таблице 5.1.1 на графике, представленном на рис.5.1.1.
у
9 •
8 •
7 •
4 •
1 •
1 2 3 4 5 х
Рис.5.1.1
По рис.5.1.1, на котором для предварительной оценки проведём прямую линию, сделаем заключение, что в расположении экспериментальных точек имеется явно выраженная нелинейность, но она не очень значительная и поэтому имеет смысл провести их аппроксимацию линейной зависимостью. Отметим, что для получения корректно-математического заключения требуется построить прямую линию методом наименьших квадратов.
До проведения регрессионного анализа целесообразно вычислить
коэффициент линейной корреляции между переменными х и у:
Существенность корреляционной связи определяется по критическому значению коэффициента линейной корреляции, вычисляемого по формуле:
Критическое значение критерия Стьюдента tкрит находится по статистическим таблицам для рекомендуемого уровня значимости α=0.05 и для n-2 степеней свободы. Если вычисленное значение rxy не меньше критического значения rкрит, то корреляционная связь между переменными x и y считается сушественной. Произведём вычисления:
Ввиду того, что делаем заключение, что корреляционная связь между переменными х и у является существенной и она может быть линейной.
Вычислим коэффициенты уравнения регрессии:
Таким образом, получили линейное уравнение регрессии:
По уравнению регрессии проведём прямую линию на рис.5.1.2.
у (5;9.8)
9 •
8 •
7 •
4 •
1 •
(0;-0.2) 1 2 3 4 5 х
Рис.5.1.2. Координаты экспериментальных точек и аппроксимиру-
щая их линейная зависимость
По уравнению регрессии вычислим значения функции по экспериментальным точкам таблицы 5.1.1 и разницу между экспериментальными и вычисленными значениями функции, которые представим в таблице 5.1.2.
Таблица 5.1.2
1 |
1 |
1,8 |
0,8 |
0,64 |
2 |
4 |
3,8 |
0,2 |
0,04 |
3 |
7 |
5,8 |
1,2 |
1,44 |
4 |
8 |
7,8 |
0,2 |
0,04 |
5 |
9 |
9,8 |
0,8 |
0,64 |
Вычислим среднюю квадратическую ошибку и её отношение к среднему значению:
По отношению стандартной ошибки к среднему значению получен неудовлетворительный результат, так как превышено рекомендуемое значение в 0.05.
Проведём оценку уровня значимости коэффициентов уравнения регрессии по критерию Стьюдента:
Из статистической таблицы для 3 степеней свободы выпишем строки с уровнем значимости - и значением критерия Стьюдента t в таблицу 5.1.3.
Таблица 5.1.3
0,01 |
0,02 |
0,05 |
0,10 |
0,2 |
0,3 |
|
5,841 |
4,541 |
3,183 |
2,353 |
1,638 |
1,250 |
Уровень значимости коэффициентов уравнения регрессии:
Отметим, что по уровню значимости для коэффициента получен удовлетворительный результат, а для коэффициента неудовлетворительный.
Проведём оценку качества полученного уравнения регрессии по показателям, вычисляемым на основе дисперсионного анализа:
Проверка:
Результат проверки положительный, что свидетельствует о корректности проведённых вычислений.
Вычислим критерий Фишера:
при двух степенях свободы:
По статистическим таблицам находим критические значения критерия Фишера для двух рекомендуемых градаций уровня значимости:
Так как вычисленное значение критерия Фишера превосходит критическое дл уровня значимости 0,01, то будем считать, что уровень значимости по критерию Фишера меньше 0,01, что будем считать удовлетворительным.
Вычислим коэффициент множественной детерминации:
для двух степеней свободы
По статистической таблице для рекомендуемого уровня значимости 0,05и двух найденных степеней свободы находим критическое значение коэффициента множественной детерминации:
Так как вычисленное значение коэффициента множественной детерминации превышает критическое значение для уровня значимости , то уровень значимости по коэффициенту множественной детерминации и полученный результат поданному показателю будем считать удовлетворительным.
Таким образом, полученные расчётные параметры по отношению стандартной ошибки к среднему значению и уровню значимости по критерию Стьюдента являются неудовлетворительными, поэтому целесообразно для аппроксимации подобрать другую аппроксимирующую зависимость.
Пример 5.2. Аппроксимация экспериментального распределения случайных чисел математической зависимостью
Экспериментальное распределение случайных чисел, приведённое в таблице 5.1.1, при аппроксимации линейной зависимостью, не привело к удовлетворительному результату, в т.ч. по незначимости коэффициента уравнения регрессии при свободном члене, поэтому для улучшения качества аппроксимации попробуем её провести линейной зависимостью без свободного члена:
Вычислим значение коэффициента уравнения регрессии:
Таким образом, получили уравнение регрессии:
По полученному уравнению регрессии вычислим значения функции и разницу между экспериментальными и вычисленными значениями функции, которые представим в виде таблицы 5.2.1.
Таблица 5.2.1
xi |
||||
1 |
1 |
1,9454545 |
-0,9454545 |
0,8938842 |
2 |
4 |
3,8909090 |
0,1090910 |
0,0119008 |
3 |
7 |
5,8363635 |
1,1636365 |
1,3540499 |
4 |
8 |
7,781818 |
0,2181820 |
0,0476033 |
5 |
9 |
9,7272725 |
-0,7272725 |
0,5289252 |
По уравнению регрессии на рис.5.2.1 проведём прямую линию.
у (5;9.73)
9 •
8 •
7 •
4 •
1 •
(0;0) 1 2 3 4 5 х
Рис.5.2.1. Координаты экспериментальных точек и аппроксимиру-
ющая их линейная зависимость
Для оценки качества аппроксимации проведём вычисления показателей качества аналогично вычислениям, приведённым в примере 5.1.
(осталось старым);
с 4-мя степенями свободы;
для
По результатам проведённой аппроксимации отметим, что по уровню значимости коэффициента уравнения регрессии получен удовлетворительный результат; отношение стандартной ошибки к среднему значению улучшилось, но всё ещё осталось выше рекомендуемого значения 0.05, поэтому рекомендуется повторить аппроксимацию более сложной математической зависимостью.
Пример 5.3. Для улучшения качества аппроксимации примеров 5.1 и 5.2 проведём нелинейную аппроксимацию зависимостью . Для этого первоначально произведём промежуточные вычисления и их результаты поместим в таблицу 5.3.1.
Таблица 5.3.1
X |
1 |
2 |
3 |
4 |
5 |
15 |
X2 |
1 |
4 |
9 |
16 |
25 |
55 |
lnX |
0 |
0,6931 |
1,0986 |
1,3863 |
1,6094 |
4,7874 |
Y |
1 |
4 |
7 |
8 |
9 |
29 |
lnY |
0 |
1,3863 |
1,9459 |
2,0794 |
2,1972 |
7,6088 |
(lnX)2 |
0 |
0,4803876 |
1,2069219 |
1,9778276 |
2,5901683 |
6,2053 |
X·lnY |
0 |
2,7726 |
5,8377 |
8,3176 |
10,986 |
27,9139 |
lnX·lnY |
0 |
0,9608445 |
2,1377657 |
2,8826722 |
3,5361736 |
9,5175 |
Дополнительно вычислим:
Произведём аппроксимацию зависимостью . По формулам (5.3.7), (5.3.8) вычислим коэффициенты b0 и b1:
Получили промежуточную зависимость:
По формулам (5.3.11) вычислим коэффициенты A0 и A1:
Получили окончательную зависимость:
Для вычисления стандартной ошибки проведены промежуточные вычисления, представленные в таблице 5.3.2.
Таблица 5.3.2
Yi |
yi |
||
1,0202 |
1 |
0,0200 |
0,0004 |
3,1899 |
4 |
0,8100 |
0,6561 |
5,4739 |
7 |
1,5300 |
2,3409 |
8,9482 |
8 |
0,2500 |
0,0625 |
11,1340 |
9 |
2,1300 |
4,5369 |
Сумма: 7,5968
Стандартная ошибка аппроксимации получилась намного больше, чем в двух предыдущих примерах, поэтому результаты аппроксимации признаем непригодными.
Пример 5.4. Попробуем провести аппроксимацию ещё одной нелинейной зависимостью . По формулам (5.3.9), (5.3.10) по данным таблицы 5.3.1 вычислим коэффициенты b0 и b1:
Получили промежуточную зависимость:
По формулам (5.3.13) вычислим коэффициенты C0 и C1:
Получили окончательную зависимость:
Для вычисления стандартной ошибки проведём промежуточные вычисления и поместим их в таблицу 5.4.1.
Таблица 5.4.1
Yi |
yi |
||
1,671 |
1 |
0,671 |
0,450241 |
2,779 |
4 |
-1,221 |
1,490841 |
4,662 |
7 |
-2,338 |
5,466244 |
7,687 |
8 |
-0,313 |
0,097969 |
12,785 |
9 |
3,785 |
14,326225 |
Сумма: 21,83152
Вычислим стандартную ошибку:
Стандартная ошибка аппроксимации получилась намного больше, чем в предыдущем примере, поэтому результаты аппроксимации признаем непригодными.
Пример 5.5. Аппроксимация экспериментального распределения случайных чисел математической зависимостью y= b·lnx
Исходные данные как и в предыдущих примерах приведены в таблице 5.4.1 и на рис.5.4.1.
Таблица 5.4.1
1 |
1 |
2 |
4 |
3 |
7 |
4 |
8 |
5 |
9 |
На основании анализа рис.5.4.1 и таблицы 5.4.1 отметим, что при меньших значениях аргумента (в начале таблицы) функция изменяется сильнее, чем при больших (в конце таблицы) поэтому представляется целесообразным изменить масштаб аргумента и ввести в уравнение регрессии логарифмическую функцию от него и провести аппроксимацию следующей математической зависимостью:
. По формуле (5.4.3) вычислим коэффициент b:
Для оценки качества аппроксимации проведём промежуточные вычисления, представленные в таблице 5.4.2, по которым вычислим величину ошибки и отношение стандартной ошибки к среднему значению.
Таблица 5.4.2
1 |
0 |
0 |
1 |
0 |
0 |
1 |
1 |
2 |
0,6931 |
0,4803876 |
4 |
2,7724 |
4,0237302 |
0,0237302 |
0,0005631 |
3 |
1,0986 |
1,2069219 |
7 |
7,6902 |
6,3778243 |
0,6221757 |
0,3871026 |
4 |
1,3863 |
1,9218206 |
8 |
11,0904 |
8,0480409 |
0,0480409 |
0,0023079 |
5 |
1,6094 |
2,5901683 |
9 |
14,4846 |
9,3432281 |
0,3432281 |
0,1178055 |
Сумма: |
4,7874 |
6,1989756 |
35,9876 |
1,5077791 |
Так как по отношению стандартной ошибки к среднему значению превышено рекомендуемое значение 0,05, то результат будем считать неудовлетворительным. В частности, отметим, что наибольшее отклонение даёт значение х=1, так как при этом значении lnx=0. Поэтому проведём аппроксимацию зависимстью y= b0+b1·lnx
Вспомогательные вычисления представим в виде таблицы 5.4.3.
Таблица 5.4.3
1 |
0 |
1 |
0,9266414 |
0,0733586 |
0,0053814 |
2 |
0,6931 |
4 |
4,4543649 |
0,4543649 |
0,2064474 |
3 |
1,0986 |
7 |
6,5182689 |
0,4817311 |
0,2320648 |
4 |
1,3863 |
8 |
7,9825974 |
0,0174026 |
0,0003028 |
5 |
1,6094 |
9 |
9,1181264 |
0,1181264 |
0,0139538 |
4,7874 |
0,4581502 |
По формулам (5.4.6) и (5.4.7) вычислим коэффициенты b0 и b1:
у
9 • (5;9.12)
8 •
7 •
4 •
1 (1;0.93)•
1 2 3 4 5 х
Рис.5.4.1
Для оценки качества аппроксимации проведём вспомогательные вычисления и определим уровень значимости найденных коэффициентов и отношение стандартной ошибки к среднему значению.
Уровень значимости чуть выше рекомендованного значения 0,05 ().
Уровень значимости не превышает рекомендуемое значение 0,05.
Ввиду того, что по главному показателю отношению стандартной ошибки к среднему значению получено почти двукратное превышение рекомендуемого уровня 0,05 результаты будем считать приемлемыми. Отметим, что вычисленное значение критерия Стьюдента tb0=2,922 отличается от критического сравнительно на небольшую величину.
Пример 5.6. Проведём аппроксимацию экспериментальных данных примера 5.1 гиперболической зависимостью . Для того, чтобы вычислить коэффициентов b0 и b1 проведём предварительные вычисления, приведённые в таблице 5.6.1.
Таблица 5.6.1
Xi |
xi=1/Xi |
xi2 |
xiyi |
||
1 |
1 |
1 |
1 |
1 |
0,8938842 |
2 |
0,5000 |
4 |
0,2500 |
2,0000 |
0,0119008 |
3 |
0,3333 |
7 |
0,1111 |
2,3333 |
1,3540499 |
4 |
0,2500 |
8 |
0,0625 |
2,0000 |
0,0476033 |
5 |
0,2000 |
9 |
0,0400 |
1,8000 |
0,5289252 |
Сумма: |
2,2833 |
29 |
1,4636 |
9,1333 |
0,5289252 |
По результатам таблицы 5.6.1 по формулам (5.4.8) и (5.4.9) вычислим коэффициенты b0 и b1:
Таким образом, получено гиперболическое уравнение регрессии
.
Результаты вспомогательных вычислений для оценки качества аппроксимации приведены в таблице 5.6.2.
Таблица 5.6.2
Xi |
||||
1 |
1 |
0,497465 |
0,502535 |
0,252541 |
2 |
4 |
5,379575 |
1,379575 |
1,903226 |
3 |
7 |
7,006944 |
0,006944 |
0,000048 |
4 |
8 |
7,820630 |
0,179371 |
0,312770 |
5 |
9 |
8,308840 |
0,691159 |
0,477702 |
Сумма: |
29 |
2,664794 |
По результатам таблицы 5.6.2 вычислим стандартную ошибку и отношение стандартной ошибки к среднему значению:
Ввиду того, что отношение стандартной ошибки к среднему значению превышает рекомендуемое значение 0,05 делаем заключение о непригодности результатов аппроксимации.
Пример 5.7.
Для вычисления конкретных значений доходов от работы стреловых кранов в зависимости от времени проведения профилактических работ требуется получить параболическую зависимость .
Вычислим коэффициенты этой зависимости b0, b1, b11 в матричном виде по формуле:
Нелинейные уравнения регрессии, связывающие результативный показатель с оптимальными значениями проведения профилактических работ башенных кранов, получены с помощью процедуры множественной регрессии пакета прикладных программ Statistica 6.0. Далее приведем результаты регрессионного анализа для результативного показателя эффективности по таблице 5.7.1.
Таблица 5.7.1
№ |
|||
1 |
2216,468 |
4912730,395 |
1205758,97 |
2 |
1963,268 |
3854421,24 |
1056646,958 |
3 |
2201,218 |
4845360,684 |
1196778,092 |
4 |
1932,791 |
3735681,05 |
1038698,748 |
5 |
1647,137 |
2713060,297 |
870474,2507 |
6 |
2108,07 |
4443959,125 |
1141922,304 |
7 |
2137,097 |
4567183,587 |
1159016,594 |
8 |
1753,177 |
3073629,593 |
932922,2671 |
9 |
1707,905 |
2916939,489 |
906261,1336 |
10 |
2008,157 |
4032694,537 |
1083082,539 |
11 |
2176,641 |
4737766,043 |
1182304,451 |
12 |
2098,934 |
4405523,936 |
1136542,022 |
13 |
1887,59 |
3562996,008 |
1012079,427 |
14 |
1766,755 |
3121423,23 |
940918,4871 |
15 |
1892,379 |
3581098,28 |
1014899,717 |
16 |
2037,669 |
4152094,954 |
1100462,451 |
17 |
2349,035 |
5517965,431 |
1223714,2 |
В таблице 5.7.2 приведены результаты нелинейной регрессии для результативного показателя эффективности и в таблице 5.7.3 результаты анализа остатков.
Таблица 5.7.2
Таблица 5.7.3
Рис. 3.7.36. Анализ остатков.
Таким образом, получили уравнение множественной регрессии для переменной :
Отношение стандартной ошибки к среднему значению:
14780/1017890=0,0145 < 0,05.
Так как отношение стандартной ошибки к среднему значению не превышает рекомендуемого значения 0,05 то результаты аппроксимации можно считать приемлемыми. В качестве недостатка по таблице 5.7.2 следует отметить превышение рекомендуемого уровня значимости 0.05 всеми вычисленными коэффициентами.
5.6. Множественная регрессия
Стандартный регрессионный анализ в STATISTICA
Следующий пример использует файл данных Poverty. sta. Открыть его можно с помощью меню Файл, выбрав команду Открыть; наиболее вероятно, что этот файл данных находится в директории /Examples/Datasets. Данные основаны на сравнении результатов переписи 1960 и 1970 годов для случайной выборки из 30 округов. Имена округов введены в качестве идентификаторов наблюдений.
Следующая информация по каждой переменной приводится в электронной таблице Редактор спецификаций переменных (открывающийся при выборе команды Все спецификации переменных... в меню Данные).
Цель исследования. Мы проанализируем корреляты бедности (т.е. предикторы, "сильно" коррелирующие с процентом семей, живущих за чертой бедности). Таким образом, будем рассматривать переменную 3 (Pt_Poor), как зависимую или критериальную переменную, а все остальные переменные - в качестве независимых переменных или предикторов.
Начальный анализ. Когда вы выбираете команду Множественной регрессии с помощью меню Анализ, открывается стартовая панель модуля Множественная регрессия. Вы можете задать регрессионное уравнение щелчком мыши по кнопке Переменные во вкладке Быстрый стартовой панели модуля Множественная регрессия. В появившемся окне Выбора переменных выберите Pt_Poor в качестве зависимой переменной, а все остальные переменные набора данных - в качестве независимых. Во вкладке Дополнительно отметьте также опции Показывать описательные статистики, корр. матрицы.
Теперь нажмите OK этого диалогового окна, после чего откроется диалоговое окно Просмотр описательных статистик. Здесь вы можете просмотреть средние и стандартные отклонения, корреляции и ковариации между переменными. Отметим, что это диалоговое окно доступно практически из всех последующих окон модуля Множественная регрессия, так что вы всегда сможете вернуться назад, чтобы посмотреть на описательные статистики определенных переменных.
Распределение переменных. Сначала изучим распределение зависимой переменной Pt_Poor по округам. Нажмите Средние и стд.отклонения для показа таблицы результатов.
Выберите Гистограммы в меню Графика, чтобы построить гистограмму для переменной Pt_Poor (во вкладке Дополнительно диалогового окна 2М Гистограммы установите опцию Число категорий в строке Категории равной 16). Как видно ниже, распределение этой переменной чем-то отличается от нормального распределения. Коэффициенты корреляции могут оказаться существенно завышенными или заниженными при наличии в выборке существенных выбросов. Однако, хотя два округа (две самые правые колонки) имеют более высокий процент семей, проживающих за чертой бедности, чем это можно было бы ожидать в соответствии с нормальным распределением, они все еще, как нам кажется, находятся "в рамках допустимого".
Это решение является в определенной степени субъективным; эмпирическое правило состоит в том, что беспокойство требуется проявлять только тогда, когда наблюдение (или наблюдения) лежат вне интервала, заданного средним значением ± 3 стандартных отклонения. В этом случае будет разумно повторить критическую (с точки зрения влияния выбросов) часть анализа с выбросами и без них, с тем, чтобы удостовериться в отсутствии их влияния на характер взаимных корреляций. Вы также можете просмотреть распределение этой переменной, щелкнув мышкой на кнопке Диаграмма размаха во вкладке Дополнительно диалогового окна Просмотр описательных статистик, выбрав переменную Pt_Poor. Далее, выберите опцию Медиана/квартили/размах в диалоговом окне Диаграммы размаха и нажмите кнопку OK.
(Заметим, что определенный метод вычисления медианы и квартилей может быть выбран для всей "системы" в диалоговом окне Параметры в меню Сервис.)
Диаграммы рассеяния. Если имеются априорные гипотезы о связи между определенными переменными, на этом этапе может оказаться полезным вывести соответствующую диаграмму рассеяния. Например, посмотрим на связь между изменением популяции и процентом семей, проживающих за чертой бедности. Было бы естественно ожидать, что бедность приводит к миграции населения; таким образом, должна наблюдаться отрицательная корреляция между процентом семей, проживающих за чертой бедности, и изменением популяции.
Возвратимся к диалоговому окну Просмотр описательных статистик и щелкнем мышкой по кнопке Корреляции во вкладке Быстрый для отображения таблицы результатов с корреляционной матрицей.
Корреляции между переменными могут быть отображены также и на матричной диаграмме рассеяния. Матричная диаграмма рассеяния для выбранных переменных может быть получена щелчком мыши по кнопке Матричный график корреляций во вкладке Дополнительно диалогового окна Просмотр описательных статистик и последующим выбором интересующих переменных.
Задание множественной регрессии. Для выполнения регрессионного анализа от вас требуется только щелкнуть по кнопке OK в диалоговом окне Просмотр описательных статистик и перейти в окно Результаты множественной регрессии. Стандартный регрессионный анализ (со свободным членом) будет выполнен автоматически.
Просмотр результатов. Ниже изображено диалоговое окно Результаты множественной регрессии. Общее уравнение множественной регрессии высоко значимо (см. главу Элементарные понятия статистики по поводу обсуждения проверки статистической значимости). Таким образом, зная значения независимых переменных, можно "предсказать" предиктор, связанный с бедностью, лучше, чем угадывая его чисто случайно.
Регрессионные коэффициенты. Чтобы узнать, какие из независимых переменных дают больший вклад в предсказание предиктора, связанного с бедностью, изучим регрессионные (или B) коэффициенты. Щелкните мышкой по кнопке Итоговая таблица регрессии во вкладке Быстрый диалогового окна Результаты множественной регрессии для вывода таблицы результатов с этими коэффициентами.
Эта таблица показывает стандартизованные регрессионные коэффициенты (Бета) и обычные регрессионные коэффициенты (B). Бета-коэффициенты - это коэффициенты, которые получатся, если предварительно стандартизовать все переменные к среднему 0 и стандартному отклонению 1. Таким образом, величина этих Бета-коэффициентов позволяет сравнивать относительный вклад каждой независимой переменной в предсказание зависимой переменной. Как видно из таблицы результатов, изображенной выше, переменные Pop_Chng, Pt_Rural и N_Empld являются наиболее важными предикторами для бедности; из них только первые два статистически значимы. Регрессионный коэффициент для Pop_Chng отрицателен; т.е. чем меньше прирост популяция, тем большее число семей живут ниже уровня бедности в соответствующем округе. Вклад в регрессию для Pt_Rural положителен; т.е. чем больше процент сельского населения, тем выше уровень бедности.
Частные корреляции. Другой путь изучения вкладов каждой независимой переменной в предсказание зависимой переменной состоит в вычислении частных и получастных корреляций (щелкните на кнопке Частные корреляции во вкладке Дополнительно диалогового окна Результаты множественной регрессии). Частные корреляции являются корреляциями между соответствующей независимой переменной и зависимой переменной, скорректированными относительно других переменных. Таким образом, это корреляция между остатками после корректировки относительно независимых переменных. Частная корреляция представляет самостоятельный вклад соответствующей независимой переменной в предсказание зависимой переменной.
Получастные корреляция являются корреляциями между соответствующей независимой переменной, скорректированной относительно других переменных, и исходной (нескорректированной) зависимой переменной. Таким образом, получастная корреляция является корреляцией соответствующей независимой переменной после корректировки относительно других переменных, и нескорректированными исходными значениями зависимой переменной. Иначе говоря, квадрат получастной корреляции является показателем процента Общей дисперсии, самостоятельно объясняемой соответствующей независимой переменной, в то время как квадрат частной корреляции является показателем процента остаточной дисперсии, учитываемой после корректировки зависимой переменной относительно независимых переменных.
В этом примере частные и получастные корреляции имеют близкие значения. Однако иногда их величины могут различаться значительно (получастная корреляция всегда меньше). Если получастная корреляция очень мала, в то время как частная корреляция относительно велика, то соответствующая переменная может иметь самостоятельную "часть" в объяснении изменчивости зависимой переменной (т.е. "часть", которая не объясняется другими переменными). Однако в смысле практической значимости, эта часть может быть мала, и представлять только небольшую долю от общей изменчивости (подробнее см., например, в работах Lindeman, Merenda, and Gold, 1980; Morrison, 1967; Neter, Wasserman, and Kutner, 1985; Pedhazur, 1973; или Stevens, 1986).
Анализ остатков. После подбора уравнения регрессии всегда полезно изучить полученные предсказанные значения и остатки. Например, экстремальные выбросы могут существенно сместить результаты и привести к ошибочным заключениям. Во вкладке Остатки/предложения/наблюдаемые нажмите кнопку Анализ остатков для перехода в соответствующее диалоговое окно.
Построчный график остатков. Эта опция диалогового окна предоставляет вам возможность выбрать один из возможных типов остатков для построения построчного графика. Обычно, следует изучить характер исходных (нестандартизованных) или стандартизованных остатков для идентификации экстремальных наблюдений. В нашем примере, выберите вкладку Остатки и нажмите кнопку Построчные графики остатков; по умолчанию будет построен график исходных остатков; однако, вы можете изменить тип остатков в соответствующем поле.
Масштаб, используемый в построчном графике в самой левой колонке, задается в терминах сигмы, т.е. стандартного отклонения остатков. Если один или несколько наблюдений попадают за границы ± 3 * сигма, то, вероятно, следует исключить соответствующие наблюдения (это легко достигается с помощью условий отбора) и выполнить анализ снова, чтобы убедиться в отсутствии смещения ключевых результатов, вызванного этими выбросами в данных.
Построчный график выбросов. Быстрый способ идентификации выбросов состоит в использовании опции График выбросов во вкладке Выбросы. Вы можете выбрать просмотр всех стандартных остатков, выпадающих за границы ± 2-5 сигма, или просмотр 100 наиболее выделяющихся наблюдений, выбранных в поле Тип выброса во вкладке Выбросы. При использовании опции Стандартный остаток (>2*сигма) в нашем примере какие-либо выбросы не заметны.
Расстояния Махаланобиса. Большинство учебников по статистике отводят определенное место для обсуждения темы выбросов и остатков для зависимой переменной. Однако роль выбросов для набора независимых переменных часто упускается из виду. Со стороны независимых переменных, имеется список переменных, участвующий с различными весами (регрессионные коэффициенты) в предсказании зависимой переменной. Независимые переменные можно представить себе в виде точек некоторого многомерного пространства, в котором может располагаться каждое наблюдение. Например, если вы имеете две независимые переменные с равными регрессионными коэффициентами, то можно построить диаграмму рассеяния этих двух переменных и расположить каждое наблюдение на этом графике. Вы можете затем нарисовать точку средних значений обоих переменных и вычислить расстояния от каждого наблюдения до этого среднего (называемого теперь центроидом) в этом двумерном пространстве; в этом состоит концептуальная идея, стоящая за вычислением расстояний Махаланобиса. Теперь посмотрим на эти расстояния, отсортированные по величине, с целью идентификации экстремальных наблюдений по независимым переменным. В поле Тип выбросов отметьте опцию расстояний Махаланобиса и нажмите кнопку Построчный график выбросов. Полученный график показывает расстояния Махаланобиса, отсортированные в порядке убывания.
Отметим, что округ Shelby оказывается в чем-то выделяющимся по сравнению с другими округами на графике. Если посмотреть на исходные данные, можно обнаружить, что в действительности округ Shelby - значительно больший по размеру округ с большим числом людей, занятых сельским хозяйством (переменная N_Empld), и намного более весомой популяцией афроамериканцев. Вероятно, было бы разумно выражать эти числа в процентах, а не в абсолютных значениях, в этом случае расстояние Махаланобиса округа Shelby от других округов в данном примере не было бы столь велико. Однако мы получили, что округ Shelby оказывается явным выбросом.
Удаленные остатки. Другой очень важной статистикой, позволяющей оценить масштаб проблемы выбросов, являются удаленные остатки. Они определяются как стандартизованные остатки для соответствующих наблюдений, которые получились бы при исключении соответствующих наблюдений из анализа. Напомним, что процедура множественной регрессии подбирает прямую линию для выражения взаимосвязи между зависимой и независимыми переменными. Если одно из наблюдений является очевидным выбросом (как округ Shelby в этих данных), то линия регрессии стремиться "приблизится" к этому выбросу, с тем чтобы учесть его, насколько это возможно. В результате, при исключении соответствующего наблюдения, возникнет совершенно другая линия регрессии (и B-коэффициенты). Поэтому, если удаленный остаток сильно отличается от стандартизованного остатка, у вас есть основания полагать, что результаты регрессионного анализа существенно смещены соответствующим наблюдением. В данном примере удаленный остаток для округа Shelby является выбросом, который существенно влияет на анализ. Вы можете построить диаграмму рассеяния остатков относительно удаленных остатков с помощью опции Остатки и удал. остатки во вкладке Диаграммы рассеяния. Ниже на диаграмме рассеяния явно заметен выброс.
STATISTICA предоставляет интерактивное средство для удаления выбросов (Кисть на панели инструментов для графики;). Позволяющее экспериментировать с удалением выбросов и позволяющее сразу же увидеть их влияние на линию регрессии. Когда это средство активизировано, курсор меняется на крестик и рядом с графиком высвечивается диалоговое окно Закрашивание. Вы можете (временно) интерактивно исключать отдельные точки данных из графика, отметив (1) опцию Автообновление и (2) поле Выключить из блока Операция; а затем щелкнув мышкой на точке, которую нужно удалить, совместив ее с крестиком курсора.
Отметим, что удаленные точки можно "возвратить", щелкнув по кнопке Отменить все в диалоговом окне Закрашивание.
Нормальные вероятностные графики. Из окна Анализ остатков пользователь получает большому количеству дополнительных графиков. Большинство этих графиков более или менее просто интерпретируются. Тем не менее, здесь мы дадим интерпретацию нормального вероятностного графика, поскольку он наиболее часто используется при анализе справедливости предположений регрессии.
Как было замечено ранее, множественная линейная регрессия предполагает линейную связь между переменными в уравнении, и нормальным распределением остатков. Если эти предположения нарушаются, окончательные заключения могут оказаться неточными. Нормальный вероятностный график остатков наглядно показывает наличие или отсутствие больших отклонений от высказанных предположений. Нажмите кнопку Нормальный во вкладке Вероятностные графики для построения этого графика.
Этот график строится следующим образом. Сначала остатки регрессии ранжируются. Для этих упорядоченных остатков вычисляются z-значения (т.е. стандартные значения нормального распределения), исходя из предположения, что данные имеют нормальное распределение. Эти z-значения откладываются по оси Y на графике.
Если наблюдаемые остатки (отложенные по оси X) нормально распределены, то все значения будут располагаться на графике вблизи прямой линии; на данном графике все точки лежат очень близко к прямой линии. Если остатки не распределены нормально, то они будут отклоняться от линии. На этом графике также могут стать заметны выбросы.
Если имеющаяся модель плохо согласуется с данными, и данные на графике, похоже, образуют некоторую структуру (например, облако наблюдений принимает S-образную форму) около линии регрессии, то, возможно, будет полезным применение некоторого преобразования зависимой переменной (например, логарифмирование с целью "поджать" хвост распределения, и т.п.; см. также краткое обсуждение преобразований Бокса-Кокса и Бокса-Тидвелла в разделе Примечания и техническая информация). Обсуждение подобных методов лежит за рамками данного руководства (в книге Neter, Wasserman и Kutner, 1985, стр. 134, авторы предлагают превосходное обсуждение преобразований, как средств борьбы с ненормальностью и нелинейностью). Однако слишком часто исследователи просто принимают свои данные, не пытаясь присмотреться к их структуре или проверить их на соответствие своим предположениям, что приводит к ошибочным заключениям. По этой причине одной из основных задач, стоявшей перед разработчиками пользовательского интерфейса модуля Множественной регрессии было максимально возможное упрощение (графического) анализа остатков.