Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

Модели регрессионного анализа Выяснение причин хорошей либо плохой успеваемости студентов является нес

Работа добавлена на сайт samzan.net: 2016-03-05

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 20.5.2024

Лабораторная №  5. Модели регрессионного анализа

Выяснение причин хорошей, либо плохой успеваемости студентов является, несомненно, сложной задачей. Социологические теории, да и просто здравый смысл подсказывают нам, что среди факторов, влияющих на успеваемость должны присутствовать:

  •  уровень подготовки студента;
  •  активность посещения занятий;
  •  активность самостоятельной работы;
  •  способности студента.

Очевидно, что этот список неполон и может быть расширен за счет иных характеристик, однако ограничимся пока только этими показателями.

Представим схему влияния различных показателей на успеваемость в виде рисунка.

Рисунок 4.1

Модель «Успеваемость студента».

Эту картинку можно рассматривать как модель успеваемости, то есть как некоторую схему, которая позволяет систематизировать наши взгляды на изучаемое явление. Анализируя эмпирические данные, мы можем попытаться проверить, насколько эта наша модель соответствует тем реальным процессам, которые управляют успеваемостью и данные о которых можно собрать социологическими методами.

Пока, однако, в нашем распоряжении есть только инструменты проверки парных взаимосвязей между переменными – коэффициенты сопряженности и корреляции. При этом сами эти коэффициенты фактически фиксируют не то, насколько сильно взаимосвязаны два показателя между собой, а то насколько тесно они взаимосвязаны.

Теснота взаимосвязи является, несомненно, важной характеристикой, но на практике нам гораздо интереснее сила связи. Так, мы знаем, что если солить еду, то она становится солонее. То есть эти характеристики взаимосвязаны, и, по всей видимости, достаточно тесно. Однако крайне важно знать и то, насколько становится солонее блюдо, при добавлении определенного количества соли. Зависит это и от характеристик соли, и от особенностей используемых продуктов, и от специфики процесса приготовления, но, согласитесь, без этого знания, вкусного блюда не приготовишь.

В представленной на рисунке 4.1 модели для нас принципиально важно не только наличие обозначенных стрелок. Для того, что бы модель давала нам полезную информацию, которую можно использовать на практике, необходимо иметь представление о силе этих стрелок, то есть понимать, какие из показателей влияют на успеваемость сильнее, а какие слабее, а так же насколько велико совокупное влияние на успеваемость четырех выделенных факторов.

Начнем решение поставленной задачи с упрощения модели рис. 4.1 к модели рис.4.2.

Рисунок 4.2

Упрощенная модель «Успеваемость студента»

Отличие модели 4.2 от модели 4.1. в том, что мы фокусируемся только на одной причине успеваемости студента – степени предварительной подготовки, а все остальные факторы включили в «Другое». Социологический смысл данной модели представляется вполне естественным: успеваемость студента зависит от уровня его предварительной подготовки. Разумеется, успеваемость определяется не только предварительной подготовки. Есть еще множество других факторов, влияющих на успеваемость. Смысл построения модели математической зависимости состоит в выяснении того, каким образом на успеваемость влияет именно уровень предварительной подготовки, каково направление и сила этого влияния.

4.1. Общее описание регрессионной модели

Если о направлении воздействия можно сделать, как представляется, вполне обоснованное предположение: «чем выше уровень предварительной подготовки, тем выше успеваемость», то сформулировать предположения о силе такого воздействия довольно сложно. Попытаемся с помощью анализа данных, содержащих сведения об успеваемости студентов и об уровне их предварительной подготовки найти точные ответы на поставленные вопросы.

Формально предложенную модель зависимости можно записать в виде следующей математической зависимости.

y = f (x) + u  (4.1)

В этом уравнении y - показатель «Успеваемость студента», x – показатель «Уровень предварительной подготовки», f – функция, описывающая силу и форму влияния x на y, а u – все остальные факторы, влияющие на y. Задачей построения модели (4.1), становится подбор функции f, которая будет наилучшим образом описывать зависимость x и y. Рассмотрим решение этой задачи на примере.

В нашем распоряжении есть данные, в которых в качестве показателя «Уровень предварительной подготовки» выступает суммарный балл, который получил студент, сдавая вступительные экзамены в Вуз. В качестве показателя «Успеваемость» - суммарный балл студента, за первый семестр обучения в Вузе (таблица 4.1)1.


Таблица 4.1.

Оценки студентов при поступлении в Вуз

и по итогам 1-го семестра обучения

№ студента

Суммарный балл на вступительных экзаменах

Суммарный балл, по итогам 1-го семестра обучения

1

32

117,4

2

26

106,7

3

27

120,0

4

27

97,3

5

26

108,0

6

25

124,0

7

25

121,4

8

28

106,7

9

29

105,3

10

27

96,0

11

26

94,7

12

26

89,4

13

25

113,4

14

26

113,3

15

24

93,3

16

25

118,7

17

25

88,0

18

28

100,0

19

14

78,7

20

18

102,7

Коэффициент корреляции Пирсона между двумя анализируемыми показателями составляет 0,43 и значим с P>0,94. Следовательно, у нас есть неплохие основания заключить, что модель рисунка 4.2 отражает реально существующие закономерности. Изобразим данные таблицы 4.1 на диаграмме рассеяния (рисунок 4.3).

Рисунок показывает, что есть определенная зависимость между x и y – с ростом значений показателя «Уровень предварительной подготовки» наблюдается тенденция возрастания показателя «Успеваемость». Какова форма этой зависимости, то есть, каков вид функции f в выражении (4.1)? Начнем поиск этой функции с самого простого и удобного класса функций – с линейных функций.


Рисунок 4.3

Оценки студентов при поступлении в Вуз

и за 1-й семестр обучения

Почему именно с линейных? Ведь рисунок 4.3 показывает нам лишь то, что это должна быть какая-то возрастающая функция, а в этом качестве могут выступать и парабола, и логарифм, да и вообще бесконечное число самых разных функций. Причем из рисунка 4.3 видно, что какую бы функцию мы не взяли она не будет точно проходить через все точки.

Однако последнего и не требуется. Ведь в выражении (4.1) значения y описываются не как f(x), но как сумма f(x) и u. Таким образом, можно сказать, что несовпадения положения точек с графиком некоторой функции f объясняются наличием именно добавки u.

Данные соображения, к сожалению, не объясняют, почему мы решили рассматривать именно линейные функции. Объяснение этому лежит совсем в другой плоскости – на самом деле линейные функции проще и удобнее. В некотором смысле мы поступаем как герой анекдота, который ищет потерянные часы не там, где он их потерял, а под фонарным столбом, поскольку там светлее. Впрочем, мы не всегда будем решать поставленную задачу исходя из соображений максимизации простоты и удобства, и в конце данной главы рассмотрим другие виды функций.

В случае использования линейной функции f выражение (4.1) начинает выглядеть как (4.2).

y = b0+b1 x + u  (4.2)

Уравнение (4.2) называется уравнением простой (или парной) линейной регрессии. В этом выражении b0 и b1 – константы, которые и определяют конкретный вид линейного уравнения.

Представим, как мог бы выглядеть рисунок 4.3 если в него ввести линейную функцию (4.2).

Рисунок 4.4

Оценки студентов при поступлении в Вуз

и за 1-й семестр обучения

Исходя из каких соображений мы построили прямую на графике 4.4? Иными словами, как мы определили параметры b0 и b1, которые и дали нам именно такую прямую? Логика вычисления параметров прямой достаточно проста. Прямая должна лежать максимально близко ко всем точкам графика. Иными словами, сумма расстояний от всех точек на графике до искомой прямой была бы наименьшей. Рассмотрим это подробнее на рисунке 4.5.

Оставим для наглядности на графике лишь 4 точки, а остальные сделаем невидимыми. Стрелки Е1, E2, E3, E4 на рисунке 4.5 – это расстояния до регрессионной прямой для точек 1, 2, 3, 4, соответственно. Один из способов вычисления параметров b0 и b1 регрессионного уравнения состоит в минимизации суммы (4.3). То есть мы стараемся сделать минимальной не сумму расстояний от точек до прямой, а сумму квадратов расстояний.

S=E12+E22+E32+E42  (4.3)

Обычным, наиболее широко используемым методом решения задачи вычисления параметров регрессии, при минимизации выражения (4.3) является метод наименьших квадратов (МНК). Оказывается, что S минимальна при следующих значениях b0 и b1 (4.4), (4.5).

В этих выражениях cov (x,y) – ковариация x и y; x и y с чертой наверху – средние значения этих переменных.

Простые примеры работы с МНК приведены в учебнике К. Доугерти2.

Рисунок 4.5

Оценки студентов при поступлении в Вуз

и за 1-й семестр обучения.

Пример с 4-мя наблюдениями

Фактически расстояния между положениями точек и регрессионной прямой показывают, насколько велико отличие между моделью зависимости между y и x, описываемой линейным уравнением и реальными данными. Эти отличия объясняются наличием величины u в регрессионном уравнении (4.2). Ясно, что чем больше u, тем хуже описывает линейная функция реальные данные.

Степень расхождения реальных данных от линейного уравнения, то есть величины ui, в регрессионном анализе называются остатками. На рисунке 4.5 расстояния Е1, Е2, Е3 и Е4 и есть остатки.

О чем говорит большая сумма остатков? Очевидно, о том, что данные в массе своей лежат далеко от регрессионной прямой. Следовательно, мы имеем ситуацию отсутствия тесной взаимосвязи между y и x, и, следовательно, коэффициент корреляции Пирсона будет мал. Таким образом, в этом случае построение модели линейной регрессии не имеет смысла. Можно сказать, что коэффициент корреляции Пирсона выступает индикатором того, насколько тесная связь наблюдается между y и x и имеет ли смысл строить модель линейной регрессии.

 Интерпретация коэффициентов регрессии. С использованием команды REGRESSION пакета SPSS3 вычислим значения коэффициентов регрессии для данных, представленных в таблице 4.1. Получаем значения: b0= 68,4; и b1=1,4. Таким образом, модель линейной регрессии будет выглядеть следующим образом:

y=68,4+1,4 x   (4.4)

где y - успеваемость студента, x - уровень предварительной подготовки.

Коэффициент b0 показывает, в какой точке регрессионная прямая пересечет ось y. Интерпретировать этот показатель достаточно просто: какую успеваемость по итогам 1-го семестра будут иметь студенты, которые набрали на вступительных экзаменах 0 баллов. Они будут иметь успеваемость 68,4 балла. Очевидно, в рамках данного примера такая ситуация бессмысленна, однако во многих случаях b0 несет полезную информацию.

Смысл коэффициента b1 гораздо интереснее. Он показывает, на сколько баллов возрастает средняя успеваемость студента в первом семестре при увеличении на единицу балла на вступительных экзаменах в Вуз. Таким образом, мы видим, что увеличение суммарной оценки на вступительных экзаменах на 1 дает улучшение успеваемости студента в 1-м семестре на 1,4 балла. На самом деле коэффициент b1 есть ничто иное, как тангенс угла наклона регрессионной прямой, и, следовательно, именно он демонстрирует силу связи между y и x.

Качество модели линейной регрессии. Модель (4.2) дает нам основание говорить, что значение y для каждого из анализируемых случаев, то есть yi, мы можем рассматривать как сумму двух компонент (4.5):

yi=(b0+b1xi) + ui  (4.5)

Для удобства обозначим слагаемое в скобках как ŷi. Тогда выражение (4.5) может быть записано как (4.6).

yi= ŷi + ui   (4.6)

При этом первое слагаемое представляет собой ту часть значения y для i-го случая, которая объясняется линейным влиянием x. Что же касается ui, то это есть воздействие всех остальных факторов на y для i-го случая. То есть первое слагаемое – закономерная, объясняемая линейной моделью часть значения y, а вторая – часть, объясняемая всеми другими, подчас случайными и мало понятными причинами.

На уровне здравого смысла понятно, что регрессионная модель хороша, если большая часть изменений y объясняется изменением закономерной составляющей ŷ. Это простое соображение подталкивает к определению показателя, который может выступать как характеристика качества регрессионной модели. Традиционно таким показателем принято считать отношение дисперсии ŷ к дисперсии y. Обозначают этот показатель как R2 (4.7).

 

Данный показатель называется коэффициентом детерминации. Очевидно, что R2 всегда положителен и равен 1 в ситуации, кода ŷ полностью описывает y, то есть когда остатки u отсутствуют. Введем в таблицу (4.1) колонку ŷ, значения которой вычислим из полученной модели (4.4).

Таблица 4.2.

Оценки студентов при поступлении в Вуз

и по итогам 1-го семестра обучения

№ студента

Суммарный балл на вступительных экзаменах (x)

Средний балл, по итогам 1-го семестра обучения (y)

Значения y, предсказываемые регрессионной моделью (4.4) (ŷ)

1

32

117,4

114,1

2

26

106,7

105,5

3

27

120,0

107,0

4

27

97,3

107,0

5

26

108,0

105,5

6

25

124,0

104,1

7

25

121,4

104,1

8

28

106,7

108,4

9

29

105,3

109,8

10

27

96,0

107,0

11

26

94,7

105,5

12

26

89,4

105,5

13

25

113,4

104,1

14

26

113,3

105,5

15

24

93,3

102,7

16

25

118,7

104,1

17

25

88,0

104,1

18

28

100,0

108,4

19

14

78,7

88,4

20

18

102,7

94,1

Дисперсии

14,1

157,2

28,6

Исходя из дисперсий, приведенных в последней строке таблицы 4.2, мы можем рассчитать показатель качества – коэффициент детерминации для модели (4.4).

Таким образом, мы можем констатировать, что регрессионная модель (4.4) объясняет 18% дисперсии y. Иными словами, успеваемость студентов в 1-м семестре обучения в Вузе на 18% объясняется исходным уровнем подготовки студентов.

 4.2. Особенности использования регрессионных моделей при анализе данных выборочных исследований.

В рассмотренном примере поиска зависимости успеваемости студентов от уровня предварительной подготовки мы опирались на данные об оценках 20 студентов и, соответственно, получили результаты, справедливые именно для этих 20 студентов. Поскольку заключительный вывод предыдущего параграфа справедлив только для этих 20 человек, то, строго говоря, ценность этого вывода не очень велика. Действительно, то, что у некоторых 20 студентов успеваемость на первых этапах обучения в Вузе на 18% зависит от уровня предварительной подготовки, является всего лишь любопытным фактом из жизни этих 20 студентов, и не более того.

Иная ситуация возникает в случае, когда мы говорим, что изучаемые 20 студентов являются случайной выборкой из всей совокупности студентов 1-го курса факультета социологии ГУ-ВШЭ 2002 года. В этом случае можно утверждать, что результаты, полученные для 20 студентов, с определенной точностью могут быть перенесены и на всю генеральную совокупность, то есть на всех студентов 1-го курса факультета социологии ГУ-ВШЭ 2002 года.

Такое обобщение результатов называют генерализацией, а само исследование случая 20-ти студентов становится выборочным исследованием4. Очевидно, что для прямого утверждения: «Для студентов 1-го курса факультета социологии ГУ-ВШЭ 2002 года успеваемость и уровень предварительной подготовки связаны соотношением (4.4)» у нас нет оснований. Действительно, мы ведь получили этот результат только для выборки в 20 человек, а для всего 1-го курса, который насчитывает более 100 человек, зависимость может быть существенно иной.

В данном случае, поскольку сведения об успеваемости и об оценках на вступительных экзаменах для всех студентов доступны, то не составляет труда повторить вычисления на массиве всего первого курса. Однако информация обо всех элементах генеральной совокупности бывает доступна далеко не всегда. Более того, в абсолютном большинстве случаев получение таких сведений либо сопряжено с большими затратами ресурсов (времени, денег), либо вообще невозможно5. Именно по этой причине и используют выборочные, а не сплошные исследования.

В нашем случае мы тоже можем поставить вопрос: как, на основании результатов выборочного изучения успеваемости 20 студентов можно делать выводы о характеристиках всей генеральной совокупности, то есть обо всех студентах 1-го курса факультета социологии 2002 года? Как могут измениться результаты, верные для 20 человек, когда мы будем переносить их на весь поток 1-го курса?

Если задуматься о направлении этих возможных изменений, то можно предположить, что, скорее всего, регрессионная прямая, описывающая зависимость успеваемости от уровня предварительной подготовки будет не той, которую мы получили для 20 студентов (уравнение (4.4)), а какой-то другой. По всей видимости, изменится и показатель качества R2, описывающий степень приближения прямой к реальным точкам.

Что обозначает изменение регрессионной прямой? Это означает изменение коэффициентов b0 и b1. От чего может зависеть степень такого изменения? Прежде всего, от величины корреляции между x и y. Действительно, если в нашей выборке из 20 студентов мы получили, что корреляция высока, и, следовательно, реальные точки лежат достаточно плотно вокруг регрессионной прямой, то, естественно предположить, что и во всей генеральной совокупности картина аналогичная. И при этом, сама «истинная» прямая будет близка к той, которая получена по данным выборки.

Если же в выборке есть немало точек, достаточно далеко отстоящих от прямой, то вполне вероятно, что при переходе от выборки к генеральной совокупности число таких точек увеличится. Следовательно, велика вероятность того, что регрессионная прямая существенно изменит свое положение. Таким образом, принципиально важным фактором, влияющим на возможное изменение параметров b0 и b1 при переходе от выборки к генеральной совокупности, является разброс значений u, то есть дисперсия остатков. При этом понятно, что чем больше эта дисперсия, тем сильнее могут измениться b0 и b1 при генерализации.

Другим фактором, который влияет на устойчивость параметров регрессии, является дисперсия x. Действительно, из выражения (4.2) следует, что изменения y в определенной степени обусловлены изменениями x. Следовательно, чем меньше возможные изменения x, тем вероятнее, что изменения y будут происходить из-за влияния u.

Из этих рассуждений вполне логично вытекают формулы для определения стандартных ошибок для коэффициентов b0 и b1 (4.8), (4.9)6.

В этих формулах:

 - с.о. b0 – стандартная ошибка коэффициента b0;

 - с.о. b1 – стандартная ошибка коэффициента b1;

 - Du – дисперсия остатка;

 - Dх – дисперсия x;

 - x – среднее значение x;

 - n – объем выборки.

В качестве примера проведем вычисление стандартных ошибок для регрессионной модели (4.4), данные по которой представлены в таблице 4.2. Результаты вычислений сведены в таблице 4.3.

В результате получаем: с.о. b0 = 18,3;  с.о. b1 = 0,71.


Таблица 4.3.

Оценки студентов при поступлении в Вуз

и по итогам 1-го семестра обучения

№ студента

Суммарный балл на вступительных экзаменах (x)

Средний балл, по итогам 1-го семестра обучения (y)

Значения y, предсказываемые регрессионной моделью (4.4) (ŷ)

Значения остатков (u)

1

32

117,4

114,1

3,3

2

26

106,7

105,5

1,2

3

27

120,0

107,0

13,0

4

27

97,3

107,0

-9,7

5

26

108,0

105,5

2,5

6

25

124,0

104,1

19,9

7

25

121,4

104,1

17,3

8

28

106,7

108,4

-1,7

9

29

105,3

109,8

-4,5

10

27

96,0

107,0

-11,0

11

26

94,7

105,5

-10,8

12

26

89,4

105,5

-16,1

13

25

113,4

104,1

9,3

14

26

113,3

105,5

7,8

15

24

93,3

102,7

-9,4

16

25

118,7

104,1

14,6

17

25

88,0

104,1

-16,1

18

28

100,0

108,4

-8,4

19

14

78,7

88,4

-9,7

20

18

102,7

94,1

8,6

Средние

25,4

104,75

104,75

0,0

Квадрат среднего

645,2

Дисперсии

14,1

157,2

28,6

128,6

Что дают нам вычисленные значения стандартных ошибок для b0 и b1? Они дают оценку точности для этих коэффициентов при переносе результатов модели (4.4) с выборки на генеральную совокупность7. В этом смысле, говорить о том, что зависимость между успеваемостью и уровнем предварительной подготовки студентов описывается уравнением (4.4) мы не имеем права не указав с каким уровнем точности можно переносить результаты выборки на генеральную совокупность.

По этой причине зависимости типа (4.4) следует записывать в виде (4.10), отдавая себе отчет в том, что наличие характеристик точности (стандартных ошибок) в этом уравнении принципиально важно.

y=

68,4  +

1,4 x

(4.10)

(18,3)

(0,71)

Вычисленные стандартные ошибки коэффициентов b0 и b1 дают возможность с определенной, задаваемой нами самими вероятностью определить доверительные интервалы для характеристик регрессионной прямой в генеральной совокупности. Из начального курса математической статистики известно, что величина доверительного интервала параметра A определяется как (4.11).

Δ = t * с.o.(A)  (4.11)

В выражении (4.11) Δ – величина одностороннего доверительного интервала; t – квантиль нормального распределения; с.o.(A) – стандартная ошибка параметра A.

Из таблиц нормального распределения можно определить, что с вероятностью 0,95 величина t будет меньше, чем 1,968. Выражения (4.10) и (4.11) дают нам основания определить, что с вероятность 0,95 значения коэффициентов b0 и b1 для модели (4.2) в генеральной совокупности будут иметь значения:

b0 = 68,4 ± 1,96*18,3

b1 = 1,4 ± 1,96*0,71

Таким образом, регрессионное уравнение для генеральной совокупности с вероятностью 95% будет иметь коэффициент b0 лежащий в интервале (32,5; 104,3), а коэффициент b1 в интервале (0,01; 2,79).

Вычисленные доверительные интервалы для коэффициентов регрессионной модели достаточно велики. Оказывается, что с вероятностью 95% модель зависимости между уровнем исходной подготовки и успеваемостью студента может иметь весьма разный вид. На рисунке 4.6 показана построенная для наших данных линия регрессии и, пунктиром, две из бесконечного числа прямых, которые возможны в границах уравнения (4.10) не для выборки, а для генеральной совокупности.


Рисунок 4.6

Возможные формы зависимости оценок студентов

при поступлении в Вуз и за 1-й семестр обучения.

Сплошная линия - уравнение регрессии (4.10)

С чем связана столь сильная неопределенность? В формулах для стандартной ошибки регрессионных коэффициентов (4.8), (4.9) есть еще один параметр, который мы пока еще не обсуждали – n.

Действительно, из соображений здравого смысла следует, что увеличение объема выборки должно приводить к получению более точных оценок параметров регрессии. Формулы (4.8) и (4.9) показывают, что значения стандартных ошибок обратно пропорциональны корню квадратному из объема выборки. Этот факт достаточно неприятен, поскольку, например, для двукратного увеличения точности оценок параметров регрессии мы должны увеличивать объем выборки в 4 раза.

 Проверка статистических гипотез о параметрах регрессии. Итак, мы научились вычислять значения коэффициентов для линейной регрессионной модели, умеем оценивать возможную погрешность, которая возникает при генерализации. При этом, однако, может возникнуть одна существенная проблема. Не исключено, что неточность определения одного из параметров регрессии (или даже обоих) больше, либо, по крайней мере, близка к значению самих этих параметров. Например, оценивая параметр b1 для какого-то регрессионного уравнения, мы можем вычислить, что его значение равно 5, а его стандартная ошибка равна 6.

Эта ситуация близка к случаю, когда мы хотим определять вес муравья используя обычные бытовые весы, точность измерения у которых составляет ± 10 граммов. Мы, конечно, можем положить муравья на весы и записать показания стрелки. Однако, очевидно, что надежность такого измерения крайне сомнительна.

В случае, когда величина b1 равна 5, а с.о.(b1) равна 6 мы, фактически, оказываемся в ситуации, близкой к только что описанному взвешиванию муравья – возможная ошибка сравнима с измеряемым значением. Таким образом, после вычисления значений параметров и возможных ошибок параметров регрессии перед нами возникает проблема определения степени доверия к вычисленным коэффициентам.

Для решения этой проблемы существует специальный статистический критерий, основанный на так называемой t-статистике. Смысл t-статистики достаточно прозрачен. Она показывает, во сколько раз вычисленное значение параметра больше его стандартной ошибки (4.12).

 Даже на уровне здравого смысла понятно, если значение t велико, то, скорее всего, все в порядке, вычисленному значению b можно доверять. Но давайте тщательнее разберемся: что такое «t велико» и что такое «можно доверять».

Поскольку вычисленная по формуле (4.12) t-статистика является случайной величиной, то для определения того, какое значение велико, а какое нет, необходимо знать закон распределения этой случайной величины. Известно, что t-статистика имеет t-распределение, критические точки которого приведены в статистических таблицах и в учебниках по статистике9. Таким образом, используя эти таблицы, мы можем определить, с какой вероятностью можно доверять конкретному значению t-статистики.

Например, вычислим значение t-статистики для параметра b1 из уравнения (4.10).

В таблице t-распределения из учебника С.А. Айвазяна и В.С. Мхитаряна находим, что для 18 степеней свободы10, с вероятностью 0,90 t-статистика должна быть меньше, чем 1,73. В нашем случае t-статистика больше этой критической величины, и, следовательно, с вероятностью более чем 90% мы имеем основания утверждать, что вычисленному значению b1 можно доверять.

А чему, собственно, мы с такой вероятностью можем доверять? Ведь известно, что коэффициент b1 у нас измерен не точно. Мы определенное время посвятили вычислению стандартной ошибки b1., и, следовательно, наверняка знаем, что вычисленное значение b1 приблизительное. На самом деле, с вычисленной вероятностью мы можем доверять тому, что коэффициент b1 не равен нулю.

Фактически t-статистика в форме записи (4.12) служит инструментом проверки статистической гипотезы о равенстве нулю параметра b. Почему мы проверяем статистическую гипотезу о равенстве b именно нулю? Тому есть две причины.

Во-первых, в отношении b1 проверка на равенство именно нулю существенна. Действительно, ведь если b1 равно нулю, то это значит, что регрессионная прямая идет параллельно оси абсцисс и, следовательно, y не зависит от x. Таким образом, если мы не можем с высокой вероятностью отвергнуть статистическую гипотезу о равенстве b1 нулю, значит, мы не можем принять гипотезу о связи y и x.

Такой подход, однако, не объясняет, почему должны проверять гипотезу о равенстве нулю коэффициента b0. Ведь для этого коэффициента нуль является вполне приемлемым значением, ничем не отличающимся от любого другого. Здесь вступает в силу второе, сугубо утилитарное соображение. Дело в том, что все компьютерные пакеты программ статистического анализа при вычислении коэффициентов регрессии проверяют статистическую гипотезу об их равенстве именно нулю.

В заключение этого раздела приведем пример вычисления коэффициентов регрессии командой REGRESSION пакета программ SPSS (таблица 4.4).

Таблица 4.4

Пример вычисления коэффициентов регрессии

командой REGRESSION пакета программ SPSS

Coefficients

 

 

 

 

В качестве массива данных для расчетов использованы материалы, приведенные в таблице 4.1. При этом в качестве зависимой переменной (y) выступает средний балл студентов по итогам 1-го семестра, а в качестве независимой переменной (x) – суммарный балл на вступительных экзаменах. Разберем те характеристики, которые вычисляет SPSS, и которые приводятся в результирующей таблице.

В первой колонке таблицы указано, какие именно коэффициенты располагаются в соответствующих строках. При этом коэффициент, который у нас обозначался как b0, в таблице SPSS называется (Constant), в следующей строке указывается имя переменной, для которой вычисляется регрессионный коэффициент в данной строке (в нашем случае – x).

Следующие 2 колонки, объединенные заголовком «Unstandardized Coefficients» (то есть, «Нестандартизованные коэффициенты»), содержат значения регрессионных коэффициентов (колонка «B») и значения стандартных ошибок для них (колонка «Std. Error»).

Смысл колонки «Standardized Coefficients» («Стандартизованные коэффициенты») будет рассмотрен подробнее при обсуждении модели множественной регрессии. Колонка «t», как можно догадаться, содержит значения t-статистики для каждого из коэффициентов. И, наконец, колонка «Sig.» (сокращение слова Significance – значимость) - уровень значимости t-статистики. Наличие данной колонки избавляет от необходимости поиска в статистических таблицах уровня значимости для полученных значений t-статистики. Таким образом, данная колонка содержит вероятность, с которой справедлива гипотеза о равенстве нулю соответствующих регрессионных коэффициентов. В примере таблицы 4.4 вероятность того, что коэффициент b0 равен нулю, составляет 0,002, а вероятность того, что коэффициент b1 равен нулю - составляет 0,069. В результате можно утверждать, что b0 отличен от нуля с вероятностью (1-0,002)=0,998, а b1 отличен от нуля с вероятностью (1-0,069)=0,931.

Обратите внимание, что использование статистического пакета дает нам возможность получать более точный результат при проверке гипотез о равенстве нулю коэффициентов уравнения. Так, используя статистические таблицы мы оценили вероятность того, что b1 отличен от нуля, как более чем 0,9. Команда REGRESSION пакета SPSS дала более точный результат – P>0,931.

Представленные в таблице 4.1 данные, для которых вычислили регрессионную модель зависимости успеваемости от уровня предварительной подготовки, представляют собой случайную выборку из 20 человек из общей совокупности студентов 1-го курса факультета социологии. Поскольку в нашем распоряжении есть данные обо всей генеральной совокупности, то можно проверить, насколько правильно мы оценили тенденции в этой совокупности пользуясь данными выборки.

Оказалось, что уравнение для генеральной совокупности11 является следующим:

y = 79,3 + 0,95 x  (4.13)

Уравнение (4.13) существенно отличается от той зависимости, которую мы получили для выборки (4.4), однако значения коэффициентов регрессии лежат в вычисленных нами доверительных интервалах. Обратим внимание, что значение коэффициента детерминации у модели (4.13) для всей выборки оказалось равным R2=0,05, значимо с P>0,95, но существенно ниже значения, полученного на выборке. О возможностях определения коэффициента детерминации для генеральной совокупности на основании данных по выборке будет говориться ниже.

4.3. Ограничения модели регрессии.

Изложенные выше методы вычисления и оценки качества модели регрессии в целом, равно как и параметров регрессии в частности, справедливы не всегда. Вполне возможно, что характер поведения исходных данных не позволит использовать стандартный регрессионный подход. Принципиально важно, что те ограничения, которые предъявляет к данным статистическая модель регрессионного анализа, одновременно оказываются требованиями и к содержательным социологическим моделям, которые строятся на основании моделей регрессионных.

Нормальность распределения остатков. Построение доверительных интервалов при оценивании коэффициентов регрессии происходит в предположении, что возможное значение этих коэффициентов подчиняется закону нормального распределения. Выражение (4.11) непосредственно базируется на этом допущении.

В свою очередь данное предположение напрямую основано на предположении о нормальном распределении остатков u. А почему, собственно, такое предположение должно выполняться, бывают ли ситуации его невыполнения, и что это значит?

На рисунке 4.7 показана гистограмма нормального распределения. Глядя на этот рисунок представляется, что требование к нормальности распределения остатков является вполне логичным. С определенным упрощением можно считать, что это требование означает, что маленьких остатков должно быть много, а больших остатков – мало. То есть, основная масса точек должна лежать близко к регрессионной прямой, и чем дальше от прямой, тем точек должно быть меньше, и лишь небольшое число точек может лежать далеко от прямой.

Из этого рассуждения не следует, однако, что это должно быть именно нормальное распределение. Здесь вступает в силу другое соображение, затрагивающее сущность остатков. В модели рисунка 4.2 остатки («Другие факторы») – это совокупность большого числа разнообразных факторов, которые воздействуют на показатель «Успеваемость», кроме показателя «Уровень предварительной подготовки». При этом, как можно предположить, ни один из этого большого числа «Других факторов» не оказывает принципиального влияния на успеваемость.

В этой ситуации вступает в силу одна из центральных теорем теории вероятностей – центральная предельная теорема. Она утверждает, что «если случайная величина является общим результатом взаимодействия большого числа других случайных величин, ни одна из которых не является доминирующей, то он будет иметь приблизительно нормальное распределение»12. Исходя из этой теоремы, предположение о нормальности распределения остатков выглядит вполне естественным.

Рисунок 4.7.

Гистограмма нормально распределенной случайной величины

с средней=0 и дисперсией=1

Что произойдет, если условие нормальности распределения остатков будет нарушено? Прежде всего, это значит, что мы не сможем пользоваться формулами для определения доверительных интервалов для коэффициентов регрессии. А раз так, то у нас нет возможности переносить результаты, полученные на выборке, на характеристики генеральной совокупности. И, следовательно, вычисленная по выборке прямая регрессии остается ценной лишь для этой выборки.

Рассмотрим гипотетический пример, в котором нарушается правило нормальности распределения остатков. На рисунке 4.8 показана диаграмма рассеяния для данных об оценках на вступительных экзаменах и о среднем балле по итогам 1-го семестра для неких 40 студентов.

Коэффициент линейной корреляции Пирсона для данных, представленных на рисунке 4.8 составляет 0,33 и значим с P>0,03. Следовательно, с вероятностью около 97% мы можем утверждать, что модель линейной зависимости между переменными имеет место. Параметры линейной регрессии даны в (4.14) (в скобках – значения стандартных ошибок):

R2=0,11

b0= 83,3 (10,6)  (4.14)

b1= 0,92 (0,42)

 Таким образом, представляется, что мы вполне можем анализировать регрессионную модель. Проверим, однако, выполняется ли для данных рисунка 4.8 требование нормальности распределения остатков. На рисунке 4.9 изображена гистограмма распределения остатков.

Рисунок 4.9 показывает, что распределение остатков явно отличается от нормального. Многие авторы указывают, что когда идет контроль на нормальность распределения остатков регрессии, нет необходимости требовать жесткого выполнения этого требования13. Однако, гистограмма на рисунке 4.9 на нормальную кривую не похожа совсем. Гораздо больше она напоминает гистограмму случайной величины, которая является суммой двух нормально распределенных случайных величин с разными средними. Какие выводы можно сделать из такого распределения остатков? Первый вывод состоит в том, что пользоваться значениями регрессионных коэффициентов и стандартных ошибок (4.14) для определения с фиксированной вероятностью доверительных интервалов для регрессионных коэффициентов, базируясь на формуле (4.11), нельзя.

Рисунок 4.8

Гипотетический пример распределения оценок при поступлении в вуз

и оценок за 1-й семестр обучения

Рисунок 4.9

Гистограмма распределения остатков

для регрессионной модели рисунка 4.8

Второй вывод более содержателен. Гистограмма рисунка 4.9 показывает, что в нашей модели достаточно много больших положительных и достаточно много больших отрицательных остатков. Остатков же маленьких по абсолютной величине относительно немного. Из этого следует, что часть данных лежит выше регрессионной прямой, а часть – ниже. Отсюда можно сделать вывод, что, по всей видимости, наши данные представляют собой совокупность двух, существенно различных массивов данных. В каждом из этих массивов, по всей видимости, наблюдается своя форма зависимости между уровнем предварительной подготовки студента и успешностью его обучения в вузе.

Если вернуться к формулировке центральной предельной теоремы, то можно предположить, что нарушение нормальности остатков произошло по той причине, что один факторов, входящих состав «Других факторов» (модель рисунка 4.2), оказывает доминирующее влияние на величины остатков. Следовательно, нормальное распределение может быть нарушено.

Выделим из данных, изображенных на рисунке 4.8, те точки, которые лежат выше регрессионной прямой (массив 1), и те, которые лежат ниже регрессионной прямой (массив 2) и построим регрессии для каждого из этих массивов (рисунок 4.10).

Рисунок 4.10

Разбиение данных рисунка 4.8 на 2 массива данных

и построение регрессионной модели для каждого из массивов

Две построенные регрессионные модели имеют показатели качества гораздо более высокие, чем одна модель, общая для всех данных. Если общая модель имела значение R2=0,11, то модель для массива 1 имеет R2=0,61, а для массива 2 – R2=0,60. Существенно отличаются и параметры моделей: для 1-го массива b0=83,1 (5,5); b1=1,14 (0,22). Для второго массива - b0=65,9 (6,8); b1=1,38 (0,26).

Таким образом, контроль на нормальность распределения остатков позволил получить важный результат. Наши данные содержат две различные совокупности респондентов и в каждой из этих совокупностей наблюдаются свои закономерности взаимосвязи между уровнем исходной подготовки и успеваемостью. К сожалению, метод регрессионного анализа не может сказать, что это за две совокупности. Быть может это юноши и девушки, быть может - студенты из Москвы и из других городов и т.д. Нашей задачей является поиск признака, который разделяет всю совокупность опрошенных на две группы. Важно, однако, что с помощью контроля формальных ограничений метода регрессионного анализа мы вышли на интересный социологический результат.

 Равная дисперсия распределения остатков (гомоскедастичность). Данное ограничение метода понять достаточно легко. На рисунке 4.11 показан гипотетический пример распределения данных. Рисунок демонстрирует, что с увеличением значения x возрастает разброс (дисперсия) точек вокруг регрессионной прямой.

Рисунок 4.11

Гипотетический пример с нарушением однородности

распределения данных вокруг регрессионной прямой

К чему приводит такая картина данных с точки зрения оценок регрессионных коэффициентов? В формулах (4.8) и (4.9) для оценки стандартных ошибок коэффициентов b0 и b1 присутствует величина Du – дисперсия остатков. Для данных, представленных на рисунке 4.11 дисперсия остатков составляет 21,7. Однако, если разбить весь массив данных на тех студентов, кто на вступительных экзаменах получил невысокий балл (x25) и тех, кто получил высокий балл (x > 25), окажется, что дисперсия остатков в этих двух массивах существенно разная. Для тех, у кого x25 дисперсия остатков равна 7,5, а для тех, у кого x > 25 она равна 33,8.

В таблице 4.5 приведены значения параметров регрессии, рассчитанные для данных в целом и для двух подмножеств данных.

Таблица 4.5

Характеристики регрессионных моделей для данных гипотетического примера

рисунка 4.11 и для двух подмножеств данных

 

 

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

B

Std. Error

Beta

(Constant)

68,413

18,332

3,732

,002

X

1,428

,713

,427

2,002

,069

Параметры регрессии

Все данные

x25

x > 25

R2

0,56

0,52

0,10

b0

59,0

59,0

59,0

c.о. b0

3,97

5,79

18,13

b1

2,00

2,00

2,00

c.о. b1

0,16

0,25

0,66

Дисперсия остатков

21,7

7,5

33,8

Данные таблицы 4.5 показывают, что значения самих регрессионных коэффициентов во всех трех моделях одинаковы. Однако стандартные ошибки регрессионных коэффициентов для тех данных, у которых x > 25 гораздо больше, чем те, которые мы получаем, основываясь на данных массива в целом14. Следовательно, базируясь на общей для всего массива данных линии регрессии, мы рискуем дать ошибочную модель, по крайней мере, для части массива.

Таким образом, обязательным условием для построения регрессионной модели является требование одинакового разброса наблюдений вокруг линии регрессии для всех значений x. Это требование называется требованием гомоскедастичности, что означает «одинаковый разброс».

С социологической точки зрения нарушение гомоскедастичности, то есть гетероскедастичность, фактически означает, что для разных значений x мы должны строить разные регрессионные модели. Действительно, пример на рисунке 4.11 говорит нам, что характер зависимости между уровнем предварительной подготовки студента и его успехами в начале обучения в вузе для студентов, набравших на вступительных экзаменах не более 25 баллов, существенно отличается от аналогичной зависимости для студентов, набравших более 25 баллов. В первой группе студентов зависимость между оценками на вступительных экзаменах и оценками в вузе гораздо более тесная, чем для студентов второй группы. Действительно, даже простой подсчет коэффициента корреляции Пирсона для этих двух показателей в примере рисунка 4.11 показывает, что в первой группе r=0,72, а во второй – r=0,34.

Основным выводом, который можно сделать при обнаружении гетероскедастичности, является необходимость разделения массива на несколько относительно гомоскедастичных подмассивов и построение для каждого из них отдельной модели регрессии. Представляется, что при таком подходе и с содержательной точки зрения результаты будут гораздо адекватнее.

Проверка ограничений регрессионной модели. Как уже было показано, основным методом контроля нормальности распределения остатков и гомоскедастичности является анализ остатков. Большинство статистических пакетов анализа данных предоставляют для этого удобные средства. В рамках команды REGRESSION пакета программ SPSS последовательность действий будет следующей.

1. В меню команды REGRESSION, после задания зависимой и независимой переменных, необходимо выбрать меню, вызываемое клавишей Save (рисунок 4.12).

Рисунок 4.12

Меню команды REGRESSION пакета программ SPSS

2. В меню Save в разделе «Residuals» (остатки) необходимо поставить галочку против позиции «Unstandardized» (не стандартизованные) (рисунок 4.13). Это приведет к созданию в матрице данных SPSS новой переменной со служебным именем res_1. В качестве значений данной переменной будут находиться остатки, вычисленные командой REGRESSION для линейной регрессионной модели. На рисунке 4.14 показан фрагмент матрицы данных SPSS для примера рисунка 4.11 с вновь созданной переменной res_1.

3. Полученные таким образом значения переменной res_1 можно, с помощью команд меню GraphsHistiogram можно проверить на нормальность распределения остатков. Методом построения двумерного графика (GraphsLine) можно оценить гомоскедастичность. В последнем случае в качестве переменной по оси x следует использовать независимую переменную из регрессионной модели, а в качестве переменной по оси y – переменную со значениями остатков.

Рисунок 4.13

Меню Save команды REGRESSION


Рисунок 4.14

Фрагмент матрицы данных SPSS с добавленной переменной res_1.

4.4. Множественный регрессионный анализ.

В самом начале данной главы, на рисунке 4.1 была представлена модель зависимости успеваемости от 4-х различных характеристик: от уровня подготовки студента; от активности посещения занятий; от активности самостоятельной работы; от личных способностей. В дальнейшем мы упростили эту модель, сосредоточив свое внимание на анализе воздействия только одного фактора – уровня предварительной подготовки студента, а остальные показатели, равно как другие, не зафиксированные в модели рисунка 4.1, мы объединили в фактор «Другое» и рассматривали их скорее как мешающие построить упрощенную модель успеваемости (рисунок 4.2).

Благодаря линейной регрессионной модели мы выяснили, уровень предварительной подготовки студентов на 18% определяет их успеваемость на первых этапах обучения в вузе, построили модель линейной регрессии, которая описывает зависимость данных показателей (уравнение (4.10)). Попытаемся теперь вернуться к модели рисунка 4.1, снова упростив эту модель, но сделав ее, все-таки сложнее, чем модель рисунка 4.2.

Рисунок 4.12

Упрощенная модель «Успеваемость студента»

К сожалению, у нас в распоряжении нет данных, в которых систематически фиксировалась бы посещаемость студентами занятий. По этой причине в дальнейшем мы будем рассматривать вымышленный пример, данные которого приведены в таблице 4.5.

Таблица 4.5.

Оценки студентов при поступлении в Вуз

и по итогам 1-го семестра обучения

№ студента

Суммарный балл на вступительных экзаменах (x1)

Суммарный балл, по итогам 1-го семестра обучения (y)

Процент занятий, пропущенных студентом (x2)

1

32

117,4

1

2

26

106,7

3

3

27

120,0

1

4

27

97,3

12

5

26

108,0

15

6

25

124,0

3

7

25

121,4

10

8

28

106,7

12

9

29

105,3

18

10

27

96,0

10

11

26

94,7

12

12

26

89,4

20

13

25

113,4

5

14

26

113,3

7

15

24

93,3

10

16

25

118,7

12

17

25

88,0

15

18

28

100,0

11

19

14

78,7

15

20

18

102,7

5

Мы могли бы повторить весь путь, построения модели простой линейной регрессии, изучив зависимость успеваемости от активности посещения занятий. Однако модель рисунка 4.5 подразумевает исследование влияния на успеваемость одновременно двух показателей: активности посещения занятий и уровня предварительной подготовки. Для построения математической модели одновременного влияния нескольких факторов (независимых переменных, предикторов) на зависимую переменную используют усложнение модели простой линейной регрессии – модель множественной линейной регрессии.

Общий вид модели множественной линейной регрессии является естественным развитием уравнения (4.2) для простой линейной регрессии (4.15).

y = b0+b1 x1 + b2 x2 + b3 x3+   + bn xn + u  (4.15)

Так же, как и в модели простого регрессионного анализа, принимая зависимость y от нескольких x в форме (4.15), мы делаем очень сильное допущение о линейной форме этой зависимости. Как правило, для такого допущения у нас нет сколь-нибудь серьезных социологических оснований. Использование модели именно линейного регрессионного анализа основано, прежде всего, на хорошей разработанности этого метода. Для обоснования применимости данной модели к конкретным социологическим данным необходимо провести отдельное исследование, о чем мы будем говорить, обсуждая нелинейные регрессионные модели.

Приступая к построению множественной регрессионной модели, прежде всего, необходимо ответить на вопрос: а существует ли вообще хоть какая-то зависимость между y и иксами? Быть может никакой зависимости нет и наши усилия по построению модели заведомо обречены на неудачу?

Как и в ситуации простой регрессионной модели, индикатором наличия зависимости выступает коэффициент корреляции Пирсона. При выборе независимых переменных для модели (4.15) целесообразно вычислить корреляции между y и иксами.

Коэффициенты корреляции для данных таблицы 4.5 составляют: ry x1 = 0,43;  ry x2 = -0,62, они высоко значимы и, следовательно, построение модели множественной регрессии для этих данных имеет смысл.

Точно так же, как и в модели простой регрессии для вычисления значений регрессионных коэффициентов b0, b1, b2,… bn в множественной регрессии используется метод наименьших квадратов. И так же, как в ситуации простой регрессии важнейшей задачей является оценка точности регрессионных коэффициентов. Формула для оценки стандартной ошибки коэффициента регрессии b1 для случая двух независимых переменных, приведена ниже (4.15). Формула для оценки стандартной ошибки b2 будет точно такой же, лишь с заменой индекса x1 на x2. Как видно, эта формула отличается от формулы стандартной ошибки для простой линейной регрессии (4.9) появлением второго сомножителя.

- с.о. b1 – стандартная ошибка коэффициента b1;

- Du – дисперсия остатка;

- Dх1 – дисперсия x1;

- n – объем выборки;

- r2x1,x2 – квадрат коэффициента корреляции Пирсона для переменных x1 и x2.

Таким образом, при вычислении стандартной ошибки для регрессионных коэффициентов, наряду с дисперсией остатков и дисперсией независимой переменной, у нас появляется еще один источник ошибки – корреляция между независимыми переменными. При этом из формулы (4.15) следует, что чем больше значение этого коэффициента (то есть, чем теснее связаны независимые переменные между собой), тем больше будет величина стандартной ошибки.

Точно так же, как и для случая простой регрессии вычисляются значения t-статистики (формула (4.12)), которая, с одной стороны, показывает, во сколько раз значение регрессионного коэффициента больше его стандартной ошибки, с другой стороны служит для оценки вероятности того, что соответствующий регрессионный коэффициент равен нулю.

Как и в случае простой регрессии, нам необходим инструмент общей оценки качества построенной множественной регрессионной модели. Напомним, что в простой регрессии эту функцию выполнял коэффициент детерминации R2 (4.7), который показывает, какую часть от общей дисперсии y объясняют независимые переменные. Ничто не мешает нам и в случае множественной регрессионной модели так же использовать R2 для оценки качества этой модели.

Дополним таблицу 4.5 колонкой ŷ и вычислим значения R2 для этой модели (таблица 4.7).

Таблица 4.7.

Оценки студентов при поступлении в Вуз

и по итогам 1-го семестра обучения

№ студента

Суммарный балл на вступительных экзаменах (x1)

Суммарный балл, по итогам 1-го семестра обучения (y)

Процент занятий, пропущенных студентом (x2)

Значения y, вычисляемые линейной регрессионной моделью (ŷ )

1

32

117,4

1

124,2

2

26

106,7

3

114,4

3

27

120,0

1

118,2

4

27

97,3

12

103,8

5

26

108,0

15

98,6

6

25

124,0

3

113,2

7

25

121,4

10

104,0

8

28

106,7

12

105,0

9

29

105,3

18

98,3

10

27

96,0

10

106,4

11

26

94,7

12

102,6

12

26

89,4

20

92,0

13

25

113,4

5

110,6

14

26

113,3

7

109,2

15

24

93,3

10

102,8

16

25

118,7

12

101,4

17

25

88,0

15

97,4

18

28

100,0

11

106,3

19

14

78,7

15

84,3

20

18

102,7

5

102,2

Дисперсии

157,2

80,2

В обсужденном только что примере мы получили достаточно большое значение коэффициента R2 и можем, вроде бы, утверждать, что уровень исходной подготовки студента и активность посещения занятий в значительной степени определяют его успехи в учебе. А если бы R2 оказался равен 0,2, либо вообще 0,05? Разумеется, в этом случае наша радость по поводу качества построенной модели была бы гораздо скромнее. Более того, вполне может возникнуть и более серьезный вопрос: а быть может, полученное значение вообще статистическая случайность и связи между анализируемыми показателями на самом деле нет?

Если аналогичного плана сомнения возникают у нас в отношении значений регрессионных коэффициентов, то, как уже обсуждалось, мы можем вычислить стандартные ошибки и, используя t-статистику проверить, с какой вероятностью соответствующий коэффициент может считаться отличным от нуля. А есть ли такого рода инструменты для R2? Можем ли каким-то образом вычислить доверительный интервал для полученного значения R2?

Ответ, к сожалению, отрицательный. У нас нет таблицы критических значений R2, и по этой причине мы не можем пойти тому пути, который используем для оценки значимости регрессионных коэффициентов. Метод, который применяется для вычисления уровня значимости R2, более громоздкий. Рассмотрим его подробнее.

В модели регрессионного анализа мы предполагаем, что каждое значение зависимой переменной складывается из того значения, которое предсказывается моделью - ŷ, и некоторой ошибки (остатка) - u.

y = ŷ + u.

Легко показать, что в этом случае дисперсия y может быть представлена в виде суммы:

Dy=Dŷ + Du.

Исходя из определения дисперсии, перепишем последнее выражение в виде (4.15).

Умножив обе части уравнения на n и вспомнив, что ū=0 мы получаем выражение (4.16).

Левая часть уравнения (4.16) представляет собой общую сумму квадратов отклонений y от его средней. В статистической литературе это выражение принято обозначать знаком TSS (Total Sum of Squares). Первое слагаемое в правой части (4.16) является той частью суммы квадратов отклонений от средней, которая объясняется регрессионной моделью и обозначается как ESS (Explained Sum of Squares). Наконец, последний член в уравнении (4.16) есть ничто иное, как просто сумма квадратов остатков RSS (Residuals Sum of Squares)15. Таким образом, уравнение (4.16) можно переписать в виде (4.17).

TSS=ESS+RSS  (4.17)

Для оценки значимости коэффициента детерминации R2 используется F-статистика, которая вычисляется как отношение средних квадратов по формуле (4.18).

где n – число наблюдений; k – число независимых переменных.

Таким образом, F-статистика представляет собой отношение объясненной суммы квадратов (в расчете на одну переменную) к необъясненной сумме квадратов (в расчете на одну степень свободы). Таблицы критических значений F-статистики приведены во многих учебниках и, следовательно, мы легко можем установить уровень значимости коэффициента детерминации для конкретного случая, что и служит методом оценки достоверности коэффициента R2.

К сожалению, данный метод оценки коэффициента детерминации не дает возможности построения доверительного интервала для R2. Следовательно, получив некоторое значение R2 по результатам анализа данных в выборке, мы не сможем оценить значение этого коэффициента в генеральной совокупности.

При выполнении команды регрессионного анализа большинство статистических пакетов проводят оценку значимости R2 через разложение дисперсии по схеме (4.17) и выводят значение F-статистики. Команда REGRESSION пакета SPSS выводит эту информацию в таблице, называемой ANOVA (ANalyses Of VAriance – то есть таблица анализа дисперсии, подробно описанная в предыдущей главе). В таблицах 4.8 и 4.9 содержатся результаты выполнения команды REGRESSION пакета SPSS для данных таблицы 4.7.

Таблица 4.8

Результаты разложения дисперсии

при выполнении регрессионного анализа данных таблицы 4.5

ANOVA

 

 

 

Таблица 4.9

Коэффициенты регрессии

при выполнении регрессионного анализа данных таблицы 4.5

Coefficients

 

Sum of Squares

df

Mean Square

F

Sig.

Regression

1524,514

2

762,257

8,860

,002

Residual

1462,576

17

86,034

Total

2987,090

19

 

 

Unstandardized Coefficients

Standardized Coefficients

T

Sig.

B

Std. Error

Beta

(Constant)

87,354

15,638

5,586

,000

Суммарный балл на вступительных экзаменах

1,193

,572

,357

2,086

,052

Процент пропущенных занятий

-1,316

,390

-,577

-3,376

,004

Во второй колонке таблицы 4.8 («Sum of Squares») находятся суммы квадратов из формулы (4.17): в первой строке – ESS, во второй строке – RSS, в последней строке – TSS. В третьей колонке («Mean Square») находятся те же суммы квадратов, но уже деленные на числа степеней свободы (см. на знаменатели формулы (4.18)). В следующей колонке – значение F-статистики, и, наконец, в последней колонке («Sig.») – вероятность того, что вычисленное значение F-статистики может быть равно нулю. Гипотеза о равенстве нулю F-статистики эквивалентна гипотезе о равенстве нулю R2. Таким образом, таблица 4.7 показывает, что мы можем принять гипотезу об отсутствии влияния иксов на y c вероятностью P=0,002. Иными словами, с вероятностью P=0,998 мы можем заключить, что «суммарный балл на вступительных экзаменах» и «процент пропущенных занятий» влияют на «успеваемость» студента.

В таблице 4.9 мы получили различные показатели, качающиеся регрессионных коэффициентов. Смысл и значение этих показателей идентичны смыслу показателей, вычисляемых в случае простой линейной регрессии (см. таблицу 4.4 и комментарии к ней). Однако есть одна колонка, значение которой мы пока не обсуждали. Это колонка, содержащая стандартизованные коэффициенты регрессии («Standardized Coefficients»).

Необходимость в стандартизованных коэффициентах регрессии продемонстрируем на следующем примере. Изучается влияние на частоту покупки определенного товара двух факторов: величины дохода (x1) и возраста покупателя (x2) . В результате проведенного регрессионного анализа было получено следующее уравнение (4.19):

y  =

0,3  +

0,01  x1 +

0,15   x2

(4.19)

(0,05)

(0,001)

(0,01)

у – частота покупки товара; x1 – доход; x2 – возраст.

Из этого уравнения видно, что влияние обеих переменных на y высоко значимо(t-статистика для b1 и b2 равна 10 и 15, соответственно). При этом, поскольку коэффициент при переменной x2 в 15 раз выше, чем коэффициент при x1, то кажется, что на частоту покупки возраст влияет гораздо сильнее, чем доход.

В этом рассуждении, однако, не учтен один важный факт. А именно то, что интервал изменения возраста составляет менее 40 единиц (в данном случае – лет), поскольку в исследовании опрашивались респонденты от 25 до 60 лет. Интервал же изменения дохода составляет несколько тысяч единиц (рублей). То есть масштаб изменения x1 в сотни раз больше, чем масштаб изменения x2. Таким образом, суммарное воздействие дохода может оказаться гораздо существеннее, чем суммарное влияние возраста.

Данная ситуация вполне типична при построении регрессионных моделей для анализа социологических данных. Поскольку размерности используемых переменных могут быть очень разные, то оказывается, что регрессионные коэффициенты bi часто не дают нам возможности сказать, какая же из переменных сильнее влияет на y.

Для решения задачи сопоставления влияния независимых переменных на y используют стандартизованную форму регрессионного уравнения. При этом подходе все переменные в уравнении регрессии стандартизуют, то есть вместо y и всех иксов используют их стандартизованные значения (4.20):

(4.20)

Как изменится регрессионное уравнение, если вместо y и x мы будем использовать Zy и Zx, соответственно? Во-первых, поскольку в результате преобразования (4.20) не изменятся коэффициенты корреляции между всеми переменными, то показатель качества регрессионной модели R2 не изменится. Во-вторых, если вспомнить, что коэффициент b0 вычисляется по формуле

,

то становится ясно, что при такой замене b0 в регрессионном уравнении станет равным нулю. В результате стандартизованная форма регрессионного уравнения будет выглядеть следующим образом (4.21).

Что дает нам такая измененная форма уравнения регрессии? Для построения нашей модели, вообще говоря, ничего. Однако, поскольку в отличие от использовавшихся в основном уравнении иксов, все Zxi в уравнении (4.21) имеют одинаковый масштаб изменений, то коэффициенты βi в этом уравнении сравнимы между собой. Таким образом, сопоставляя эти коэффициенты между собой, мы можем понять, какая из переменных оказывает на y более сильное влияние.

Таким образом, глядя на коэффициенты Beta колонки 4 таблицы 4.9 видно, что активность посещения занятий влияет на успеваемость студента в 1,6 раз сильнее, чем уровень его предварительной подготовки.

Подчеркнем, что стандартизованные коэффициенты регрессии не заменяют нестандартизованных. У них другой смысл и назначение. Если нестандартизованные коэффициенты показывают, на сколько меняется y при изменении соответствующего x на единицу, то стандартизованные коэффициенты позволяют сопоставить между собой общую степень воздействия каждого из x на y.

Ограничения модели множественного регрессионного анализа. Равно как и при построении модели простой линейной регрессии, для корректного вычисления стандартных ошибок регрессионных коэффициентов в модели множественной регрессии требуется выполнение требований нормального распределения остатков регрессии и гомоскедастичности. Наряду с этими ограничениями у модели множественной регрессии есть и свое специфическое ограничение, которое называется требованием отсутствия мультиколлинеарности.

Из формулы (4.15) вычисления стандартной ошибки коэффициентов регрессии следует, что наличие высокой корреляции между какой-то парой независимых переменных приводит к резкому увеличению значений стандартных ошибок у соответствующих регрессионных коэффициентов. Рассмотрим пример, поясняющий суть данной проблемы.

Не вызывает сомнения, что на покупательское поведение человека существенным образом влияет размер его дохода. При этом можно предположить, что для тех товаров, для которых распространена модель ситуативной покупки, более существенно влияние показателя личного дохода, а для товаров долговременного спроса большее влияние оказывает среднедушевой доход. Предположим, что при изучении моделей потребления некоторого товара мы хотим изучить, какой из этих двух показателей оказывает более существенное влияние.

В таблице 4.10 приведены гипотетические данные по анализируемым показателям.

Таблица 4.10

Матрица, содержащая модельные данные по 3-м выбранным показателям

№ респондента

Количество покупок товара за последнее время

Среднедушевой доход респондента (руб.)

Личный доход респондента (руб.)

1

2

1000

1000

2

3

5500

4000

3

3

7000

5000

4

2

2000

2000

5

1

10000

7000

6

4

5000

5000

7

7

6000

6000

8

8

3000

2000

9

3

2000

2000

10

5

12000

6000

11

6

10000

6000

12

10

10000

10000

13

1

3000

3000

14

3

4000

4000

15

4

6700

6700

16

7

15000

7500

17

2

4000

5000

18

9

9000

6500

19

9

7000

7000

20

3

3000

4000

На первом шаге анализа построим две модели простой регрессии, для того, что бы понять, как влияет на частоту покупки каждый из рассматриваемых показателей. В таблице 4.11 показаны результаты построения этих двух моделей.

Таблица 4.11

Параметры моделей простой линейной регрессии

при двух различных независимых переменных

Описание модели

Параметры модели

b0

b1

R2

Значимость R2

Независимая переменная – среднедушевой доход респондента

2,33

(1,13)

0,0004

(0,0002)

0,23

0,03

Независимая переменная – личный доход респондента

1,06

(1,33)

0,0007

(0,0002)

0,32

0,01

Данные таблицы 4.11 показывают, что обе модели высоко значимы. Что же покажет регрессионная модель с одновременным участием двух означенных переменных в качестве независимых?

Результаты построения этой модели весьма неожиданны. Значение R2 этой модели составило 0,32 при значимости 0,04. Это первая неожиданность – значимость одновременного воздействия на y двух переменных меньше, чем любой из них по отдельности.

Вторую неожиданность дает таблица регрессионных коэффициентов (таблица 4.12).

Таблица 4.12

Coefficients

 

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

 

B

Std. Error

Beta

(Constant)

1,078

1,371

,786

,443

Среднедушевой доход респондента

0,00004

0,0003

,046

,133

,896

Личный доход респондента

0,0007

0,0004

,529

1,512

,149

Из таблицы 4.12 следует, что обе переменных оказывают слабо значимое влияние на y. Это уже совершенно непонятно, поскольку R2 достаточно высоко значим, то есть совокупное влияние двух переменных существенно.

Объяснение этим парадоксам легко найти, если подсчитать коэффициент корреляции Пирсона между двумя независимыми переменными. Он составляет 0,82 и, следовательно, в данном примере мы столкнулись со случаем нарушения ограничения мультиколлинеарности. Оказывается, что в ситуации сильной корреляции между независимыми переменными, доверять оценкам коэффициентов регрессии нельзя. Таким образом, мы не можем решить задачу выявления более сильно влияющих факторов с использованием метода множественной регрессии.

Визуальный контроль диаграммы рассеяния часто показывает, что при том, что большинство точек лежит более или менее близко к регрессионной прямой, есть, как правило, небольшое число точек, у которых расстояние с прямой весьма велико. На рисунке 4.13 показана диаграмма рассеяния для гипотетического массива данных по 20 наблюдениям. Регрессионная модель достаточно хорошо описывает данные: R2=0,44; P>0,999.

Рисунок 4.13

Диаграмма рассеяния для гипотетического примера

Однако на диаграмме можно увидеть, что есть 2 точки, которые располагаются достаточно далеко от прямой (на рисунке 4.13 они обведены кругами). С социологической точки зрения наличие такого рода точек достаточно примечательно. Оказывается, что есть два наблюдения, которые, по всей видимости, плохо вписываются в ту тенденцию, которую можно наблюдать у 18 остальных наблюдений. Такого рода точки, резко выпадающие из общей тенденции, и, соответственно, далеко отстоящие от регрессионной прямой, в регрессионном анализе принято называть выбросами.

Наличие выбросов является весьма негативным фактом, как с математической, так и с содержательной точки зрения. С математической точки зрения выбросы ухудшают нормальность распределения остатков и увеличивают их дисперсию, что сказывается на увеличении стандартных ошибок регрессионных коэффициентов и на уменьшении коэффициента детерминации. С социологической же точки зрения все еще хуже. Возникает подозрение, что наши данные неоднородны. В них есть часть наблюдений, для которых характерен один вид зависимости y от x, и другая часть, у которых эта зависимость существенно иная. Мы же строим для всех данных одну, единую модель, которая в результате не будет описывать ни одну из этих частей данных. В некотором смысле все это напоминает вычисление средней температуры по больнице, в которой у половины больных температура 42 градуса, а у половины – 32 градуса. В среднем же температура составляет 37 градусов, и, опираясь на эту цифру можно сказать, что больные, в основном, близки к выздоровлению.

Следует отметить, что появление выбросов при построении регрессионных моделей для социологических данных - явление весьма распространенное. Одной из причин их появления бывают ошибки ввода данных. Например, при вводе данных в компьютер для показателя дохода оператор совершил ошибку и вместо «10000 рублей» ввел «1000 рублей». При построении регрессионной модели эта анкета, скорее всего, окажется выбросом. Таким образом, анализ выбросов может служить эффективным инструментом контроля данных.

Второй причиной появления выбросов при анализе социологических данных является попадание в выборку каких-то специфических совокупностей респондентов, которые по некоторым параметрам резко отличаются от остальной выборки. Например, при сборе данных по всероссийской выборке, в массив вполне могут попасть работники нефтедобычи из Тюменской области. Поскольку средние зарплаты у данной категории респондентов существенно выше, чем в среднем по стране, то при построении регрессионной модели они могут оказаться выбросами. Очевидно, в такой ситуации строить общую модель не целесообразно. Следует разделить массив на достаточно однородные группы и построить модели для каждой из них. Таким образом, анализ выбросов может помочь в выделении каких-то специфических групп респондентов из общего массива данных.

К чему приведет удаление выбросов из данных примера на рисунке 4.13? Во-первых, к резкому улучшению качества модели регрессии. Коэффициент детерминации вырос с 0,44 до 0,72. Стандартные ошибки регрессионных коэффициентов уменьшились в полтора раза. Во-вторых, изменились сами значения регрессионных коэффициентов, то есть изменилось содержание регрессионной модели. Как представляется, модель с удаленными выбросами гораздо адекватнее отражает исследуемые закономерности.

Важным вопросом, который необходимо решить при анализе выбросов, является следующий простой вопрос: «В какой момент определенное наблюдение следует считать выбросом?». Две точки, обозначенные на рисунке 4.13 как выбросы, для наглядности изображены действительно далеко отстоящими от прямой. А если бы они располагались чуть-чуть ближе к прямой, то они все равно являлись бы выбросами, или уже нет? Где та граница, которая отделяет выбросы от «нормальных» данных?

Однозначного ответа на этот вопрос нет. В каждом конкретном случае этот ответ приходится искать заново исходя, прежде всего, из решаемой социологической задачи.

Определяя какое-то наблюдение как выброс, мы исходим из величины остатка. Остаток же – это расстояние между реальным значением y, которое есть у данного респондента и тем значением ŷ, которое предсказывает респонденту модель. Исходя из того, что такое в нашей задаче y мы и задаем границу, определяющую остаток. Например, при построении модели влияния уровня предварительной подготовки на успеваемость студента, в качестве y у нас выступал средний балл, полученный студентом в 1-ом семестре (таблица 4.1, рисунок 4.3). Определим как выбросы те наблюдения, для которых остаток превышает 15 по абсолютной величине. Почему мы выбрали «15» в качестве границы? Исходя из здравого смысла – кажется, что те респонденты, у которых предсказанное значение среднего балла за 1-й семестр отличается от реального на 15 и более совсем плохо вписываются в построенную модель и этих респондентов из модели лучше удалить.

А можно ли было взять в качестве порогового значения 10? Ведь отклонение на 10 тоже является достаточно сильным. При определении порогового значения для выбросов необходимо обратить внимание на дисперсию остатков. Для данных таблицы 4.1 и регрессионной модели (4.4) стандартное отклонение остатков составляет 11,3. Отсюда следует, что если мы будем использовать 10 в качестве границы (величину меньше, чем σ), то, в силу требования нормальности распределения остатков, в выбросы у нас попадет более 1/3 случаев, что весьма нежелательно. Таким образом, важным фактором при определении границы выбросов является разброс остатков.

Команда REGRESSION пакета SPSS предлагает в качестве выбросов считать те случаи, у которых значение остатка выходит за границу 3 стандартных отклонений остатков (то есть используется правило 3σ). На рисунке 4.14 приведено меню «Statistics» команды REGRESSION, в котором обведена та часть, которая фиксирует диагностику выбросов. Заметьте, что по умолчанию предлагается выбросами считать значения остатков, выходящие за 3σ. Однако, в том окне, где на рисунке 4.14 стоит 3 можно указать и любое другое целое число.

Рисунок 4.14

Меню «Statistics» команды REGRESSION.

Часть меню, фиксирующая диагностику выбросов, обведена.

При выборе параметров, обозначенных в меню рисунка 4.14, команда регрессии напечатает номера тех наблюдений, в которых значения остатков выходят за границы 3-х стандартных отклонений.

Наряду с теми ограничениями метода линейного регрессионного анализа, о которых мы говорили (1. нормальность распределения остатков; 2. гомоскедастичность; 3. отсутствие мультиколлинеарности), есть еще одно очень серьезное ограничение – уровень измерения переменных, используемых в модели. Все те рассуждения, статистические характеристики и меры связи, которые использовались при построении модели регрессии, применимы только к показателям, измеренным на интервальном или абсолютном уровнях16. В отношении социологических данных это очень неприятно, поскольку большинство переменных, с которыми работают социологи, измерены на порядковом или номинальном уровнях.

Если не преодолеть ограничение на уровень измерения переменных, то окажется, что область применения регрессионных моделей в социологии весьма ограничена. Оказывается, что преодолеть это ограничение можно, причем несколькими разными путями.

В таблице 4.13 показаны различные модификации регрессионного подхода для ситуаций с разным уровнем измерения переменных.

Таблица 4.13

Разновидности регрессионных моделей

в зависимости от уровня измерения переменных

Уровень измерения x

Интервальный или абсолютный для всех x

Порядковый для всех x

Для некоторых x интервальный или абсолютный, для некоторых – порядковый, либо номинальный

Уровень измерения y

Интервальный или абсолютный

Классическая регрессионная модель

Классическая регрессионная модель с использованием фиктивных переменных

Классическая регрессионная модель с использованием фиктивных переменных

Порядковый

Множественная логистическая регрессия

Порядковая регрессия

Множественная логистическая регрессия с использованием фиктивных переменных

Номинальный с несколькими значениями

Множественная логистическая регрессия

Множественная логистическая регрессия с использованием фиктивных переменных

Множественная логистическая регрессия с использованием фиктивных переменных

Номинальный с двумя значениями

Бинарная логистическая регрессия

Бинарная логистическая регрессия с использованием фиктивных переменных

Бинарная логистическая регрессия с использованием фиктивных переменных

Не смотря на кажущуюся сложность и объемность таблицы 4.13 (и, соответственно, многообразие различных регрессионных моделей), во всех этих моделях, наряду с классической идеей регрессии, присутствуют еще два существенно новых подхода. Во-первых, это идея фиктивных переменных, и, во-вторых, идея логитов. Рассмотрим вначале фиктивные переменные.

4.5. Регрессионная модель с использованием фиктивных переменных.

Включение в регрессионные модели переменных, измеренных на порядковом и номинальном уровнях, является во многих случаях абсолютно необходимой задачей. Например, когда мы строили модель зависимости успеваемости от уровня предварительной подготовки, вполне логичным кажется предположение о том, что эта зависимость может быть различной для юношей и для девушек. Проверить это предположение можно довольно просто – для этих двух групп студентов построить две отдельные модели и сравнить полученные результаты. Есть, однако, более эффективный, и, как будет видно в дальнейшем, более общий метод – введение в регрессионную модель фиктивных переменных17.

Для иллюстрации дополним таблицу 4.1 данными о поле студента (таблица 4.14).

Таблица 4.14.

Оценки студентов при поступлении в Вуз

и по итогам 1-го семестра обучения

№ студента

Суммарный балл на вступительных экзаменах

Суммарный балл, по итогам 1-го семестра обучения

Пол студента

(0 – мужской; 1- женский)

1

32

117,4

1

2

26

106,7

1

3

27

120,0

1

4

27

97,3

1

5

26

108,0

1

6

25

124,0

1

7

25

121,4

0

8

28

106,7

1

9

29

105,3

1

10

27

96,0

0

11

26

94,7

1

12

26

89,4

1

13

25

113,4

1

14

26

113,3

1

15

24

93,3

0

16

25

118,7

1

17

25

88,0

1

18

28

100,0

1

19

14

78,7

0

20

18

102,7

1

Посчитаем средние значения двух рассматриваемых оценок для юношей и для девушек (таблица 4.15).

Таблица 4.15

Средние оценки, полученные на вступительных экзаменах и по итогам 1-го семестра юношами и девушками (по данным таблиц 4.14)

 

 

 

 

Данные таблицы 4.15 показывают, что как на вступительных экзаменах, так и по итогам 1-го семестра оценки девушек несколько выше, чем оценки юношей. Таким образом, если мы будем строить регрессионные модели зависимости успеваемости от уровня предварительной подготовки, то, скорее всего, это будут две прямые. Одна из них (данные по девушкам) расположена несколько выше другой (данные по юношам). Таким образом, следует строить две модели, а не одну. Можно ли, тем не менее, свести это к одной модели? Оказывается, что можно.

Предположим, что мы имеем две регрессионные модели, аналогичные тем, которые изображены на рисунке 4.15 и которые записываются в виде двух уравнений (4.22).


Рисунок 4.22

Гипотетическая модель для двух регрессионных моделей

Пол

Средняя сумма баллов на вступительных экзаменах

Средний суммарный балл по итогам 1-го семестра

N=

Девушки

26,2

106,6

16

Юноши

22,5

97,3

4

Всего

25,5

104,7

20

y  =

7,6

+  1,3 x

(ряд 1)

(4.23)

y  =

11,6

+  1,3 x

(ряд 2)

Очевидно, что коэффициенты b1 в этих уравнениях должны быть одинаковы, поскольку прямые на рисунке 4.15 идут параллельно. Два ряда данных, представленных в уравнениях (4.23) можно представить в виде одного уравнения (4.24).

y = 7,6 + 4 D + 1,3 x   (4.24)

В уравнении (4.24) D это переменная, которая принимает значение 0, если это данные из рада 1 и 1, если данные принадлежат ряду 2.

На уравнение (4.24) можно взглянуть как модель множественной регрессии с двумя независимыми переменными x и D. При таком подходе две прямых на рисунке 4.22 становятся одним графиком для регрессионной модели (4.24). Принципиально важно, что в данном примере переменная D является фактически номинальной переменной, которая делит всю совокупность на две части – ряд 1 и ряд 2.

Таким образом, модели множественной регрессии, типа (4.24), в которые входит дихотомическая переменная, могут описывать зависимости, в которые в качестве одного из x входит переменная, измеренная на номинальном уровне. Если вернуться теперь к примеру данных, представленных в таблице 4.14, то можем построить модель одновременного влияния на успеваемость и уровня предварительной подготовки и пола студентов.

Проведя вычисления для данных всей генеральной совокупности, мы получаем следующее регрессионное уравнение:

y =  

81,7  +

10,9 x1 +

0,53 x2

(4.25)

(11,2)

(3,2)

(0,46)

P=0,000

P=0,001

P=0,26

В уравнении (4.25) переменная x1 – фиктивная переменная «Пол студента», x2 – переменная «Суммарный балл на вступительных экзаменах»; R2=0,16.

Ведение в модель, объясняющую успеваемость, переменной «Пол студента» принципиально меняет не только вид модели (сопоставьте модель (4.10) с моделью (4.25)), но и ее содержательную интерпретацию. Модель (4.10) показывала, что успеваемость на 18% объясняется уровнем предварительной подготовки студентов. Модель (4.25) говорит нам, что уровень предварительной подготовки студентов значимого влияния на успеваемость не оказывает, а вот пол влияет на успеваемость, и притом существенно.

Для оценки достоверности полученного результата, необходимо проверить выполнение для модели (4.25) ограничений метода множественного регрессионного анализа.

1. Ограничение мультиколлинеарности. Коэффициент корреляции Пирсона между переменными x1 и x2 составляет 0,27. Этот коэффициент хотя и значим с P>0,02, однако, очевидно, мультиколлинеарности между независимыми переменными нет.

2. Нормальность распределения остатков. На рисунке 4.23 показана гистограмма распределения остатков для модели (4.25) для данных, фрагмент которых представлен в таблице 4.14. Пунктиром на этом рисунке обозначена кривая нормального распределения. Хотя представленная гистограмма и не совпадает с нормальным распределением, представляется, что общий вид этой гистограммы вполне позволяет нам использовать подходы к оценке значимости коэффициентов регрессии.


Рисунок 4.23

Гистограмма распределения остатков модели (4.25)

3. Гомоскедастичность. Мы рассматривали проблему равенства дисперсий остатков в ситуации простой линейной регрессии. При этом требовалось равенство дисперсий остатков при различных значениях x. В случае модели множественной регрессии, вместо проверки равенства дисперсии остатков по всем независимым переменным, можно проверить это равенство при различных значениях y. Таблица 4.16 содержит данные для проверки гомоскедастичности.

Таблица 4.16

Проверка равенства дисперсии остатков для модели (4.25)

 

 

 

 

 

 

 

 

 

 

 

Таблица 4.16 показывает, что, хотя и нет точного равенства дисперсии при различных значениях y (на практике его вообще практически никогда не бывает), тем не менее, поскольку нет резких отклонений, можно констатировать, что существенных нарушений гомоскедастичности нет.

Таким образом, проверка выполнения ограничений регрессионного метода показывает, что модель (4.25) является вполне достоверной.

Фиктивные переменные. Продолжение. Обсужденные выше возможности применения дихотомических переменных в модели регрессии открывают перед нами возможности введения в регрессию переменных, измеренных на номинальном и порядковом уровне. Для реализации этих возможностей и существует процедура создания из номинальных или порядковых переменных нескольких дихотомических переменных, которые, собственно, и называются фиктивными переменными.

Процедура эта состоит в следующем. Предположим, что мы имеем переменную с 4-мя градациями, измеренную на номинальным уровне. Пусть, для определенности, это будет вопрос о семейном положении. Очевидно, что с социологической точки зрения семейное положение является характеристикой, оказывающей существенное влияние на многие поведенческие, мотивационные, ценностные аспекты жизни индивида. В этой связи включение семейного положения в число независимых переменных весьма желательно для построения многих социологических моделей.

Разделим переменную «Семейное положение» на фиктивные переменные следующим образом.

Ваше семейное положение

Значения y

Дисперсия остатков

N

<87

50,5

8

87-90

44,5

8

90-94

65,9

8

94-96

54,5

8

96-100

53,2

7

100-106

65,1

9

106-110

51,6

7

110-114

53,5

10

114-120

44,6

9

>120

50,7

10

1. Холост (не замужем)   ------------------- >

Q1  1. Холост (не замужем)

      0. Иное семейное положение

2. Женат (замужем)        -------------------- >

Q2  1. Женат (замужем)

      0. Иное семейное положение

3. Разведен (а)                --------------------- >

Q3  1. Разведен

      0. Иное семейное положение

4. Вдовец (вдова)         ---------------------- >

Q4  1. Вдовец (вдова)

      0. Иное семейное положение

На этой схеме видно, что одну переменную «Ваше семейное положение» мы преобразовали в 4 дихотомических переменных, которые в совокупности эквивалентны одной исходной переменной. Эквиваленты в том смысле, что вся информация, которая содержится в ответе респондента на исходный вопрос без каких- то потерь может быть извлечена из значений новых 4-х переменных. Более того, на самом деле для восстановления информации исходного вопроса достаточно любых трех  из четырех созданных переменных. Действительно, если мы оставим лишь первых три переменных- Q1, Q2, Q3, то кажется, что мы можем потерять ответы тех респондентов, которые отметят семейное положение «4». Однако, при таком ответе респондента значения переменных Q1, Q2 и Q3 будут равны нулю. Таким образом, значение нулю данных трех переменных означает, что переменная Q4 будет равна единице. Если же хотя бы одна из переменных Q1, Q2 или Q3 равна единице, то это означает, что переменная Q4 равна нулю.

Общее правило, которое следует из рассмотренного примера, состоит в том, что всю информацию, которая содержится в переменной с N градациями можно сохранить используя N-1 дихотомическую переменную.

Что мы выигрываем, заменяя одну исходную переменную несколькими дихотомическими? Выигрываем мы многое: у нас появляется возможность включения переменной «Семейное положение», измеренной на номинальном уровне, в регрессионную модель. Правда, придется нам включать не одну переменную, а несколько дихотомических, но, самое главное, что теперь мы можем изучать степень воздействия на y не только количественных показателей, но любых социологических переменных.

Интерпретация коэффициентов регрессии при фиктивных переменных. Смысл коэффициентов регрессии при фиктивных переменных принципиально отличается от коэффициентов при обычных количественных переменных. Напомним, что нестандартизованный коэффициент bi показывает, на сколько единиц изменяется значение y при изменении xi на одну единицу. Для понимания смысла регрессионных коэффициентов при фиктивных переменных вернемся к последнему примеру, в котором мы создали три фиктивных переменных для переменной «Семейное положение». Если выполнить процедуру построения модели множественной регрессии с использованием этих переменных, то модель будет выглядеть следующим образом:

y = b0 + b1 Q1 + b2 Q2 + b3 Q3  (4.26)

Что показывает в этой модели коэффициент b0? Обратите внимание, что в ситуации, когда исходная переменная «Семейное положение» имеет значение «4», то есть, когда респондент отметил в вопросе позицию «Вдовец (вдова)», то переменные Q1, Q2 и Q3 будут равны нулю. Таким образом, уравнение (4.26) для таких респондентов превращается в выражение y = b0. Отсюда и смысл коэффициента b0 – это среднее значение y для той группы респондентов, для которой не создано фиктивной переменной.

Чему будет равно среднее значение y для тех респондентов, которые на вопрос о семейном положении отметили позицию «1» (то есть у респондентов, которые холосты (не замужем))? Для этих респондентов фиктивная переменная Q1 будет равна 1, а остальные – нулю. Таким образом, уравнение (4.26) приобретает следующую форму: y = b0+b1. Это выражение показывает, что среднее значение y для респондентов, имеющих семейное положение «1», на b1 отличается от среднего значения y у респондентов, имеющих семейное положение «4». Из последнего вывода следует и общая закономерность, объясняющая смысл регрессионных коэффициентов при фиктивных переменных.

Коэффициент bi при фиктивной переменной xi показывает, на сколько среднее значение y в группе респондентов, для которых значение фиктивной переменной xi равно 1, отличается от среднего значения y в группе респондентов, для которых не создано фиктивной переменной. Все коэффициенты bi при фиктивных переменных показывают величину различия с одной группой респондентов. Таким образом, группа, для которой не создано фиктивной переменной выступает эталонной, с которой и производится сопоставление всех остальных групп. Для подчеркивания этого факта такую группу обычно называют контрольной группой.

Если вернуться к примеру с созданием фиктивных переменных для показателя «Семейное положение» возьмем в качестве y величину заработка респондента и построим регрессионную модель с построенными фиктивными переменными (4.27)18.

y =

1805,8 +

915,3 Q1 +

515,6 Q2 +

172,9 Q3

(4.27)

(373,6)

(407,1)

(385,3)

(428,8)

P>0,001

P>0,03

P>0,18

P>0,69

Из модели (4.27) видно, что средний заработок респондентов с семейным положением «4» (то есть вдовцов) составляет 1805,8 рублей. Средний заработок холостяков (семейное положение «1») выше заработка вдовцов на 915,3 рубля. Средний заработок группы женатых (замужних) респондентов выше заработка вдовцов на 515,6 рублей. Заработок же разведенных респондентов выше заработка вдовцов в среднем на 172,9 рублей.

О чем говорят значения доверительных интервалов и уровни значимости для регрессионных коэффициентов при фиктивных переменных? Например, для коэффициента при Q1 мы можем утверждать, что с вероятностью 95% разность между средней зарплатой вдовцов и холостяков лежит в интервале (101,1 - 1729,5) рублей. Уровень значимости показывает, с какой вероятностью мы можем утверждать, что средний размер зарплаты у соответствующей группы не отличается от средней зарплаты респондентов контрольной группы. Так, уравнение (4.27) показывает, что с вероятностью 0,69 средний уровень зарплаты у холостяков не отличается от зарплаты группы вдовцов (контрольной группы)19.

О выборе контрольной группы. Удобная и социологически прозрачная интерпретация результатов регрессионного анализа с использованием фиктивных переменных существенно зависит от выбора контрольной группы. Обсуждая значение каждого из регрессионных коэффициентов, мы говорим, что они показывают насколько среднее значение y в этой группе больше (или меньше) среднего значения y в контрольной группе. Для того, что бы такое сопоставление между двумя группами было содержательно интересным, сам смысл контрольной группы должен быть понятен. Если, например, в качестве контрольной группы мы возьмем респондентов, которые затруднились с ответом на вопрос, то сама эта группа, в большинстве случаев, крайне неоднородна и противоречива. Действительно, группа затруднившихся с ответом обычно включает в себя и тех, кто поленился отвечать, и тех, кто после мучительных размышлений, так и не смог выбрать один из предложенных вариантов, и тех, кто просто ничего не знает по теме вопроса, и, наверное, еще какие-то группы респондентов.

Таким образом, если мы будем говорить, что «в анализируемой группе среднее значение y больше, чем в группе затруднившихся ответить», то социологического смысла в этом будет немного. Эталон для сопоставления должен представлять из себя социологически понятную группу респондентов. Тогда и само сравнение будет представлять интерес.

Вторым требованием к выбору контрольной группы является ее объем. Что произойдет, если в качестве контрольной группы мы выберем очень маленькую группу? Например, если контрольная группа будет составлять, скажем, 3% от всей выборки. В этом случае соответствующая фиктивная переменная в 3% всех случаев будет иметь значение «1» и в 97% случаев – «0». Если объем выборки при этом будет составлять 500 респондентов, то дисперсия этой фиктивной переменной будет 0,006.

Вернувшись к формуле определения стандартной ошибки для коэффициентов множественной регрессии (4.15) мы увидим, что в знаменателе этой формулы находится Dx – дисперсия x. Ясно, что при такой низкой дисперсии x показатель стандартной ошибки будет большим.

Рассмотрим пример, который показывает влияние размера выбираемой контрольной группы на получаемые результаты20. В качестве y возьмем величину заработной платы респондента: «Каким был размер Вашего заработка, доходов от основной работы, полученных в прошлом месяце (после вычета налогов)?» В качестве переменной, влияющей на размер доходов, используем самооценку респондентом своего социального статуса: «К какому слою в обществе Вы бы, скорее всего, себя отнесли?»

1. К низшему слою

2. К рабочим

3. К низшей части среднего слоя

4. К средней части среднего слоя

5. К высшей части среднего слоя

6. К высшему слою

7. Затрудняюсь ответить.

На первом шаге удалим из массива данных респондентов, затруднившихся с ответом. Из оставшихся 6 градаций вопроса необходимо определить ту группу, которая будет взята в качестве контрольной. Взглянем на таблицу одномерного частотного распределения (таблица 4.17).

Таблица 4.17

Результат расчета командой FREQUENCIES пакета SPSS

ответов на вопрос анкеты:

«К какому слою в обществе Вы бы, скорее всего, себя отнесли?»

 

 

 

 

 

 

 

 

 

 

Представляется, что для дальнейшего сравнения в качестве контрольной группы целесообразно взять одну из полярных групп – первую или последнюю. При этом, однако, таблица 4.17 показывает, что последняя группа (то есть группа относящих себя к высшему слою) крайне мала. Если с содержательной точки зрения эта совокупность достаточно однородна и социологически понятна, то в ситуации малой по объему контрольной группы нет ничего страшного. Однако, обычным не столько требованием, сколько пожеланием является рекомендация отнесения к контрольной группе остаточно больших совокупностей респондентов. В этом есть и еще один резон, который проявится в обсуждаемой далее ситуации создания нескольких совокупностей фиктивных переменных.

Таблица 4.18

Результат расчета командой REGRESSION пакета SPSS

параметров регрессии для случая контрольной группы

«Принадлежность к высшему слою»a

Coefficients

 

Frequency

Percent

Valid Percent

Valid

1. К низшему слою

260

10,8

11,7

2. К рабочим

869

36,1

39,0

3. К низшей части среднего слоя

356

14,8

16,0

4. К средней части среднего слоя

658

27,3

29,5

5. К высшей части среднего слоя

77

3,2

3,4

6. К высшему слою

10

,4

,5

Total

2231

92,7

100,0

Missing

Затрудняюсь ответить

176

7,3

Total

2407

100,0

 

 

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

B

Std. Error

Beta

(Constant)

3112,1

1139,4

2,7

0,01

1. К низшему слою

-1825,8

1194,4

-0,16

-1,5

0,13

2. К рабочим

-980,5

1145,0

-0,20

-0,9

0,39

3. К низшей части среднего слоя

-1007,8

1155,1

-0,15

-0,9

0,38

4. К средней части среднего слоя

-320,6

1147,9

-0,06

-0,3

0,78

5. К высшей части среднего слоя

443,9

1207,9

0,03

0,4

0,71

a Показатель качества для модели составляет R2=0,033 c P>0,001

В интерпретации результатов, представленных в таблице 4.18 есть еще одна специфика. Из представленных в таблице регрессионных коэффициентов следует, что, хотя разница в зарплате между представителями контрольной группы и респондентами, отнесшими себя к другим группам среднего слоя достаточно велика, t-статистика показывает, что эта разница слабо значима, либо незначима вообще.

Кажется, что их этого факта можно сделать два вывода. Во-первых, величина зарплаты лиц, относящих себя к высшему классу, приблизительно равна зарплате тех, кто относит себя к другим социальным слоям. Этот вывод на прямую следует из таблицы 4.18 регрессионных коэффициентов. Второй вывод, вроде бы, естественным образом следует из первого: зарплаты людей, относящих себя к разным социальным слоям равны между собой. Действительно, если, с одной стороны, зарплата относящих себя к высшему слою не отличается от зарплаты относящих себя к высшей части среднего слоя, а с другой стороны, зарплата относящих себя к высшему слою не отличается от зарплаты, относящих себя к рабочим, то, кажется, что можно заключить, что зарплата относящих себя к рабочим не отличается от зарплаты, относящих себя к верхней части среднего слоя. Иными словами, если А равно В и А равно С, то, наверное, можно заключить, что В равно С. Это свойство в математике называют транзитивностью.

Оказывается, что в отношении коэффициентов свойство транзитивности не соблюдается. Это легко продемонстрировать, если построить регрессионную модель для тех же переменных, но в качестве контрольной группы взять, скажем, респондентов, относящих себя к нижнему слою. Регрессионные коэффициенты этой модели приведены в таблице 4.19.

Таблица 4.19

Результат расчета командой REGRESSION пакета SPSS

параметров регрессии для случая контрольной группы

«Принадлежность к низшему слою»a

Coefficients

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

B

Std. Error

Beta

(Constant)

1286,3

358,6

3,6

0,000

2. К рабочим

845,3

376,0

0,17

2,2

0,025

3. К низшей части среднего слоя

818,0

405,8

0,12

2,0

0,044

4. К средней части среднего слоя

1505,2

384,8

0,28

3,9

0,000

5. К высшей части среднего слоя

2269,7

537,9

0,17

4,2

0,000

6. К высшему слою

1825,8

1194,5

0,05

1,5

0,127

a Показатель качества для модели составляет R2=0,033 c P>0,001

Вначале отметим, что показатель качества в двух обсуждаемых моделях одинаковый, что неизбежно, поскольку, количество информации в совокупностях фиктивных переменных в обоих случаях одинаково. Далее, модель, представленная в таблице 4.19 подтверждает одну часть первого вывода – зарплата тех, кто относит себя к высшему слою, слабо отличается от тех, кто относит себя к низшему слою. Что же касается второго вывода, то таблица 4.19 его опровергает. Действительно, зарплата в контрольной группе с вероятностью более, чем 95% отличается от зарплат всех групп, кроме группы респондентов, относящих себя к высшему слою. Следовательно, вывод о равенстве зарплат во всех группах не подтверждается. Подробнее вопрос о причинах нарушения транзитивности и следствиях этого, обсуждается в разделе «Метод множественных сравнений» главы «Дисперсионный анализ».

Продемонстрированный метод использования номинальных, либо порядковых переменных в регрессионной модели открывает большие перспективы для включения в число независимых переменных широкого списка самых разных показателей. Есть, однако, определенная специфика использования нескольких переменных в таких моделях. Разберем этот вопрос ниже.

Несколько групп фиктивных переменных. Расширим список переменных, влияющих на заработную плату из примера модели (4.27), включением в этот список переменной «Образование респондента». Таким образом, мы хотим определить степень влияния на зарплату одновременно семейного положения и образования респондента. Две независимых переменных, каждая из которых имеет 4 градации, в совокупности дают нам 16 возможных сочетаний значений. Для каждого из этих сочетаний потребуется создание своей фиктивной переменной, кроме одного сочетания, которое будет выбрано контрольной группой. Таблица 4.20 показывает все возможные сочетания и создаваемые фиктивные переменные. В таблице 4.20 сочетание (4,4) было выбрано контрольной группой, и, соответственно, переменная Q44 в таблице отсутствует (для демонстрации эта клетка в таблице заштрихована).

Таблица 4.20

Список фиктивных переменных для включения в регрессионную модель

двух номинальных переменных – «Образование» и «Семейное положение»

ОБРАЗОВАНИЕ

1. Общее начальное или неполное среднее

2. Общее полное среднее

3. Среднее специальное

4. Незаконченное высшее, высшее

Семейное положение

1. Холост (не замужем)

Q11

Q12

Q13

Q14

2. Женат (замужем)

Q21

Q22

Q23

Q24

3. Разведен (а)

Q31

Q32

Q33

Q34

4. Вдовец

(вдова)

Q41

Q42

Q43

Две группы фиктивных переменных Включение в модель (4.27) двух групп фиктивных переменных дает нам модель (4.28).

y =

2527,7 +

853,6 Q1 +

484,6 Q2 +

179,8 Q3 -

594,4 Q4 -

925,7 Q5 - 

819,4 Q6

(408,9)

(404,2)

(382,9)

(426,2)

(310,7)

(220,1)

(209,2)

(4.28)

P>0,001

P>0,04

P>0,21

P>0,67

P>0,06

P>0,001

P>0,001

Coefficients

 

Unstandardized Coefficients

t

Sig.

 

B

Std. Error

(Constant)

2058,5

955,3

2,2

0,03

Q11

1512,4

1186,1

1,3

0,20

Q21

217,7

1043,8

0,2

0,84

Q31

548,1

1055,3

0,5

0,60

Q41

1377,1

1025,7

1,3

0,18

Q12

311,5

1072,3

0,3

0,77

Q22

138,3

987,4

0,1

0,89

Q32

255,7

983,7

0,3

0,80

Q42

1813,4

985,1

1,8

0,07

Q13

-344,2

1614,7

-0,2

0,83

Q23

116,2

1087,3

0,1

0,92

Q33

-225,3

1081,9

-0,2

0,84

Q43

414,2

1110,5

0,4

0,71

Q14

24,9

1699,9

0,0

0,99

Q24

-545,5

1268,0

-0,4

0,67

Q34

-150,8

1326,6

-0,1

0,91

Какой смысл имеет коэффициент b0 в модели (4.28)? Напомним, что в модели (4.27) коэффициент b0 был равен среднему значению y в контрольной группе. В модели (4.28) мы имеем две группы фиктивных переменных, и, соответственно, две контрольных группы. Соответственно, в модели (4.28) контрольной группой будет пересечение двух контрольных групп. Иными словами, контрольная группа здесь это вдовцы (вдовы) с незаконченным, или полным высшим образованием и средняя зарплата в этой группе – 2527,7 рублей.

Какой смысл у коэффициента bi? Он показывает, как отличается среднее значение y в i-ой группе от среднего значения y в объединении контрольных групп, либо от контрольной группы, образованной для соответствующей группы фиктивных переменных.

Взаимодействие переменных. Предположим, что мы рассматриваем пару фиктивных переменных: X1 - для выделения группы женатых и X2 - для выделения группы "начальников", а прогнозируем с помощью уравнения регрессии все тот же логарифм дохода: Y=B0+B1*X1+B2*X2.

Это уравнение моделирует ситуацию, когда действие факторов X1 и X2 складывается, т.е. считается, к примеру, что женатый начальник имеет зарплату B1+B2, не женатый начальник B2. Это достаточно смелое предположение, так как, скорее всего, закономерность не так груба и существует взаимодействие между факторами, в результате которого их совместный вклад имеет другую величину. Для учета такого взаимодействия можно ввести в уравнение переменную, равную произведению X1 и X2:

Y=B0+B1*X1+B2*X2+B3*X1*X2.

Произведение X1*X2 равно единице, если факторы действуют совместно и нулю, если какой либо из факторов отсутствует.

Аналогично можно поступить для учета взаимодействия обычных количественных переменных, а также индексных переменных с количественными.

Для получения переменных взаимодействия, следует воспользоваться средствами преобразования данных.

Использование фиктивных переменных для угла наклона. В рассмотренных примерах одновременного включения в модель количественных и номинальных (порядковых) переменных, последние преобразовывались в наборы фиктивных переменных так, что получаемые регрессионные прямые шли параллельно друг другу (например, модель (4.23) рисунок 4.22). В примере (4.23) это означает, что, зависимость успеваемости от уровня предварительной подготовки у юношей и девушек одинакова, только у юношей исходный уровень подготовки ниже. Аналогичный подход, фактически, заложен в изложенном выше подходе использования фиктивных переменных.

С точки зрения содержательных социологических моделей предположение о параллельности регрессионных прямых для различных социальных групп в большинстве случаев выглядит надуманным. Возможно ли в рамках регрессионного подхода преодолеть это ограничение? Можно, причем с использованием тех же фиктивных переменных.

При введении фиктивных переменных для изменения угла наклона регрессионная модель будет выглядеть следующим образом.

y =b0+(b1+b2 Q1) x1+b3 Q1 (4.28)

, где x1 – количественная переменная, Q1 – фиктивная переменная. Выражение (4.28) можно переписать в следующем виде:

y =b0+b1 x1+b2 Q1 x1+b3 Q1 (4.28)

Поскольку переменная Q1 является фиктивной, то уравнение (4.28) представляет собой два уравнения. Одно для ситуации Q1=0, а другое – Q1=1 (уравнение 4.29).

y =

b0 + b1 x1 +

b2 x1 +

b3

(Q1=1)

(4.29)

y =

b0 + b1 x1

(Q1=0)

Построение модели (4.28) дает регрессионную модель с разными углами наклона для двух разных уровней Q1.

4.6. Логистическая регрессия

Фактическим ограничением регрессионного анализа является то, что зависимая переменная должна быть количественной, то есть иметь уровень измерения интервальный, либо абсолютный. Для социологических данных это ограничение является очень неприятным, поскольку во многих случаях мы хотим изучить влияние различных факторов на электоральное поведение, на потребительское поведение и др. В этих ситуациях зависимая переменная y является дихотомической («проголосует за определенную партию – не проголосует», «купит определенный товар – не купит»). Для построения модели, в которой y является дихотомической переменной, используется метод логистической регрессии.

Непосредственно включить в регрессионную модель дихотомический y нельзя. Однако это можно сделать, если вместо y использовать некоторую производную от y функцию – логит.

Отношение шансов и логит.

Отношение вероятности того, что событие произойдет к вероятности того, что оно не произойдет P/(1-P) называется отношением шансов (или отношением предпочтения). С этим отношением связана модель логистической регрессии, получаемая за счет непосредственного задания зависимой переменной в виде Z=Ln(P/(1-P)), где P=P{Y=1|X1,…,Xp}. Переменная Z называется логитом. Модель логистической регрессии определяется уравнением регрессии

Z=B0+B1X1+…+BpXp    (4.30).

Что мы получим с точки зрения знания о зависимости y от совокупности {x1,   ,xp} если мы будем знать зависимость Z от этих переменных? Ведь на самом деле нас интересует именно y, а не какой-то там логит. Рассмотрим пример.

Пусть мы анализируем детерминанты электорального поведения респондентов. Введем для тех, кто проголосовал за партию Х значение y=1, а для тех, кто проголосовал за другую партию y=0. Если по результатам исследования мы получили, что логит голосования за партию Х для мужчин равен - 0,847, а для женщин – 1,386. Это значит, что отношение предпочтения для мужчин равно

е(-0,847)=0,43, а для женщин - е(-1,386)=0,25. Иными словами, среди мужчин за партию Х проголосовали 43% опрошенных, а среди женщин – 25%. Следовательно, зная логит мы получаем прямую информацию о поведении y.

Правая часть последнего уравнения (4.30) повторяет обычную запись модели множественной регрессии, представленную в (4.15).

В связи с этим отношение шансов может быть записано в следующем виде  

P/(1-P)= .

Отсюда получается, что, если модель верна, при независимых X1,…,Xp изменение Xk на единицу вызывает изменение отношения шансов в раз.

Общий вид модели логистической регрессии решает задачу построения модели прогноза вероятности события {y=1} в зависимости от переменных x1,…, xn. Иначе эта связь может быть выражена в виде зависимости P{y=1|X}=f(X)

Логистическая регрессия выражает эту связь в виде формулы

, где Z=B0+B1X1+…+BpXp   (4.30).

Название "логистическая регрессия" происходит от названия логистического распределения, имеющего функцию распределения . Таким образом, модель, представленная этим видом регрессии, по сути, является функцией распределения этого закона, в которой в качестве аргумента используется линейная комбинация независимых переменных.

Решение уравнения с использованием логита.

Механизм решения уравнения (4.30) можно представить следующим образом

  1.  Получаются агрегированные данные по переменным X, в которых для каждой группы, характеризуемой значениями Xj= подсчитывается доля объектов, соответствующих событию {Y=1}. Эта доля является оценкой вероятности . В соответствии с этим, для каждой группы получается значение логита Zj.
  2.  На агрегированных данных оцениваются коэффициенты уравнения Z=B0+B1X1+…+BpXp. К сожалению, дисперсия Z здесь зависит от значений X, поэтому при использовании логита применяется специальная техника оценки коэффициентов - взвешенной регрессии.

Еще одна особенность состоит в том, что в реальных данных очень часто группы по X оказываются однородными по Y, поэтому оценки  оказываются равными нулю или единице. Таким образом, оценка логита для них не определена (для этих значений ).

В настоящее время в статистическом пакете для оценки коэффициентов используется метод максимального правдоподобия, лишенный этого недостатка. Тем не менее, проблема, хотя и не в таком остром виде остается: если оценки вероятности для многих групп оказываются равными нулю или единице, оценки коэффициентов регрессии имеют слишком большую дисперсию. Поэтому, имея в качестве независимых переменных такие признаки, как душевой доход в сочетании с возрастом, их следует укрупнить по интервалам, приписав объектам средние значения интервалов.

Неколичественные данные

Если в обычной линейной регрессии для работы с неколичественными переменными нам приходилось подготавливать специальные фиктивные переменные, то в реализации логистической регрессии в SPSS это может делаться автоматически. Для этого в диалоговом окне специально предусмотрены средства, сообщающие пакету, что ту или иную переменную следует считать категориальной. При этом, чтобы не получить линейно зависимых переменных, максимальный код ее значения (или минимальный, в зависимости от задания процедуры) не перекодируется в дихотомическую (индексную) переменную. Впрочем, средства преобразования данных позволяют не учитывать любой код значения. Имеются другие способы перекодирования категориальных (неколичественных) переменных в несколько переменных, но мы будем пользоваться только указанным, как наиболее естественным.

Взаимодействие переменных

В процедуре логистической регрессии в SPSS предусмотрены средства для автоматического включения в уравнение переменных взаимодействий. В диалоговом окне в списке исходных переменных для этого следует выделить имена переменных, взаимодействия которых предполагается рассмотреть, затем переправить выделенные имена в окно независимых переменных кнопкой c текстом >a*b>.

На рисунке 4.24 показано меню вызова команды логистической регрессии в пакете SPSS.

Рисунок 4.24

Меню вызова команды логистической регрессии.

Рисунок 4.25 демонстрирует главное меню команды логистической регрессии. В данном меню тестируется модель анализа влияния на то, потребляет ли респондент спиртные напитки (переменная em80) следующих показателей:

- курит ли респондент (переменная em71);

- величина заработка (переменная ej10);

- пол (переменная eh5);

- наличие подчиненных на работе (переменная ej6);

- переменная взаимодействия пол*доход (переменная qq1). Данные для этого примера взяты из исследования РММЗ21.


Рисунок 4.25

Главное меню команды логистической регрессии

Результаты работы команды, показанной на рисунке 4.25, приведены в таблице 4.21.

Следует обратить внимание, что зависимая переменная здесь должна быть дихотомической, и ее максимальный код считается кодом события, вероятность которого прогнозируется. Поскольку переменная em80 Вы закодирована 1-употреблял, 2 - не употреблял, то будет прогнозироваться вероятность не употребления алкоголя.

Таблица 4.21

Результаты выполнения команды логистической регрессии,

представленной на рисунке 4.25.

Model Summary

-2 Log likelihood

Cox & Snell R Square

Nagelkerke R Square

4398,137

,056

,077

Classification Table

Predicted

Percentage Correct

В течение последних 30 дней Вы употребляли алкогольные напитки?

Observed

ДА

НЕТ

В течение последних 30 дней Вы употребляли алкогольные напитки?

ДА

2262

175

92,8

НЕТ

1031

166

13,9

Overall Percentage

66,8

Variables in the Equation

B

S.E.

Wald

df

Sig.

Exp(B)

EM71

,692

,089

60,725

1

,000

1,999

EJ10

,096

,066

2,131

1

,144

1,101

EH5

,763

,163

21,978

1

,000

2,145

EJ6

,053

,037

2,032

1

,154

1,055

QQ1

-,119

,041

8,264

1

,004

,888

Constant

-2,971

,319

86,804

1

,000

,051

Таблица 4.21 показывает, что результаты работы команды логистической регрессии представляют собой несколько таблиц. Первая из них содержит общую оценку качества построенной модели (таблица Model Summary).

  •  -2 Log Likelihood - удвоенный логарифм функция правдоподобия со знаком минус;
  •  Goodness of Fit - характеристика отличия наблюдаемых частот от ожидаемых;
  •   Cox & Snell - R^2 и Nagelkerke - R^2 - псевдо коэффициенты детерминации, полученные на основе отношения функций правдоподобия моделей лишь с константой и со всеми коэффициентами.

Эти коэффициенты стоит использовать при сравнении очень похожих моделей на аналогичных данных, что практически нереально, поэтому мы не будем на них останавливаться.

Следующая таблица, которую вычисляет команда логистической регрессии это классификационная таблица (Classification Table) или таблица правильного предсказания. Таблица показывает, что для 2262-х человек, которые потребляют алкоголь, наша модель правильно предсказывает этот факт. Точно так же и для 166-ти респондентов, которые алкоголь не потребляют, модель правильно предсказывает этот факт. Таким образом, для 2428 респондентов модель правильно предсказывает потребление – не потребление алкоголя. Это число составляет 66,8% об общего числа анализируемых респондентов и может рассматриваться как еще одна характеристика качества построенной модели.

При этом Classification Table показывает нам не только общее качество предсказания модели, но и качество предсказания отдельных градаций зависимой переменной. Так из данной таблицы видно, что модель правильно предсказывает потребление алкоголя в 92,8% случаев, а не потребление алкоголя лишь в 13,9% случаев.

На основе модели логистической регрессии можно строить предсказание произойдет или не произойдет событие {Y=1}. Правило предсказания, по умолчанию заложенное в процедуру LOGISTIC REGRESSION устроено по следующему принципу: если >0.5 считаем, что событие произойдет; 0.5, считаем, что событие не произойдет. Это правило оптимально с точки зрения минимизации числа ошибок, но очень грубо с точки зрения исследования связи. Зачастую оказывается, что вероятность события P{Y=1} мала (значительно меньше 0.5) или велика (значительно больше 0.5), поэтому оказывается, что все имеющиеся в данных сочетания X предсказывают событие или все предсказывают противоположное событие.

Классификационная таблица показывает нам на сколько правильно предсказывает наша модель то, потребляет ли респондент алкоголь на основании предложенных независимых переменных.

Коэффициенты регрессии. Основная информация, как и должно быть в ситуации регрессионной модели, содержится в таблице коэффициентов регрессии. Прежде всего, следует обратить внимание на значимость коэффициентов. Наблюдаемая значимость вычисляется на основе статистики Вальда. Эта статистика  связана с методом максимального правдоподобия и может быть использована при оценках разнообразных параметров.

Универсальность статистики Вальда позволяет оценить значимость не только отдельных переменных, но и в целом значимость категориальных переменных, несмотря на то, что они дезагрегированы на индексные переменные. Статистика Вальда имеет распределение хи-квадрат. Число степеней свободы, равно единице, если проверяется гипотеза о равенстве нулю коэффициента при обычной или индексной переменной и, для категориальной переменной, равно числу значений без единицы (числу соответствующих индексных переменных). Квадратный корень из статистики Вальда приближенно равен отношению величины коэффициента к его стандартной ошибке - так же выражается t-статистика в обычной линейной модели регрессии.

В нашей таблице коэффициентов почти все переменные значимы на уровне значимости 5%. Закрыв глаза на возможное взаимодействие между независимыми переменными (коллинеарность), можно считать, что вероятность употребления алкоголя повышена при высокой зарплате, а также, у руководителей различного ранга. Курение и принадлежность к мужскому полу также повышают эту вероятность, однако, взаимодействие "мужчина-зарплата" имеет обратное действие.

В этой же таблице присутствует аналог коэффициента корреляции (R), также построенный на основе статистики Вальда. Для обычных и индексных переменных положительные значения коэффициента свидетельствуют о положительной связи переменной с вероятностью события, отрицательные - об отрицательной связи.

Кроме того, мы выдали таблицу экспонент коэффициентов eB.

Согласно модели и полученным значениям коэффициентов, при фиксированных прочих переменных, принадлежность к мужскому полу увеличивает отношение шансов "пития" и "не пития" в 2.15 раз, курения - в 2 раза, а прибавка к зарплате 100 рублей - на 10%, правда такая прибавка мужчине одновременно уменьшает это отношение на 11%. Быть начальником - значит увеличить отношение шансов на 5%.

О статистике Вальда. Недостаток статистики Вальда в том, что при малом числе наблюдений она может давать заниженные оценки наблюдаемой значимости коэффициентов. Для получения более точной информации о значимости переменных можно воспользоваться пошаговой регрессией, метод FORWARD LR (LR - likelihood ratio - отношение правдоподобия), тогда будет для каждой переменной выдана значимость включения/исключения, полученная на основе отношения функций правдоподобия модели. Поскольку основная выдача построена на основе статистики Вальда, первые выводы удобнее делать на ее основе, а потом уже уточнять результаты, если это необходимо.

Сохранение переменных. Программа позволяется сохранить множество переменных, среди которых наиболее полезной является, по всей видимости, предсказанная вероятность. Вызов возможности сохранения характеристик, вычисляемых командой логистической регрессии, осуществляется с помощью клавиши Save..  в главном меню этой команды (рисунок 4.25).

1 Были взяты оценки абитуриентов на вступительных экзаменах в 2002 году на факультет социологии ГУ-ВШЭ. Вступительные испытания проводились по 4-м дисциплинам: математика, обществознание, иностранный язык, русский язык. Оценки по первым 3-м дисциплинам выставлялись по 10-ти балльной системе, по русскому языку – по 5-ти балльной системе.


Все оценки за обучение в ГУ-ВШЭ выставляются по 10-ти балльной системе, независимо от формы контроля (как за экзамены, так и за зачеты). При вычислении суммарного балла за семестр оценка каждого из предметов учитывается с определенным весом, который отражает объем часов по данному предмету. Так, если на предмет отводится, скажем, 50 часов, то вес его оценки – 1, а если 100 часов, то вес оценки уже 2. Максимально возможная сумма баллов, который мог набрать студент 1-го курса в 1-м семестре 2002/03 учебного года – 146,7.

2 Доугерти К. Введение в эконометрику. М., ИНФРА-М, 1999, С.58-60.

3 Бююль А., Цёфель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб, ООО «ДиаСофтЮП», 2001, С.271-272.

4 Подробнее об основаниях применения выборочного метода в социологии см. Батыгин Г.С. Лекции по методологии социологических исследований. М.: Аспект-Пресс, 1995, С.145-189

5 Например, если мы хотим изучить особенности поведения комаров, то проведение сплошного исследования этих насекомых едва ли возможно даже в ситуации неограниченных ресурсов.

6 Подробнее с выводом формул для оценки точности коэффициентов регрессии можно познакомиться: Доугерти К. Введение в эконометрику. М.: ИНФРА-М, 1999, С.83-85.

7 Подробнее об оценке характеристик генеральной совокупности по данным выборки см.: Гмурман Е.В. Теория вероятностей и математическая статистика. М.: «Высшая школа», 1998, С.219-220

8 Квантили нормального распределения см., например, Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: «ЮНИТИ», 1998,  Таблица П1.3, С.965

9 См., например, Гмурман В.Е. Теория вероятностей и математическая статистика. М.: «Высшая школа», 1998, Приложение 3, С.464.; Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: «ЮНИТИ», 1998,  Таблица П1.6, С.972

10 Число степеней свободы в ситуации простой регрессии, когда мы оцениваем два параметра, определяется как n-2, где n – число наблюдений.

11 Отметим, что вычисления проводились на совокупности 84 студентов 1-го курса факультета социологии ГУ-ВШЭ 2002/03 учебного года. Мы не могли включить в совокупность тех студентов, которые при поступлении в университет имели медаль за окончание школы, получили отличную оценку на профилирующем экзамене и, соответственно, не сдавали остальные экзамены. Таким образом, у них не было суммарного балла на вступительных экзаменах.

12 Доугерти К. Введение в эконометрику. М.: ИНФРА-М, 1999, С. 82

13 См., например, Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. /Под ред. В.Э.Фигурнова. М., ИНФРА-М, 1998, С.255.

14 Обратите внимание, что и для части массива с x≤25 стандартные ошибки коэффициентов также больше, чем для массива в целом, хотя и не столь существенно. Это может показаться странным, учитывая тот факт, что дисперсия остатков для этой части массива значительно меньше, чем у массива в целом. Однако, как указывалось при обсуждении формул (4.8) и (4.9), стандартные ошибки зависят не только от дисперсии остатков Du, но и от дисперсии x и от объема выборки n, причем обе этих величины стоят в знаменателях формул для определения стандартных ошибок. Поскольку дисперсия x для массива x≤25 уменьшилась (ведь x меняется в этом подмассиве от 21 до 25, а не от 21 до 29, как во всем массиве), равно как и уменьшилось n, то, не смотря на уменьшение Du, значения стандартных ошибок все равно возросли.

15 Обратите внимание, что в этих обозначениях коэффициент детерминации (5.7) можно переписать как

16 Об измерении социологических показателей см. Толстова Ю.Н. Измерение в социологии: Курс лекций. М., ИНФРА-М, 1998

17 Наряду с термином «фиктивные переменные» в русскоязычной литературе для таких переменных используются так же термины «Индексные переменные», «Псевдопеременные». В англоязычной литературе всегда используется только один термин – Dummy variables.

18 Данные для расчета этой модели взяты из всероссийского опроса, проведенного ВЦИОМ в мае 2001 года в рамках исследования «Мониторинг социальных и экономических перемен».

19 Разумеется, для того, что бы полученный результат приобрел статус достоверного, мы должны проверить, в какой степени для модели (4.27) выполняются ограничения регрессионной модели.

20 Данные для расчета этой модели взяты из всероссийского опроса, проведенного ВЦИОМ в мае 2001 года в рамках исследования «Мониторинг социальных и экономических перемен».

21 Данные взяты из исследования проведенного в октябре-ноябре 2001 года. Описание РМЭЗ см. Сваффорд М.С., Косолапов М.С., Козырева П.М. Российский мониторинг экономического положения и здоровья россиян (РМЭЗ): измерение благосостояния россиян в 90-е годы. Мир России, 1999, №3, С.153-172.

PAGE  103




1. Типи небезпечних природних явищ та катастроф
2. Курсовой проект по дисциплине Управление проектами Создание молодежной библиотеки Выполнила-
3. Цена невинности
4. Лабораторная работа 2 Тема- Информационноправовая система Гарант
5. Реферат- Стресс и беспокойство
6. Формы государственного управления Шпоры по ГМУ ЗС
7. .09 20.09 К
8. Государственная служба в Украине 1
9. это передача задачи и полномочийдостаточных для ее решения должностному лицу которое принимает на себя от
10. харидов Все они образуются из а глюкозы и отличаются строением цепи числом входящих в их состав остатков г
11. За всіляких індивідуальних розбіжностей для більшої частини осіб які працюють і навчаються доба поділяєть
12. холодной войны 4
13. Дионис-Либер, бог свободных
14. 05 1яйцо чай Один бутерброд из цельнозернового хлеба с огурцом или помидором Зелень
15. на тему 23- Политические конфликтыСОДЕРЖАНИЕ Введение 3 1
16. ЛАБОРАТОРНАЯ РАБОТА 5 Методы решения систем линейных уравнений
17. Лекция 23 Алгоритм поиска с возвращением Рассмотрим общий случай когда решение задачи имеет вид вектор
18. Восточные славяне в древности
19. Введение Оценка технического состояния строительных конструкций зданий и сооружений заключается в опреде.html
20. После Сергеев ГеоргийНа улице по обычаю стояла говеная погода мне не хотелось делать чт