Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
7 Процедура Средние: описание групп
Мы уже видели, как дескриптивные статистики работают в процедурах Частоты и Исследовать. В данной главе они применяются для анализа подгрупп наблюдений, образованных всевозможными сочетаниями значений двух или более группирующих факторов. Отметим, что статистики для зависимых переменных можно запрашивать и в том случае, если группы определяются значениями единственной группирующей переменной, однако для этого лучше воспользоваться процедурой Исследовать, где графическое представление дополняется описателями.
Рассматриваемая процедура включает более десятка статистик, среди них и те, которые предназначены для нормально распределенных данных (среднее, стандартное отклонение, дисперсия, стандартная ошибка среднего, асимметрия и эксцесс). Вычисляются также медиана, групповая медиана, минимальное и максимальное значения. Добавлены опции Первое и Последнее, позволяющие вывести на экран первое и последнее валидные значения переменной для каждой из подгрупп наблюдений в файле данных (для вывода минимального и максимального значений используйте опции Минимум и Максимум).
Процедура Средние включает одномерный дисперсионный анализ со статистикой эта, а для порядковых независимых переменных с критерием линейности и множественными коэффициентами R и R2.
В примерах этой главы используются данные социологического опроса, проведенного в 1993 году Национальным центром исследования общественного мнения. Ответы более 1500 респондентов касаются возраста, участия в голосовании (голосовал или нет на выборах 1992 года), типа владения жильем (владелец или съемщики), образования (закончил колледж или нет), дохода (оцениваемого по шкале от 1 до 21) и политических взглядов (значения ранжированы от крайне либеральные до крайне консервативные). Краткие имена этих переменных, соответственно,следующие: возраст, голос92, домвлад, коллстеп, личдох91, полмнен. Значения этих переменных закодированы цифрами, но процедура Средние допускает также короткий текстовый тип значений независимых переменных. Данные хранятся в файле gss 93 subset Rus.
Пример 1: дескриптивные статистики для групп, определяемых тремя факторами. Возраст и доход являются независимыми переменными. Для групп, получаемых в результате кросстабуляции переменных голос92, домвлад, коллстеп, приводятся средние, их стандартная ошибка и размер группы.
Пример 2: одномерный дисперсионный анализ с критерием линейности. Дисперсионный анализ рассматривается ниже в главе 9, здесь же используется один из приводимых там примеров. Задача заключается в проверке различия среднего возраста в группах респондентов с разными политическими взглядами. Поскольку значения переменной полмнен упорядочены, запрашивается критерий линейности. Вычисляется также статистика эта.
Пример 1:
Дескриптивные статистики для групп, определяемых тремя факторами
В примере 4 из главы 5, где рассматривалось отношение шансов, было установлено, что владельцы жилья принимают участие в голосовании примерно в три раза чаще, чем съемщики. Исследователь, интересующийся образом активного участ-ника голосования, не может быть удовлетворен одним этим результатом и должен рассмотреть остальные факторы. Возможно, владельцы жилья старше съемщиков и поэтому более озабочены состоянием общества,где они проживают? Являются ли они более обеспеченными в финансовом отношении? Отличаются ли они по уровню образования?
В данном примере рассматриваются те же группы, что и при вычислении отношения шансов, но предварительно множество наблюдений разбивается по значениям переменной коллстеп (закончил или не закончил колледж). Помимо числа наблюдений, в каждой группе запрашивается средний возраст и средний доход. Переменная личдох91 не является гладкой непрерывной переменной и имеет 21 градацию упорядоченных значений, которые позволяют сделать распределение более симметричным, чем распределение реальных данных; меньшие значения для этого градуированы с шагом $ 1000, средние с шагом $2500, большие с шагом $ 10000, а в конце распределения с шагом $ 15000. Это позволяет быстро составить общее грубое впечатление о распределении, с тем чтобы оценить, какие из факторов нужно исследовать более тщательно.
В качестве независимой (группирующей) переменной на первом уровне (говорят также слое 1) выбрана переменная коллстеп, затем разбиение проводится по значениям переменной домвлад (слой 2), а после этого по значениям переменной голос92 (слой 3). Выбор трех слоев разбиения означает, что группы определяются всевозможными комбинациями значений (кросстабуляцией)всех трех переменных. Если эти три переменные выбраны для первого слоя разбиения, группы будут определяться значениями каждой из них по очереди, и SPSS будет сообщать статистики для каждой переменной отдельно.
Для получения нижеследующего результата используйте процедуру Отбор наблюдений меню Данные и отберите наблюдения со значениями переменной голос92, меньшими, чем 3, переменной домвлад, меньшими, 3 (голос92 < 3 & домвлад < 3). Затем выберите в меню:
Отчет. В приведенной таблице результаты разделены на три части (панели): в первой содержится информация о респондентах, не закончивших колледж, во второй об окончивших колледж, в третьей обо всех респондентах в целом.
Клетки последней панели те же, что и в таблице примера с вычислением отношения шансов (глава 5, пример 4). В столбце с меткой N сообщается, что среди владельцев жилья голосовали 506 человек, не голосовали 135. Среди съемщиков голосовали 167 человек, не голосовали 140. В таблице сопряженности признаков домвлад и голос92 (глава 5, пример 4) число наблюдений в соответствующих клетках совпадает с данной таблицей, исключением являются голосовавшие владельцы жилья (509 вместо 506). Это различие связано с добавлением в таблицу переменной коллстеп, имеющей несколько пропущенны хзначений. Заметим, что объемы наблюдений в клетках для переменной личдох91 значительно меньше, чем для переменной возраст.
Средний возраст владельцев жилья 49.56, средний уровень их доходов 13.67. Съемщики жилья в среднем на 10 лет моложе (их средний возраст равняется 40.02), и уровень их доходов ниже (в среднем 10.79). В пределах каждой из этих двух групп (владельцы и съемщики) различия голосовавших и не голосовавших респондентов по возрасту и уровню доходов менее заметны.
Респонденты, окончившие колледж, в целом немного моложе, чем не имеющие степени выпускника колледжа (44.37 и 47.09), а средний уровень их доходов заметно выше (15.21 и 11.73). Заметим, что стандартные ошибки последних двух средних значений довольно малы (0.38 и 0.26).
Сравним четыре группы с различными сочетаниями значений переменных коллс-теп и домвлад: в каждой из них голосовавшие оказались в среднем старше, и их доходы выше. Исключение составляет группа респондентов, имеющих степень выпускника колледжа и арендующих жилье: в этой группе доходы голосовавших ниже, чем доходы не голосовавших (12.89 против 15.40). Однако число наблюдений, относящихся к не голосовавшим в этой группе (10 респондентов),меньше, чем во всех других сравниваемых клетках таблицы.
Пример 2:
Однофакторный дисперсионный анализ с критерием линейности
В примере 1 из главы 9 обсуждается значимость возрастных различий в группах респондентов с разными политическими взглядами. В примере 3 из главы 9 эти различия описываются более детально: оказывается, средний возраст линейно возрастает в группах, упорядоченных по шкале значений от крайне либеральные до крайне консервативные. Это подтверждается использованием критерия линейного эффекта.
Значимость линейного эффекта означает, что угол наклона прямой, проведенной через набор значений средних, упорядоченных по категориям переменной, отличен от 0. В данном примере рассматривается тот же метод однофакторного дисперсионного анализа с применением критерия линейности, позволяющий установить, располагаются ли групповые средние вдоль прямой линии.
Для получения результата используйте процедуру Отбор наблюдений меню Данные и убедитесь, что выбраны все наблюдения. В диалоговом окне Средние нажмите на кнопку Сброс, чтобы восстановить значения по умолчанию. Затем выберите в меню:
Отчет. В группах, относящихся к семи политическим ориентациям, средний возраст респондентов меняется от 39.07 до 54.55 лет. О достоверности различий групповых средних по нескольким критериям сообщается в таблице дисперсионного анализа.
Меры связи. Статистика эта, возведенная в квадрат, является мерой изменчивости переменной возраст в группах, определяемых значениями переменной полмнен (политические взгляды). Она равна сумме межгрупповых квадратов, поделенной на общую сумму квадратов (13556.868 / 431147.21). Для этой статистики категории группирующей переменной могут быть не упорядочены, поэтому она часто используется в дисперсионном анализе. В данном случае категории переменной полмнен объясняют 3.1% (0.031) изменчивости переменной возраст.
Статистики R и R2 используются в линейной регрессии, они подходят только для группирующих переменных с упорядоченными категориями. При единственной независимой переменной статистика R является обычной корреляцией переменных полмнен и возраст (измеряемой на шкале от 1 до 7). Значение R2 равно квадрату этой корреляции и принимает значения между 0 и 1. Если линейная связь зависимой и независимой переменных отсутствует, статистика R2 равна 0 или очень мала. Если наблюдения попадают на линию регрессии, R2 равна 1.
Для рассматриваемой выборки применение этих мер не слишком полезно. Стоит иметь в виду, что для выборок с большим числом наблюдений, подобных данной, значимость различий легче определять методом дисперсионного анализа. В обсуждаемом примере средние достоверно различаются, но это мало о чем говорит, поскольку разброс значений переменной возраст во всех группах, определяемых значениями переменной полмнен, очень велик от 18 до 80 лет (смотрите таблицу Дескриптивные в примере 1 из главы 9).
Проверка линейности.
С помощью теста линейности можно проверить, имеется ли общая тенденция расположения упорядоченных средних вдоль прямой со значимым наклоном и есть ли средние, заметно отклоняющиеся от такой прямой. Следует иметь в виду, что, помимо значимого линейного эффекта, может иметься, например, значимый квадратичный эффект.
Расположение средних возрастов в группах, соответствующих разным политическим ориентациям, для обсуждаемого примера представлено на левом графике. На правом графике изображено множество средних переменной образ, для которого наблюдается квадратичный эффект. В обоих случаях по горизонтальной оси располагаются политические взгляды.
Могут быть и другие типы отклонений от линейности. Результаты применения критерия линейности приведены в таблице дисперсионного анализа (таблица ANOVA).
Таблица дисперсионного анализа (таблица ANOVA). Применение критерия указывает на достоверность различия сравниваемых семи средних (F= 7.743 и р < 0.0005). Показатели линейность и отклонение от линейности относятся к проверке линейности.
Сумма квадратов, соответствующая линейности, вычисляется построением линейной регрессии, предсказывающей значение переменной возраст по значению полмнен. F-статистика для критерия линейности (27.258) вычисляется так же, как для взвешенного линейного эффекта в примере 3 из Главы 9.
Сумма квадратов, соответствующая отклонению от линейности, это разность межгрупповой суммы квадратов и суммы квадратов линейности. Значение критерия линейности равно среднему квадрату отклонения от линейности (1120.524), деленному на внутригрупповой средний квадрат (291.817), т.е. F = 3.84, p < 0.002. Следовательно, нулевая гипотеза о расположении средних на прямой должна быть отвергнута.
Представим смысл F-статистики для критерия линейности в несколько другом виде.
• Суммы квадратов в числителе определяются следующим образом:
В каждой из групп, определяемых значениями переменной полмнен, вычисляется разность между средним значением возраста и его значением, предсказанным линией регрессии;
• Каждая разность возводится в квадрат и умножается на число наблюдений в группе;
• Эти числа суммируются и делятся на (k - 2) или, в данном случае, на (7 - 2).
Знаменатель это обычная оценка изменчивости внутри групп при дисперсионном анализе (внутригрупповой средний квадрат).