У вас вопросы?
У нас ответы:) SamZan.net

Московский городской педагогический университет ГОУ ВПО МГПУ Институт психологии социологии и социа

Работа добавлена на сайт samzan.net: 2016-03-30

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Имя

Выберите тип работы:

Принимаю Политику конфиденциальности

Скидка 25% при заказе до 30.6.2025

ДЕПАРТАМЕНТ ОБРАЗОВАНИЯ ГОРОДА МОСКВЫ

Государственное образовательное учреждение

высшего профессионального образования города Москвы

«Московский городской педагогический университет»

(ГОУ ВПО МГПУ)

Институт психологии, социологии и социальных отношений

Кафедра прикладной социологии

ИСПОЛЬЗОВАНИЕ SPSS В СОЦИОЛОГИИ

(Учебно-методическое пособие)

Москва

2009

УДК 316.3

ББК 60.5

Рекомендовано к печати
Научно-методическим советом ГОУ ВПО МГПУ

Составитель:

Кандидат социологических наук Е.А. Татаринцев

Рецензент:

Доктор социологических наук, заведующий кафедрой прикладной социологии Института психологии,

социологии и социальных отношений ГОУ ВПО МГПУ, профессор В.М. Ананишнев

Использование SPSS в социологии: Учебно-методическое пособие. Специальность: 050708.65 «Социолог. Преподаватель социологии». Факультет: социологический. 4 курс, 8 семестр. Очная форма обучения / Сост.: Е.А. Татаринцев. – М.: МГПУ, 2009. – 81 с.

ОГЛАВЛЕНИЕ

Пояснительная записка к учебно-методическому пособию……...….4

Глава 1. Особенности обработки данных в среде SPSS …...………...5

1.1. Введение……………………………………………………….....5

1.2. Роль исследователя и возможности SPSS……………….……..8

1.3. Основы работы в SPSS………………………………………....14

1.4. Определение переменных и ввод данных в программу SPSS……………………………………………………………………..24

1.5. Определение и ввод данных для переменных с множественными ответами……………………………………………36

1.6. Основы анализа данных…………………………………..……40

1.7. Анализ переменных с множественными ответами…………..47

1.8. Отбор данных и формирование подвыборок в SPSS….……..50

1.9. Анализ связей между переменными……….………………….58

1.10. Сравнение выборок и проверка гипотез о равенстве средних………………………………………………………………….66

Глава 2. Программа курса «Использование SPSS в социологии»..………………………………………………………...…75

ПОЯСНИТЕЛЬНАЯ ЗАПИСКА К УЧЕБНО-МЕТОДИЧЕСКОМУ ПОСОБИЮ

Дисциплина «Анализ данных в SPSS» предназначена для студентов педагогических вузов, обучающихся по специальности «Социология». Курс базируется на знаниях, приобретенных студентами в процессе освоения таких дисциплин как «Методы социологических исследований», «Статистика», «Общая социология», «Маркетинг», «Социологии управления» и др. Дисциплина изучается в девятом семестре.

Цели и задачи пособия: данное пособие призвано сформировать у студентов систему навыков работы со статистическим пакетом обработки информации SPSS.

В рамках дисциплины ставятся следующие задачи: дать представление об особенностях пакета SPSS и его возможностях; ознакомить с интерфейсом программы; сформировать систему навыков по вводу данных для последующей обработки; научить основам статистической обработки и анализа данных с использованием пакета SPSS; сформировать навыки подготовки аналитических отчетов.

Студент, изучивший дисциплину, должен знать основные характеристики пакета SPSS, основные процедуры ввода данных для последующего анализа, процедуры анализа данных, способы проверки гипотез с использованием пакета SPSS.

Студенты также должны уметь работать с пакетом SPSS, вводить данные и осуществлять их последующую обработку, составлять аналитические отчеты по проведенному исследованию.

Кроме того, прошедшие обучение по данному курсу должны владеть навыками преобразования исследовательской анкеты в формат SPSS, первичного анализа данных, составления аналитических отчетов.

Структура учебно-методического пособия представлена пояснительной запиской и двумя главами. В первой главе изложен основной материал по освоению программы SPSS. Вторая глава представляет собой содержание программы по курсу «Использование SPSS в социологии». В программе курса по каждой теме имеется: краткое содержание темы, вопросы для самостоятельной работы, задания, список рекомендуемой основной и дополнительной литературы.

Глава 1. Особенности обработки данных в среде SPSS.

Введение.

Социология как наука в современном мире становится все более востребованной отраслью знания. Ее роль растет как в научном, так и в прикладном значении. Социолог становится одной из ключевых фигур, занимающих в структуре управления важное место. При этом на практике социология оказывает неоценимую помощь именно в качестве прикладной отрасли знания, помогающей разрешить проблемы разного уровня общественных отношений.

Любая отрасль знания представляет собой синтез двух базовых уровней – теоретического и эмпирического. В литературе довольно много споров относительно того, какой же из этих уровней играет ведущую роль. Мы не будем разбирать все аргументы в пользу (или против) той или иной точки зрения, т.к. это не является центральным вопросам предлагаемой работы. С точки зрения задач, стоящих перед данным трудом это не столь важно. Важно другое – современное понимание социальных процессов и социологии вообще просто немыслимо без проведения эмпирических исследований. Именно практические, «полевые» исследования позволяют получить бесценный, уникальный опыт, знания, которые в полной мере позволяют раскрыть многообразие социальной жизни.

Вместе с тем грамотно спланированное и проведенное эмпирическое социологическое исследование может быть сведено на «нет», если социолог-исследователь не в состоянии проинтерпретировать и обосновать полученные выводы. Здесь мы сталкиваемся с проблемой собственно организации аналитическо-отчетной работы социолога-практика.

Первое, с чем мы сталкиваемся, - это методологическая проблема соотношения стратегий и используемых методов проведения исследования. В практике социологического исследования принято выделять два больших класса методов, существенно отличающихся друг от друга системообразующими задачами, возможностями и способами, правилами интерпретирования полученных данных. Речь идет о так называемых количественных и качественных методах социологического исследования. В литературе встречается множество определений, описаний, аргументов «за» и «против» использования как количественных, так и качественных методов. Мы опять-таки оставим дискуссию относительно справедливости критики количественной и качественной методик как имеющую лишь косвенное отношение к нашей работе. Социолог просто обязан владеть ими в равной степени и понимать преимущества и недостатки конкретного метода и грамотно стронь стратегию социологического исследования в зависимости от его специфики, поставленных целей, объекта и предмета изучения.

Вместе с тем любой практик знает, что наиболее достоверные сведения, как с точки зрения надежности обоснования, так и с точки зрения возможности распространения на более широкий класс социальных объектов, представляют собой именно количественные исследования, поскольку дают систему знаний, выраженных в числах, а, следовательно, допускающих строгое математическое обоснование полученных выводов. Здесь мы собственно приходим вплотную к основополагающим целям, стоящим перед данной работой.

На наш взгляд, довольно существенной проблемой, с которой сталкивается социолог-практик, использующий количественные методы социологического исследования, заключается в том, что часто он в силу гуманитарной склонности, имеет представление о тонкостях математического аппарата и его возможностях гораздо меньше, нежели математик. Вместе с тем работы, посвященные анализу математической статистики, обзору теории вероятностей, программным продуктам преимущественно написаны математиками с использованием довольно сложных систем формул, что затрудняет восприятие. В данной работе как раз сделана попытка объяснения материала в наиболее простой форме, без перегружения математическими формулами (которые, в принципе, при желании практически любой социолог способен найти в соответствующих справочниках).

Вместе с тем второй не менее важной задачей стоит попытка раскрыть особенности применения математического аппарата для интерпретирования полученных в результате социологического исследования данных в наиболее полной мере, необходимой для соблюдения строгости математического обоснования полученных выводов, а также осмысленности действий аналитика.

На наш взгляд, одной из лучших программ, которые позволяют реализовать обе обозначенные выше задачи (мощный статистический анализ без перегружения формулами) является программа SPSS, которая широко применяется как в социологических, так и в психологических и других исследованиях.

Практически каждая организация, в которой социологические или маркетинговые исследования проводятся регулярно предъявляет к соискателям в качестве основного требования – умение работать в среде SPSS. С практической точки зрения, любой специалист-практик, использующий прикладные методы социологического исследования просто обязан уметь работать в данной программе.

1.2. Роль исследователя и возможности SPSS.

SPSS на сегодняшний день является одной из самых распространенных программ для обработки статистической информации, используемых в гуманитарных науках. Вместе с тем, аналитические возможности программного продукта далеко превосходят запросы собственно социологических исследований. SPSS широко используется и в технических, и в естественных науках – от биологии до математического моделирования. Более широкому распространению программного продукта (например, по сравнению с тем же Excel) является, пожалуй, его стоимость, которая многократно превосходит стандартный пакет офисных программ.

SPSS – это аббревиатура от Statistical Package for the Social Science. Впервые программа была разработана еще в 1966 году. В настоящее время используется уже 17 версия программы, хотя не менее широко представлены и более ранние версии. 7 версия программного продукта была разработана уже специально для работе в операционной среде Windows`95.

По большому счету, программы, начиная с 10 версии продукта, отличаются только дополнительными модулями, аналитическими возможностями, возможностями графического представления полученных данных, использованием новых математических средств. При этом интерфейс и принципы построения меню, а также алгоритм работы программы остается практически неизменным. Таким образом, примеры и алгоритмы, рассмотренные в данной работе, могут быть с успехом применены практически к любой версии.

Немаловажным фактом в создании программного продукта SPSS, что, возможно, определило ряд его особенностей, является то, что изначально программа была задумана и разработана представителями именно гуманитарной отрасли знания – политологии. По этой причине одним из существенных преимуществ SPSS, по сравнению с другими математическими и статистическими программами, является относительная простота пользования, которая достигается преимущественно благодаря сосредоточению не на технической, а на содержательной стороне методов обработки информации. Пользователю SPSS совершенно не обязательно помнить наизусть формулы для вычисления тех или иных величин – достаточно просто знать случаи и правила их применения. Конечно, сказанное выше, вовсе не означает, что исследователь, работающий с данным программным продуктом может не иметь представление о статистике – это был бы просто нонсенс. Статистические методы знать просто необходимо, и по ходу нашего знакомства с программой мы будем неоднократно к ним обращаться. Однако именно технической стороной (а именно – точным знанием формул) программа позволяет пренебречь.

Другой, немаловажной заслугой рассматриваемого программного продукта, является относительная привычность ввода и представления результатов исследования. Социологическая анкета может быть введена в систему SPSS с относительно минимальными преобразованиями. Программа способна быть чувствительной к используемым системам измерения и представленным в том или ином вопросе шкалам. Программа полностью совместима с операционной системой Windows, периодически выходят новые версии программного продукта. Эти особенности, безусловно повлияли на популярность программы. На сегодняшний день SPSS имеет представительства в большинстве стран мира, в том числе и в России.

Вместе с тем, несмотря на довольно широкие возможности программного продукта SPSS, не стоит забывать, что это – всего лишь инструмент, при помощи которого можно решать практически любые исследовательско-аналитические задачи. Инструмент сам по себе не может, однако, гарантировать 100% результат. Ведущую роль в данном вопросе играет, безусловно, сам социолог. Именно от самого исследователя зависит конечный результат, его надежность, достоверность и пригодность для использования. По этой причине нельзя утверждать, что человек без специальной подготовки способен применять данный инструментарий на практике. Также мы не можем констатировать факт, что социолог, совершенно не владеющий математической статистикой может использовать SPSS в практической деятельности.

Исследователь, приступающий к работе с программой SPSS не просто должен уметь работать в данной программе. Не достаточно просто изучить основные алгоритмы, приемы и правила работы с программой. Необходимо нечто большее – отличное знание социологии1, а также четкое понимание принципов математического анализа.

Обработка и интерпретирование полученных в ходе исследования результатов – это всего лишь завершающий этап проведения всего исследования, так сказать крыша здания. Соответственно, для того, чтобы эта часть была логически, методически и методологически правильной и применимой к реалиям социальной действительности, как минимум необходимо, чтобы все предыдущие этапы соответствовали предъявляемым к ним требованиям. Только соблюдение единой логики и методологии социологического исследования способно привнести четкость, понимание и целенаправленность как всего исследовательского процесса, так и собственно процедуре анализа и интерпретирования полученных результатов.

Отмечая ведущую роль исследователя, хочется чуть подробнее остановиться на наиболее распространенных типах ошибок, которые социолог-исследователь может совершить (и, к сожалению, довольно часто совершает) в ходе проведения эмпирических исследований. Ошибки, допущенные исследователем, не может сгладить ни одна программа. Итак, основными типами ошибок, на наш взгляд, при работе могут быть:

Ошибки методологии.
Ошибки инструментария.
Ошибки техники и процедур.
Пользовательские ошибки.
Ошибки интерпретирования.

Остановимся на этих типах ошибок подробнее.

Ошибки методологии – самые серьезные ошибки, которые могут встречаться в социологическом (да и вообще – в любом) исследовании. Методология исследования должна быть соблюдена максимально четко, т.к. именно здесь закладывается тот фундамент, на основании которого будет строиться все исследование. Если на этапе разработки и планирования исследования, на этапе разработки программы социологического исследования допущены методологические ошибки, то никакие последующие этапы не в состоянии снять этих ошибок. Более того, эти ошибки будут только усугубляться. Можно провести опять-таки аналогию со строительством здания, в котором неустойчивый фундамент. При таком состоянии это здание просто не будет стоять. И чем серьезнее эти ошибки, тем менее устойчивым оно будет.

Например, если в процессе разработки программы социологического исследования, исследователем были нечетко сформулированы рабочие гипотезы или не зафиксированы эмпирические индикаторы, то в дальнейшем процесс обработки данных начинает попросту терять смысл, так как исследователь не имеет ориентира, четких задач и представления о логике обработки и (самое главное) интерпретирования результатов. Неправильно сформулированная гипотеза исследования автоматически не дает возможности применения аппарата для ее проверки.

Ошибки инструментария – часто являются следствием методологических ошибок. Эти ошибки связаны с неправильной разработкой самого инструмента для проведения социологического исследования – неправильные формулировки вопросов анкеты, логические ошибки в альтернативных вариантах, нарушение шкал измерения и пр. Данный тип проблем ведет к неправильному сбору информации, нечеткой фиксации, что, в конечном счете, приводит к искажению реальной ситуации и ложным выводам относительно социальной реальности. При этом с точки зрения статистической обработки информации могут быть получены достоверные и обоснованные данные. Однако именно вследствие допущенных ошибок, результаты этих исследований не могут быть признаны достоверными.

Ошибки техники и процедур – связаны с неправильной процедурой сбора данных: давлением на респондента, некорректностью заполнения анкет и пр. результатом такого рода ошибок являются неполнота полученной информации, а также ее искажение. Довольно распространенная ошибка исследований – злоупотребление временем респондента, когда желание получить подробную информацию выливается в опросник под 100 вопросов, что утомляет респондента и он начинает отвечать на вопросы автоматически – первое попавшееся. При таком подходе также существенно искажается информация и результаты могут быть недостоверными.

Пользовательские ошибки – это достаточно безобидные ошибки, которые относительно легко устранить. Они связаны именно с особенностями и степенью владения исследователя программой обработки информации. Большинство ошибок такого рода сводятся к неправильному вводу информации в компьютер, использованию не тех коэффициентов, игнорирование проверок статистической достоверности данных и пр. Несмотря на относительную безобидность этих ошибок, результат все равно может оказаться недостоверным и исследование не соответствовать реальности.

Основная масса проблем, с которыми сталкивается пользователь на данном этапе – довольно существенная разница в требованиях, предъявляемых к составлению опросника и требованиях, предъявляемых к тем же опросникам, но уже с точки зрения программы SPSS. Приведем пример. С точки зрения более комфортного восприятия, мотивации респондента, анкета должна содержать несколько типов вопросов, большинство из которых (на практике) относятся преимущественно к номинальной шкале (иногда – к ранговой), также с целью снижения давления на респондента рекомендуется оставлять открытые варианты вопросов.2Вместе с тем, с точки зрения обработки данных в программе SPSS, удобнее формулировать вопросы в достаточно однотипном виде, используя метрическую шкалу (номинальная и ранговая оставляют очень маленькие возможности для статистического анализа), при этом вопросы должны быть закрытыми и, желательно, с одним вариантом ответа. Чуть ниже будут рассмотрены основные причины именно такого подхода.

Ошибки интерпретирования – еще один класс ошибок, которые зависят от профессионализма социолога как исследователя. Суть этих ошибок заключается в том, что даже правильно организованное и проведенное исследование, результаты которого обработаны должным образом, может быть некачественным с точки зрения достоверности и применимости полученных данных потому, что сама интерпретация данных проведена некорректно или же совсем не верно. Социолог – человек, который задает вопросы сам себе.3 Этап интерпретирования результатов исследования не является исключением. Именно интерпретирование с учетом знания социологии и ее законов позволяет дополнительно проконтролировать результаты. Если результат исследования резко расходится с уже установленными фактами – это серьезный повод перепроверить весь ход исследования. Другая форма – например, интерпретирование результатов факторного анализа. Модель, которая получается в результате, даже если она математически достоверна и корректна, но не может быть проинтерпретирована с социологической точки зрения, должна быть отвергнута.

Как видно из вышесказанного, ведущая роль при проведении социологического исследования принадлежит именно социологу. Именно от его квалификации зависит практически 90% успеха или неудач исследовательской деятельности. Вопросы владения прикладными программами занимают не столь значительное место. Вместе с тем, игнорировать инструментарием для обработки социологических исследований не стоит. Все обозначенное выше – это звенья одной единой цепи. Каждое звено логически связано с другими и его выпадение неминуемо нарушит целостность.

SPSS - это всего лишь программа, но при правильном ее применении – обдуманном, последовательном – она способна существенно упростить аналитическую часть. Каждый грамотный социолог должен владеть всей совокупностью приемов проведения эмпирических исследований. В последующих разделах мы будем рассматривать основные приемы работы в программе SPSS.

1.3. Основы работы в SPSS.

Прежде чем непосредственно приступать к обработке данных проведенного исследования в программе SPSS, необходимо грамотно организовать ввод данных. Заведение данных исследования в программу можно условно разделить на 2 основных этапа:

Подготовка основы анкеты
Непосредственный ввод данных

Рассмотрим подробнее эти процедуры.

Этап подготовки основы анкеты. В SPSS данные вводятся в определенном формате. Для того чтобы подготовить форму для ввода и дальнейшей обработки данных, нужно изначально ввести шаблон анкеты в приемлемом для программы виде. Общий вид окна программы выглядит, как показано на рисунке 1.

Рис. 1. Общий вид программы SPSS после запуска.

Когда программа запускается первый раз, пользователю предлагается дополнительное диалоговое окно, в котором предлагается осуществить выбор действий, связанных с редактированием существующей базы, открытию существующего файла и т.п. Как правило, в большинстве случаев это окно не несет существенной нагрузки. По этой причине рекомендуем поставить внизу галочку напротив «Don`t show this dialog in the future»4. Общий начальный вид программы в принципе стандартен для большинства программ, разработанных под операционную систему Windows. Общая навигационная панель, вид окна и управление окнами практически полностью идентичны большинству программ офисных приложений. По этой причине мы остановимся именно на отличительных особенностях самой программы SPSS.

Рис.2. Рабочее поле программы SPSS.

В программе SPSS существует 2 поля, организованные в виде закладок, аналогичных программе Excel. Вместе с тем эти поля далеко не равнозначны. На рисунке 2 показано рабочее поле программы, в которое пользователь непосредственно вводит данные из анкет (data view). Однако прежде чем осуществлять ввод данных необходимо создать в программе шаблон анкеты, ее основу. Ввод анкетного шаблона осуществляется в поле определения переменных – Variable View.5 В SPSS данные вводятся в определенном формате. В SPSS все переменные (при вводе) располагаются вертикально, а горизонтально – наблюдение. Рассмотрим подробнее поле Variable View (рисунок 3).

Рис.3. Вид окна переменных.

Каждая переменная – это вопрос в анкете. В программе SPSS по умолчанию установлены 10 основных характеристик, которыми может быть описана переменная: name, type, width, decimals, label, values, missing, columns, align и measure. В принципе, по значимости и важности заполнения эти переменные можно разделить на те, которые относятся к параметрам определения переменной и те, которые отвечают за удобство вывода.

Основные значения параметров переменной:

Name – имя переменной, которое будет отображаться в поле ввода. Это же имя использует программа для идентификации переменной. Имя не должно превышать 8 символов и быть только на английском. (В более поздних версиях программы можно использовать русский текст)

Type – определение типа переменной. Другими словами – какая информация вводится в качестве значений: число, дата, случайное значение, запятая и т.п.6 Чаще всего используются форматы «числовой» (Nymeric), дата (Date) и строковый (текст, String). В первом случае в качестве значения может приниматься любое число, во втором – дата в определенном формате, в последнем – текст.

Width – длина переменной. Количество разрядов, которые могут уместиться в ячейке.

Decimals – число десятичных разрядов после запятой.

Label – имя, метка, переменной для пользователя, более подробное описание переменной. Обычно формулируется именно как сам вопрос анкеты. Используется в отчетах и позволяет использовать любой шрифт.

Values – метки значений переменной, которые переменная может принимать. В SPSS данные представлены преимущественно в числовом формате, т.к. текстовый формат не поддается статистическому анализу. Например, пол, можно закодировать как 1 – мужской, 0 – женский. При вводе значений очень важно соблюдать последовательность при определении ранговой шкалы – значения должны идти по возрастанию. Чуть ниже будет рассмотрен пример некорректного ввода данных. Для определения метрической шкалы, значения можно не указывать.

Метки значений вводятся в дополнительном окне.

Рис.4. Определение типа переменной.

Missing – определение пропущенных значений. Могут задаваться системой автоматически (System-defined missing values) или пользователем (User-defined missing values).

Columns – определение ширины столбца.

Align – выравнивание в ячейке (левый край, правый, центр).

Рис. 5. Определение значения переменной.

Measure – определение шкалы переменной. Scale – число, метрическая шкала; ordinal – ранговая шкала; nominal – номинальная. Чрезвычайно важная характеристика, так как именно от корректного выбора типа шкалы будет зависеть обработка. В программе заложена графическая подсказка – пиктограмма напротив каждого типа шкалы (линейка – как результат измерения – число; возрастающая гистограмма – определение ранга; круги множеств – несравнимые характеристики, обозначающие непересекающиеся множества).

Рис. 6. Выбор типа шкалы в SPSS.

Остановимся на типах измерительных шкал чуть подробнее.

В принципе, сам тип шкалы определяется исследователем уже на этапе поиска эмпирических индикаторов измеряемых признаков во время составления программы социологического исследования. В окончательном виде шкала воплощается непосредственно в вопросе анкеты. Очень важно соблюдать требования, предъявляемые к формулировке альтернативных вариантов.7 С точки зрения программы SPSS наиболее важное требование – непересекаемость полученных подмножеств, формируемых альтернативными вопросами. В противном случае довольно сложно при обработке данных (точнее при вводе данных) определить именно тот интервал, то подмножество, к которому респондент действительно отнес данный вопрос. Например, в качестве альтернативных вариантов ответа на вопрос о возрасте могут быть указаны такие интервалы, как до 15 лет, 15-20, 20-25, 25-30, 30 и старше. При такой формулировке возникает проблема в отношении таких результатов, когда респонденту оказывается 15, 20, 25 и 30 лет – т.е. когда он попадает в границу. Респондент может в случайном порядке, на основании каких-то своих предубеждений) отмечать любой интервал - как более высокий, так и более низкий. При обработке данных этот факт способен исказить действительную картину. Если рассматривать общую классификацию шкал, то ее можно представить в виде следующей схемы.

Рис. 7. Классификация шкал.

Пунктиром на рисунке отмечены стрелки, ведущие к интервальной шкале. Дело в том, что интервальная шкала не является в строгом смысле метрической, а относиться к неметрическим. Однако, в некоторых случаях, например, когда интервалы равны, можно осуществлять с ней некоторые математические операции, характерных для метрической шкалы.

С точки зрения проведения исследования и обработки данных очень важно понимать возможности и ограничения применения того или иного типа измерительной шкалы. Важно понимать, что метрические шкалы, в SPSS – тип scale, обладают самой мощной измерительной способностью с точки зрения аналитических возможностей, т.к. к этой шкале могут быть применены практически без ограничений все статистические процедуры. Номинальные (nominal) – напротив, предоставляют самые слабые возможности. По большому счету – это просто частотное распределение и мода, как показатель меры центральной тенденции.

На практике чрезвычайно важно правильно выбирать измерительную шкалу уже на этапе проектирования анкетного опроса. Важно понимать, что чем больше мы хотим получить информации именно поданному типу вопросов, тем больше нужно стремиться к использованию метрической шкалы. Идеальная анкета с точки зрения возможностей ее обработки представляет собой список вопросов, каждый из которых измеряется количественно. С другой стороны – это практически не реализуемо на практике как в силу невозможности «оцифровать» переменные (например, нереально полностью перевести в метрическую шкалу вопрос относительно пола респондента), так и на основе принципов драматургии самого анкетного инструментария – однообразные вопросы снижают мотивацию респондента и надежность получаемых данных.8

Возвращаясь к особенностям определения параметров переменной в программе SPSS, можно отметить, что к параметрам, которые в большей степени ответственны за удобство представления информации относятся: columns (ширина столбца), align (выравнивание в ячейке) и в какой-то мере width (длина) и decimals (число десятичных знаков). Эти параметры в большинстве случаев можно просто не изменять, согласившись с предложенными значениями. А вот относительно остальных параметров определения переменных нужно быть аккуратным, так как именно они окажут существенное влияние на процесс ввода и обработки информации.

После определения переменных в программе SPSS можно непосредственно переходить к вводу данных, которые вводятся в поле data view в виде чисел или других символов (в зависимости от типа переменной). В следующем разделе будет рассмотрен подробный алгоритм определения переменных и ввода значений.

1.4. Определение переменных и ввод данных в программу SPSS.

Как уже было отмечено выше, прежде чем непосредственно приступать к анализу данных в программе SPSS, необходимо определенным образом сформировать базу для работы. Поскольку работа ведется преимущественно с количественными данными, а основной инструментарий количественных исследований в социологии – анкетный опрос, то в данной работе мы будем рассматривать пример организации данных в программе SPSS на основе социологической анкеты.

Первым шагом организации вода данных в программу SPSS является кодирование самой анкеты. Важность этого этапа не стоит недооценивать, так как пренебрежение данным этапом зачастую приводит к ошибкам, определенных нами выше как пользовательские. Чаще всего последствия таких ошибок – недостаточность (пропуск) или, напротив, - избыточность (ввод одной анкеты по 2 и более раза) данных, что может оказать довольно существенное влияние на результат обработки данных. Кодирование анкеты предполагает наличие двух процедур:

Нумерация анкет по порядку – процедура, позволяющая вести контроль за количеством анкет и устранить как избыточность, так и недостаток данных.
Нумерация (кодирование) самих вопросов анкеты – процедура позволяющая организовать вопросы анкеты и привести их в соответствие с требованиями программы. Рассмотрим этот шаг подробнее.

Когда исследователь разрабатывает анкету, он уже должен держать в голове возможности ее обработки в соответствующей программе. Однако, как уже было отмечено выше, с точки зрения мотивации респондента и правил драматургии анкеты как инструментария, не всегда вопросы организованы в наиболее удобном для обработки виде. По этой причине нумерация и кодировка вопросов для ввода в программу SPSS должна быть проведена заранее. Это во многом облегчает опрераторскую работу как по определению переменных в самой программе, так и по непосредственному вводу данных. Когда речь заходит о достаточно большом объеме данных – этот фактор приобретает особенное значение, т.к. позволяет сократить время на ввод данных.

Рассмотрим конкретный пример. Пусть у нас есть анкета, фрагмент которой выглядит следующим образом:

Рис.8. Фрагмент анкеты.

Перед нами 4 вопроса анкеты, которые в принципе уже пронумерованы. Однако нумерация вопросов анкеты в виде, предлагаемом респонденту, отличается от нумерации, используемой для ввода данных в программу. Ключевое отличие заключается в том, что респонденту предлагаются вопросы, а исследователь на этапе обработки данных имеет дело с переменными, которые принимают случайные значения. При организации подготовки данных анкеты для ввода в программу SPSS необходимо пронумеровать именно переменные, которые в дальнейшем будут подвергаться обработке, а также пронумеровать варианты ответов, так как варианты – это конкретные возможные значения, которые может принимать переменная. Та же самая анкета при нумерации переменных для ввода в SPSS будет иметь следующий вид.

Рис.9. Анкета, пронумерованная для ввода данных в программу SPSS.

В круглых скобках представлена нумерация переменных, а в фигурных скобках - нумерация значений, которая может принимать та или иная переменная. Поясним некоторые моменты, которые могут вызвать недопонимание.

Первое – в анкете мы видели 4 вопроса, однако при нумерации переменных у нас получилось 7 переменных. Дело в том, что четвертый вопрос анкеты представляет собой фактически объединение трех переменных (отношение к Президенту, отношение к Правительству и отношение к Парламенту), каждая из которых может принимать случайные значения. По этой причине мы не имеем права объединять эту переменную в одну. Кроме того, выше мы отмечали, что необходимо пронумеровать сами анкеты. По этой причине вопросы начинают нумероваться с цифры 2. Первая переменная – это порядковый номер анкеты.

Второе – отсутствует нумерация ответов по второму вопросу. В данном случае мы имеем дело с метрической шкалой и предлагаем респонденту числовую оценку своего возраста. Следовательно, мы не можем точно описывать все множество ответов респондентов.

Наконец, третье – обратите внимание на нумерацию значений по третьей переменной и по переменным 4-6. К сожалению, многие исследователи игнорируют эту особенность, которая может повлиять на результаты обработки данных. Переменные с третьей по шестую представлены порядковой (ранговой) шкалой. Соответственно – значения, которые могут принимать эти переменные упорядочены, т.е. ранжированы и имеют относительно друг друга некоторый ранг. Общий принцип ввода данных в программу SPSS должен быть основан на правиле: ранговые шкалы вводятся (нумеруются) в порядке возрастания, т.е. большее значение соответствует большему рангу, меньшее – меньшему, т.к. нумерация в данном случае представляет именно ранг.9

В рассматриваемом нами примере в третьей переменной возможные значения идут от минимального к максимальному (среднее образование – низшая ступень, ученая степень – высшая). По этой причине в данном случае можно нумерацию вариантов ответов оставить в таком же виде: первый вариант – наименьший ранг (1), последний – наибольший (5). А вот переменные с 4 по 6 напротив представлены в обратном порядке – от максимального к минимальному10, поэтому и нумерация идет обратная.

После того, как анкета была закодирована, можно приступать к процедуре определения переменных в программе SPSS. Рассмотрим эту процедуру подробнее.

Определение переменных в программе SPSS происходит в поле Variable View. Для того чтобы переменная была введена в программу нужно заполнить все поля, определив ключевые характеристики переменной. Возьмем вышеобозначенный пример. Первая переменная, как мы договорились, - это номер анкеты.

В поле Variable View в первой строке в столбце Name введите название (имя) переменной – number11.

Если на этом этапе завершить процедуру определения переменной, то все остальные поля определяться автоматически на основе тех параметров, которые заложены в программу по умолчанию. Иногда можно воспользоваться таким упрощенным способом, однако, на практике далеко не всегда стоит его использовать, так как не всегда программа предлагает именно те параметры, которые соответствуют переменной. Например – по умолчанию в SPSS устанавливается метрическая шкала переменной, что для большинства вопросов не справедливо. Кроме того – для удобства пользования и работы с массивами данных очень важно определить метку переменной Label, которая в дальнейшем будет использоваться для обозначения переменной в отчетах и таблицах. По этой причине продолжим последовательно определять характеристики переменной number.12

В поле определения типа переменной (Type) нужно выбрать значение numeric – число. Этот тип является основным и в социологических исследованиях используется преимущественно только он или же (редко) string – строковая переменная, способная принимать буквенное значение. Строковая переменная используется для открытых вопросов. Однако, как уже было отмечено выше, такого рода информация в программе не обрабатывается статистическим инструментарием и по этой причине ее лучше не использовать либо попытаться перевести в числовую форму. В программе SPSS по умолчанию стоит тип переменной numeric, поэтому в дальнейшем для ускорения процедуры определения переменной можно просто пропускать характеристику Type.

Аналогично можно пропустить значения параметров width и decimals, которые, как уже было отмечено выше влияют преимущественно на удобство вывода информации. Первая переменная определяет разрядность и по умолчанию стоит цифра 8. Для нумерации анкет этого – более чем достаточно, так как в реальной практике очень редко бывают выборки даже с объемом в 10 000 человек (5 разрядов). Вместе с тем для прочих переменных (например, для дохода) – этого может оказаться недостаточно. Переменная decimals отвечает за количество десятичных знаков после запятой. Поскольку для нумерации мы используем целые числа, то можно здесь поставить 0.

Следующий параметр label – метка переменной, то имя, которое будет появляться в отчетах. В нашем случае это – «номер анкеты».

Поскольку мы имеем дело с переменной, которая имеет потенциально бесконечное число значений, то переменная values не заполняется и остается при значении по умолчанию – none (отсутствуют).

Следующий очень важный параметр для работы с переменными – это missing – фиксирование пропусков. Учет пропущенных значений чрезвычайно важен, так как в противном случае программа может давать некорректные данные, которые в дальнейшем приведут к неправильной интерпретации. Приведем пример. Пусть у нас опрошено 100 человек. При этом на какой-либо вопрос ответило только 80. Если мы не учитываем пропуски, то при подсчете частот процентный показатель будет браться от 100, а не от действительных 80 (5 человек будет при отсутствии пропусков составлять 5%, а при учете пропусков – 6,25%), что исказит истинную картину. Рассмотрим варианты учета пропусков в программе SPSS.

Рис.10. Определение пропусков значений в SPSS.

Для того чтобы вызвать подменю с установками типа пропуска значений, нужно щелкнуть мышью в ячейке столбца missing на символе . Как видно из рисунка. Программа предлагает пользователю выбрать один из трех вариантов учета пропущенных значений:

1. No missing values – значение, которое присутствует по умолчанию и в большинстве случаев подходит для учета пропусков. При активации этого варианта программа считает пропущенными значениями незаполненные ячейки.

2. Discrete missing values – дискретные (точные) пользовательские значения, которыми обозначаются пропуски. Программа позволяет задавать от 1 до 3-х значений, при вводе которых программа автоматически будет считать это как пропуск. Довольно часто исследователь при разработке анкеты указывает такие возможности в качестве варианта ответов. Чаще всего используется число 99.

3. Range plus one optional discrete missing value – возможность учета ранжированных значений, автоматически определяемых как пропуск + одно пользовательское дискретное значение. Довольно удобная опция, которая дополнительно позволяет исключить ошибочные вводы данных. Например при определении переменной возраста, если выборка состоит из людей в возрасте от 18 лет, можно установить в качестве пропусков нижнюю границу 18, верхнюю 100. В таком случае автоматически возраст респондентов менее 18 и более 100 лет считаются как пропуски.

В нашем случае для переменной, определяющей номер анкеты, можно смело оставлять параметр missing без изменений.

Следующие два параметра columns и align также можно оставить без изменений, так как они не влияют на расчеты, а показывают ширину столбца (которую в случае необходимости можно изменить так же, как и в Excel – простым растягиванием с помощью мыши в рабочем поле data view) и выравнивание в столбце (по правому краю – по умолчанию, по левому краю, и по центру).

Наконец, последний очень важный параметр – определение типа шкалы, по которой измеряется переменная – measure. В програмее присутствует возможность выбора из трех вариантов (см. рис.11)

Рис.11. Определение шкалы переменной.

Программа дополнительно в графическом виде предлагает подсказку (линейка для метрической шкалы (scale), гистограмма для ранговой (ordinal) и круги Эйлера для номинальной (nominal)). В нашем случае для определения номера анкеты следует выбрать номинальную.

После того, как мы задали параметры, можно говорить о том, что в программе была определена переменная number, обозначающая нумерацию анкет в исследовании.

Остальные переменные из нашего примера определяются в соответствии с такими же правилами и в таком же порядке. По этой причине остановимся только на специфических отличиях.

Переменная пол чаще всего определяется в параметре name как sex. В данном случае отличие будет заключаться в том, что переменная может принимать фиксированное число значений. По этой причине нужно определить ее значения.

В столбце values нужно щелкнуть мышью на символе . Раскроется дополнительное меню.

Рис.12 Определение значений переменной.

В окошке value нужно указать номер, значение переменной. Поскольку тип переменной был определен как числовой (numeric), то и значения – число. В окне value label требуется ввести значение переменной. В нашем примере мы закодировали числом 1 – мужской пол и числом 2 – женский. После определения значений нужно нажать кнопку add для того, чтобы значение добавилось. После определения значений переменных – нажимаем кнопку ОК.

Остальные параметры – аналогичны предыдущему примеру с определением нумерации анкет.

Следующая переменная – количество лет – практически полностью идентична первой (номер анкеты) за исключением того, что тип шкалы – scale. Четвертый вопрос (образование) аналогичен вопросу про пол, только изменяются значения переменной и тип шкалы ordinal.наконец последние вопросы, как уже было отмечено выше вводятся отдельно. Они полностью идентичны вопросу про образование. Для упрощения определения переменных можно использовать прием копирования. Например – вопросы относительно оценки деятельности Президента, Правительства и Парламента имеют одинаковые варианты ответа. Соответственно можно сделать следующее:

Определить первую переменную – оценка Президента.
Щелкнуть мышью в ячейке значений (values) и, щелкнув правой клавишей выбрать copy.
При определении остальных переменных в параметре values щелкнув правой клавишей мыши выбрать paste.

Если при определении переменных вдруг понадобиться дополнительно вставить еще одну переменную, то можно сделать это аналогично вставке строки в программе Excel: выделить мышью номер строки с переменной, перед которой нужно вставить дополнительную переменную и из списка выбрать insert variables.

Рис.13. Вставка дополнительной переменной в SPSS.

После того, как мы определили переменные, можно непосредственно перейти к процедуре ввода данных. Для этого нужно перейти в поле программы data view, которая будет иметь следующий вид.

Рис. 14. Рабочее поле программы для ввода данных.

Как видно из рисунка, столбцы приняли обозначение в соответствии с тем, которые были определены в параметре name переменных. В дальнейшем ввод переменных осуществляется непосредственно в ячейки в виде цифр.

Например. Первая анкета принадлежит мужчине,30-летнего возраста, который имеет высшее образование, оценивший деятельность Президента как «положительно», Правительства как «скорее положительно» и Парламента как «скорее отрицательно». В таком случае нужно в первой строке в первой ячейке поставить цифру 1(номер анкеты), во второй ячейке – 1 (мужской пол), в третьей – 30 (возраст), в четвертой 4 (высшее образование), в пятой – 5 (положительная оценка Президента), в шестой – 4 (скорее положительная оценка Правительства) и в седьмой – 2 (скорее отрицательная оценка Парламента).

В программе SPSS в верхней части на панели управления есть кнопка , которая осуществляет переключение между значениями переменной и метками переменной. Если нажать на нее, то в поле программы вместо значений появятся соответствующие метки. При активации данной функции ввод данных можно осуществлять на основе выбора из раскрывающегося списка. Однако при большом объеме выборки такой способ ввода данных более длителен и поэтому менее предпочитаем.

Рис.15. Ввод данных при активации функции показа значения переменных.

Аналогичным образом осуществляется ввод остальных данных. Важно помнить, что каждая строка – это отдельная анкета, а столбец – переменная. После ввода данных можно переходить к процедуре анализа. Однако, прежде чем непосредственно рассматривать анализ данных мы остановимся еще на одной особенности определения переменной со множественными ответами.

1.5. Определение и ввод данных для переменных с множественными ответами.

В социологических исследованиях довольно часто встречаются такие типы вопросов, в котором исследователь не ограничивает респондента количеством ответов либо ограничивает более чем одним вариантом. С точки зрения обработки и анализа данных, полученных в результате такого опроса – это не совсем удобно. Тому есть, по крайней мере, две причины: во-первых, такие вопросы имеют в своей основе номинальную шкалу, что, как мы уже отмечали, резко снижает возможности анализа данных. А во-вторых, сама процедура ввода и обработки несколько отличается от типов вопросов, рассмотренных в предыдущем разделе. В идеале – лучше избегать таких вопросов. Однако этого не всегда возможно избежать.

Рассмотрим конкретный пример. Пусть у нас есть вопрос в анкете, направленный на изучение имеющихся предметов в собственности респондента. Такой вопрос может быть сформулирован в следующем виде:

Укажите, пожалуйста, что из перечисленного ниже вы приобрели за последний год (укажите все возможные варианты):

Автомобиль
Квартира
Драгоценности
Крупная бытовая техника (холодильник, плита)
Мебель
Путевки на отдых
Компьютер, оргтехнику
Видеотехнику (телевизор, камера, видеомагнитофон и пр.)
Фотоаппаратуру
Музыкальный центр
Ничего из перечисленного

В данном примере теоретически максимально возможное количество ответов – 10 (вариант 11 исключает все остальные). В приведенном в предыдущем разделе примере мы рассматривали вопросы, в которых возможен только один вариант ответа. В графе определения меток переменных (values) мы определяли возможные значения именно с этой оговоркой – единственный вариант ответа. В случае, когда требуется обработать вопрос, в котором возможно более одного выбора, говорят, что данный тип относится к вопросам с множественными ответами.

В программе SPSS существует два способа определения (ввода) переменных с множественными ответами – категориальный и дихотомный. Оба этих случая используются в равной степени. Рассмотрим их подробнее.

Дихотомный метод. Использование такого подхода для определения переменной с множественными ответами в программе SPSS применяется наиболее часто. Данный метод основывается на том, что каждый их возможных вариантов ответа рассматривается в качестве отдельной переменной, которая может принимать только два возможных значения: «выбор» и «не выбор». Таким образом, приведенный выше пример фактически разбивается на 11 переменных, каждая из которых имеет 2 варианта ответа по номинальной шкале: «1» – выбор, «0» – отсутствие выбора. При обработке данных все 11 вариантов ответа агрегируются и обрабатываются как единый вопрос. О методе обработки подобных вопросов мы поговорим чуть позже.

Рис 16. Определение переменной с множественными ответами по дихотомному методу

Категориальный метод. Этот способ представляет собой альтернативу предыдущему. Категориальный метод используется в случаях, когда нам заранее известно количество возможных вариантов. Например, если бы в приведенном выше примере мы ограничили бы выбор респондента, попросив его отметить не более трех вариантов, тогда уместно было бы использовать категориальный подход. Суть категориального метода заключается в том, что создаются одинаковые переменные, которые содержат все возможные варианты ответов (в нашем примере 11). Количество переменных соответствует количеству возможных вариантов выбора (в нашем примере – 3). Ниже представлен пример ввода данных по категориальному методу с тремя вариантами ответа.

Рис. 17. Определение переменной с множественными ответами по категориальному методу.

С точки зрения удобства обработки оба метода – как дихотомный, так и категориальный – практически идентичны. Общее правило пользования методом состоит в том, что в случае с неопределенным количеством выборов или в случае с небольшим количеством альтернатив проще использовать дихотомный метод, как наиболее простой для определения переменной. Ниже мы рассмотрим непосредственный анализ данных в программе SPSS.

1.6. Основы анализа данных.

После того, как все переменные нашей анкеты были занесены в программу SPSS необходимо осуществить наполнение базы данных, основываясь на результатах, полученных от респондентов. Как уже отмечалось выше, ввод данных в программе осуществляется в поле Data View посредством ввода числа в поле переменной, в соответствии с кодировкой. Ниже представлен пример ввода данных.

Рис. 18. Пример ввода данных в программу.

В приведенном примере показаны две переменные – пол и возраст респондента. Первая переменная имеет только два возможных варианта: «1» - мужской и «2» - женский. Вторая переменная, возраст, относится к метрической числовой шкале. Данные читаются следующим образом: первый респондент – молодой человек (1) в возрасте 17 лет. Для простоты восприятия остановимся на данном примере.

Обработка данных в программе SPSS осуществляется путем вызова соответствующих команд из главного меню Analyze. Первый этап обработки данных в социологии всегда рекомендуется начинать с частотного распределения и описательной статистики. В выпадающем меню Analyze нужно выбрать команду Descriptive Statistics (описательные статистики) и затем – Frequenses (частоты).

Рис. 19. Вызов меню частотного анализа.

После этого откроется новое диалоговое окно для определения переменных, которые подвергаются анализу (рис. 20).

Рис. 20. Частотный анализ переменных.

Рассмотрим это окно подробнее, так как принцип выбора переменных одинаков для всех типов анализа. В диалоговом окне видны два поля: слева перечислены все переменные ( в нашем случае их всего 2). Правое поле пустое. Оно как раз и предназначено для выбора переменных, подвергающихся анализу. При помощи мыши нужно выделить анализируемую переменную и нажав на кнопку перенести ее в правое окно. Сделаем это для переменной «возраст». Окно примет следующий вид.

Рис. 21. Выбор переменной для анализа.

Для того, чтобы определить требуемые статистические параметры нужно нажать кнопку и в открывшемся меню выбрать нужные статистики.

Рис. 22. Окно определения статистик.

Левый верхний угол окна содержит такие статистики, как квартиль (Quartiles), точки раздела (Cut points for) – показатели процентилей, разделяющие выборку на группы наблюдений, имеющих одинаковую ширину, то есть включают одинаковое число наблюдений, процентили (Percentiles). Нижний левый угол относится к статистикам, характеризующим меру разброса: стандартное отклонение (St. deviation), дисперсия (Variance), размах (Range), наименьшее и наибольшее значение в выборке (Minimum, Maximum) и стандартная ошибка среднего (S.E. mean). Следующая группа статистик используется наиболее часто – меры центральной тенденции: среднее (Mean), медиана (Median), мода (Mode) и сумма (Sum). Наконец, есть группа, позволяющая оценить ассиметричность распределения, - Distribution. Здесь мы видим две статистики6 Skewness (коэффициент асимметрии) и Kurtosis (коэффициент вариации). Для вычисления требуемых статистик нужно просто проставить галочки в клетках рядом с соответствующими параметрами. Для нашего примера давайте определим все меры центральной тенденции, кроме суммы, а также стандартное отклонение, дисперсию и размах. После установки соответствующих галочек, нажмем клавишу . В окне статистик нажимаем кнопку ОК. Полученные результаты приведены на рисунке 23.13

Рис. 23. Окно вывода результатов.

Полученные данные сведены в две таблицы. В первой указаны: количество наблюдений в выборке (9), количество пропущенных значений (0), среднее значение (17,3333), медиана (17), мода (17), стандартное отклонение (2,5), дисперсия (6,25) и размах (9). По этой таблице мы можем сделать вывод, что в нашей выборке средний возраст респондентов составил 17, 3 лет, размах выборки составил 9 лет, наибольшее количество респондентов находятся в возрасте 17 лет.

Вторая таблица представляет собой анализ распределения переменной возраст. В ней в левом столбце указаны все возможные варианты, в следующем столбце – абсолютное значение частот, далее – процентное значение, далее – процентное значение с учетом пропусков и накопленный процент. В нашем случае можно говорить о том, что 33,3% респондентов в возрасте 17 лет, 22,2% - 19 лет и по 11% респондентов имеют возраст 12,16, 18 и 21 год. В нашем примере у нас не было пропущенных ответов, однако на практике пропуски встречаются довольно часто. Пари анализе данных в частотном распределении крайне важно обращатиь на это внимание. При наличии пропусков в отчетах о результатах обработки следует использовать процентный показатель с учетом пропусков (Valid Percent).

Частотный анализ данных может осуществляться по указанному выше алгоритму вне зависимости от того, какую переменную мы анализируем. Однако, как уже было отмечено выше, чрезвычайно важно помнить о том, по какой шкале измеряется анализируемая переменная. В данном примере мы сознательно обратились к переменной, которая относится к метрическим шкалам и имеет самые богатые возможности для анализа. Вместе с тем, при выборе такой переменной, как «пол», вычисление статистик типа среднее значение, стандартное отклонение и прочие становится бессмысленным, так как переменная принадлежит к номинальной шкале.

1.7. Анализ переменных с множественными ответами.

Выше мы рассматривали случай определения переменных в программе SPSS, которые характеризовались множественными ответами. Кроме того, что они имеют свои особенности при вводе, данный тип вопросов также специфичен относительно процедуры обработки. В данном разделе мы как раз остановимся на анализе такого типа вопросов. Продолжим рассматривать пример, обозначенный выше.

Дихотомный метод. Перед тем, как приступить непосредственно к анализу ответов респондентов, необходимо определить новую переменную для анализа, которая представляет собой агрегированный результат всех вариантов. Для этого в меню Analyze нужно выбрать Multiple Response (множественные ответы) и Define sets (определение). Раскроется следующее диалоговое окно.

Рис. 24. Определение переменной с множественными ответами для анализа.

В приведенном диалоговом окне нужно:

1. Выбрать в левом столбце все переменные, которые входят в наш вопрос с множественными ответами и наддав на стрелку переместить их в поле Variables in Set (переменные в наборе).

2. В поле Dichotomies Counted value (учитываемое значение дихотомической переменной) поставить цифру 1.

3. Присвоить набору имя (Name) и метку (Label). Пусть в нашем примере это будет sobstv и «приобретения» соответственно.

4. Нажать кнопку Add и нажать кнопку Close.

Все, наша переменная готова для анализа. Следующий шаг собственно сам процесс анализа. Для этого нужно в Analyze выбрать Multiple Response (множественные ответы) и Frequencies (частоты). Раскроется следующее диалоговое окно.

Рис. 25. Анализ переменной с множественными ответами.

Далее все, согласно правилам обработки – переносим вправо нашу анализируемую переменную и нажимаем ОК. В представленном отчете нас прежде всего интересует вторая таблица, ее последний столбец.

Рис. 26. Таблица результатов анализа переменной с множественными ответами.

В таблице видно, что в нашем примере автомобиль пиобрели 3 респондента, что составило 37,5% от общего числа опрошенных, столько же респондентов приобрели компьютер и т.п.

Категориальный метод. Процесс обработки данных в переменной, заведенной по категориальному методу полностью идентичен сказанному выше. единственное исключение – при определении анализируемой переменной нужно выделить Categories и задать диапазон от 1 до 11.

1.8. Отбор данных и формирование подвыборок в SPSS.

В практике социологических исследований при анализе данных иногда встречается необходимость модификации данных с целью формирования подвыборок. Например, по ходу решения исследовательских задач, необходимо выяснить характеристики ответов респондентов в возрасте от 16 до 30 лет мужского пола. Или нужно сравнить результаты политических взглядов у мужчин, проживающих в южной части страны по отношению к северянам.

Все подобные задачи могут быть успешно решены с применением программы SPSS на основании формирования подвыборок и модификации данных. Рассмотрим основные приемы.

Формирование подвыборок. Данная процедура требуется тогда, когда нам нужно определить четкие параметры. Например, отобрать мужчин в возрасте до 40 лет, проживающих в Центральном Федеральном округе. Процедура отбора случаев в программе SPSS реализуется через главное меню Data и выбор Select Cases (данные – выбор случаев). Раскроется следующее диалоговое окно.

Рис. 27. Диалоговое окно формирования подвыборки.

В данном окне в левой части представлены все переменные. В правой части предлагаются варианты выбора случаев. All cases – все случаи, if condition satisfied – выбор случаев, удовлетворяющих пользовательскому запросу. Именно этот раздал требуется выбрать для формирования подвыборки, удовлетворяющей запросу. Затем выбрать кнопку if… Откроется новое диалоговое окно, в котором непосредственно может быть задан запрос.

Рис. 28. Диалоговое окно для формирования запроса на отбор случаев.

Слева расположены все переменные. Для формирования условий используются сами переменные и знаки математической логики между ними, а также цифры, знаки неравенств и прочие элементы, обозначенные в центральной части окна – так называемые операторы. Операторы делятся на арифметические и логические. Рассмотрим их чуть подробнее.

Отношение — это логическое выражение, в котором два значения сравниваются друг с другом посредством оператора отношения. В областях, где применяется SPSS в операторах отношения значения переменной сравниваются с каким-либо численным значением (константой).

Операторы можно ввести в редактор условий либо щелкнув в диалоговом окне на кнопке с соответствующим знаком, либо введя с клавиатуры альтернативный текст. Например, вместо ~= можно ввести NE или <>.

Для построения условных выражений могут применяться следующие логические операторы:

Знак на кнопке	Альтернативный текст	Значение
&	AND	Логическое И
\|	OR	Логическое ИЛИ
~	NOT	Логическое НЕ

Логические операторы AND и ОК связывают два отношения, алогический оператор NOT меняет значение истинности условного выражения на противоположное. Между логическими операторами устанавливаются следующие приоритеты:

Приоритет	Оператор
1	NOT
2	AND
3	OR

Логические операторы основаны на принципах булевой алгебры (логики высказываний), краткий обзор которых приводится в данном разделе.

Оператор И (конъюнкция)

Выражение 1	Выражение 2	Результат
и	и	и
и	л	л
л	и	л
л	л	л

Легенда: и = истина (true); л = ложь (false)

При конъюнкции все участвующие выражения (отношения) должны быть истинными, чтобы общий результат также являлся истинным.

Оператор ИЛИ (дизъюнкция)

Выражение 1	Выражение 2	Результат
и	и	и
и	л	и
л	и	и
л	л	л

При дизъюнкции хотя бы одно из участвующих отношений должно быть истинным, чтобы общий результат также был истинным.

Логическое НЕ (отрицание)

Выражение	Результат
и	л
л	и

Отрицание меняет истинность выражения на противоположную. При отрицании следует учитывать эквивалентность операторов:

отрицаемый оператор	эквивалентный оператор
<	>=
>	<=
<=	>
>=	<

Кроме логических операторов в программе SPSS также реализован процесс вычисления функций переменных. Список функций, который мы сейчас рассмотрим, - следующая важная часть диалогового окна Select Cases: If.

Этот список содержит множество математических функций, большая часть из которых, однако, имеет отношение только к модификации данных (расчету новых переменных).

Логические функции

В SPSS реализованы две логические функции:

RANGE (variable, begin, end): Функция RANGE возвращает значение 1, или true,
если значение переменной лежит в диапазоне между заданными начальным и
конечным значениями. Переменная может иметь как численный, так и строковый тип. RANGE (alter, 18, 22) возвращает значение 1, то есть true, если значение переменной alter лежит между 18 и 22 включительно. Можно задавать
несколько диапазонов, например, RANGE (alter, 1, 17, 63, 99). В этом случае
функция возвращает true, если значение переменной alter лежит между 1 или
17 или между 63 и 99 включительно. В функции RANGE можно также использовать переменные строкового типа, например, RANGE (name, A, Mzzzzzz). Тогда функция будет возвращать 1 для имен, начинающихся с букв от А до М
включительно. Если имя начинается с другой буквы, функция возвратит 0.

ANY (variable, val1, val2, va!3,...): Функция ANY возвращает значение 1, или true, если значение переменной (значение первого аргумента) совпадает по крайней мере с одним из значений, указанных в последующем списке параметров
(val1, val2, val3, ...). В противном случае возвращается значение 0 или false. Первый элемент, как правило, — переменная численного или символьного типа.
Примеры: ANY (jahr, 1991, 1992, 1993, 1994) возвращает true, если значение
переменной jahr равно 1991, 1992, 1993 или 1994. ANY (name, Schmidt, Meier,
Raabe) возвращает значение true или 1 в тех случаях, когда переменная name
содержит значения Schmidt, Meier или Raabe. Во всех остальных случаях возвращается значение 0. Не забывайте заключать строковые значения в двойные
кавычки.

Строковые функции

Из общего количества 18 строковых функций мы рассмотрим три самых важных, на наш взгляд.

■ SUBSTR (variable, begin, length): Эта функция извлекает определенную часть из строки. Она возвращает подстроку или отдельный символ. Например, если строковая переменная name содержит значение Mannheim, то следующий вызов функции

SUBSTR (name, 1, 2)

возвратит значение Ма. Здесь из переменной name извлекаются два знака (третий аргумент) начиная с первой позиции (второй аргумент). Выражение

SUBSTR (name, I, 2) = Ma

будет истинным для значений переменной Maus, Mannesmann или Mahlmann. При сравнении со строками вместо двойных кавычек (= "Ма") можно также применять простые (= 'Ма'). Однако смешение простых и двойных кавычек (= 'Ма") не допускается.

■ UPCASE (argument): Функция UPCASE преобразует строчные буквы в прописные. В качестве аргумента можно задавать строку или переменную символьного типа. UPCASE (vorname) возвращает значение ANNA, если переменная
vorname имеет значение Anna.

■ LOWER (argument): Функция LOWER преобразует прописные буквы в строчные. В качестве параметра можно задавать строку или переменную символьного типа. LOWER (vorname) возвращает значение anna, если переменная vomame имеет значение ANNA или Anna.

Функции переносятся в редактор условий следующим образом:

Поместите курсор на место в условном выражении, на котором должна быть
вставлена функция.

Дважды щелкните на функции в списке функций или выделите функцию и щелкните на кнопке с треугольником около списка функций.

Функция будет вставлена в выражение. Вместо аргументов в этой функции будут стоять вопросительные знаки. Количество вопросительных знаков указывает минимальное количество аргументов, которое следует вставить. Отредактировать функцию можно следующим образом:

Выделите вопросительные знаки во вставленной функции.

Замените их соответствующими аргументами. Имена переменных для аргументов можно перенести из списка исходных переменных.

Теперь вернемся к нашему примеру. Итак из наших данных нам нужно отобрать мужчин не старше 40 лет, проживающих в Центральном Федеральном округе. Алгоритм отбора следующий:

Перенести переменную «федеральный округ» вправо, присвоив ей значение «=1».
Поставить знак &, перенести переменную «пол» вправо, присвоив ей значение «=1».
Поставить знак &, перенести переменную «возраст респондента» вправо, присвоив ей значение «<40». Должно получиться следующее выражение.

Рис. 29. Пример составления логического выражения для формирования подвыборки.

После этого нужно нажать кнопки Continue и в следующем окне ОК. В поле данных появилась еще одна переменная, обозначенная как filter_$, а внизу появилась надпись Filter On. Это означает, что все последующие вычисления относительно любой переменной будут выполняться с учетом определенного нами фильтра, т.е. в отношение мужчин до 40 лет, проживающих в Центральном Федеральном округе. Если нам необходимо убрать фильтр, то можно это сделать в меню Data → Select Cases → All Cases.

1.9. Анализ связей между переменными.

До этого мы говорили преимущественно об описательном частотном анализе социологических данных, однако описательная статистика представляет собой лишь первую ступень собственно анализа данных. Хотя на практике часто встречаются случаи, при котором именно на описательной статистике и останавливаются, с точки зрения более глубокого социологического анализа такую постановку вопроса нельзя принять удовлетворительной.

Социология относится к номотетичческим наукам, целью которых является не просто описание явлений и событий, но, прежде всего, - выявление связей и установление закономерностей. Именно по этой причине мы обратимся к вопросу анализа связей между переменными как основы собственно аналитической, научной работы с полученными данными.

Анализ связей между переменными тесным образом связан (как собственно и любой этап анализа данных) с типом шкалы, по которой происходит измерение переменной. Принципиальные различия в обработке данных относительно расчета связей проводится между номинальной и остальными шкалами. Рассмотрим особенности анализа связи между переменными подробнее.

Номинальная шкала измерений.

Как уже было отмечено выше, номинальная шкала является самой неудобной с очки зрения возможностей анализа данных. Процедура анализа связей между переменными, измеряемыми по номинальной шкале состоит из двух этапов:

Построение таблиц сопряженности.
Вычисление коэффициента связи. Чаще всего используется статистика χ2.

Построение таблиц сопряженности в программе SPSS может использоваться не только как один из этапов анализа связи между переменными, измеряемыми по номинальной шкале, но и как вполне самостоятельный метод анализа данных. Таблица сопряженности показывает взаимное распределение ответов респондентов, в которых сразу учитываются два и более признака. Мы получаем своего рода матрицу упорядоченных данных.

Стоит отметить, что для того, чтобы отказаться от использования расчета коэффициентов корреляций для порядковой и метрической шкал, достаточно, чтобы, по крайней мере, одна из анализируемых переменных относилась к номинальной шкале. Вместе с тем, при достаточно значительных объемах выборки дихотомическая номинальная шкала может быть условно принята за порядковую (например, такая переменная, как пол).

Процедура построения таблиц сопряженности вызывается из меню Analyze – Descriptive Statistic – Crosstabs (таблицы сопряженности). Откроется следующее окно.

Рис. 30. Построение таблиц сопряженности.

В левой части отображены переменные. В нашем случае это пол и образование. Будем считать объем выборки не достаточно большим, для того, чтобы принять переменную «пол» за порядковую. В правой части указаны окна Row(s) и Column(s), обозначающие соответственно строки и столбцы нашей будущей таблицы. Перенесите переменную «пол» в строки, а переменную «образование» - в столбцы. Если после этого нажать кнопку ОК, то мы получим таблицу сопряженности следующего вида.

Рис. 31. Таблица сопряженности.

Перед нами собственно две таблицы. Верхняя содержит общие сведения – что в выборке 62 наблюдения, пропущенных значений нет. Нижняя таблица собственно и есть та самая таблица сопряженности. Как мы и определяли, по строкам содержится информация относительно половой дифференциации выборки, а по столбцам – образование. Уже глядя на эту таблицу можно сделать предположение, что связь между полом и уровнем образования существует. Однако при проведении исследований подобного рода выводы должны отвечать четким требованиям математической достоверности. Именно для этого и осуществляется расчет коэффициента χ2 .

Для расчета коэффициента χ2 нужно также пройти процедуру построения таблиц сопряженности, но после того, как переменные были определены для строк и столбцов, нужно нажать на кнопку Cells… (ячейки). Появится следующее окно (см. рис. 32), в котором, кроме предлагаемого по умолчанию флажка Observed, нужно еще установить флажки в значениях Expected и Standardized (ожидания и стандартизация). После этого подтвердить выбор кнопкой Continue.

Рис. 32. Диалоговое окно Cells.

Возвратившись в прежнее окно, нужно нажать кнопку Statistics и в новом окне поставить флажок напротив Chi-square (хи-квадрат), подтвердить выбор кнопкой Continue и, вернувшись в главное окно нажать ОК. в окне вывода мы получим следующие данные.

Рис.33. Результаты теста хи-квадрат.

Верхняя таблица осталась прежней. Во второй таблице появились ожидаемые и стандартизированные частоты. Именно последние показывают, в каких пересечениях наиболее сильно появляется связь. В нашем примере – это наличие начального образования и ученая степень. Ну и, наконец, - собственно сам расчет коэффициента χ2 . приводится значение критерия χ2 (4,152), которое в нашем примере не очень велико, значимость (Asymp. Sig - в нашем примере 0, 246). Тест не значим, так как значение 0,246 больше, чем требуемый минимум 0,05. Следовательно мы можем отвергнуть гипотезу относительно наличия связи между полом и уровнем образования, так как наше предположение оказалось статистически недостоверным.

Кроме прочего стоит обращать особое внимание еще на один факт, который касается ограничения применения критерия χ2. Под таблицей указан процент ячеек, в которых ожидаемая частота меньше 5. В нашем примере 12,5%. Стоит помнить, что если таковых оказывается более 20%, то тест χ2 не может применяться.

Порядковые и метрические шкалы.

Связь между переменными определяется как корреляция. Корреляция показывает как изменение одной переменной влияет на изменение другой переменной. В программе SPSS реализован принцип вычисления коэффициентов корреляций Пирсона, Кендела и Спирмена. Вообще пользователь может использовать любой коэффициент, хотя есть небольшие нюансы: коэффициент Спирмена лучше реагирует на порядковую шкалу, коэффициент Пирсона и Кендела – на интервальную. Хотя как показывают результаты вычислений – можно пользоваться практически любым коэффициентом, так как их значения довольно близки.

Коэффициенты корреляции варьируются от -1 до 1. Чем ближе значение к 1 – тем сильнее связь между переменными. Знак минус свидетельствует об обратной связи. Общий принцип интерпретирования значений сводится к следующему:

До 0,5 – слабая корреляция14
До 0,7 – средняя корреляция
До 0,9 – сильная корреляция
Свыше 0,9 – очень сильная корреляция

Рассмотрим процедуру расчета корреляции в программе SPSS. В меню Analyze нужно выбрать Correlate (Корреляции) и затем Bivariate (Парные). Откроется диалоговое окно.

Рис.34. Расчет корреляций в программе SPSS.

В данном окне нужно перенести в правое поле пары переменных, в отношение которых проверяется связь. В данном примере мы проверяем зависимость между возрастом респондентов и уровнем образования. Обратите внимание, что обе переменные изменяются по восходящему принципу – мы можем проставить возраст от самого маленького до самого большого, и аналогично – с уровнем образования. для расчета корреляций поставим галочку в окошке Pearson (расчет корреляции Пирсона). В окне Test of Significance (тест значимости) по умолчанию стоит значение двустороннего (Two-tailed). Поскольку часто мы не знаем о характере направленности связи, то оставляем этот флажок без изменения. Аналогично стоит по умолчанию флажок «показывать значимость». Нажимаем кнопку ОК. в результате в окне вывода будут получены данные результата расчета коэффициента корреляции Пирсона.

Рис.35. Результаты расчета коэффициента корреляции.

Перед нами таблица, в которой представлены результаты расчета корреляции. Обратите внимание, что по диагонали стоят единицы – это и естественно, переменная, разумеется, находится в самой высокой корреляционной связи сама с собой. Значения коэффициентов находятся на пересечении переменных. В данном примере мы получили высокую прямую связь (коэффициент 0,895), которая показывает, что в нашем случае, у респондентов - чем больше возраст, тем выше уровень образования.

Весьма важным является статистическая значимость полученного результата. Степень этой значимости рассчитана во второй строке, напротив sig. (значимость). В нашем примере она очень высока (0,000). Существует правило, согласно которому, если sig. меньше, чем 0,05, то связь статистически значима. Другая интерпретация этого значения – вероятность ошибки менее 5%. В нашем примере вероятность ошибки – менее 1% или на 99% эта связь не случайна и значима.

Знак ** дополнительно свидетельствует о наличии высокой статистической значимости вычисленного коэффициента.

1.10. Сравнение выборок и проверка гипотез о равенстве средних.

Еще одним довольно распространенным элементом социологического анализа данных является сравнение выборок. Довольно часто исследователь с целью проверки гипотезы относительно разницы между социальным поведением групп прибегает к анализу средних по выборкам с последующим сравнением. Например, нам нужно рассмотреть – существует ли различие между уровнем заработной платы у работающих в компании мужчин и женщин. Для практической реализации задач такого типа как раз и приходится прибегать к сравнениям выборок. Рассмотрим эту процедуру применительно к использованию программы SPSS.

С методологической точки зрения при сравнении выборок ставится исследовательский вопрос – существуют ли различия в рассматриваемых выборках и, самое главное, - является ли это различие случайным или же, напротив, - статистически достоверным. Иногда, к подробному анализу прибегать не стоит, когда данные весьма красноречиво свидетельствуют о существенном различии. Однако, в большинстве случаев, такое различие далеко не всегда является очевидным.

На практике чаще всего используются t-тест для сравнения средних выборок. В программе SPSS чаще всего t-статистики вычисляются для двух независимых выборок, для двух зависимых выборок и для одной выборки. Рассмотрим эти способы подробнее.

Сразу стоит оговориться относительно возможностей применения t-статистик. Существует ряд условий, при выполнении которых мы можем пользоваться данной процедурой оценки средних по выборкам. В противном же случае исследователю стоит обратиться к другим методам. Итак, t-статистика может использоваться, если:

Существует основание предполагать, что наши переменные подчиняются нормальному распределению. Или же существует точное доказательство того, что нормальное распределение присутствует.
Предполагается, что наших выборок две.

Относительно первого замечания можно сказать, что если объем выборки достаточно велик, то вступает в силу центральная предельная теорема, согласно которой можно сделать предположение относительно нормальности распределения выборки. Если же объем выборки не очень велик (например меньше 100) или есть сомнения, то тогда изначально нужно провести процедуру оценивания распределения на нормальность. Для проведения теста на нормальность распределения применяется вычисление коэффициента Колмогорова-Смирнова. Рассмотрим процедуру его вычисления в программе SPSS.

Тест Колмогорова-Смирнова относится к непараметрическим. В программе SPSS вызов процедуры теста осуществляется через меню Analyze, выбор Nonparametric test (непараметрические тесты) и 1-Sample K-S (тест Колмогорова-Смирнова для одной выборки).

Рис. 36. Диалоговое окно теста на нормальность распределения.

В диалоговом окне для запуска теста на нормальность распределения Колмогорова-Смирнова нужно перенести в правую часть тестируемую переменную, отметить галочкой тест на нормальность (Normal) и нажать ОК. Пусть нам нужно как раз оценить такой параметр как уровень заработной платы. В результате выполнения теста программа SPSS представляет нам следующие данные.

Рис.37. Результаты выполнения теста на нормальность.

Для того, чтобы не перегружать себя лишней информацией, достаточно сконцентрировать свое внимание на последней строке, которая показывает значимость теста (Asymp. Sig.).

Тут нужно сделать важное методологическое пояснение. Проверка любых тестов основывается на выдвижении нулевой и альтернативной гипотезы. В данном случае нулевая гипотеза ставится как «Тестируемое распределение отличается от нормального». В результате нашего примера значимость теста очень низка, другими словами – статистически не достоверна (0,195). Это значит, что вероятность того, что наша гипотеза верна, составляет 80,5%. Вместе с тем принятый приемлемый уровень статистической достоверности составляет 95%. Следовательно, основываясь на результатах теста Колмогорова-Смирнова, мы можем сделать предположение, что наше распределение не отличается от нормального. Соответственно, мы можем переходить ко второму этапу оценки средних – вычислению t-статистик.

В данном случае мы хотим узнать – есть ли статистически значимое отличие в уровне зарплат мужчин и женщин. Вызов процедуры на выполнение t-статистики осуществляется из главного меню Analyze далее – Compare Means (сравнение средних) – Independed-Samples T test (тест для независимых выборок).

В раскрывающемся диалоговом окне нужно выбрать в качестве тестируемой переменной (Test Variable(s)) переменную «зарплата», а в качестве группирующей переменной (Grouping Variable) – переменную «пол». Далее в группирующей переменной нужно определить группы (Define Groups…). В нашем примере – это 1 и 2 (мужчины и женщины соответственно). Затем нажать кнопку Continue и запустить тест кнопкой ОК.

Рис. 38. Процедура запуска t-теста для двух независимых выборок.

В качестве независимых выборок выступают группы «мужчины» и «женщины», так как их ответы не влияют друг на друга и могут рассматриваться в качестве независимых. Результаты проведения t-теста изображены на рисунке 35. мы видим две таблицы. В первой содержатся сведения относительно количества мужчин и женщин в выборке. Их средние заработные платы, стандартное отклонение и стандартная ошибка среднего по каждой выборке. Если бы мы смотрели изначально только на эти данные, то можно было бы сделать предположение, что в данной компании средняя зарплата мужчин отличается от средней зарплаты женщин в большую сторону. В данном случае средняя зарплата у мужчин составляет 340,29 условные единицы, а у женщин 259,93. внимательный исследователь, однако, может обратить внимание на слишком большой разброс зарплат у мужчин. Тем не менее – разница более, чем в 80 условных единиц может показаться значительной. Однако как раз для этого и проводится статистическое исследование достоверности, которое представлено во второй таблице.

Рис. 39. Результаты проведения t-теста на независимость.

В правой части таблицы приведены результаты выполнения теста Левена о гомогенности дисперсий (Levene`s Test for Equality of Variances). Нас, прежде всего, интересует его значимость (sig.). В данном примере тест на гомогенность дисперсий не значим (0,097 больше, чем 0,05). Следовательно, дисперсии равны. В таком случае значимость t-статистики нужно смотреть по верхней строке (Equal variances assumed), в которой предполагается равенство дисперсий. В нашем примере значимость теста 0,097, что также больше, чем критическое значение 0,05. следовательно мы можем сделать вывод, что несмотря на то, что средние зарплаты у мужчин и женщин отличаются, это отличие статистически не значимо. Другими словами значимых отличий в уровне зарплат не существует.

Итак, общий алгоритм интерпретирования полученных результатов:

Смотрим статистику Левеня. Если тест не значим (больше 0,05). То предполагается равенство дисперсий и t-статистика смотрится по верхней строке. Если тест значим 9меньше 0,05), то предполагается неравенство дисперсий и t-статистика смотрится по нижней строке.
Если t-статистика значима (меньше 0,05), то принимается нулевая гипотеза о статистически достоверном отличии в средних. Если t-статистика не значима (больше 0,05), то гипотеза о статистически достоверном отличии средних отвергается.

Другой пример использования t-статистики относится к сравнению среднего по выборке с заданным параметром. Допустим мы принимаем на работу нового продавца. У нас есть средний показатель продаж за месяц. Новичок проработал месяц и требуется оценить, на сколько его уровень продаж отличается от среднего. В данном случае t-статистика вызывается в программе SPSS аналогичным образом: Analyze-Compare means-One sample T test.

Рис. 40. Т-тест для одной выборки.

В открывающемся диалоговом окне нужно выбрать переменную «продажи». Пусть у нас норма продаж составляет 600 у.е. Тогда мы в окне Test Value (тестируемое значение) вводим 600 и запускаем тест на выполнение кнопкой ОК.

В приведенных на рисунке 37 таблицах видно, что средние продажи нашего нового сотрудника составили около 582 у.е. Если бы мы остановились только на этих данных, то можно было бы сделать вывод о его профессиональной непригодности для работы в нашей организации, так как он показал результат ниже среднего.

Рис. 41. Результаты выполнения t-теста для одной выборки.

Вместе с тем, вторая таблица дает нам совершенно однозначный результат, о том, что данное отличие статистически не достоверно, так как t-тест не значим (sig. 0,773). Следовательно, мы не можем утверждать, что результат, который показал новый сотрудник, значимо отличается от среднего уровня продаж по компании.

Еще одним типом задач, которые довольно часто встречаются в социологических исследованиях и основаны на сравнении средних, является случай сравнения двух зависимых выборок. Типичный пример такого варианта, когда мы сравниваем одну и ту же выборку до и после определенного воздействия.

Рассмотрим пример. Пусть для нашего нового сотрудник, о котором только что шла речь, провели тренинг для повышения уровня продаж. Через определенный промежуток времени решили проверить, на сколько произошло изменение относительно прежнего уровня.

Процедура исследования средних по t-статистике для двух зависимых выборок запускается аналогично предыдущим: Analyze-Compare means-Paried Samples T test (тест для двух зависимых выборок).

Рис.42. Диалоговое окно для t-теста для двух зависимых выборок.

В открывшемся диалоговом окне нужно выбрать две переменные, соответствующие зависимым выборкам и запустить тест командой ОК. обратите внимание, что в данном случае выборки именно зависимые, так как относятся к одному человеку (нашему новому продавцу).

Рис. 43. Результаты t-теста для двух зависимых выборок.

Как видно из результатов, после тренинга продажи увеличились с 582,47 до 632,57. во второй таблице видны результаты корреляции, которые, кроме того, что статистически значимы (sig. 0,000), дополнительно свидетельствуют о высокой зависимости этих выборок (0,872), подтверждая нашу правоту.

Наконец, в последней таблице содержатся результаты самого теста. К сожалению, тест оказался не значим (sig. 0,105), что не позволяет сделать нам вывод о статистически значимом отличии. Другими словами, мы не можем утверждать, что в результате тренинга уровень продаж поднялся.

Глава 2. Программа курса «Использование SPSS в социологии».

ТЕМАТИЧЕСКИЙ ПЛАН КУРСА

№ п\п	Разделы дисциплины	Всего часов	Количество часов, Лабораторные работы	Самостоятельная работа
1	Раздел 1. Организация работы с данными в SPSS.
	1.1. SPSS и его особенности.	2	2
	1.2. Подготовка рабочего поля для ввода данных.	6	6
	1.3. Ввод данных в SPSS.	2	2
2	Раздел 2. Обработка и анализ данных в SPSS.
	2.1. Работа с переменными и группировка данных.	2	2
	2.2. Частотные распределения и описательные статистики.	4	4
	2.3. Графическое представление частотного распределения в SPSS.	2	2
	2.4. Анализ связи между переменными.	4	4
	2.5. Сравнение выборок и проверка гипотез о равенстве средних.	6	6
3	Раздел 3. Составление аналитических отчетов.
	3.1. Формирование данных для отчета.	2	2
	3.2. Составление презентаций.	4	4
ИТОГО:	34	34

ПРОГРАММА КУРСА «АНАЛИЗ ДАННЫХ В SPSS»

Раздел 1. Организация работы с данными в SPSS.

Тема 1. SPSS и его особенности.

Основные цели и задачи курса “Анализ данных в SPSS”. Основные особенности пакета обработки данных SPSS. Интерфейс программы. Основные модули SPSS. Характеристики рабочих полей программы. Возможности программы в области статистического анализа. Основные отличия SPSS от Excel и других программ. Совместимость программ SPSS и MS Office.

Тема 2. Подготовка рабочего поля для ввода данных.

Рабочее поле программы SPSS. Ячейка и ее характеристики. Поле для формирования массива анкеты (Variable View) и рабочее поле (Data View). Основные параметры анкеты в SPSS. Переменная и ее основные характеристики. Способы ввода переменных в SPSS. Закладки поля Variable View. Метки переменной и способы ввода меток. Пропуски значений и особенности их учета в SPSS. Шкалы и их основная характеристика. Особенности учета типа шкал в SPSS.

Тема 3. Ввод данных в SPSS.

Рабочее поле (Data view) как основное рабочее пространство. Кодирование информации в SPSS. Зависимые и независимые переменные. Ввод данных исследования в программу SPSS. Учет кодирования анкет. Пропуски значений. Особенности ввода открытых вопросов. Просмотр меток значений переменных. Типовые ошибки вода данных. Особенности ввода переменных с множественными ответами. Категориальный и дихотомный методы.

Раздел 2. Обработка и анализ данных в SPSS.

Тема 4. Работа с переменными и группировка данных.

Общий алгоритм работы с данными. Определение переменных. Цели и задачи исследования и их роль в построении алгоритма анализа. Группировка данных. Введение в синтаксис SPSS. Переименование и перегруппировка переменных. Массив и его трансформация. Логические операции с переменными. Формирование подвыборки и установка фильтров для обработки данных.

Тема 5. Частотные распределения и описательные статистики.

Понятие распределения. Основные распределения частот. Проверка нормальности распределения. Процедуры и алгоритм проверки нормального распределения в SPSS. Тест Колмогорова-Смирнова. Модуль описательных статистик и его характеристики. Основные статистики: среднее, мода, медиана, ошибка среднего, стандартное отклонение. Модули частот и исследования переменных. Построение описательных частотных таблиц.

Тема 6. Графическое представление частотного распределения в SPSS.

Графические возможности SPSS. Базовый и специальный модули. Построение графиков распределения частот переменных в SPSS. Основные способы графического представления данных. Совместимость и конвертация графиков, построенных в SPSS в программы Microsoft Office.

Тема 7. Анализ связи между переменными.

Понятие статистической связи. Виды связей. Устойчивые и неустойчивые связи. Случайные и неслучайные связи. Статистическая значимость. Корреляция. Расчет корреляционной связи между переменными в SPSS. Зависимые и независимые переменные. Виды корреляций. Коэффиценты корреляции Пирсона, Спирмена, Кендела.

Тема 8. Сравнение выборок и проверка гипотез о равенстве средних.

Выборки и их характеристики. Зависимые и независимые выборки. Формулировка гипотезы о равенстве выборок. Статистические процедуры проверки равенства средних. Т-статистики и их расчет в пакете SPSS. Проверка гипотезы об отклонении среднего от заданного значения. Сравнение двух независимых выборок. Сравнение двух зависимых выборок. Статистическая значимость результатов.

Раздел 3. Составление аналитических отчетов.

Тема 9. Формирование данных для отчета.

Аналитический отчет по исследованию и его специфика. Цели и задачи исследования. Проверяемые гипотезы. Отбор переменных для формирования отчета. Конвертация данных из SPSS в Word, Excel, Power Point. Устранение избыточности информации. Определение оптимального количества параметров для предоставление в отчете.

Тема 10. Составление презентаций.

Отличительные особенности презентации по исследованию. Визуальное оформление презентаций. Работа в Power Point. Выбор данных и их фильтрация для формирования презентации. Составление слайдов: основные принципы и правила оформления. Учет целей и задач исследования при оформлении презентаций. Графики, гистограммы и прочие способы графического представления статистических данных в презентации.

Вопросы к зачету:

SPSS и его краткая характеристика.
Рабочее поле программы и его особенности.
Алгоритм формирования основы анкеты в SPSS.
Виды шкал в SPSS и способы их учета в программе.
Ввод данных в SPSS.
Частотные распределения и их характеристика.
Проверка нормального распределения переменной в SPSS.
Описательные статистики. Вывод описательных статистик в SPSS.
Исследование данных в SPSS.
Расчет основных показателей статистики в SPSS.
Меры центральной тенденции и их характеристика.
Графические возможности SPSS. Способы графического представления данных в SPSS.
Гистограмма и ее характеристика. Графический вид нормального распределения.
Статистическая значимость.
Связь между переменными. Виды связи.
Зависимые и независимые переменные.
Корреляция, основные коэффиценты корреляции и их характеристика.
Расчет корреляций в SPSS.
Выборка. Зависимые и независимые выборки.
Формулирование и проверка гипотез о равенстве средних.
Параметрические тесты. Т-критерий.
Проверка гипотезы о средних в SPSS.
Алгоритм составления аналитического отчета по исследованию.
Презентации и особенности предоставления отчета по исследованию заказчику.

Литература.

Основная:

Бююль А., Цефель П. SPSS. Искусство обработки информации. ДиаСофтЮП, 2005

Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS. М.: ГУ ВШЭ., 2006

Наследов А. SPSS 15. Профессиональный статистический анализ данных.СПб: Питер, 2008

Пациорковский В.В. SPSS для социологов. М.: ИСЭПН РАН, 2005

Рождественский А.Н. Анализ данных в социологических и маркетинговых исследованиях с по-мощью статист. Пакета SPSS 14.0. СПб., Интерсоцис, 2008

Дополнительная:

Аверьянов Л.Я. Искусство задавать вопросы. М., 1998

Малхотра Н. Маркетинговые исследования. Практическое руководство. Вильямс, 2007

Моосмюллер Г. Маркетинговые исследования с SPSS. М.: Инфра-М, 2008

Толстова Ю.Н. Измерения в социологии. М.:КДУ, 2007

Хили Дж. Статистика. Социологические и маркетинговые исследования. СПб: Питер, 2005

Черчилль Г. Маркетинговые исследования. СПб: Нева, 2004

1 В принципе, можно даже говорить не о социологии, как таковой, а о любой другой научной дисциплине, в рамках которой работает исследователь, т.к., как уже было отмечено выше, программа позволяет решать задачи не только в области социологии, но и в психологии, истории, философии, биологии и др.

Более подробно вопросы составления анкеты, особенности мотивации респондентов и пр. можно посмотреть в специальной литературе по социологическим исследованиям. Например, Аверьянов Л.Я. Искусство задавать вопросы. М., 1998; Ядов В.А. Стратегия социологического исследования. М, 1998; Ноэль-Нойман Э. Массовые опросы: введение в методику демоскопии. М., 1993. В рамках же данной работы мы намеренно не останавливаемся более подробно на вопросах составления анкетного опросного листа и методологии проведения исследования, так как это не соответствует целям представленной работы.

3 Подобная мысль довольно четко звучит у З. Баумана. См. Бауман З. Социологическое воображение. М., 1995.

4 В данном пособии рассматривается англоязычная версия программы SPSS. В принципе, в настоящее время доступна и русскоязычная версия программы. Однако, в некоторых случаях, пользователи продолжают пользоваться англоязычной версией. В данной работе сознательно рассматривается именно англоязычная версия программы, т.к. пользователь, освоивший ее гораздо проще (практически без дополнительных усилий) способен перейти на русскоязычную версию. Обратный переход (с русскоязычной на англоязычную) более сложен.

5 В принципе, если сразу осуществлять ввод данных – переменная автоматически идентифицируется и в поле Variable View проставятся автоматически параметры. Но по умолчанию это будет переменная с числовой параметрической шкалой. Именно по этой причине лучше начинать процедуру именно с определения структуры анкеты и подготовки самой формы.

6 Более подробно можно посмотреть Бюлль А., Цефель П. SPSS: искусство обработки информации. ДиаСофтЮП, 2005

7 См. Аверьянов Л.Я. Искусство задавать вопросы. М., 1998

8 Подробнее – см. например Аверьянов Л.Я. Искусство задавать вопросы. М., 1998

9 Чуть ниже мы рассмотрим к чему может приводить пренебрежение подобным правилом.

10 В данном случае мы предполагаем именно изменение величины от отрицательного значения к положительному. Исследователь вправе отсчет вести наоборот – измеряя именно силу отрицательного отношения. В таком случае нумерацию можно оставить прямой, но главное – помнить об этом на этапе интерпретирования результатов.

11 В данном случае мы ориентируемся на более ранние версии программы, в которых нельзя имя задавать русскими буквами. Кроме того, исследователь вправе проигнорировать это поле. В таком случае, оно будет заполнено автоматически в виде номера. Однако, для облегчения дальнейшей работы с массивом данных все же рекомендуется не пренебрегать данной процедурой.

12 В дальнейшем исследователь сам вправе определить степень подробности определения переменных.

13 Здесь и далее результаты выполнены на основе вымышленных данных и служат исключительно примерами.

14 Значение взято мо модулю, т.е. как 0,5, так и -0,5. остальные коэффициенты – аналогично.

1. .11 кардіологія А в т о р е ф е р а т дисертації на здобуття наукового ступеня кандидата медичних наук
2. Тема Идейнохудожественное своеобразие поэмы М
3. Вариант 3. 1. Покажите административнотерриториальное деление Японии и США.
4. псих процесс отражения предметов и явлений действительности в целом при непосредственном их воздействии на
5. Игра как средство коррекции гиперактивного поведения ребенка Составила- Зеленов
6. Прикладные вопросы экологической генетики
7. Понятие и сущность права.html
8. Сучасні зовнішньополітичні ресурси Китаю
9. Аппаратная платформа Макинтош
10. аспирино вая астма.html

Материалы собраны группой SamZan и находятся в свободном доступе