Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

Исследование структуры данных Собирая данные исследователь руководствуется определенными гипотезами

Работа добавлена на сайт samzan.net:

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 2.6.2024

Лабораторная 6. Исследование структуры данных

Собирая данные, исследователь руководствуется определенными гипотезами. Полученная в ходе исследования информация относятся к избранным предмету и теме исследования, но нередко она представляет собой сырой материал, в котором нужно изучить структуру показателей, характеризующих объекты, а также выявить однородные группы объектов. Полезно представить эту информацию в геометрическом пространстве, лаконично отразить ее особенности в классификации объектов и переменных. Такая работа создает предпосылки к созданию типологий объектов и формулированию "социального пространства", в котором обозначены расстояния между объектами наблюдения, позволяет наглядно представить свойства объектов.

5.1. Факторный анализ

Социологический смысл модели факторного анализа состоит в том, что измеряемые нами эмпирические показатели, переменные являются следствием некоторых других, глубинных, скрытых от непосредственного измерения характеристик – латентных переменных. Действительно, если мы фиксируем, степень доверия респондента к различным государственным институтам, то вполне логично предположить, что нет каких отдельных «доверий» к Государственной Думе, Совету Федерации, Счетной Палате и т.п. Скорее у респондента есть некоторое общее отношение к институтам центральной власти, которое и определяет то, как респондент отвечает на отдельные вопросы по доверию к каждому отдельному институту.

Существенно при этом, что это общее, единое отношение к государственным институтам, формируя отношение к каждому из них, не определяет отношения к отдельному институту на 100%. Таким образом, ответ респондента на вопрос о том, насколько он доверяет какому-то конкретному государственному институту, находится под влиянием двух составляющих: общего фактора отношения к государственным институтам и отдельного отношения именно к данному конкретному институту.

Идея метода состоит в сжатии матрицы признаков в матрицу с меньшим числом переменных, сохраняющую почти ту же самую информацию, что и исходная матрица. В основе моделей факторного анализа лежит гипотеза, что наблюдаемые переменные являются косвенными проявлениями небольшого числа скрытых (латентных) факторов. Хотя такую идею можно приписать многим методам анализа данных, обычно под моделью факторного анализа понимают представление исходных переменных в виде линейной комбинации факторов. Схематично такой взгляд на формирование ответов респондентов на вопросы анкеты показан на рисунке 5.1.

Рисунок 5.1

Условное представление модели факторного анализа

На рисунке 5.1 F1, F2, F3 – факторы, каждый из которых влияет на определенную совокупность переменных; x1, x2,.. ,x7 – переменные, формируемые на основании ответов опрашиваемых; U1, U2,...,U7 – уникальные факторы, влияющие на соответствующие переменные.

Факторы F построены так, чтобы наилучшим способом (с минимальной погрешностью) представить Х. В этой модели "скрытые" переменные Fk называются общими факторами, а переменные Ui специфическими факторами ("специфический" -это лишь один из переводов применяемого в англоязычной литературе слова Unique, в отечественной литературе в качестве определения Ui встречаются также слова "характерный", "уникальный"). Значения aik называются факторными нагрузками.

Обычно (хотя и не всегда) предполагается, что Xi стандартизованы (=1, Xi=0), а факторы F1,F2,…,Fm независимы и не связаны со специфическими факторами Ui (хотя существуют модели, выполненные в других предположениях). Предполагается также, что факторы Fi стандартизованы.

В этих условиях факторные нагрузки aik совпадают с коэффициентами корреляции между общими факторами и переменными Xi. Дисперсия Xi раскладывается на сумму квадратов факторных нагрузок и дисперсию специфического фактора:

, где

Величина  называется общностью,  - специфичностью. Другими словами, общность представляет собой часть дисперсии переменных, объясненную факторами, специфичность - часть не объясненной факторами дисперсии.

В соответствии с постановкой задачи, необходимо искать такие факторы, при которых суммарная общность максимальна, а специфичность - минимальна.

Метод главных компонент

Один из наиболее распространенных методов поиска факторов, метод главных компонент, состоит в последовательном поиске факторов. Вначале ищется первый фактор, который объясняет наибольшую часть дисперсии, затем независимый от него второй фактор, объясняющий наибольшую часть оставшейся дисперсии, и т.д. Математическая реализация метода главных компонент достаточно сложна, поэтому для пояснения идеи метода мы прибегнем к ее условному изображению (рисунок 5.2).

Смысл рисунка 5.2 в следующем. Для построения первого фактора берется прямая, проходящая через начало координат и облако рассеяния данных. Объектам можно сопоставить расстояния их проекций на эту прямую до центра координат, причем для одной из половин прямой (по отношению к нулевой точке) можно взять эти расстояния с отрицательным знаком. Такое построение представляют собой новую переменную, которую мы назовем осью. При построении фактора отыскивается такая ось, чтобы дисперсия переменных вокруг оси была минимальна. (Заметим, что в определенном смысле эта первая ось строится по той же модели, что регрессионная прямая в регрессионном анализе). Это означает, что этой осью объясняется максимум дисперсии переменных. Найденная ось после нормировки используется в качестве первого фактора. Если облако данных вытянуто в виде эллипсоида (имеет форму "огурца"), фактор совпадет с направлением, в котором вытянуты объекты, и по нему (по проекциям) с наибольшей точностью можно предсказать значения исходных переменных.

Рисунок 5.2

Условное представление модели главных компонент.

Для поиска второго фактора ищется ось, перпендикулярная первому фактору, также объясняющая наибольшую часть дисперсии, не объясненной первой осью.  После нормировки эта ось становится вторым фактором. Если данные представляют собой плоский элипсоид ("блин") в трехмерном пространстве, два первых фактора позволяют в точности описать эти данные.

Максимально возможное число главных компонент равно количеству переменных. Иными словами, если мы хотим на 100% описать значения n переменных, то для этого потребуется столько же, то есть n главных компонент. Сколько главных компонент необходимо построить для оптимального представления рассматриваемых исходных переменных?

Обозначим k объясненную главной компонентой Fk часть суммарной дисперсии совокупности исходных факторов. По умолчанию, в пакете предусмотрено продолжать строить факторы, пока к>1. Напомним, что переменные стандартизованы, и поэтому нет смысла строить очередной фактор, если он объясняет часть дисперсии, меньшую, чем приходящуюся непосредственно на одну переменную. При этом следует учесть, что 1>2>3,.

К сведению читателя заметим, что значения k являются собственными значениями корреляционной матрицы Xi, поэтому в выдаче они будут помечены текстом "EIGEN VALUE" (собственные значения).

Техника построения главных компонент расходится с теоретическими предположениями о факторах: имеется m+n независимых факторов, полученных методом главных компонент в n-мерном пространстве, что невозможно.

Интерпретация факторов.

Как же можно понять смысл того, что скрыто в найденных факторах? Основной информацией, которую использует исследователь, являются факторные нагрузки. Для интерпретации необходимо приписать каждому фактору какой-то термин, понятие. Этот термин появляется на основе анализа корреляций фактора с исходными переменными. Например, при анализе успеваемости школьников фактор имеет высокую положительную корреляцию с оценкой по алгебре, геометрии и большую отрицательную корреляцию с оценками по рисованию, то можно предположить, что этот фактор характеризует точное мышление.

Не всегда такая интерпретация возможна. Для повышения интерпретируемости факторов добиваются большей контрастности матрицы факторных нагрузок. Метод такого улучшения результата называется методом вращения факторов. Его суть состоит в следующем. Если мы будем вращать координатные оси, образуемые факторами, мы не потеряем в точности представления данных через новые оси, и не беда, что при этом факторы не будут упорядочены по величине объясненной ими дисперсии, зато у нас появляется возможность получить более контрастные факторные нагрузки. Вращение состоит в получении новых факторов - в виде специального вида линейной комбинации имеющихся факторов:

Чтобы не вводить новые обозначения, факторы и факторные нагрузки, полученные вращением, будем обозначать теми же символами, что и до вращения. Для достижения цели интерпретируемости существует достаточно много методов, которые состоят в оптимизации подходящей функции от факторных нагрузок. Мы рассмотрим реализуемый пакетом метод VARIMAX. Этот метод состоит в максимизации "дисперсии" квадратов факторных нагрузок для переменных:

Чем сильнее разойдутся квадраты факторных нагрузок к концам отрезка [0,1], тем больше будет значение целевой функции вращения, тем четче интерпретация факторов.

В любом случае, следует иметь ввиду, что интерпретация полученных факторов в значительной степени связана с представлениями исследователя о характере изучаемого явления. По сути дела в процесс интерпретации включается большой объем информации, которая не связана с анализом собранных данных. В результате глубинное понимание смысла получаемых факторов может быть отнесено, скорее к методам качественного, а не количественного исследования.

Индивидуальные значения факторов.

Математический аппарат, используемый в факторном анализе, в действительности позволяет не вычислять непосредственно главные оси. И факторные нагрузки до и после вращения факторов и общности вычисляются за счет операций с корреляционной матрицей. Поэтому оценка значений факторов для объектов является одной из проблем факторного анализа.

Факторы, имеющие свойства полученных с помощью метода главных компонент, определяются на основе регрессионного уравнения. Известно, что для оценки регрессионных коэффициентов для стандартизованных переменных достаточно знать корреляционную матрицу переменных. Корреляционная матрица по переменным Xi и Fk определяется, исходя из модели и имеющейся матрицы корреляций Xi. Исходя из нее, регрессионным методом находятся факторы в виде линейных комбинаций исходных переменных: .

Статистические гипотезы в факторном анализе

В SPSS предусмотрена проверка теста Барлетта о сферичности распределения данных. В предположении многомерной нормальности распределения здесь проверяется, не диагональна ли матрица корреляций. Если гипотеза не отвергается (наблюдаемый уровень значимости велик, скажем больше 5%) - нет смысла в факторном анализе, поскольку направления главных осей случайны. Этот тест предусмотрен в диалоговом окне факторного анализа, вместе с возможностью получения описательных статистик переменных и матрицы корреляций. На практике предположение о многомерной нормальности проверить весьма трудно, поэтому факторный анализ чаще применяется без такого анализа.

Выполнение факторного анализа

Метод факторного анализа находится в разделе Data Reduction (рисунок 5.3). Главное меню команды факторного анализа показано на рисунке 5.4.

Рисунок 5.3

Вызов команды факторного анализа

Рисунок 5.4

Главное меню команды факторного анализа

В представленном на рисунке 5.4 меню с помощью факторного анализа решается задача построения некоторой типологии условий жизни респондентов. Включенные в анализ переменные фиксируют наличие или отсутствие у респондентов предпочтений  личностных качеств депутатов, уровень активности в изучении предвыборной информации и причины поддержки кандидата в депутаты. Представленная модель предполагает, что существуют некоторые глубинные факторы, характеризующее политические предпочтения в целом, которые проявляются именно в указанных переменных.

Результаты анализа предложенной модели приводятся в таблице 5.1.

Таблица 5.1

Результаты выполнения метода факторного анализа (рисунок 5.4).


Как показывает таблица 5.1, результаты факторного анализа выводятся в виде 3-х таблиц. Первая из них – таблица общностей (communalities) демонстрирует, какую часть дисперсии каждой из включенных в анализ переменных объясняет предлагаемая факторная модель. Таблица показывает, что, скажем, переменная, фиксирующая наличие у респондента активности изучения предвыборной информации объясняется моделью приблизительно на 52%. В то же время переменная, фиксирующая наличие предпочтений личных качеств лишь на 49%. По всей видимости, наименьшую переменную следовало бы исключить из анализа, поскольку она плохо объясняется построенной моделью.

Следующая таблица содержит информацию о дисперсии, объясненной моделью. Из таблицы видно, что первая главная компонента объясняет 29,3% общей дисперсии, вторая – 25,3% и т.д

Последняя из таблиц – component matrix – называется матрицей факторных нагрузок и служит для интерпретации полученных факторов. В рассматриваемом примере 1-й фактор имеет более высокие корреляции. То есть, можно сказать, что это фактор – характеристика современной молодежной среды в политических ожиданиях. А вот второй фактор будет в меньшей степени  характеризовать политические ожидания  данной категории населения

Поскольку более удобную матрицу факторных нагрузок дают методы вращения  факторов, рассмотрим ту же факторную матрицу, но уже после вращения (таблица 5.2). Само вращение факторной матрицы можно выполнить используя клавишу Rotation.., расположенную в главном меню команды факторного анализа (рисунок 5.4).

Таблица 5.2

Матрица факторных нагрузок после вращения

 В отличие от матрицы факторных нагрузок до вращения, матрица после вращения заметно удобнее – в ней почти все факторные нагрузки либо большие, либо маленькие, и, следовательно, такая матрица гораздо удобнее для интерпретации.

Проблема определения числа факторов.

Как уже говорилось полное описание дисперсии исходных признаков возможно только в ситуации, когда число факторов равно числу исходных признаков. Основная направленность факторного анализа – это именно сокращение числа показателей, и, следовательно, мы идем на то, что полученные факторы не будут на 100% объяснять исходную информацию и то, сколько же именно процентов будет объяснено, зависит от  того, какое число факторов будет получено. Матрица объясненной дисперсии в таблице 5.1 показывает, что если будет взято 3 фактора, то они объяснят около35% исходной информации, а если возьмем 8 факторов, то такая модель объяснит уже около 68% информации. Какой процент является приемлемым, на каком числе факторов остановиться? Точного ответа на этот вопрос нет, однако есть несколько подходов, дающих определенные основания для его решения.

Первым подходом является формально-статистическим. Есть определенные математические основания говорящие, что целесообразно отбирать столько факторов, сколько существует собственных чисел корреляционной матрицы, больших единицы. Данный критерий называется критерием Кайзера. Таблица объясненной дисперсии в таблице 5.1 показывает, что для нашего примера таких чисел 5 и потому в данной модели было отобрано именно 5 факторов. Отметим, что критерий Кайзера по отбору числа факторов в команде факторного анализа SPSS используется по умолчанию.

Второй подход базируется на том, что мы сами будем отбирать число факторов, ориентируясь на то, что бы это число факторов объясняло требуемый процент общей исходной дисперсии. Например, если исследователь решает, что факторная модель должна объяснять не менее 75% общей дисперсии исходных переменных, то таблица общей дисперсии в таблице 5.1 показывает, что необходимо взять 10 факторов.

На какой процент объясненной дисперсии необходимо ориентироваться? Не существует каких-то убедительных рекомендаций по определению этого процента, кроме одной, вполне очевидной: «Чем больше, тем лучше». В этой ситуации следует, видимо, ориентироваться на примеры предыдущих исследователей. В социологии, как правило, встречаются факторные модели, в которых объясняется 60-75% дисперсии, хотя можно примеры и с большими, и с меньшими процентами.

Существует еще один подход, который базируется на методе, так называемой, «каменной осыпи». Суть метода в следующем. Строится график, в котором по оси абсцисс откладываются номера факторов, а по оси ординат – значения собственных чисел, для каждого из факторов. Пример такого рода графика для модели таблицы 5.1 показан на рисунке 5.5. Как говорилось в начале, все собственные числа в методе главных компонент вычисляются в порядке убывания, поэтому график будет представлять собой понижающуюся кривую.

Далее на этом графике ищутся точки, в которых происходит более, или менее резкое понижение. В приведенном примере рисунка 5.5 можно сказать, что действительно резких понижений у нас нет. Хоть сколь-нибудь резкое понижение происходит от 9-го к 10-му фактору. Рекомендация метода «каменной осыпи» состоит в том, что надо отобрать число факторов, до момента такого рода резкого понижения. То есть в нашем примере лучше брать 9 факторов, а не 10.

Рисунок 5.5

График «каменной осыпи» для модели таблицы 5.1

Важно понимать, что ни один из изложенных подходов к определению числа факторов не дает нам доказательных оснований по отбору числа факторов. У исследователя остается большой произвол в решении этого вопроса. Основным критерием остается максимальное удобство для исследователя в построении наиболее правдоподобной модели, что, естественно, ни в каком смысле не может считаться строгим основанием.

Определение числа факторов осуществляется в меню Extraction.., вызов которого осуществляется нажатием соответствующей клавиши в главном меню команды факторного анализа (рисунок 5.1). На рисунке 5.6 показано меню Extraction. В меню Extraction так же находится окно, выбрав которое можно получить график «каменной осыпи» (окно Scree plot).

 В той части меню, которая названа Extrаct, мы определяем что выбор числа факторов будет осуществляться через значения собственных числе («Eigenvalues over» - собственные числа больше чем…), либо через непосредственное указание требуемого числа факторов («Number of factors»). В любом случае мы должны указать точное значение (либо собственных чисел, либо числа факторов), которые будут основанием для отбора числа факторов в модели.

Рисунок 5.6

Меню Extraction команды факторного анализа

Уровень измерения переменных, используемых в факторном анализе.

Поскольку исходной информацией для метода факторного анализа является матрица коэффициентов корреляции Пирсона, то это, автоматически, диктует нам возможность использования в данном методе переменных, измеренных только по количественным (интервальным, либо абсолютным) шкалам, либо дихотомических переменных.

5.2. Кластерный анализ

Если процедура факторного анализа сжимает в малое число количественных переменных данные, описанные количественными переменными, то кластерный анализ дает нам группы единиц анализа, то есть выполняет классификацию объектов. Иными словами, если в факторном анализе мы группируем столбцы матрицы данных, то в кластерном анализе группируются строки. Синонимами термина "кластерный анализ" являются "автоматическая классификация объектов без учителя" и "таксономия".

Если данные понимать как точки в признаковом пространстве, то задача кластерного анализа формулируется как выделение "сгущений точек", разбиение совокупности на однородные подмножества объектов.

При проведении кластерного анализа обычно определяют расстояние на множестве объектов; алгоритмы кластерного анализа формулируют в терминах этих расстояний. Мер близости и расстояний между объектами существует великое множество. Их выбирают в зависимости от цели исследования. В частности, евклидово расстояние лучше использовать для количественных переменных, расстояние хи-квадрат - для исследования частотных таблиц, имеется множество мер для бинарных переменных.

Кластерный анализ, равно как и факторный, является описательной процедурой, он не позволяет сделать никаких статистических выводов, но дает возможность провести своеобразную разведку - изучить "структуру совокупности".

5.2.1. Иерархический кластерный анализ

Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), так и переменных (столбцов). Можно считать, что в последнем случае роль объектов играют переменные, а роль переменных столбцы.

Этот метод реализует иерархический агломеративный алгоритм. Его смысл заключается в следующем. Перед началом кластеризации все объекты считаются отдельными кластерами, которые в ходе алгоритма объединяются. Вначале берется N объектов и между всеми ними попарно вычисляются расстояния. Далее выбирается пара объектов, которые расположены наиболее близко друг от друга и которые объединяются в один кластер. В результате количество кластеров становится равным N-1. Процедура повторяется, пока все классы не объединятся. На любом этапе объединение можно прервать, получив нужное число кластеров. Таким образом, результат работы алгоритма агрегирования определяют способы вычисления расстояния между объектами и определения близости между кластерами.

Для определения расстояния между парой кластеров могут быть сформулированы различные разумные подходы. С учетом этого в SPSS предусмотрены следующие методы, определяемые на основе расстояний между объектами:

  •  Среднее расстояние между кластерами (Between-groups linkage).
  •  Среднее расстояние между всеми объектами пары кластеров с учетом расстояний внутри кластеров(Within-groups linkage).
  •  Расстояние между ближайшими соседями - ближайшими объектами кластеров (Nearest neighbor).
  •  Расстояние между самыми далекими соседями (Furthest neighbor).
  •  Расстояние между центрами кластеров (Centroid clustering).
  •  Расстояние между центрами кластеров (Centroid clustering), или центроидный метод. Недостатком этого метода является то, что центр объединенного кластера вычисляется как среднее центров объединяемых кластеров, без учета их объема.
  •  Метод медиан - тот же центроидный метод, но центр объединенного кластера вычисляется как среднее всех объектов (Median clustering).
  •  Метод Варда (Ward's method). В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения.

Расстояния и меры близости между объектами.

У нас нет возможности сделать полный обзор всех коэффициентов, поэтому остановимся лишь на характерных расстояниях и мерах близости для определенных видов данных.

Меры близости отличаются от расстояний тем, что они тем больше, чем более похожи объекты.

Пусть имеются два объекта X=(X1,…,Xm) и Y=(Y1,…,Ym). Используя эту запись для объектов, определить основные виды расстояний, используемых процедуре кластерного анализа.

  •  Евклидово расстояние  (Euclidian distance).
  •  Квадрат евклидова расстояния (Squared Euclidian distance)

Эвклидово расстояние и его квадрат целесообразно использовать для анализа количественных данных.

  •  Мера близости - коэффициент корреляции , где  и  компоненты стандартизованных векторов X и Y. Эту меру целесообразно использовать для выявления кластеров переменных, а не объектов.
  •  Расстояние хи-квадрат получается на основе таблицы сопряженности, составленной из объектов X и Y (рисунок 7.3.), которые, предположительно, являются векторами частот. Здесь рассматриваются ожидаемые значения элементов, равные E(Xi)=X.*(Xi+Yi)/(X.+Y.) и E(Yi)=Y.*(Xi+Yi)/(X.+Y.), а расстояние хи-квадрят имеет вид корня из соответствующего показателя .
  •  Расстояние Фи-квадрат является расстоянием хи-квадрат, нормированным "число объектов" в таблице сопряженности, представляемой строками X и Y, т.е. на корень квадратный из N=X.+Y. .
  •  В иерархическом кластерном анализе в SPSS также имеется несколько видов расстояний для бинарных данных (векторы X и Y состоят из нулей и единиц, обозначающих наличие или отсутствие определенных свойств объектов). Наиболее естественными из них, по видимому, являются евклидово расстояние и его квадрат.

Стандартизация. Непосредственное использование переменных в анализе может привести к тому, что классификацию будут определять переменные, имеющие наибольший разброс значений. Поэтому применяются следующие виды стандартизации:

  •  Z-стандартизация (Z-Scores). Из значений переменных вычитается их среднее и эти значения делятся на стандартное отклонение.
  •  Разброс от -1 до 1. Линейным преобразованием переменных добиваются разброса значений от -1 до 1.
  •  Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.
  •  Максимум 1. Значения переменных делятся на их максимум.
  •  Среднее 1. Значения переменных делятся на их среднее.
  •  Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.
  •  Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно, также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.

Таким образом, работа с кластерным анализом может превратиться в увлекательную игру, связанную с подбором метода агрегирования, расстояния и стандартизации переменных с целью получения наиболее интерпретируемого результата. Желательно только, чтобы это не стало самоцелью и исследователь получил действительно необходимые содержательные сведения о структуре данных.

Выполнение иерархического кластерного анализа

На рисунке 5.7 показано меню вызова команды иерархического кластерного анализа. Рисунок 5.8 демонстрирует главное меню команды иерархического кластерного анализа.

Рисунок 5.7

Вызов команды иерархического кластерного анализа

Рисунок 5.8

Главное меню команды иерархического кластерного анализа.

Представленный на рисунке 5.8 пример решает задачу классификации единиц анализа, в качестве которых выступают несколько городов России. В каждом из этих городов респондентам задавались вопросы о размерах доходов их семей из различных источников: пенсий, стипендий, алиментов, получение ранее одолженных денег, продажи имущества1. Далее были рассчитаны средние значения этих доходов среди респондентов, проживающих в городах опроса. Цель кластерного анализа в данном случае является получение нескольких групп городов, население которых достаточно схоже по размеру доходов из перечисленных источников.

Результаты работы иерархического кластерного анализа включают в себя протокол объединения объектов (таблица 5.3) и дендрограмму, демонстрирующую ход этого объединения (рисунок 5.9).

Таблица 5.3

Протокол объединения объектов в иерархическом кластерном анализе

Agglomeration Schedule

Stage

Cluster Combined

Coefficients

Stage Cluster First Appears

Next Stage

Cluster 1

Cluster 2

Cluster 1

Cluster 2

1

3

4

29974,948

0

0

4

2

1

14

58278,238

0

0

3

3

1

7

94158,037

2

0

5

4

3

11

172229,687

1

0

5

5

1

3

263034,790

3

4

8

6

5

12

302187,863

0

0

8

7

6

10

498182,113

0

0

10

8

1

5

896117,681

5

6

10

9

9

15

915664,247

0

0

13

10

1

6

1204070,792

8

7

12

11

2

13

1792091,613

0

0

12

12

1

2

3643327,865

10

11

14

13

8

9

9363162,158

0

9

14

14

1

8

29635213,961

12

13

0

В таблице 5.3 показано, что, например, на 1-ом шаге произошло объединение 3-го и 4-го объектов, поскольку между этими объектами было наименьшее расстояние (Coefficients). В колонке Next Stage (следующий этап) указывается, что в следующий раз тот кластер, который получен на 1-м шаге будет задействован в объединении на 4-м шаге. Таким образом, когда на 4-м шаге указано, что одним из объединяемых объектов является объект номер 3, то надо иметь ввиду, что это не сам 3-й объект, а уже то, что получилось в результате объединения 3-го и 4-го объектов на 1-м шаге.

Рисунок 5.9

Дендрограмма, демонстрирующая объединение объектов в иерархическом кластерном анализе

 * * * H I E R A R C H I C A L  C L U S T E R   A N A L Y S I S * * * * *

Dendrogram using Average Linkage (Between Groups)

                           Rescaled Distance Cluster Combine

   C A S E            0         5        10        15        20        25

 Label           Num  +---------+---------+---------+---------+---------+

 Сыктывкар         3   òø

 Смоленск          4   òú

 Челябинск        11   òú

 Санкт Петербург   1   òú

 Красноярск       14   òú

 Липецк            7   òú

 Тула              5   òôòòòòòø

 Курган           12   òú     ó

 Нижний Новгород   6   òú     ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø

 Краснодар        10   ò÷     ó                                         ó

 Москва            2   òòòûòòò÷                                         ó

 Томск            13   òòò÷                                             ó

 Саратов           9   òûòòòòòòòòòòòòòø                                 ó

 Владивосток      15   ò÷             ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

 Казань            8   òòòòòòòòòòòòòòò÷

Процесс агрегирования данных может быть представлен графически деревом объединения кластеров (Dendrogramm). Дендрограмма наглядно демонстрирует, что, например, объект «Казань» располагается достаточно далеко от других объектов и был объединен с парой объектов «Саратов-Владивосток» только на предпоследнем шаге.

На практике интерпретация кластеров требует достаточно серьезной работы, изучения разнообразных характеристик объектов для точного описания типов объектов, которые составляют тот или иной класс.

Крайне важной составляющей процедуры кластерного анализа является то, что у нас есть возможность остановить процесс объединения объектов за сколько-то шагов до конца, поскольку конечный результат объединения всех объектов в один кластер не представляет практического интереса. И если мы укажем, что хотим поучить, скажем, четыре кластера, то это можно указать вызвав меню SAVE, нажатием соответствующей клавиши, показанной в главном меню иерархического кластерного анализа (рисунок 5.8).

После указания требуемого числа кластеров в матрице данных автоматически будет создана новая переменная, в которой для каждого объекта будет указан номер кластера, в который этот объект попал.

5.2.2. Кластерный анализ методом К - средних.

Процедура иерархического кластерного анализа хороша для малого числа объектов. Ее преимущество в том, что каждый объект можно, образно говоря, пощупать руками. Но эта процедура не годится для огромных социологических данных из-за трудоемкости агломеративного алгоритма и слишком большого размера и практической бессмысленности дендрограмм.

В такой ситуации наиболее приемлем алгоритм, носящий название метода "k-средних". Он реализуется в пакете командой меню k-means.

Алгоритм заключается в следующем: выбирается заданное число k- точек и на первом шаге эти точки рассматриваются как "центры" кластеров. Каждому кластеру соответствует один центр. Объекты распределяются по кластерам по такому принципу: каждый объект относится к кластеру с ближайшим к этому объекту центром. Таким образом, все объекты распределились по k кластерам.

Затем заново вычисляются центры этих кластеров, которыми после этого момента считаются покоординатные средние кластеров. После этого опять перераспределяются объекты. Вычисление центров и перераспределение объектов происходит до тех пор, пока центры не стабилизируются.

Рисунок 5.10 демонстрирует главное меню команды k-means.

Часто переменные, используемые в кластеризации, имеют разный диапазон изменений, так как измерены они в различных шкалах или просто из-за того, что характеризуют разные свойства объектов (например, рост и вес, килограммы и граммы). В этих условиях основное влияние на кластеризацию окажут переменные, имеющие большую дисперсию. Поэтому перед кластеризацией полезно стандартизовать переменные. К сожалению, в данной команде кластерного анализа средства стандартизации не предусмотрены непосредственно, как в процедуре иерархического кластерного анализа.

Команда использует только евклидово расстояние. При этом, часть переменных может иметь неопределенные значения, расстояния до центров определяются по определенным значениям. Для использования такой возможности в меню Options следует выбрать параметр обработки пропущенных данных PAIRWISE.

Рисунок 5.10

Главное меню команды k-means

Говоря о допустимом уровне измерения для переменных, используемых при кластеризации необходимо помнить, команда использует только евклидово расстояние. Следовательно, корректные результаты при применении данного метода можно ожидать только при применении метрических переменных.

Ключевым вопросом, который необходимо решить при подготовке к выполнению кластерного анализа, является вопрос о количестве получаемых кластеров. В силу специфики алгоритма, в отличии от иерархического кластерного анализа, в данном случае в обязательном порядке требуется задать количество получаемых кластеров. (По умолчанию алгоритм предлагает делить на 2 кластера – см. рисунок 5.10)

В выдаче распечатываются центры кластеров (средние значения переменных кластеризации для каждого кластера), получаемые на каждой итерации алгоритма. Однако для нас полезна лишь часть выдачи, помеченная текстом "Final centres".

Интерпретация кластеров осуществляется на основе сравнения средних значений, выдаваемых процедурой, а также исследования сохраненной переменной средствами статистического пакета.

Рассмотрим пример получаемых результатов для случая, когда в качестве кластеризуемых переменных берутся переменные, фиксирующие наличие в семьях респондентов различных предметов длительного пользования2. Количество кластеров возьмем, скажем, 4. Такая классификация может грубо, но наглядно показать различие семей по благосостоянию.

Таблица 5.4

Результаты работы команды кластерного анализа k-means

Final Cluster Centers

Cluster

1

2

3

4

Есть в семье: цветной телевизор

1

0

1

1

Есть в семье: фотоаппарат

,5

,1

,1

,9

Есть в семье: миксер

,1

,0

,1

1,0

Есть в семье: электродрель

,8

,0

,0

,6

Есть в семье: отдельный морозильник

,1

,0

,0

,2

Есть в семье: микроволновая печь

,0

,0

,0

,2

Есть в семье: видеомагнитофон

,6

,0

,1

,8

Есть в семье: видеокамера

,0

,0

,0

,1

Есть в семье: пылесос

,9

,2

,5

,9

Есть в семье: домашний компьютер

,0

,0

,0

,2

Есть в семье: автомобиль

,4

,0

,1

,6

Есть в семье: проигрыватель компакт-дисков

,1

,0

,0

,3

Number of Cases in each Cluster

Unweighted

Weighted

Cluster

1

426

426

2

398

398

3

1073

1073

4

510

510

Valid

2407

2407

Missing

,000

,000

На основании таблицы 5.4 центров классов интерпретация полученных кластеров следующая. Поскольку кодировка используемых вопросов «1-есть;0-нет», то мы можем сказать, что, скажем у 50% респондентов, попавших в 1-й кластер, есть фотоаппарат, у 40% - автомобиль и т.д.

Кластер 1 – респонденты из достаточно зажиточных семей, имеющие дома большинство из предлагаемых предметов длительного пользования.

Кластер 2 – респонденты из наиболее бедных семей, у которых нет практически ничего из предметов длительного пользования.

Кластер 3 – респонденты из семей более зажиточных, чем во2-м кластере, но обладающие лишь небольшим набором предметов.

Кластер 4 – респонденты из наиболее зажиточных семей, имеющие большинство из предлагаемых предметов длительного пользования.

Имеется масса возможностей изучить и сравнить полученные классы используя сохраненную в виде переменной классификацию. Например, посмотреть какая доля респондентов проживает в городах, а какая в селах, каков средний доход респондентов в каждом из кластеров и т.п.

Принципиально важным вопросом для понимания содержания полученных кластеров – групп респондентов это то, на сколько действительно эти группы однородны. В меню SAVE команды k-means можно сохранять не только переменную, в которой фиксируется номер кластера к которому отнесен респондент, но и переменную, измеряющую расстояние каждого респондента от центра «его» кластера. В таблице 5.5 показаны эти средние расстояния для разбиения, рассмотренного в таблице 5.4.

Таблица 5.5

Средние значения расстояний от центра для 4-х кластеров таблицы 5.4.

Cluster Number of Case

Mean

N

Std. Deviation

1

1,1369504

426

,24006403

2

,4002193

398

,39150538

3

,8222608

1073

,32131648

4

1,2606004

510

,28033532

Total

,9010882

2407

,42375184

Таблица 5.5 показывает, что кластер 2 является наиболее однородным, а кластеры 1 и 4 однородны в гораздо меньшей степени. По всей видимости, целесообразно провести другую кластеризацию, увеличив число кластеров. Это должно привести к разбиению 1-го и 4-го кластеров на более однородные группы.

5.3. Многомерное шкалирование.

Задача многомерного шкалирования состоит в построении переменных основе имеющихся расстояний между объектами. В частности, если нам даны расстояния между городами, программа многомерного шкалирования должна восстановить систему координат (с точностью до поворота и единицы длины) и приписать координаты каждому городу, так чтобы зрительно карта и изображение городов в этой системе координат совпали. Близость может определяться не только расстоянием в километрах, но и другими показателями, такими как размеры миграционных потоков между городами, интенсивность телефонных звонков, а также расстояниями в многомерном признаковом пространстве. В последнем случае задача построения такой системы координат близка к задаче, решаемой факторным анализом - сжатию данных, описанию их небольшим числом переменных. Нередко требуется, также, наглядное представление свойств объектов. В этом случае полезно придать координаты переменным, расположить в геометрическом пространстве переменные. С технической точки зрения это всего лишь транспонирование матрицы данных. Для определенности мы будем говорить о создании геометрического пространства для объектов, специально оговаривая случаи анализа множества свойств. В социальных исследованиях методом многомерного шкалирования создают зрительный образ "социального пространства" объектов наблюдения или свойств. Для такого образа наиболее приемлемо создание двумерного пространства.

Основная идея метода состоит в приписывании каждому объекту значений координат, так, чтобы матрица евклидовых расстояний между объектами в этих координатах, помноженная на константу оказалась близка к матрице расстояний между объектами, определенной из каких-либо соображений ранее.

Метод весьма трудоемкий и рассчитан анализ данных, имеющих небольшое число объектов.

Евклидово пространство

Пусть мы определили r шкал X1,…,Xr. Расстояние между парой объектов i и j определяется формулой dij=.

Для однозначности задания шкал предполагается, что =0 и . Кроме того, по аналогии с методом главных компонент, первая шкала выбирается с наибольшей дисперсией, вторая - имеет вторую наибольшую дисперсию и т.д.

Идея многомерного шкалирования

Первая из предложенных моделей метрического многомерного шкалирования имеет вид

L{S}=D2+E

где L{S} - линейное преобразование исходной матрицы расстояний, D2 - матрица расстояний, полученная на основе созданных шкал, E - матрица отклонений модели от исходных данных. Линейное преобразование дает матрицу преобразованных расстояний T=L{S}. Целью многомерного метрического шкалирования является поиск оптимальных шкал и линейного преобразования матрицы исходных расстояний, минимизирующих ошибку E.

Шепард и Краскэл совершили существенный прорыв, разработав метод неметрического шкалирования. Суть этого метода состоит в нелинейном преобразовании расстояний. Модель неметрического шкалирования имеет вид:

M{S}=D2+E

где M{S} - монотонное преобразование исходной матрицы расстояний. Этот метод имеет больше шансов получить действительно геометрическое пространство, метрическое шкалирование. Монотонное преобразование дает матрицу преобразованных расстояний T=L{S}.

Качество подгонки модели

Для измерения качества подгонки модели был предложен показатель S-stress=

где норма матрицы   означает сумму квадратов элементов матрицы. Слово stress в английском языке имеет множество значений, одно из этих значений - нагрузка. Этот показатель изменяется от 0 до 1. Равенство его нулю означает точную подгонку модели, единице - полную ее бессмысленность.

Кроме того, оценить качество модели можно с помощью показателя stress index Краскэла, который, получается с использованием матрицы не квадратов расстояний, а расстояний. Заметим, что алгоритм оптимизирует S-stress, а не stress index.

Еще один показатель качества модели, RSQ, представляет собой квадрат коэффициента корреляции между матрицами T и E. Таким образом, также как в регрессионном анализе, RSQ может быть интерпретирован как доля дисперсии преобразованных расстояний T, объясненная матрицей расстояний D.

Вызов процедуры многомерного шкалирования

На рисунках 5.11 и 5.12 показаны путь вызова метода многомерного шкалирование и главное меню этой команды.

По умолчанию в процедуре проводится неметрическое шкалирование, кнопкой Model можно переключиться на метрическое шкалирование.

Рисунок 5.11

Путь вызова команды многомерного шкалирования

Рисунок 5.12

Главное меню команды многомерного шкалирования

Исходная матрица расстояний

По умолчанию в процедуре предполагается, что исходная матрица расстояний вводится в файле SPSS. Но подготовленная матрица расстояний у исследователя бывает весьма редко. Поэтому чаще используется возможность вычисления расстояний на основе имеющихся данных, которая реализуется в диалоговом окне команды в разделе Distances включения пункта Create distances from data. Здесь предусмотрен такой же широкий набор мер близости и расстояний, как и в иерархическом кластерном анализе. Их можно выбрать, воспользовавшись кнопкой Measures в том же разделе Distances, при этом можно определить, что визуализируется, матрица расстояний между объектами или переменными.

Пример построения шкал

В качестве примера исследуем данные по средней обеспеченности семей дорогостоящими предметами быта, электроникой, средствами транспорта и дачами (всего 9 предметов) в 38 территориальных общностях (данные RLMS, 1996 г.). В результате применения процедуры шкалирования территориальные общности должны расположиться в двумерном геометрическом пространстве, построенном исходя из расстояний по 9 переменным.

Для этого получим файл, в котором объектами будут территориальные общности, а переменными - обеспеченность семей этими предметами. Значения этих переменных - доли семей, обладающих этими предметами. Исходными данными здесь являются ответы на вопрос "Имеете ли Вы холодильник", "Имеете ли Вы холодильник" "Имеете ли Вы стиральную машину" и т.д. (1 - да, 2 - нет, 9 - нет ответа) в файле анкет семьи.

Интерпретация результатов многомерного шкалирования

Для интерпретации можно изучить связь полученных шкал с имеющимися данными, в частности c исходными переменными, по которым строилась матрица расстояний.

В нашем примере, таблица ранговых корреляций с этими переменными свидетельствует о том, что первое измерение (Dim1) характеризует уровень благосостояния жителей территориальных образований в целом, второе измерение связана с приверженностью их садоводству.

Таблица 5.5.

Коэффициенты ранговой корреляции Спирмена построенных шкал с обеспеченностью предметами быта.

Холодильник

Стиральная машина

Черно-белый телевизор

Цветной телевизор

Видеомагнитофон

Фен

Легковой автомобиль

Садовый домик

Дача или другой дом

DIM1

0.844

0.265

-0.820

0.950

0.773

0.929

0.426

0.426

0.659

Sig.

0.000

0.108

0.000

0.000

0.000

0.000

0.008

0.008

0.000

DIM2

-0.112

-0.156

-0.145

0.113

0.402

0.240

0.262

-0.687

0.232

Sig.

0.502

0.350

0.385

0.501

0.012

0.148

0.112

0.000

0.161

Наглядную картину дает непосредственное размещения объектов (у нас - территориальных общностей) на поле рассеяния в построенном геометрическом пространстве (рисунок 7.7). На этом графике видим, что шкала Dim1 имеет больший разброс, чем шкала Dim2, а значит, объясняет большую часть разброса расстояний объектов. Зримо подтверждается интерпретация первой шкалы: по разным полюсам Dim1 стоят Ханты-Мансийский автономный округ - весьма богатый регион и Пензенская область, Кабардино-Балкария - беднейшие части России.

Рисунок 5.13

. Представление объектов в сконструированном геометрическом пространстве

Поскольку по поводу развитости садоводства мы не имеем общедоступной информации, для проверки интерпретации второй шкалы полезно рассмотреть диаграмму рассеяния Dim2 и доли семей, имеющих садовые домики (рисунок 5.14). На этом рисунке ясно видно, что указанная выше интерпретация небезосновательна.


Рисунок 5.14 Поле рассеяния второй шкалы, порожденной процедурой многомерного и доли семей, имеющих садовые домики

1 Данные вычислены на основании материалов исследования РМЭЗ, октябрь-ноябрь 2001 г. Демонстрируемый пример имеет формат иллюстрации и не может служить основанием для социологических рассуждений по вопросам структуры доходов в рассматриваемых населенных пунктах, поскольку исследование не содержит данных, репрезентирующих население данных городов.

2 Данные исследования «Мониторинг экономических и социальных перемен». Проведено ВЦИОМ в мае 2001 года по всероссийской репрезентативной выорке.

PAGE  168

EMBED PBrush  

EMBED PBrush  

EMBED PBrush  

U1

U7

U6

U5

U4

U3

U2

x4

x5

x6

x7

x1

x2

x33

   F3

   F2

   F1




1. Библейская лексика на страницах современных СМИ
2. Закрытый паевой инвестиционный фонд недвижимости (ЗПИФН), как способ минимизации налогообложения
3. Обзор рынка бухгалтерских программ
4. Исследование Дальневосточного федерального округа.html
5. В процессе длительной эволюции во всех странах мира утвердилось преобладание рыночной экономики как ос
6. Тема- Приватизация объектов государственной и муниципальной собственности 1
7. 5 Расчёт шатуна Принимаем основные размеры шатуна рис
8. Реферат- Использование Интернет-ресурсов на уроках английского языка
9. Халы~тар байлы~ыны~ таби~аты мен себептері туралы зерттеу атты е~бекті~ авторы кім А
10. Топливные элементы
11. экономических преобразований во многом обусловлена недостаточной разработанностью научных основ выбора
12. на тему- Файлові менеджери Файловий менеджер англ
13. ДЕНЬ ЗЕМЛИ Педагогически задачи
14. ~орша~ан ортаны ~ор~ау бойынша ~Р ны~ Конституциясы
15. тематики ББК 32975 Б 91 Сборник упражнений по текстовому редактору MS Word Электронное учебное пособие
16. О введении отраслевых норм бесплатной выдачи спецодежды спецобуви и других средств индивидуальной защиты
17. Реферат- Леон Брюнсвик
18. Декартов квадрат множества.html
19. .Непрерывные соединения 2.
20. Причинно-следственные связи. Усиливающие и уравновешивающие связи. Упреждающие связи