У вас вопросы?
У нас ответы:) SamZan.net

В примерах из Главы 2 мы познакомились со статистиками и графиками полезными для описания переменных и оцен

Работа добавлена на сайт samzan.net:

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 27.12.2024

4 Процедура Исследовать:

исследование данных и описание подвыборок

Какую бы цель вы перед собой ни ставили — просто описать данные или подготовиться к сложному анализу — вам нужно предварительно как следует изучить ваши данные. В примерах из Главы 2 мы познакомились со статистиками и графиками, полезными для описания переменных и оценки параметров выборки. В данной главе те же статистики мы используем для описания подмножеств наблюдений. В первых двух примерах представлены статистики, полезные при описании распределений подгрупп. В последних двух примерах рассмотрены критерии, позволяющие оценить близость распределения в подгруппе к нормальному распределению, определить значимости различия дисперсий внутри групп, найти преобразование, стабилизирущее дисперсии в подгруппах.

В примерах использованы данные из файла world95 Rus. Каждое наблюдение содержит информацию о стране, в том числе среднюю продолжительность жизни женщин в годах (жизньжен), численность населения в тысячах (населен), логарифм по основанию 10 численности населения (logac), регион, где расположена страна (регион), и ее название (страна). Численность населения (населен) — пример переменной с асимметричным распределением. В последних примерах сравниваются результаты, полученные для населен и ее логарифма. Переменная регион является фактором — ее градации разбивают 109 стран на 6 классов. Названия стран, хранящиеся в переменной страна (страна), используются в качестве меток в диаграммах рассеяния и в списках экстремальных значений (смотрите пример 2).

Пример 1: дескриптивные статистики, ящичковые диаграммы, диаграммы "ствол-лист". Распределение продолжительности жизни женщин исследовалось в каждой из шести групп стран. Группы определялись их географическим расположением и экономическим состоянием. Диаграммырассеяния и диаграммы "ствол-лист" показывают, что для разных групп медианы и разбросы продолжителъности жизни женщин существенно различаются. Для каждой группы выводился стандартный набор статистик. Было найдено робастное правило для определения выбросов. Для минимизации влияния выбросов на оценку центральной тенденции использовалось 5%-е усеченное среднее.

Пример 2: М-оценки, процентили и экстремальные значения. В тех случаях, когда данные не подчиняются нормальному распределению и не помогают никакие преобразования, могут оказаться полезными М-оценки, позволяющие оценить положение центра распределений для каждой из групп, и процентили, характеризующие разброс распределений. Полезно посмотреть на пять наименьших и пять наибольших значений в пределах каждой из групп с названиями стран.

Пример 3: критерии нормальности Шапиро-Уилка и Лильефорса, диаграммы на нормальных вероятностных бумагах. В данном примере акцент с описания данных и выявления выбросов переключается на формирование гипотезы, подлежащей проверке, и на построение модели данных. Точнее говоря, проверяется, подчиняются ли нормальному распределению наблюдения каждой группы. Приведены результаты анализа исходных данных и данных после логарифмического преобразования для шести групп стран, описанных в предыдущих примерах. Отклонение данных от нормальности представлено с помощью графиков на нормальной вероятностной бумаге.

Пример 4: критерий равенства дисперсий Ливиня и диаграмма "разброс по уровням" как средство подбора преобразования, стабилизирующего дисперсии. Результаты применения критерия Ливиня показывают, что дисперсии в шести группах наблюдений значительно отличаются; после логарифмического преобразования такие различия не обнаруживаются. Диаграмма "разброс по уровням" позволяет предположить, что для элиминации нежелательной связи между разбросом и средним в группах значения переменной следует подвергнуть логарифмическому преобразованию.

Пример 1:

Дескриптивные статистики, ящичковые диаграммы и диаграммы "ствол-лист"

Имеется много способов описания данных, но не все они подходят для конкретной выборки. Среднее и стандартное отклонение полезны для выборок с нормальным распределением, но не годятся для выборок с асимметричным распределением, с выбросами или другими аномалиями. Статистики, придуманные для описания нормальных распределений — среднее и стандартное отклонение, асимметрия, эксцесс, доверительный интервал и другие, —обсуждались в Главе 2. Там же были рассмотрены медиана, квартили и процентили — они предназначены для описания распределений, которые могут отличаться от нормального. В данном примере мы используем эти статистики для описания подгрупп, добавив к ним 5%-е усеченное среднее и межквартильную широту.

При выборе статистик, наиболее подходящих для описания ваших данных, непременно следует посмотреть на графики — они помогают понять, что представляют собой данные и как сформулировать подлежащие решению задачи. У каждого специалиста по анализу данных есть своя любимая история о том, как из-за недостаточно детальной предварительной проверки данных были получены абсолютно неверные результаты. Например, в одной из работ, где авторы собирались оценить средний размер налога на собственность, из выборки не были исключены съемщики, поэтому на диаграмме "ствол-лист" возник столбец, соответствующий нулевому значению и резко отличавшийся по величине от соседних. Известен случай, когда при анализе частоты сексуальных контактов за неделю исследователи забыли учесть, что число 99 — это код отсутствующего ответа. В другой работе была получена ошибочная оценка среднего, поскольку автор не заметил, что распределение данных сильно асимметрично и потому их необходимо преобразовать (улучшение оценок с помощью преобразования рассмотрены в примере 3 из главы 2).

Для одномерного графического анализа подгрупп процедура Исследовать предлагает ящичковые диаграммы (или ящики с усиками), диаграммы "ствол-лист" и гистограммы. Как обычно, нельзя объявить какой-либо один из этих типов диаграмм наилучшим для анализалюбых данных. Чтобы лучше понять дан-ные, уточнить задачи и выявить статистики, наиболее подходящие для имеющихся данных, необходимо посмотреть на графики всех типов. В процедуре Explore (Исследовать) внутригрупповые гистограммы выглядят так же, как описано в Главе 2, поэтому здесь они опускаются.

Часто полезно посмотреть на ящичковые диаграммы и диаграммы "ствол-лист" одновременно. Ящичковые диаграммы наглядно представляют диапазон значений, в который попадает 50% наблюдений. Но при этом они не говорят о наличии пропусков, нескольких "горбов" в распределении и множественных выбросов, которые выявляются при использовании диаграмм "ствол-лист".

Насколько отличается продолжительность жизни женщин в разных регионах? В данном примере целью является описание различий в средней продолжительности жизни женщин в шести группах стран, определяемых значениями переменной регион.

Перетащите с помощью мыши значок, соответствующий статистикам, с лотка (tray) столбцов на лоток строк. Затем выберите и скройте столбцы, содержащие статистики для Африки, Восточной Европы, Ближнего Востока. Для выбора столбца нажмите Ctrl-Alt и кликните левой клавишей мыши на заголовке столбца. Чтобы скрыть столбцы, пометьте их и выберите пункт Скрыть в меню Вид.

Ящичковая диаграмма. Хотя она и не является первой в выходном файле Навигатора Вывода, выберите ее для сравнения межгрупповых распределений. Этот способ представления данных, предложенный Джоном Тьюки, иногда называют "ящик-с-усами". Для каждой группы стран (наблюдений) горизонтальная линия в середине ящичка отмечает положение медианы выборки. Следовательно, например, медиана ожидаемой продолжительности жизни женщин стран группы ОЭСР равна примерно 80, а для стран Латинской Америки — 75. Края ящичка, называемые сгибами (hinges), отмечают положение 25%-го и 75%-го процентилей2. Проще всего представлять себе медиану как точку, делящую упорядоченную выборку пополам, а сгибы — как точки, делящие пополам получившиеся половинки. Таким образом, срединные 50% наблюдений попадают внутрь ящичка. Длина ящичка (разность между значениями верхнего и нижнего сгибов) называется С-размахом (hspread) и соответствует межквартильной широте. Для стран группы ОЭСР С-размах очень мал (1-2 года), для стран Тихоокеанско-Азиатского региона он значительно больше — от 45 до 74-75 лет. Усики (вертикальные линии от концов ящичка) показывают диапазон значений, попадающих в 1.5 С-размаха от сгибов (1.5 С-размаха могут быть длиннее усика).

На диаграмме легко увидеть, что медианы и разбросы значений в шести группах стран сильно различаются. Кроме того, отметим, что различны и формы распределений. Медиана ожидаемой продолжительности жизни для стран Латинской Америки смещена к вершине соответствующего ящичка; это показывает, что распределение скошено влево. В то же время для стран группы ОЭСР и Восточной Европы медиана расположена ближе к центру, что характерно для симметричных распределений.

Помимо обобщенного описания формы распределения и положения основной массы значений, ящичковая диаграмма сообщает о наличии выбросов. Наблюдения со значениями, лежащими вне диапазона 3-х С-размахов называются экстремальными, или далекими, значениями, и обозначаются звездочками (*), а наблюдения со значениями в пределах диапазона от 1.5 до 3-х С-размахов называются выбросами, или отклоняющимися значениями. Краткое описание компонент ящичковой диаграммы представлено на рисунке 4.1.

В приводимом примере Гаити является выбросом в группе стран Латинской Америки, поскольку для этой страны средняя ожидаемая продолжительность жизни значительно ниже, чем для остальных стран в группе.

Дескриптивные статистики (после преобразования таблиц). К группе ОЭСР принадлежит 21 страна; средняя продолжительность жизни женщин здесь составляет 80.1 года, в 17-ти странах Тихоокеанско-Азиатского региона—67.41 года, а в 21 -й стране Латинской Америки — 71.76 года. Размеры выборок, приведенные в сводке обработки наблюдений, выводятся в самом начале (здесь на рисунке не приведены). Для латиноамериканских стран медиана равна 75 (что на 3 года превосходит среднее). Для распределений, скошенных влево, медиана превышает среднее. Чтобы выяснить, является ли распределение скошенным, определите величину отношения статистики "асимметрия" к ее стандартной ошибке (гипотеза о симметричности отвергается, если это отношение лежит вне диапазона от -2 до +2). Для стран Латинской Америки это отношение равно -1.959/0.501 = -3.91, и потому гипотезу о симметричности распределения следует отвергнуть.

Межквартильная широта — это разность значений переменной, соответствующих первому и третьему квартилям. Например, для стран Тихоокеанско-Азиатско-го региона межквартильная широта равна 17.5 года (смотрите пример 2 для первого и третьего квартилей: 76-58.5= 17.5).Срединные 50% значений продолжительности жизни попадают в интервал между 58.5 и 76 годами.

Для этой группы стран длина ящичка на диаграмме на приведенном выше рисунке немного отличается: 25%-й и 75%-й процентили равны 59 и 74 годам, поэтому длина ящичка представляет 74-59= 15 лет. Межквартильная широта для стран группы ОЭСР значительно меньше — она равна 2 годам, что равно длине ящичка.

Если наблюдения в вашей выборке взяты из нормального распределения, выборочное среднее является наилучшей оценкой среднего для популяции. Если же в выборке имеются выбросы или другие отклонения от нормальности, лучше использовать 5%-е усеченное среднее (и/или робастные оценки, рассматриваемые в примере 2). Если эти оценки сильно различаются, распределение, по-видимому, не является нормальным. Например, средняя численность населения в странах группы ОЭСР равна 33.1 миллиона человек, 5%-е усеченное среднее равно 22.7 миллиона, а медиана -10.4 миллиона. Все три статистики оценивают положение центра распределения. В данном случае распределение можно нормализовать с помощью логарифмического преобразования данных.

5%-е усеченное среднее вычисляется путем упорядочивания значений внутри каждой из групп по возрастанию, отсечением (удалением) 5% наблюдений от начала и от конца в каждой группе и затем вычислением обычного среднего для оставшихся наблюдений. Таким образом, нетипичные величины в хвостах распределения не влияют на значение усеченного среднего; при этом данная оценка использует больше значений данных (больше информации), чем медиана. Размер выборки для группы стран Латинской Америки — 21,5% этой величины — 1.05. Поэтому при вычислении 5%-го усеченного среднего на каждом конце отсекается примерно одно наблюдение (используемый в SPSS алгоритм допускает дробное число наблюдений при отсечении). В примере 2 на рисунке 4.3 самая короткая продолжительность жизни для данной группы равна 47 годам (Гаити), а самая длинная — 79 годам (Коста-Рика). Поэтому, опуская дробную часть числа отсекаемых наблюдений, получаем следующую оценку усеченного среднего:

(Если объем выборки помножить на среднее, получим сумму всех 21 значений ожидаемой продолжительности жизни.) Значение, следующее за минимумом, равно 64, предшествующее максимуму — 78 годам. Если при вычислении среднего отсечь по 5% от каждой из этих величин (и использовать в знаменателе 90% от размера выборки), оценка будет равна:

Эта оценка попадает между выборочным средним и медианой.

Диаграмма "ствол-лист". Эта диаграмма аналогична гистограмме, поскольку значения данных объединяются по интервалам и представляются в виде столбцов, повернутых по горизонтали. Однако из диаграммы "ствол-лист" можно извлечь больше информации о частоте появления каждого конкретного значения и увидеть, не являются ли некоторые значения выбросами.

На диаграмме "ствол-лист" цифры в каждом из чисел разделены на "ствол" и "лист", и каждая из этих частей записана в столбец с соответствующим заголовком. Например, число 36.85 может быть записано в виде таких двух частей разными способами: 3 и 685, или 36 и 85, или 368 и 5. Для того чтобы понять способ отделения ствола от листьев, посмотрите на максимальное значение в каждой группе в таблице Дескриптивные. Например, для стран группы ОЭСР максимальное значение средней продолжительности жизни — 82 года, для Тихоокеанско-Азиатского региона — 82 года, для Латинской Америки — 79 лет. Эти значения находятся внизу диаграммы «ствол-лист». Для стран группы ОЭСР числа не разделены на части: ствол — это 82 года, лист — это 0 (число 82.0). Для Тихоокеанско-Азиатского региона для значения 82 ствол— это 8, лист— это 2 (рядом с двойкой записан лист 0, представляющий значение 80). Для Латинской Америки ствол— это 7, лист— 9. В той же строке 10 стран со стволом 7 имеют листья от 5 до 8 (для величин от 75 до 78). В столбце Частота содержится количество наблюдений для ствола. Для стран Латинской Америки мы видим, что в последней строке стоит 11, поскольку в этой строке диаграммы представлена информация об 11 -ти странах.

В данной выборке (страны) каждому наблюдению в диаграмме соответствует один лист. Для больших по объему выборок в SPSS лист может представлять несколько наблюдений. Например, для переменной калории, которая содержит число калорий и значения которой меняются от 1667 до 3825, используются только две первые цифры 16 и 38: тысячи (1 и 3) — это стволы, сотни (6 и 8) — листья, а единицы и десятки игнорируются. Почему же для переменной жизньжен для стран группы OECD ствол включает десятки и единицы, а для Латинской Америки — только десятки? SPSS использует алгоритм, который оценивает изменчивость значений в каждой группе и пытается создать такую шкалу стволов, которая после добавления листьев более всего соответствует форме распределения.

В диаграммах для стран группы ОЭСР и Тихоокеанско-Азиатского региона значения стволов меняются на шкале с равным шагом (от 78 до 82 и от 4 до 8). На диаграмме для Латинской Америки имеется по два ствола для значений с 6-ю и 7-ю десятками. В каждой из этих пар листья со значениями от 0 до 4 представлены в первом из двух столбцов, со значениями от 5 до 9 — во втором. Используемый алгоритм позволяет один ствол представить несколькими (до 5) столбцами. Ниже приведен фрагмент диаграммы, где ствол '1' разбит на пять столбцов:

Диаграмма представляется с помощью именно такого старомодного моноширинного шрифта, поскольку цифры должны иметь одинаковую ширину (скажем, цифры 1 и 8). Если ширина цифровых символов будет меняться, может измениться и вид распределения, которое диаграмма предназначена возможно более точно представить. Форма диаграммы для стран группы ОЭСР и Тихоокеанско-Азиатского региона близка к симметричной, а для Латинской Америки смещена влево. Это согласуется с видом ящичковой диаграммы и оценкой асимметричности, полученной выше.

Выбросы. В колонке Leaf (Лист) на диаграмме для Латинской Америки величина 47 заключена в скобки и вместо величины ствола напечатано Extremes (Экстремальные значения). Таким способом помечаются выбросы (т.е. значения, сильно отличающиеся от остальных). Отметим, что в то время как стволы основной массы значений попадают на шкалу с равным шагом, для экстремальных значений шкала обрывается (нет позиции для ствола со значением 5). Правило определения выбросов такое же, как и для ящичковых диаграмм. Значение расценивается как выброс, если его величина меньше величины нижнего сгибаджнус 1.5 С-размаха (1.5*10 лет = 15 лет) или больше величины верхнего сгиба плюс 1.5 С-размаха (т.е. плюс 15 лет). В примере 2 сгибы для Латинской Америки равны 67 и 77 годам. Поэтому нижним пределом значений (границей выбросов) является 67 -15 = 52 года, а верхним — 82 года. Раньше некоторые специалисты по анализу данных определяли выбросы как значения, отклоняющиеся от среднего более чем на 2 или 3 величины стандартного отклонения. Это правило хорошо работает на данных, взятых из нормального распределения. Правило, используемое для идентификации выбросов в ящичковых диаграммах и диаграммах "ствол-лист", хорошо работает во всем спектре распределений реальных данных.

Пример 2:

М-оценки, процентили и экстремальные значения

Нечасто данные выглядят так, будто их сгенерировал датчик нормальных случайных чисел. Если данные хороши, медиана и среднее совпадают. Что делать, если для ваших данных это не так? Посмотрите на значения выбросов — может быть, при записи данных были сделаны ошибки и их можно исправить? Может быть, взять логарифм или извлечь квадратный корень? Может быть, другое преобразование данных устранит выбросы и приведет к более симметричному распределению? (Последний вариант рассмотрен в примере 4.) Если эти средства не помогают, для оценки положения центра и размаха распределения в каждой из рассматриваемых групп попробуйте использовать одну из описываемых ниже М-оценок.

Усеченное среднее, введенное в последнем примере, и М-оценки называют робастными, или устойчивыми, оценками; предполагается, что они малочувствительны к отклонениям от нормальности. Обычное выборочное среднее может сильно измениться, если вы измените минимальное или максимальное значение в выборке. Возьмем, например, выборку с числом наблюдений около 20, распределенных нормально со средним 0 и стандартным отклонением 1. Пусть наибольшее значение в выборке равно 2.5. Если заменить это значение на 250 или 25, среднее сильно возрастет. В то же время медиана не изменится, так как на ее величину не влияет значение отдельного выброса. 5%-е у сеченное среднее при изменении максимального (или минимального) значения также не изменится. К сожалению, во многих статистических методах используется предположение о нормальности,поэтому мы не может отказаться от обычного среднего.

При вычислении среднего все наблюдения имеют одинаковый вес, независимо от того, находятся ли они в середине или на одном из концов распределения. Можно сказать, что вес каждого наблюдения равен 1. Для 5%-го усеченного среднего центральные 90% упорядоченных наблюдений имеют вес 1, а по 5 % на каждом из хвостов распределения— вес 0. Медиану можно считать 50%-м усеченным средним: если число наблюдений в выборке нечетно, вес 1 имеет только наблюдение в середине, веса остальных равны 0; если же число наблюдений четное, вес 1 имеет пара наблюдений в середине.

При вычислении М-оценок веса наблюдениям назначаются по определенной схеме, при этом вместо резкого падения веса от 1 к 0 для всех наблюдений, находящихся далеко от центра, веса плавно (или ступенчато) уменьшаются по мере удаления от него.

М-оценки представляют собой один из нескольких (примерно семи) классов робаст-ных оценок, встречающихся в литературе по статистике. В SPSS имеются 4 типа М-оценок (названных по имени предложивших их авторов): Хьюбера, Тьюки, Хемпеля и Эндрюса. Веса в этих оценках определяются остатками (стандартизованными отклонениями наблюдений от центра распределения), а не собственно значениями переменной. Остаток определяется следующим образом:

где оценкой разброса является медиана абсолютных отклонений от выборочной медианы (MAD, median of the absolute deviance). Сначала находится медиана, потом для каждого наблюдения вычисляется модуль разности между медианой и значением переменной, а затем для этих разностей находится медиана. Вычисления проводятся итеративно, т.е. повторяются несколько раз, причем в качестве очередной медианы берется последняя из оценок.

С каждой М-оценкой связывается своя пси-функция, которая используется для назначения весов остаткам. Вес наблюдения — это ордината (высота) пси-функции, деленная на остаток для данного наблюдения.

Пси-функция для М-оценки Хемпеля приведена на рисунке 4.2. Обратите внимание: если отклонения достаточно малы (в нашем случае - в интервале от -1.7 до 1.7), веса наблюдений равны 1. Веса уменьшаются, когда величины отклонений умеренны (по абсолютной величине находятся между 1.7 и 3.4), и уменьшаются еще быстрее, когда отклонения еще больше (по абсолютной величине находятся между 3.4 и 8.5). При совсем больших отклонениях (абсолютные величины больше 8.5) веса равны 0, т.е. соответствующие наблюдения можно считать исключенными из анализа.

Пси-функция Хьюбера (рисунок 4.2) выглядит похоже. Веса наблюдений равны 1 в интервале от -1.399 до 1.399. Вне этого интервала веса уменьшаются, хотя и не так быстро, как у Хемпеля. Кроме того, функция нигде не равна нулю. Пси-функции Эндрюса и Тьюки чрезвычайно схожи: обе они меньше 1 для всех отклонений, кроме нулевого, обе равны нулю за пределами некоего интервала.

Ну, и что же "в сухом остатке"? Какая из М-оценок наилучшая? Ясный и недвусмысленный ответ отсутствует! Описанные здесь робастные оценки были придуманы для симметричных распределений и, по большей части, проверялись на сгенерированных компьютером выборках из гладких непрерывных распределений, хвосты которых длиннее, чем у нормального распределения. Некоторые статистики утверждают, что распределения реальных данных часто асимметричны, сгруппированы (в частности, некоторые цифры на концах десятичной записи значений встречаются реже других), в них меньше значений, чем в сгенерированных "искусственных" данных. При применении к асимметричным распределениям М-оценка Хьюбера и усеченное среднее дают значения, близкие к среднему популяции, а оценки Хемпеля, Тьюки и Эндрюса—к ее медиане. Сравните несколько оценок. Насколько они различаются? Посмотрите на график распределения — вы можете объяснить причины различия? Если распределение асимметрично, обязательно попробуйте преобразовать данные.

Продолжим работать с распределением,рассмотренным в примере 1. Теперь мы запросим М-оценки, процентили и список из пяти минимальных и пяти максимальных значений для каждой подгруппы.

Чтобы получить нижеследующий вывод, в диалоговом окне Исследовать нажмите на кнопку Сброс, чтобы восстановить значения по умолчанию, а затем выберите:

М-оценки. В этом примере М-оценки для группы стран ОЭСР почти равны друг другу. В примере 1 мы видели, что ожидаемая продолжительность жизни женщин равна 80.1 года, 5%-е усеченное среднее—80.11 года, а медиана—80 годам. Рассматривая график распределения, мы не увидели ничего необычного в его форме, так что совпадение этих оценок неудивительно. Однако форма распределения для Латинской Америки скошена влево (среднее равняется 71.76,5%-е усеченное среднее — 72.6, медиана — 75). Значения М-оценок различаются не более чем на полгода и попадают между средним и медианой, причем ближе к медиане, чем к среднему.

Процентили. В данной таблице представлены оценки шести процентилей для каждой из групп. 5%-й, 10%-й, 90%-й и 95%-й процентили для стран группы ОЭСР показывают, что разброс ожидаемой продолжительности жизни мал — процентили равны 78,78.2,81.8 и 82 соответственно. Более интересны процентили для группы стран Латинской Америки. 5% стран должны иметь значения ниже 5%-го процентиля (48.7 года), 95% — выше него. В этой выборке 21 страна, и значит, 5% — это 1.05 страны; таким образом, 5%-й процентиль попадает между 1-м и 2-м элементом вариационного ряда3. На рисунке 4.3 мы видим, что нижняя граница значений ожидаемой продолжительности жизни равна 47 годам, следующее за ним значение — 64 года, так что 48.7 близко к минимуму. Имеются пять способов определения положения этой точки. По умолчанию SPSS использует метод взвешенного среднего, другие методы запрашиваются подкомандой PERCENTILES (Процентили). 10%-й процентиль равен 64.6 года. По этой величине можно заключить, что в 10% стран Латинской Америки средняя продолжительность жизни женщин равна 64 годам и менее, а в 90% стран этой группы она составляет более 64.6 года. По 90%-му процентилю вы можете заключить, что для 10% стран этой группы ожидаемая продолжительность жизни — 78 и более лет. Заметим, что 75%-й процентиль равен 77.5 года. Поскольку непосредственно за этим значением четыре значения переменной равны 78, вы можете сделать вывод, что для 25% стран продолжительностьжизни равна 78 годам и более.

Как отмечалось выше при описании ящичковых диаграмм, и обычные процентили, и сгибы Тьюки оценивают 1-й и 3-й квартили, но формулы, по которым они вычисляются, различны. Различие в результатах увеличивается, если число наблюдений в группе не кратно 4 (в отличие от выборки, скажем, в 20 наблюдений, которую легко разделить на четыре части по пять наблюдений в каждой).

Обсудим процедуру вычисления 75%-го процентиля для продолжительности жизни в странах Латинской Америки, представленного в таблице на рисунке 4.3 (объем выборки равен 21).

Процентили. Сначала определим, где находится граница для 75%-го процентиля в вариационном ряде. Для этого прибавим к числу наблюдений 1 и умножим на 0.75:

(n+ 1)*р=22*0.75= 16.5.

Для 16-го наблюдения значение переменной равно 77 (Уругвай), для 17-го — 78 (Чили). Дробная часть найденной границы равна 0.5. Теперь мы готовы вычислить 75%-й процентиль:

77* (1-0.5)+78* 0.5 =77.5.


Экстремальные значения. При выборе опции Выбросы в диалоговом окне Статистики SPSS выводит пять наибольших и пять наименьших значений переменной в каждой группе с указанием меток наблюдений (если переменная, по значениям которой устанавливаются метки для данной переменной, не указана, меткой наблюдения является ее номер в файле данных).

Наблюдения (страны) в списке не обязательно будут выбросами — просто их значения максимальные/минимальные в группе. Для выявления выбросов используйте ящичковую диаграмму и диаграмму "ствол-лист" и сопоставьте их с наблюдениями в этом списке. В странах группы ОЭСР наиболее высокая ожидаемая продолжительность жизни женщин — 82 года - во Франции и Швейцарии. Еще в нескольких странах продолжительность жизни равна 81 году (на таблице они не показаны, их наличие отмечено точкой в строке для Швеции). Наименьшая продолжительность жизни в группе стран ЕС в Португалии и Ирландии — 78 лет. На диаграмме "ствол-лист" для Латиноамериканской группы продолжительность жизни, равная 47 годам, определена как выброс. В таблице это значение видно в строке с информацией о Гаити.

Пример 3:

Критерии нормальности Шапиро-Уилка и Лильефорса и диаграммы на нормальных вероятностных бумагах

В данном примере мы переключаемся с оценки и описания данных на формирование гипотез, подлежащих проверке, и на построение моделей. Важным в дисперсионном анализе и в других классических статистических процедурах является предположение о том, что данные в группе представляют собой выборку из нормального распределения с постоянной дисперсией. Условие нормальности обсуждается в данном примере, постоянство дисперсий—в следующем. В тех случаях, когда не наблюдаются ни нормальность, ни постоянство дисперсий, преобразование данных часто позволяет решить сразу обе эти проблемы. Поэтому в примерах 3 и 4 результаты получены сначала для исходных данных о численности населения, как они записаны в файле данных world95 Rus, а затем — для логарифмически преобразованных значений. Первая переменная названа населен (численность населения) вторая — logac. (В примере 3 из Главы 2 показано успешное использование логарифмического преобразования для симметризации распределения выборки, а здесь изучаются внутригрупповые распределения.)

При отборе данных для анализа многие исследователи используют диаграммы рассеяния и диаграммы "ствол-лист" для определения выбросов и изучения воздействия преобразования на форму распределения.

Для проверки гипотезы о нормальном распределении данных выборки в SPSS предусмотрены критерии Шапиро-Уилка и Лильефорса. Последний является модификацией критерия Колмогорова-Смирнова для случаев, когда среднее и дисперсия неизвестны, а используется их оценка по выборке. Для графической проверки нормальности SPSS выдает графики на нормальных вероятностных бумагах.

Перед выводом графиков и результатов применения критериев выводятся дескриптивные статистики.

Для того чтобы получить нижеследующую таблицу, в диалоговом окне процедуры Исследовать нажмите на Сброс для восстановления значений по умолчанию, а затем выберите:

Затем скройте столбцы, содержащие информацию о Восточной Европе, Африке, Среднем Востоке, и строки с 95%-м доверительным интервалом, дисперсией, минимумом, максимумом, рангом и межквартильным диапазоном. Вспомните, как это делается: сначала пометьте их (держа нажатыми клавиши Ctrl и Alt, щелкните на заголовке столбца), затем в меню Вид выберите пункт Скрыть.

Ящичковые диаграммы (переменная населен и преобразованная переменная logac). Численность населения Китая и Индии настолько велика, что остается совсем мало места для показа других значений. Вы можете преобразовать диаграмму, сделав максимум немного ниже, чем численность населения США. После редактирования диаграммы для переменной населен становится явственно видно, что распределения сильно скошены вправо (каждая медиана попадает ниже центра своего ящичка) и имеются несколько других экстремальных значений и выбросов, помимо Китая, Индии и США.

Ящичковые диаграммы. Распределения в этой диаграмме для logac улучшены по сравнению с диаграммой для исходных значений. Медиана расположена ближе к центру ящичка, так что распределение более симметрично. Заметьте, что разбросы значений в шести группах теперь более похожи и имеется только один выброс.

Дескриптивные статистики (после преобразования таблицы и удаления столбцов, представляющих Восточную Европу, Африку, Средний Восток, и строк с 95%-м доверительным интервалом, дисперсией, минимумом, максимумом, рангом  и межквартильным диапазоном). Для стран группы ОЭСР средняя численность населения равна 33 миллионам человек (33085.10), 5%-е усеченное среднее — 22.7 миллиона человек, медиана — 10.4 миллиона человек (10400). Среднее более чем в три раза больше медианы. Неудивительно, что отношение коэффициента асимметрии к его стандартной ошибке в любой из трех групп превышает +2.0, так что гипотеза о симметрии распределения отклоняется.

В последних трех столбцах этой таблицы приведены статистики для логарифма численности населения. Здесь имеется некоторый разброс в значениях среднего, 5%-го усеченного среднего и медианы. Во всем диапазоне, где гипотеза о симметричности распределения не отвергается, отношение каждого коэффициента асимметрии к его стандартной ошибке имеет вполне разумные значения.

Критерии нормальности. Результаты применения критериев согласия не противоречат графическим представлениям для всех шести групп. Оба критерия — Колмогорова-Смирнова и Шапиро-Уилка — уверенно опровергают гипотезу о нормальности для исходных данных. Но они не исключают нормальность для логарифма численности населения. Вместо того чтобы проверять, является ли распределение нормальным, некоторые исследователи проводят анализ данных, позволяющий судить о том, насколько распределение отклоняется от нормального. Они предпочитают изучать графические представления.

Графики на нормальной вероятностной бумаге. На Q-Q-графиках слева представлена зависимость между значениями переменной и соответствующими квантилями стандарного нормального распределения: значения переменной откладываются по горизонтальной оси, а квантили — по вертикальной. Если распределение значений и в самом деле нормально, точки графика будут группироваться вокруг прямой.

На Q-Q-графиках для Азиатско-тихоокеанского региона (рисунок вверху слева) точки явно не группируются вдоль линии, Китай и Индия (справа) далеко отстоят от других значений. На Q-Q-графике для логарифмированных значений численности населения (нижний левый рисунок) точки достаточно хорошо группируются вдоль линии.

График с удаленным трендом помогает понять, каким образом распределение уклоняется от нормального. Если распределение нормально, точки располагаются вокруг горизонтальной оси.

На графике с удаленным трендом для численности населения (рисунок вверху справа) Китай и Индия отстоят от других пятнадцати стран точно так же, как на графике слева. Здесь, поскольку линия горизонтальна, масштаб по вертикали увеличивается, улучшая обзор пространственных связей. Точки графика, опускаются ниже линии только один раз; очевидно, что здесь нет случайного разброса точек вдоль линии. На графике с удаленным трендом для логарифмов численности населения (рисунок внизу справа) кривая, соединяющая 17 точек, пересекает горизонтальную линию более 7 раз. И хотя по вертикали числа отложены в нормированных единицах, отметим, что большинство точек попадают в интервал от -0.2 до +0.2. Если игнорировать Китай на графике с удаленным трендом, оставшиеся точки попадают в интервал от -1.0 до +1.2. Следовательно, логарифмированные данные группируются около линии намного лучше, чем непреобразованные значения, и разброс данных приближается к нормальному распределению.

Примечание. Процедура Q-Q в меню Графики строит аналогичные графики, которые, тем не менее, не вполне совпадают с описанными здесь. Процедура Q-Q позволяет исследовать отклонения не только от нормального, но и от других распределений.

Пример 4:

Критерий равенства дисперсий Ливиня и диаграмма "разброс по уровням"

Одно из предположений классического дисперионного анализа заключается в том, что данные в каждой ячейке подчиняются распределениям с одинаковыми дисперсиями. Многие исследователи используют для проверки этого предположения критерий Ливиня, поскольку он достаточно устойчив к отклонениям от нормальности. В этом критерии используются отклонения (без знака) каждого наблюдения от среднего ячейки, как в дисперсионном анализе. Старые критерии однородности дисперсий, основанные на анализе отношений дисперсий выборок, сейчас используются редко, поскольку результаты при этом сильно зависят от близости данных к нормальному распределению.

Часто, когда дисперсии неодинаковы, распределения внутри клеток бывают скошены. Обычно преобразование данных может помочь в решении этой проблемы. В 1960 году Бокс и Кокс предложили метод проверки действенности преобразования данных для получения более однородных значений дисперсий в ячейках. Этот метод позволяет определить, существует ли зависимость между средним в ячейке и стандартным отклонением (величина среднего в ячейке не должна зависеть от стандартного отклонения).

SPSS предоставляет робастную версию метода Бокса-Кокса, которая основывается на диаграмме "разброс по уровням".

SPSS использует логарифм интерквартильного диапазона как меру разброса значений переменной вместо отклонений от среднего. Отсутствие связи между разбросом и средним (типичным значением или медианой) означает, что точки группируются вокруг горизонтальной линии (что соответствует углу наклона, равному 0). Результаты работы метода следует рассматривать как предложение о возможном преобразовании, а не как предписание. Например, если вам предложен показатель степени, равный 0.329, попробуйте преобразовать данные с помощью квадратного корня, поскольку 0.329 достаточно близко к 0.5. Заметьте, что это значение вы получили как оценку, используя выборку. Для маленькой выборки оценка может быть ошибочной. Возможно, вы захотите попробовать несколько преобразований, а затем выбрать для дальнейшего анализа одно из них, используя для этого диаграммы рассеяния или диаграммы "ствол-лист" и наблюдая на них сближение форм внутригрупповых распределений. Вы можете использовать также критерий Ливиня. Подумайте, какое преобразование чаще всего используется в вашей предметной области для подобных измерений. Чтобы получить нижеследующий результат, в диалоговом окне Исследовать нажмите на Сброс для восстановления значений по умолчанию, а затем выберите:

Проверка однородности дисперсии. Для исходных значений численности населения критерий равенства дисперсий Ливиня показывает высокую значимость (F=8.771, при р < 0.005). Для натурального логарифма численности населения гипотеза о равенстве дисперсий не отвергается (F=0.317, при р < 0.902).

Другие модификации критерия Ливиня, основанные на медиане, медиане с скорректированными степенями свободы, а также на усеченном среднем, делают критерий более устойчивым к разным типам "загрязнений" данных. Например, критерий Ливиня, основанный на медиане или усеченном среднем, устойчив к распределениям с тяжелыми хвостами, характерными для распределения Коши.

Диаграмма "разброс по уровням" (разброс численности населения в разных регионах). На диаграмме по вертикальной оси отложен логарифм межквартильного размаха, а по горизонтальной оси — логарифм медианы для шести групп стран. Точка на диаграмме в правом верхнем углу соответствует численности населения в Азиатско-тихоокеанском регионе; на вертикальной оси имеем 11.579, что равно натуральному логарифму межквартильного диапазона (106800); по горизонтальной оси значение 10.992 является логарифмом медианы (59400). Эта точка заметно отдалена от других. Следующая точка с самыми большими координатами на графике (9.250, 10.679) соответствует группе стран ОЭСР.

SPSS сообщает, что наклон линии, проходящей через эти четыре точки, равен 0.780, так что (1-b), предлагаемый показатель степени для преобразования, равен 0.220. Это значение попадает между 0 (логарифмическое преобразование) и 0.5 (корень квадратный). Стоит, наверно, попробовать оба преобразования. Для логарифмического преобразования не имеет значения, используете ли вы десятичный или натуральный логарифм. Будьте готовы проверить расположение точек, поскольку один или два выброса в такой маленькой выборке могут оказать существенное влияние на наклон линии. Закройте рукой точку, соответствующую Азиатско-Тихоокеанскому региону, и проверьте, можно ли провести наклонную линию через оставшиеся 5 точек. Вы увидите, что это возможно.

Диаграмма "разброс по уровням" (логарифм численности населения по регионам). Для построения этой диаграммы были использованы медианы шести групп и межквартильные диапазоны, вычисленные для десятичных логарифмов значений численности населения. Точка для Азиатско-Тихооке-анского региона стоит в правой части графика. В логарифмических единицах ее медиана равна 4.7738, так что натуральный логарифм этого значения (1.563) отложен на горизонтальной оси. Его межквартильный диапазон равен 0.8022, таким образом, -0.220 — значение на вертикальной оси.

Наклон линии, проходящей через эти точки, равен -0.008, что дает показатель степени, равный 1-(-0.008), или 1.008. Он очень близок к 1, и это говорит о том, что никакое преобразование не нужно. Данное заключение согласуется с наблюдениями формы распределения при использовании диаграмм рассеяния, критериев, использующих отношение коэффициента асимметрии к его среднеквадратичной ошибке, и критерия Ливиня.

Быстрая проверка преобразования

Как правило, логарифмическое преобразование помогает симметризовать внутригрупповые распределения и стабилизировать их размах. Поэтому в примерах 3 и 4 исследовались диаграммы для исходных данных о численности населения и для данных в логарифмических единицах. Для вызова этого преобразования использовалось диалоговое окно Вычислить процедуры Преобразовать в Редакторе Данных.

Вместо использования процедуры Преобразовать, можно с помощью процедуры Исследовать нарисовать диаграммы "разброс по уровням", выбрав одно из шести возможных преобразований данных (квадратный корень, натуральный логарифм, обратное корню квадратному, обратное, квадратическое и кубическое). Требуемое преобразование вам нужно задать в диалоговом окне Диаграммы процедуры Исследовать. В группе Разброс по уровням с критерием Ливиня выберите Преобразовать и Натуральный логарифм, после чего запустите процедуру. SPSS выдаст диаграмму с графическим представлениемзависимости медианы и межквартильного диапазона после логарифмического преобразования данных.

Точка, соответствующая Азиатско-тихоокеанскому региону, расположена далеко справа. Натуральный логарифм медианы численности населения (59400) равен 10.992. Межквартильный диапазон вычислен как разность между 25%-м и 75%-м процентилямив логарифмическихединицах. Заметьте, что здесь расположение точек такое же, как на предыдущем графике.

Угол наклона для этих точек составляет -0.01 или почти равен 0, что говорит о малой зависимости разброса от региона.

1 Описываемые здесь способы представления данных подробно рассматриваются в книгах: Дж.Тьюки "Анализ результатов наблюдений", М: Мир, 1981; Ф.Мостеллер, Дж.Тьюки "Анализ данных и регрессия", М: Финансы и статистика, 1982 (в двух выпусках).

2 Эти процентили вычисляются чуть иначе, чем обычные, поэтому и не называются здесь квартилями.

3 Вариационным рядом называется выборка, упорядоченная по возрастанию.




1. Тема код по кодиф
2. тема органов государственной власти в России базируется на определенных принципах выражающих сущность госу
3. Барокова культура в Україні
4. Из Повести временных лет
5. Болезни органов дыхания
6. Лекция 4.2012 Операции с понятиями
7. Кьеркегор Сёрен
8. Лекция 3 Позиционирование и ценности торговой марки Вопрос 1
9. МАСТЕРСКАЯ МЕНЕДЖМЕНТА КОНСАЛТИНГОВАЯ КОМПАНИЯ ТИПОЛОГИЯ ЛИЧНОСТИ MBTI И РУКОВОДСТВО ОРГАНИЗАЦ
10. визвольної боротьби Початок XX ст
11. Реферат- Расчет производительности труда
12. всезнайки Кризис 19 дня ~ страх расставания Кризис несоответствие между возможностями и желаниям
13. общественный организм
14. Василий Теркин А
15. Телеман Георг Филипп
16. Выявление и предупреждение незаконного оборота наркотических средств
17.  Особенности структуры характера у осужденных
18. Кровь эльфов конечно же роман о ведьмаке Геральте
19. тупиков субъектов на которых прекращается цепочка коммуникаций т
20. коробкой находились скульптуры героев сказок