Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

Примерами описания даваемого этой процедурой являются- Подсчет частот и процентов для числовых и ст

Работа добавлена на сайт samzan.net: 2015-07-10

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 17.5.2024

2 Процедура Частоты — средство детального описания данных

Процедура Частоты предлагает много статистик для описания данных. Примерами описания,  даваемого этой процедурой, являются:

• Подсчет частот и процентов — для числовых и строковых переменных.

• Накопленные проценты—для количественных переменных и переменных с упорядоченными категориями.

• Робастные статистики, такие, как медиана, квартили, процентили — для количественных переменных, которые не обязательно подчиняются нормальному распределению.

• Статистики типа среднего и стандартного отклонения — для переменных, которые удовлетворяют предположению о нормальном (или по крайней мере симметричном) распределении.

• Столбиковые диаграммы – для представления переменных с неупорядоченными и упорядоченными категориями и гистограммы - для представления количественных переменных.

В примерах, приведенных в этой главе, использованы данные из файла wold95 Rus.sav. Каждое наблюдение содержит информацию о стране, включающую регион, где она расположена, преобладающую религию, продолжительность жизни женщин, число ежедневно потребляемых калорий и численность населения.

Пример 1: Число наблюдений, проценты, накопленные проценты и столбиковые диаграммы. Для каждого отдельного значения количественных переменных, категориальных переменных, значения которых закодированы числами, и коротких строковых переменных по умолчанию подсчитывается число наблюдений. В примере приведены столбиковые диаграммы для каждой переменной и показано, как категории в столбцах и результаты в отчете могут быть упорядочены по возрастанию или убыванию кодов или частоты встречаемости значений.

Пример 2: дескриптивные статистики, квартили, процентили и гистограммы. Для количественной переменной калории (среднесуточное потребление калорий) вы можете выбрать в диалоговом окне: среднее значение, стандартное отклонение, ошибку среднего, минимальные и максимальные значения. Можно запросить значения 10%-го и 90%-го процентилей и квартилей (25%-го, 50%-го, 75%-го процента-леи), а также гистограмму числа потребляемых калорий с наложенной кривой нормального распределения.

Пример 3: преобразование данных для улучшения оценок. Среднее и стандартное отклонение неприменимы, если распределение сильно асимметрично. Часто симметрия достигается в результате преобразования данных. В данном примере статистики оцениваются для исходных данных до и после их логарифмического преобразования. Разница между оценками значительна. Показано также, как сжать частотную таблицу.

Пример 1:

Число наблюдений, проценты, накопленные проценты и столбиковые диаграммы

По умолчанию для каждого значения числовой или строковой переменной процедура Frequencies сообщает, сколько раз встретились данная величина (частота или число случаев), процент по отношению к выборке в целом и накопленный процент. Частоты наблюдений и проценты позволяют описать данные из любого распределения. Рассматривая значения, найденные для каждой переменной, вы можете идентифицировать ошибки измерения и кодирования или определить значения, которые верны, но сильно отклоняются от других значений в данной выборке.

В данном примере в отчете представлены суммарные результаты для переменных следующих типов:

• Цифр, используемых для кодирования неупорядоченных градаций переменной регион: коды с 1 по 6 представляют Африку, Латинскую Америку и т.д. С каждым кодом сопоставлена своя метка, которая выводится в отчете.

•  Строк, являющихся значениями переменной религия со значениями буддисты, католики и т.д.

• Чисел, являющихся значениями количественной переменной жизнъжен; обо-значают продолжительность жизни женщин, расположены в интервале от 43 до 82 лет.

В примере показана также столбиковая диаграмма для каждой категории. Столбцы и результаты в отчете могут быть упорядочены либо по коду категорий, либо по возрастанию (убыванию) числа наблюдений.

Чтобы запустить выполнение процедуры, выберите в меню:

Статистика

Подытожить

Частоты...

Щелкните правой кнопкой мыши на кнопке Сброс для восстановления значений по умолчанию и затем выберите:

=>Переменные: регион, религия, жизньжен

Диаграммы...

Тип диаграммы

© Столбиковые

Регион или экономическая группа. В первом столбце перечислены метки значений переменной регион. Столбец Частота содержит число появлений каждой градации. В этой выборке из 109-ти стран (наблюдений) 21 страна имеет код 1, обозначающий ОЭСР (Организация экономического сотрудничества и развития), 14 имеют код 2 (Восточная Европа),... 21 -код 6 (Латинская Америка). Процент от размера всей выборки для каждого числа наблюдений указан в столбце Процент. Страны Восточной Европы составляют 12.8% выборки, Центральной Европы — 15.6%. Эти проценты являются полезными описателями, поскольку ни одно значение переменной регион не пропущено. Когда в данных есть пропуски, используйте проценты, указанные в колонке Процент валидных. В этом столбце проценты подсчитываются по отношению к числу наблюдений, для которых значение данной переменной валидно (не пропущено), а не по отношению к общему числу наблюдений.

Для переменных с неупорядоченными категориями основное внимание уделяйте столбцам Встречаемость, Процент, Процент валидных, а индикатор Кумулятивный процент используйте для количественных переменных и переменных с упорядоченными категориями.

Если вы хотите отобразить значения данных вместо их меток, выберите в меню Правка пункт Параметры и затем — закладку Метки в выводе. В этой закладке в разделе Метки в мобильных таблицах выберите пункт Значения в меню Значения переменных в метках (показывать как). В меню Переменные в метках (показывать как) того же диалогового окна имеются три возможности — вы можете установить вывод в подзаголовках таблицы: меток переменных (Метки), их кратких имен (Имена) или и того, и другого (Имена и метки).

Столбиковая диаграмма. Каждой категории в диаграмме соответствует столбец, высота которого пропорциональна числу наблюдений, представленному в колонке Частота таблицы "Регионы или экономические группы". Столбики упорядочены по возрастанию кодов градаций. Другие возможности описаны ниже в разделе "Выбор порядка градаций в отчетах и столбиковых диаграммах" этой главы. Вы можете также отобразить на графике не частоты, а проценты.

Преобладающие религии. Поскольку число наблюдений для некоторых градаций мало (таковы градации индуисты и таоисты), вы, возможно, будете вынуждены исключить эти категории из анализа и отображения. Поскольку переменная религия имеет пропущенное значение для одной из стран (смотрите строку Пропущенные внизу первой колонки), значения в столбцах Процент и Валидный процент немного различаются. SPSS использует все 109 наблюдений для вычисления процентов и 108 наблюдений для вычисления валидных процентов. При вычислении накопленных процентов (столбец Кумулятивный процент) используются валидные проценты; этот столбец не слишком интересен, если у переменной категории не упорядочены.

Столбиковая диаграмма. Категории в диаграмме следуют в том же порядке, что и в таблице с информацией о преобладающей религии. На графике ясно видны слабо заполненные градации.


Продолжительность жизни женщин. Количественная переменная жизнь-жен, значениями которой является средняя продолжительность жизни женщин, имеет 33 различных значения, упорядоченных от 43-х до 82-х лет. В одной из стран продолжительность жизни равна 43-м годам, в четырех странах — 58-ми, в девяти — 75-ти и так далее. Кумулятивный процент представляет собой сумму значений в колонке Валидный процент сверху до текущей строки включительно.

В примере 2 мы увидим, как запросить вывод процентилей. Вы можете самостоятельно оценить процентили по информации, содержащейся в этой таблице, и использовать их для описания любой количественной переменной или переменной с упорядоченными градациями. Например, используя значение накопленного процента 10.1% для 52-х лет, вы можете утверждать, что примерно для 10% стран в этой выборке продолжительность жизни женщин составляет 52 года и меньше. Используя величину 90.8% при 80-ти годах, вы можете сказать, что в 10% стран ожидается, что женщины будут жить 80 лет и больше. Аналогично, найдя 25%, 50% и 75%, вы можете сказать, что первый, второй и третий квартили равны соответственно 66-ти, 74-м и 78-ми годам; 50%-й процентиль (74 года) представляет медиану продолжительности жизни.

В какой из стран продолжительность жизни наибольшая? Чтобы выяснить это, выберите пункт Отбор наблюдений в меню Данные, задайте жизнь-жен > 80 и затем используйте процедуру Подытожить для перечисления названий стран; будут выведены Австралия, Канада, Франция, Финляндия, Греция, Гонконг, Исландия, Израиль, Япония, Нидерланды, Новая Зеландия, Норвегия, Испания, Швеция, Швейцария и Англия.

Столбиковая диаграмма. Значения частот в диаграмме — те же, что и в таблице продолжительности жизни женщин (например, в четырех странах продолжительность жизни составляет 58 лет). Отметим, что столбиковая диаграмма отображает столбцы с числом наблюдений для каждого из имеющихся значений переменной. Гистограмма показывает более сглаженную картину распределения количественной переменной, подобной жизнъжен, поскольку значения накапливаются в интервалах. Гистограмма показана в примере 2.

Распределение переменной жизнъжен не похоже на нормальное: оно несимметрично. Это так называемое скошенное влево распределение, поскольку оно имеет длинный, распространяющийся влево хвост.

Выбор порядка градаций в отчетах и столбиковых диаграммах

По умолчанию SPSS упорядочивает градации номинальной переменной, такой, как регион, по их коду, строковой переменной, такой, как религия, — в алфавитном порядке, числовой переменной, такой, как жизньжен, — по возрастанию числовых значений.   Процедура Frequencies (Частоты) предлагает оба порядка: убывание (по величине или по алфавиту) или возрастание значений. В данном примере значения переменной регион упорядочены по убыванию. Заданный порядок сказывается на таблице и диаграмме.

Чтобы получить приведенные ниже результаты, восстановите в диалоговом окне Частоты значения по умолчанию. Для этого щелкните на кнопке Reset (Восстановить), а затем выберите:

=>Переменные: регион

Диаграммы...

Тип диаграммы

© Столбиковые

Формат...

Упорядочить по

©Убыв. встреч.

Регионы или экономические группы. Сравните эту таблицу с приведенной выше, где Латинская Америка была приведена последней, а Восточная Европа — второй.

Столбиковая диаграмма. Сейчас столбцы в диаграмме упорядочены не по кодам градаций, а в соответствии с числом наблюдений в каждом.


Пример 2:

Дескриптивные статистики, квартили,процентили и гистограммы

Процедура Частоты дает возможность получить более дюжины итожащих статистик. Многие из них применимы, когда данные распределены нормально или, по крайней мере, гистограмма значений переменных симметрична. В частности, среднее, стандартное отклонение, дисперсию, стандартную ошибку среднего, асимметрию и эксцесс следует использовать лишь после того, как вы просмотрите данные и убедитесь, что распределение близко к симметричному и не имеет выбросов и дополнительных горбов. Дескриптивные статистики называются робастными, если результаты вычисления не зависят от того, выполняется ли предположение о нормальности распределения. В этот класс входят: медиана, мода, максимальное значение, размах и процентили (среди них наиболее употребительными являются квартили — 25%-й, 50%-й и 75%-й процентили). В данном примере для количественной переменной калории (среднесуточное потребление калорий) в диалоговом окне можно выбрать:

• Среднее, медиану, стандартное отклонение, ошибку среднего, минимальные и максимальные значения.

•  10%-й и 90%-й процентили, а также квартили (25%-й, 50%-й и 75%-й процентили).

• Гистограмму значений и график нормального распределения (со средним и дисперсией, оцененными по выборке), наложенный на гистограмму. Для количественных переменных гистограмма подходит больше, чем столбиковая диаграмма.

• Подавление частотной таблицы, выдаваемой по умолчанию.

Чтобы получить приведенный ниже результат, в диалоговом окне Частоты нажмите на Сброс для восстановления значений по умолчанию, а а затем выберите:

Статистики. В этой таблице представлены итожащие статистик, которые выдаются по умолчанию.

Чтобы получить нижеследующую таблицу, дважды щелкните где-нибудь в таблице. Если панель лотков (pivoting trays) не видна, то выберите в меню Мобильная:

Мобильная таблица

Поля вращения

Перетащите Статистики с вертикального лотка на горизонтальный; затем выберите в меню Мобильная таблица пункт Транспонировать столбцы и строки.

Статистики. Число валидных случаев показывает, что 75 стран сообщили данные о среднем потреблении жителями калорий. Эта информация пропущена (Missing) для 34-х стран. Среднее число потребляемых калорий составляет 2753.8 кал. Среднее является арифметическим средним. Сколько вы должны съесть, чтобы израсходовать 2753.8 кал? Типичный обед в Макдональдсе содержит 1170 калорий (510 калорий в бигмаке, 450 - в жареном картофеле и 210 -в средней порции кока-колы).

Медиана выборки равна 2653 калориям. В выборке с нечетным числом наблюдений медиана равна наблюдению, находящемуся в середине ряда, если значения данных упорядочены от наименьшего к наибольшему. Когда размер выборки четный, медиана равна среднему от двух находящихся в середине ряда значений. Проще говоря, половина значений в выборке больше, а половина — меньше значения медианы.

Среднее и медиана характеризуют центральную тенденцию, поскольку они описывают центр, середину, наиболее типичное значение в выборке.

Для симметричного распределения (каждая половинка распределения является зеркальным отражением другой) среднее и медиана совпадают. В этом примере среднее и медиана различаются примерно на 100 кал. Означает ли это, что рас-пределениенесимметрично? Чтобы выяснить это, рассмотрите дисперсию значений. Минимальное потребление калорий составляет 1667 кал., максимальное— 3825 кал. Что вы можете сказать о вариабельности данных между двумя экстремумами? Сосредоточены ли данные около среднего или распределены во всем диапазоне? Стандартное отклонение (Std. Deviation) обычно используется как оценка дисперсии, измеряющей степень отличия каждого значения калорий от среднего.

При вычислении стандартного отклонения SPSS подсчитывает разности между каждым значением калорий и средним значением, возводит эти разности в квадрат (это устраняет различие между положительными и отрицательными значениями разностей) и находит среднее квадратов разностей. В соответствии с теорией при вычислении среднего значения мы делим на 74 (n-1), а не на 75(n). Наконец, SPSS вычисляет квадратный корень от этой величины, что приводит к значению, измеренному в тех же единицах, что и калории ( а не в квадратах калорий). Вот эта формула:

Стандартное отклонение здесь равно 567.83. Если откуда-то известно, что распределение калорий нормально,легко подсчитать, что примерно 95% измерений попадают в интервал между средним плюс-минус два стандартных отклонения: от 2754-2х568 до 2754+2х568, т.е. от 1618 до 3890 калорий. Теоретический интервал превышает наш диапазон значений калорий, показывая, что стандартное отклонение выборки больше, чем у нормального распределения.

В то время как стандартное отклонение измеряет разброс данных в выборке, стандартная ошибка среднего используется для оценки точности, с которой среднее значение популяции оценивается по выборке. Некоторые называют эту статистику стандартным отклонением выборочного распределения среднего — по существу, значениями распределения являются средние бесконечного числа выборок размера n, взятые случайным образом из одной и той же популяции. Это равно стандартному отклонению выборки, поделенному на квадратный корень из числа наблюдений в выборке (из размера выборки). Для этой выборки стандартная ошибка равна 65.6 (568/8.66). Стандартная ошибка может быть использована для построения доверительного интервала, включающего среднее популяции: 2754 ± (2х66), что дает в результате интервал от 2622 до 2886 калорий.

Медиана является робастной статистикой, делящей значения данных на две равные группы; процентили и квантили делают то же самое, но делят выборку на большее количество частей. Значение медианы в большей степени зависит от положения значений в упорядоченнойвыборке, чем от точного значения каждого отдельного наблюдения (как для среднего значения). Это же верно и для про-центилей.

• Процентиль — это точка на оси значений, ниже которой оказывается обозначенный процент наблюдений. Например, ниже 25%-го процентиляраспо-лагаются 25% наблюдений, а выше — 75% наблюдений).

• Первый квартиль, или 25%-й процентиль, равен медиане всех значений, лежащих слева от медианы.

• Второй квартиль равен медиане.

• Третий квартиль, или 75%-й процентиль, равен медиане всех значений, лежащих справа от медианы.

В нашей выборке в 10% стран суточное потребление калорий меньше 2030, а жители других 10% стран потребляют более 3566 калорий. Жители стран, попавших в центральную 50%-ю часть распределения (между первым и третьим квартилями) ежедневно потребляют от 2247 до 3236 калорий.

Гистограмма. SPSS использует среднее по выборке и стандартное отклонение для построения кривой нормального распределения, наложенной на гистограмму значений калорий. Заметьте, что столбцы гистограммы слева и справа выше, чем в центре. Следовательно, хвосты у распределения данной выборки больше, чем у нормального распределения, что согласуется с заключением о величине стандартного отклонения, полученным ранее.

Пример 3:

Преобразование данных для улучшения оценок

Среднее и стандартное отклонение полезны для описания данных, подчиняющихся нормальному распределению, но могут ввести в заблуждение, если распределение сильно асимметрично, имеет выбросы или представляет собой смесь распределений.

Допустим, вы хотите оценить среднюю численность населения. Явится ли среднее выборки хорошей оценкой? Взгляните на гистограмму значений численности населения (смотрите рисунок ниже). Вы видите, что гистограмма несимметрична: у нее длинный хвост справа. Если выполнить логарифмирование значений численности населения и нарисовать гистограмму преобразованных значений (смотрите на том же рисунке диаграмму справа),то гистограмма будет значительно более симметричной, чем для исходных данных.

В этом примере оценки средних для исходных и для преобразованных значений численности населения отличаются весьма значительно: до преобразования среднее превышает 47 миллионов, после — примерно равно 13 миллионам. Доверительный интервал для преобразованных данных значительно меньше, чем для непреобразованных. Статистики вычислены по логарифмированным значениям численности населения с последующим обратным преобразованием результата к исходным единицам. Ниже при обсуждении частотных таблиц мы опишем, как строить подобные доверительные интервалы. Заметьте: хотя доверительный интервал для исходных данных очень широк, он не содержит медиану выборки (медиана равна 10.4 миллиона человек).

В диалоговом окне Частоты нажмите на кнопку Reset для установки значений по умолчанию, а затем выберите:

Щелкните дважды кнопкой мыши на статистической таблице. Затем выберите в меню мобильной таблицы:

Мобильная таблица

Транспонировать строки и столбцы

Переместите иконку Статистики из горизонтального лотка в вертикальный.

Гистограмма (Численность населения в тысячах). Даже если исключить страны с очень большим населением (Индия - более 900 миллионов человек, Китай - более 1 миллиарда человек),расположенные на гистограмме справа, эта гистограмма все равно останется сильно асимметричной. Для столь асимметричных распределений статистики, предполагающие, что данные имеют нормальное распределение, могут ввести в заблуждение.

Гистограмма (Десятичный логарифм численности населения). Эта гистограмма отображает значения численности населения в логарифмических величинах. Она, без сомнения, более симметрична, чем гистограмма непреобразованных данных.

Статистики. Среднее и медиана для преобразованных значений численности населения отличаются весьма значительно (более 47 миллионов человек по сравнению с 10 миллионами). Заметьте, что обе величины являются мерами центральной тенденции. Если вы выведете таблицу, то увидите, что численность населения 79% стран меньше среднего. Оценка среднего очень чувствительна к экстремальным значениям в правом хвосте распределения.

Коэффициент асимметрии измеряет симметричность распределения выборки. Эксцесс измеряет его заостренность. (Пик нашего эмпирического распределения ниже или выше, чем у нормального распределения? А его хвосты короче или длиннее, чем у нормального?) Эти статистики центрированы (теоретически для нормального распределения они равны нулю). Однако, даже для выборки из нормального распределения наблюденные значения статистик не обязательно равны нулю. Насколько большим или маленьким должно быть значение этой статистики, чтобы вы отклонили предположение о нормальном распределении? Для проверки нормальности используют отношение статистики к ее стандартной ошибке. Вы можете отклонить предположение о нормальности, если это отношение меньше -2 или больше +2 . Большое положительное значение коэффициента асимметрии означает, что у распределения длинный хвост справа; большое отрицательное значение указывает на длинный хвост слева.

Большое положительное значение эксцесса означает, что хвосты нашего распределения длиннее, чем у нормального; большое отрицательное значение эксцесса указывает на короткие хвосты; при этом распределение становится похожим на равномерное распределение (bох-shареd). Поскольку коэффициент асимметрии и эксцесс чувствительны к аномалиям в данных, вам нужно исследовать их с помощью гистограммы, диаграммы рассеяния или диаграммы "ствол-лист".

Для значений численности населения в рассматриваемой выборке отношение коэффициента асимметрии к его стандартной ошибке равно 28.5, из чего мы заключаем, что распределение сильно скошено вправо. Отношение для эксцесса (101.6) показывает, что хвосты нашего распределения намного длиннее, чем у нормального.

Среднее (4.114) и медиана (4.017) для логарифмированных данных намного ближе друг к другу, чем для исходных данных. Отношения значений асимметрии и эксцесса, деленные на их стандартные ошибки, равны теперь 1.1 и 1.3 соответственно (или 0.250/0.231 и 0.584/0.459)

Принимая во внимание, что эти значения теперь меньше +2 и форма гистограммы почти симметрична, для подсчета средней численности населения вы можете использовать среднее для данных после логарифмического преобразования. Выборочное среднее в логарифмических единицах равно 4.114. Используя калькулятор, возведите 10 в эту степень. Оценка среднего значения в исходных единицах равна 13001.70, или приблизительно 13 миллионам человек.

Для построения 95%-го доверительного интервала для среднего вычислите по формуле (в ней Mean — среднее, a Std.Error— ошибка среднего):

где значение t можно найти в таблице процентилей t-распределения. Ищите в таблице значение, соответствующее n-1, или 108, степеням свободы.




1. Министерство финансов Республики Башкортостан 1
2. ЛАБОРАТОРНАЯ РАБОТА 15ИССЛЕДОВАНИЕ ДИСКРЕТНОГО КАНАЛА СВЯЗИ С РАСШИРЕННЫМ СПЕКТРОМЧасть 2 Исследование п
3. Маркетинг1
4. Экономическая характеристика классификация и методы измерения объемов услуг Услуга связи ~ это резул
5. 30 082012г Протокол 1
6. Православное воспитание.html
7. 1Бухгалтерский учет представляет собой упорядоченную систему сбора регистрации и обобщения информации в де
8. Київський політехнічний інститут ТЕОРЕТИЧНА МЕХАНІКА
9. 2003 ВВР 2004 N 1718 ст
10. Золотые страницы
11. возможность установления важных обстоятельств ДТП преступления против личности против собственности в те
12. Реферат- Поземельные отношения в средневековой Англии и их правовое регулирование
13. Реферат- Типичные ошибки в бухгалтерском балансе
14. Фонд социального страхования РФ
15.  Lerning objectives The first prt of the course ims t teching students to- pproch literry text understnd nd pprecite it; operte with the mjor notions importnt for literry nly
16. Болезни цивилизации
17. Лабораторная работа ’ 6 Исследование характеристик центробежного вентилятора 1.html
18. О Колодяжного М
19. Национальный исследовательский Томский политехнический университет УТВЕРЖДАЮ Декан ГФ В
20. Я С какой целью устанавливаются УКСПС на двухпутных участках железнодорожного пути общего пользования