Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Лабораторная работа №1. Визуальный анализ статистических данных
Статистические данные, как правило, представляются в виде числовых таблиц больших размеров. Если пытаться анализировать данные, просматривая таблицу, потребуются большие затраты времени и, чаще всего, целый ряд свойств данных останется не выявленным, поскольку представление информации в виде чисел лишено наглядности и не дает конкретного визуального указания о наличии этих свойств. Более информативно для анализа использование графического отображения данных, например гистограмм. С помощью табличного процессора Microsoft Excel, либо отдельного статистического пакета программ (например, «Статистика») можно с большей экономией времени построить гистограмму и получить информацию для визуального анализа данных.
Использование гистограмм для анализа данных
Гистограмма представляет собой столбиковую диаграмму частот. По горизонтальной оси диаграммы откладывают измеренные значения из набора данных, по вертикальной частоту встречаемости этих значений. Высота каждого столбца показывает частоту (количество) значений из набора данных, принадлежащих соответствующему интервалу, равному ширине этого столбца.
Визуальный анализ гистограмм позволяет выявить характер распределения данных и ответить на следующие шесть вопросов:
Статистический пакет «Анализ данных» устанавливается кнопкой Office команда «Параметры Excel» - Надстройки.
Задание 1. |
Построить и проанализировать гистограмму процентных ставок ссуд под залог недвижимости. |
В таблице 1 представлены размеры фиксированной процентной ставки ссуд под залог недвижимости, предоставляемых на 30 лет ипотечными компаниями.
Таблица 1. Процентные ставки ссуд под залог недвижимости
Кредитор |
Процентная ставка |
Кредитор |
Процентная ставка |
Кредитор |
Процентная ставка |
1 |
7,000 |
16 |
7,125 |
31 |
6,875 |
2 |
6,875 |
17 |
7,125 |
32 |
6,500 |
3 |
6,875 |
18 |
7,000 |
33 |
6,875 |
4 |
6,750 |
19 |
7,000 |
34 |
7,000 |
5 |
6,875 |
20 |
7,000 |
35 |
6,875 |
6 |
7,250 |
21 |
6,875 |
36 |
7,000 |
7 |
6,875 |
22 |
6,875 |
37 |
7,250 |
8 |
7,000 |
23 |
6,500 |
38 |
7,000 |
9 |
6,875 |
24 |
6,500 |
39 |
6,625 |
10 |
7,000 |
25 |
6,500 |
40 |
6,875 |
11 |
7,250 |
26 |
7,250 |
41 |
6,625 |
12 |
7,000 |
27 |
6,750 |
42 |
6,625 |
13 |
7,000 |
28 |
6,875 |
43 |
6,250 |
14 |
6,125 |
29 |
6,875 |
44 |
5,875 |
15 |
6,750 |
30 |
6,875 |
45 |
7,000 |
Чтобы построить гистограмму в Excel с помощью статистического пакета Анализ данных, выполните следующие действия.
Замечание. Если не указывать параметр Интервал карманов, определяющий ширину столбца, то программа Excel устанавливает равные интервалы автоматически. Количество интервалов приближенно равно квадратному корню из числа значений данных.
Excel разместит на листе таблицу распределения частот и гистограмму как показано ниже.
Карман |
Частота |
5,875 |
1 |
6,104167 |
0 |
6,333333 |
2 |
6,5625 |
4 |
6,791667 |
6 |
7,020833 |
25 |
Еще |
6 |
Таблица распределения частот включает исходные карманы. Значения карманов указывают правые границы интервалов. Например, карману со значением 6,5625 соответствует интервал (6,333333; 6,5625]. В данный интервал попали 4 значения процентных ставок. На гистограмме Excel размещает значения карманов по оси Х в середине интервалов, а не у отметок, разделяющих интервалы.
Для того, чтобы гистограмма была удобочитаемой и имела обычный вид, проведите форматирование гистограммы следующим образом.
Карман |
Частота |
5,9 |
1 |
6,1 |
0 |
6,3 |
2 |
6,6 |
4 |
6,8 |
6 |
7,0 |
26 |
Еще |
6 |
Анализ гистограммы
Выявление нормального распределения
Обычно в статистике предполагают, что распределение данных приблизительно соответствует нормальному. Это объясняется тем, что многие стандартные методы статистического анализа, например, вычисление доверительных интервалов или проверка статистических гипотез, требуют нормального распределения данных (хотя бы приблизительно). Зная свойства нормального распределения и изучив внимательно гистограмму, важно определить, являются ли данные нормально распределенными.
Теоретически нормальное распределение представляет собой гладкую гистограмму в форме колокола без случайных отклонений. Кривая нормального распределения задается функцией плотности распределения:
,
где a и σ2 параметры распределения: a математическое ожидание; σ2 дисперсия данной случайной величины. Для идеального набора нормально распределенных данных такая кривая имеет следующий вид:
Как видим, большинство чисел сконцентрировано в средней части диапазона значений (центр колокола a), а оставшиеся значения с затуханием симметрично располагаются по обе стороны от вершины колокола. Величина σ характеризует ширину (масштаб) колокола.
Фактически существует много кривых нормального распределения, форма которых напоминает симметричный колокол. Эти кривые отличаются друг от друга расположением центра и масштабом σ. Ниже показаны кривые нормального распределения, построенные в разных масштабах.
Поскольку реальные наборы нормально распределенных данных носят случайный характер, то они не имеют идеальную степень гладкости гистограмм и содержат некоторые случайные отклонения от теоретической кривой.
|
Построить гистограммы для двух различных выборок объемом по 100 значений каждая из нормально распределенного набора данных. |
Для получения выборки из нормально распределенного набора данных используйте статистический пакет Анализ данных. Выполните следующие действия.
Сравнение этих двух гистограмм показывает, насколько случайной может быть форма распределения при ограниченном объеме выборки. Значительное уменьшение объема выборки приводит к увеличению случайности и может быть недостаточно для представления полной картины распределения.
Задание 3. |
Построить гистограммы для двух различных выборок объемом по 15 значений каждая из нормально распределенного набора данных. |
Ассиметричное распределение и преобразование данных
В реальной жизни не все наборы данных подчиняются нормальному распределению. В экономике часто можно встретить ассиметрию в наборах данных. Ассиметричное распределение характеризуется тем, что значения данных на одной стороне от вершины кривой (самого высокого столбца гистограммы) затухают быстрее, чем на другой. Реальные ассиметрично распределенные данные, также как и нормально распределенные, имеют некоторые случайные отклонения.
Поскольку наиболее распространенные статистические методы требуют, чтобы данные были хотя бы приблизительно нормально распределенными, то применение методов к ассиметричным данным приводит к неточным или просто неверным результатам. Один из способов устранения ассиметрии заключается в использовании такого преобразования данных, которое переводит ассиметричное распределение в более симметричное. Наиболее распространенным типом преобразования данных в экономике является логарифмирование, которое можно использовать только для положительных значений, сконцентрированных около нуля (при движении по горизонтальной оси гистограммы вправо количество значений постепенно уменьшается). Логарифмирование приводит к «растягиванию» на числовой оси малых значений и, наоборот, «стягивает вместе» большие значения, уменьшая разницу между ними. Для правильной интерпретации результата логарифмирования необходимо учитывать, что равным расстояниям на логарифмической шкале соответствуют на исходной шкале равные процентные увеличения, а не просто равные увеличения значений. В преобразованиях данных можно использовать логарифмы по основанию 10 или натуральные логарифмы. В экономике натуральный логарифм часто используют при вычислении сложных процентов, темпов роста, экономической эластичности.
Задание 4. |
Построить две гистограммы: гистограмму исходных значений и гистограмму логарифмов значений. Сравнить форму распределения данных на этих гистограммах. |
В таблице 2 содержатся данные об активах коммерческих банков.
Таблица 2. Активы коммерческих банков
Банк |
Активы, млрд. дол. |
Банк |
Активы, млрд. дол. |
Банк |
Активы, млрд. дол. |
1 |
336 |
18 |
60 |
35 |
21 |
2 |
311 |
19 |
58 |
36 |
21 |
3 |
265 |
20 |
56 |
37 |
21 |
4 |
262 |
21 |
55 |
38 |
20 |
5 |
260 |
22 |
48 |
39 |
19 |
6 |
157 |
23 |
47 |
40 |
19 |
7 |
140 |
24 |
45 |
41 |
18 |
8 |
116 |
25 |
38 |
42 |
17 |
9 |
114 |
26 |
36 |
43 |
15 |
10 |
97 |
27 |
31 |
44 |
14 |
11 |
89 |
28 |
30 |
45 |
14 |
12 |
86 |
29 |
30 |
46 |
14 |
13 |
75 |
30 |
29 |
47 |
13 |
14 |
74 |
31 |
27 |
48 |
9 |
15 |
71 |
32 |
25 |
49 |
7 |
16 |
69 |
33 |
23 |
50 |
4 |
17 |
65 |
34 |
23 |
Бимодальное распределение
В некоторых ситуациях набор данных может состоять из двух или нескольких отчетливо различающихся между собой групп. На гистограмме таким ситуациям соответствуют разрывы между соседними группами столбцов. Если на гистограмме четко видны две отдельные группы, то это соответствует бимодальному распределению. Наличие бимодального распределения требует серьезного анализа. Прежде всего, следует выявить причины наличия двух групп. Возможно, интерес представляет только одна группа, поэтому другую группу можно исключить из рассмотрения. А может быть, необходимо изучить обе группы отдельно и внести некоторые уточнения, чтобы учесть факт имеющегося различия.
Задание 5. |
Построить и проанализировать гистограмму стоимости использованного сырья двумя менеджерами. |
В таблице 3 содержатся затраты на сырье двумя менеджерами.
Таблица 3. Стоимость использованного сырья
Менеджер |
Стоимость сырья, дол. |
Менеджер |
Стоимость сырья, дол. |
Менеджер |
Стоимость сырья, дол. |
1 |
1459 |
2 |
1142 |
2 |
1131 |
1 |
1502 |
2 |
1127 |
2 |
1108 |
1 |
1492 |
1 |
1457 |
2 |
1135 |
2 |
1120 |
1 |
1379 |
1 |
1416 |
1 |
1483 |
1 |
1407 |
2 |
1170 |
2 |
1136 |
2 |
1105 |
1 |
1417 |
2 |
1123 |
2 |
1126 |
1 |
1381 |
1 |
1542 |
1 |
1434 |
2 |
1248 |
1 |
1484 |
2 |
1127 |
2 |
1171 |
1 |
1379 |
1 |
1457 |
1 |
1471 |
1 |
1406 |
2 |
1109 |
2 |
1142 |
1 |
1487 |
2 |
1236 |
2 |
1161 |
2 |
1138 |
2 |
1188 |
2 |
1135 |
1 |
1529 |
1 |
1512 |
1 |
1500 |
Выбросы
При анализе гистограмм иногда в данных можно наблюдать выбросы (сильно отклоняющиеся значения), т.е. такие значения, которые либо слишком велики, либо слишком малы. Существуют два вида выбросов: ошибки и корректные, но «отличающиеся» значения данных.
С ошибками справиться легко нужно просто отредактировать значение. Например, если значение объема продаж $1597,15 записано как $159715 (без десятичной точки), то оно будет сильно отличаться от остальных значений на гистограмме. В этом случае нужно перепроверить данные, найти ошибку и исправить это значение.
Более сложной является проблема выбросов корректных данных. Если есть убедительное подтверждение того, что выбросы не соответствуют изучаемым данным, то их можно просто удалить и анализировать оставшиеся более согласованные между собой данные. Например, в наборе данных относительно доходов денежного рынка могут появиться несколько значений доходов фондов, не облагаемых налогом. Если цель исследования состоит в анализе рыночной ситуации для обычных фондов, облагаемых налогом, то эти выбросы лучше исключить. При отсутствии достаточно обоснованного аргумента для исключения выбросов можно выполнить два различных анализа: один с учетом выбросов, другой с исключением их. В лучшем случае может оказаться, что наличие выбросов не имеет существенного значения. Если два анализа дадут разные результаты, то выводы могут быть менее определенными и неоднозначными. В современной статистике в настоящее время разрабатываются устойчивые методы, в которых применяется мощный вычислительный аппарат для учета наличия выбросов.
Задание 6. |
Построить гистограмму процентного изменения общих расходов на телевизионную рекламу. Проанализировать выбросы. |
В таблице 4 приведены данные процентного изменения общих расходов на телевизионную рекламу в 1994 г. по сравнению с 1993 г.
Таблица 4. Изменение общих расходов на телевизионную рекламу
Рекламодатель |
Изменение расходов на телерекламу, % |
Рекламодатель |
Изменение расходов на телерекламу, % |
1 |
43,2 |
14 |
-22,7 |
2 |
27,5 |
15 |
73,5 |
3 |
77,9 |
16 |
14,0 |
4 |
201,0 |
17 |
16,5 |
5 |
16,7 |
18 |
217,3 |
6 |
54,5 |
19 |
31,4 |
7 |
47,7 |
20 |
42,4 |
8 |
104,4 |
21 |
2353,7 |
9 |
65,7 |
22 |
28,5 |
10 |
66,8 |
23 |
16,4 |
11 |
33,3 |
24 |
684,0 |
12 |
65,9 |
25 |
12,7 |
13 |
44,7 |
Обратите внимание! Наличие выброса на гистограмме справа (для компании №21 увеличение расходов составляет колоссальное число 2353,7%) привело к тому, что почти все компании (22 компании) попали в один столбец гистограммы. Такая гистограмма не очень полезна, т.к. нельзя увидеть подробную картину распределения процентных изменений в других компаниях.
Обратите внимание! Как видно из гистограммы, большинство деталей все еще скрыто из-за наличия на этот раз другого выброса, равного 684,0% (компания №24).
Обратите внимание! В полученной гистограмме большинство компаний сосредоточено в двух столбцах. Можно картину распределения сделать более наглядной, если построить гистограмму с более узкими столбцами. Для этого надо уменьшить интервал, определяющий ширину столбца. В случае явного задания интервалов для облегчения анализа лучше использовать числа, кратные 2, 5, или 10.
Обратите внимание! Хотя в полученной гистограмме после исключения двух выбросов есть еще два выброса более 200% (компании №4 и №18), можно, наконец, увидеть, что распределение изменений расходов на телерекламу для оставшихся рекламодателей является приблизительно нормальным, с центром около 40%.
Контрольные вопросы
Лабораторная работа №2. Обобщающие показатели одномерного набора данных
Статистический пакет Анализ данных включает в себя два инструмента для анализа одномерного набора данных: Описательная статистика и Ранг и персентиль. С помощью инструмента Описательная статистика рассчитываются показатели, характеризующие типические значения, изменчивость и ассиметрию данных. Инструмент Ранг и персентиль создает таблицу исходных данных, упорядоченных в соответствии с порядковыми числами (рангами) и персентилем.
Использование инструмента анализа Описательная статистика
Задание 1. |
Определить обобщающие характеристики для анализа цен 15 объектов. |
В таблице 1 представлены цены 15 объектов.
Таблица 1. Цены объектов
Объект |
Цена, дол. |
Объект |
Цена, дол. |
Объект |
Цена, дол. |
1 |
26,0 |
6 |
38,0 |
11 |
43,6 |
2 |
31,0 |
7 |
39,6 |
12 |
44,8 |
3 |
37,4 |
8 |
31,2 |
13 |
40,6 |
4 |
34,8 |
9 |
37,2 |
14 |
41,8 |
5 |
39,2 |
10 |
38,4 |
15 |
45,2 |
Форматирование таблицы с выходными данными
Цена |
|
Среднее |
37,92 |
Стандартная ошибка |
1,39 |
Медиана |
38,4 |
Мода |
#Н/Д |
Стандартное отклонение |
5,38 |
Дисперсия выборки |
28,94 |
Эксцесс |
0,30 |
Асимметричность |
-0,73 |
Интервал |
19,2 |
Минимум |
26 |
Максимум |
45,2 |
Сумма |
568,8 |
Счет |
15 |
Наибольший(4) |
41,8 |
Наименьший(4) |
34,8 |
Уровень надежности(90,0%) |
2,45 |
Интерпретация результатов
Задание 2. |
Определить модальный интервал. |
По данным Таблицы 1 в файле Описательная статистика.xls на Листе1 постройте гистограмму для диапазона данных A1:A16, включая метку. Интервал входных значений задайте явно равным 5. Нижнюю границу диапазона входных значений примите равной 25, а верхнюю границу равной 50. Значения карманов вместе с меткой Карман расположите в ячейках F1:F7. Выведите гистограмму вместе с таблицей распределения частот в область H1:O10. Укажите величину модального интервала.
K < 0,5 скошено влево; 1 K 1 приблизительно симметрично; K > 1 скошено вправо.
В нашем примере (см. гистограмму) данные приблизительно симметричны с небольшим отрицательным отклонением (скос влево).
Среднее: типическое значение для количественных данных
Среднее можно интерпретировать как равномерное распределение суммы всех значений между элементарными единицами совокупности. Таким образом, если каждое значение из набора данных заменить средним, то общая сумма не изменится. Это свойство среднего полезно в тех ситуациях, когда необходимо планировать общую сумму для большой группы. В этом случае сначала вычисляют среднее для выборки данных из этой группы. Затем полученное среднее умножают на количество элементов в большой группе. В результате получают оценку или прогноз суммы для большей по размеру совокупности.
Задание 3. |
Определить количество бракованных изделий в дневном выпуске. |
Каждая партия изделий компании содержит 1000 изделий. В дневном выпуске произведено 253 партии. Для проведения контроля качества изделий была случайным образом взята выборка, включающая 10 партий. Число бракованных изделий в каждой партии составило: 3, 8, 2, 5, 0, 7, 14, 7, 4, 1. Определить, какое количество бракованных изделий можно ожидать в дневном выпуске, состоящем из 253 000 изделий.
Замечание. При расчете среднего воспользуйтесь статистической функцией СРЗНАЧ.
Задание 4. |
Определить средний балл результатов обучения. |
Предположим, что в университете каждой дисциплине, в зависимости от ее важности, присваивается определенное количество очков. Система оценок включает оценки от 1,0 (незачет) до 5,0 (отлично). Студент в конце семестра имеет результаты, указанные в таблице 2. Определить средний балл студента.
Таблица 2. Оценки студента за семестр
Дисциплина |
Очки |
Оценка |
Статистика |
5 |
4,7 |
Экономика |
5 |
4,3 |
Маркетинг |
4 |
4,5 |
Спецкурс |
1 |
3,8 |
В данном задании элементы данных (дисциплины) нельзя рассматривать как равноценные. В этом случае целесообразно не просто усреднить оценки, а вычислить взвешенное среднее, которое позволяет учесть степень важности (вес) каждой дисциплины. Веса обычно представляют собой положительные числа, сумма которых равна 1. Формула для вычисления взвешенного среднего с учетом весов имеет следующий вид.
Взвешенное среднее =
где 1, 2,…, n соответствующие веса, сумма которых равна 1. Для нашего примера веса определяются делением количества очков по каждой дисциплине на общее количество очков (n=15).
В появившемся диалоговом окне включите опцию в строке выше и щелкните на кнопке ОК. Теперь выделите ячейку F8 и вычислите взвешенное среднее, используя из категории Полный алфавитный перечень функции Excel СУММПРОИЗВ и СУММ. Формула вычисления имеет следующий вид: =СУММПРОИЗВ(Очки;Оценка)/СУММ(Очки). Уменьшите разрядность результата до двух десятичных знаков после запятой. Вы получите средневзвешенное значение, равное 4,45.
Как видите, результат среднего ниже средневзвешенного, т.к. не учитывает важность дисциплин. Тем не менее, низкая оценка за Спецкурс незначительно повлияла на средний балл студента, потому что вес этой дисциплины мал (всего 1 очко). Средний балл мог оказаться существенно малым, если бы студент получил низкие оценки по экономическим дисциплинам!
Медиана: типическое значение для количественных и порядковых данных
Медиана располагается в центре данных и дает представление о списке значений. Чтобы найти медиану, надо предварительно упорядочить данные в порядке возрастания, а затем определить среднюю точку. Тогда половина элементов в наборе будет меньше значения в средней точке, а вторая половина больше.
Медиану можно также определить, проставив соответствующие ранги. Ранги связывают числа (номера) 1, 2, 3, …, n со значениями данных таким образом, что наименьшее значение имеет ранг 1, следующее по величине значение ранг 2 и т.д. до наибольшего значения, которое имеет ранг n.
Если все n значений были отсортированы и проставлены ранги, то при определении медианы возможны два варианта.
1). Если n нечетное число, то медианой является значение с рангом (n+1)/2.
2). Если n четное число, то медианой является среднее двух значений, расположенных в середине ряда и имеющих ранги (n/2) и (n/2+1).
Замечание 1. Значениями порядковых (нечисловых) данных являются категории, которые можно упорядочивать. При четном числе категорий медиана, в зависимости от двух расположенных в середине ряда значений, вычисляется по-разному.
Если два средних значения представляют различные категории, то обе эти категории будут медианами. Например, для списка рейтингов облигаций А, ААА, В, АА, ААА, В медиана вычисляется следующим образом:
медиана (А, ААА, В, АА, ААА, В) = медиана (ААА, ААА, АА, А, В, В) = АА и А.
Если два средних значения представляют одну и ту же категорию, то эта категория является медианой. Например, для списка рейтингов облигаций А, В, АА, А медиана равна:
медиана (А, В, АА, А) = медиана (АА, А, А, В) = А.
Замечание 2. Поясним отличие медианы от среднего. При нормальном распределении данных значения медианы и среднего близки между собой, поскольку нормальное распределение симметрично и имеет четко выраженную среднюю точку. Однако для реальных нормально распределенных данных, поскольку всегда присутствует некоторая случайность, медиана и среднее несколько отличаются друг от друга, т.к. определяются по-разному. Для нормально распределенных данных среднее является наиболее эффективной характеристикой.
Если набор данных имеет ассиметричное распределение, то медиана и среднее могут существенно различаться. Обычно среднее по отношению к медиане сдвинуто в направлении более длинного хвоста или в направлении выброса, т.к. среднее учитывает такие экстремальные наблюдения, в то время как для медианы важно, по какую сторону от нее лежит то или иное значение. Медиана является хорошей характеристикой ассиметричного распределения. Кроме того, медиана полезна при наличии выбросов, т.к. она устойчива к их влиянию.
|
Определить медиану процентного изменения стоимости акций на момент открытия торгов в день обвала фондового рынка. |
В таблице 3 приведены данные о падении стоимости акций 29 промышленных компаний в первый день кризиса биржи в октябре 1987 года.
Таблица 3. Падение акций при открытии торгов
Фирма |
Изменение стоимости, % |
Фирма |
Изменение стоимости, % |
Фирма |
Изменение стоимости, % |
1 |
-4,1 |
11 |
-0,9 |
21 |
-15,7 |
2 |
-5,1 |
12 |
-3,5 |
22 |
-12,3 |
3 |
-4,5 |
13 |
-10,5 |
23 |
-9,6 |
4 |
-5,4 |
14 |
-7,2 |
24 |
-12,0 |
5 |
-4,0 |
15 |
-8,9 |
25 |
-12,4 |
6 |
-11,6 |
16 |
-6,8 |
26 |
-8,6 |
7 |
-4,0 |
17 |
-2,1 |
27 |
-11,4 |
8 |
-3,0 |
18 |
-17,2 |
28 |
-10,8 |
9 |
-4,4 |
19 |
-15,7 |
29 |
-8,6 |
10 |
-9,3 |
20 |
-8,9 |
Задание 6. |
Определить медиану и среднее для служащих сферы общественного питания. |
В таблице 4 содержатся данные о количестве служащих в 10 фирмах общественного питания.
Таблица 4. Количество служащих в фирмах общественного питания
Фирма |
Количество служащих |
Фирма |
Количество служащих |
1 |
471000 |
6 |
33000 |
2 |
183000 |
7 |
30000 |
3 |
133000 |
8 |
51700 |
4 |
90000 |
9 |
26170 |
5 |
44000 |
10 |
38000 |
Использование инструмента анализа Ранг и персентиль
Персентили это характеристики набора данных, которые определяют ранги элементов в виде процентов таким образом, что наименьшему значению элемента данных соответствует персентиль, равный 0%, наибольшему 100%, медиане 50% и т.д. Промежуточные значения имеют персентили, расположенные с шагом 100/(n1). Персентиль выражается в тех же единицах, что и набор данных. Например, 60-й персентиль эффективности продаж равен $385000 и характеризует деятельность определенного агента по продажам. Это означает, что приблизительно 60% других агентов имеют результаты ниже, чем у данного агента, а 40% агентов имеют более высокие результаты.
Персентили играют важную роль в качестве опорных характеристик данных. Чтобы обобщить основные черты распределения, достаточно знать пять базовых значений персентилей.
Нижний и верхний квартили определяют границы половины данных, расположенных в центре, а положение медианы относительно квартилей дает грубое представление о наличии или отсутствии ассиметрии. В инструменте Описательная статистика, как правило, опции К-ый наименьший задается ранг нижнего квартиля, а опции К-ый нибольший ранг верхнего квартиля. Ранги квартилей определяются по следующим формулам:
Ранг нижнего квартиля = (1+Целое((n+1)/2))/2;
Ранг верхнего квартиля = (n+1) Ранг нижнего квартиля,
где Целое означает функцию выделения целой части.
Задание 7. |
Определить пять базовых показателей для набора данных о размерах выплат руководителям финансовых фирм. |
В таблице 5 содержится список о размере выплат (заработная плата и премия) руководителям финансовых компаний (n=30).
Таблица 5. Выплаты руководителям финансовых компаний
Фирма |
Зарплата и премия, дол. |
Фирма |
Зарплата и премия, дол. |
Фирма |
Зарплата и премия, дол. |
1 |
1723000 |
11 |
1075000 |
21 |
1937000 |
2 |
1294000 |
12 |
1000000 |
22 |
3200000 |
3 |
1119000 |
13 |
901000 |
23 |
2063000 |
4 |
6910000 |
14 |
1936000 |
24 |
1726000 |
5 |
1960000 |
15 |
1458000 |
25 |
1393000 |
6 |
896000 |
16 |
3077000 |
26 |
1877000 |
7 |
746000 |
17 |
4840000 |
27 |
1674000 |
8 |
3273000 |
18 |
1190000 |
28 |
1537000 |
9 |
2101000 |
19 |
481000 |
29 |
743000 |
10 |
1384000 |
20 |
1040000 |
30 |
1242000 |
В полученной таблице выделите столбец со значениями персентилей (диапазон F2:F31) и уменьшите разрядность до одного знака после запятой.
Как видим из диаграммы, значение медианы находится приблизительно посередине между квартилями, что соответствует симметричному распределению данных.
Контрольные вопросы
а) С четным количеством значений?
б) С нечетным количеством значений?
а) Количественных данных?
б) Порядковых категорийных данных?
в) Категорийных данных, которые нельзя содержательно упорядочить?
а) При нормальном распределении данных?
б) При планировании общей суммы?
в) При ассиметричном распределении, когда общая сумма не важна?
Лабораторная работа №3. Характеристики рассеяния данных
Одна из причин проведения статистического анализа заключается в необходимости учитывать влияние на исследуемый экономический показатель случайных факторов (возмущений), которые приводят к разбросу (рассеянию) данных. Решение задач, в которых присутствует разброс данных, связано с риском, поскольку даже при использовании всей доступной информации нельзя точно предугадать, что же произойдет в будущем. Для адекватной работы в таких ситуациях целесообразно понимать природу риска и уметь определять степень рассеяния набора данных. Существуют три числовые характеристики, описывающие меру рассеяния: стандартное отклонение, размах и коэффициент вариации (изменчивости). В отличие от типических показателей (среднее, медиана, мода), характеризующих центр, характеристики рассеяния показывают, насколько близко к этому центру располагаются отдельные значения набора данных.
Стандартное отклонение: самая распространенная характеристика
Стандартное отклонение (среднее квадратическое отклонение) является мерой случайных отклонений значений данных от среднего.
Если все величины в наборе данных одинаковы, например
5,5; 5,5; 5,5; 5,5; 5,5; 5,5,
то среднее будет иметь значение , а стандартное отклонение S=0. Это указывает на отсутствие разброса данных.
В реальной жизни большинство данных характеризуется рассеянием, т.е. отдельные значения располагаются на некотором расстоянии от среднего. Например, значениями ставки доходности акций (в %) четырех компаний, выбранных случайным образом, являются:
43,0; 17,7; 8,7; 47,4
Средняя ставка доходности акций в этом случае также равна , однако отдельные значения данных существенно отличаются от среднего. Так, например, первая ставка превышает среднюю ставку на 37,5% (отклонение от среднего равно ), а последняя ставка оказывается ниже среднего на 52,9%, поскольку величина отклонения от среднего отрицательна ().
Использовать стандартное отклонение как обобщающую характеристику рассеяния, просто усреднив отклонения данных нельзя, потому что часть отклонений окажется положительной, а другая часть отрицательной, и, вследствие этого, результат усреднения может оказаться равным нулю. Чтобы избавиться от отрицательного знака, применяют стандартный прием: сначала вычисляют дисперсию как сумму квадратов отклонений, поделенную на (n1), а затем из полученного значения извлекают квадратный корень. Формула для вычисления стандартного отклонения выглядит следующим образом:
Замечание 1. Дисперсия не несет никакой дополнительной информации по сравнению со стандартным отклонением, однако ее сложнее интерпретировать, т. к. она выражается в «единицах в квадрате» (например, в «долларах в квадрате»), в то время как стандартное отклонение выражено в привычных для нас единицах (например, в долларах).
Замечание 2. Приведенная выше формула предназначена для расчета стандартного отклонения по выборке и более точно называется выборочное стандартное отклонение. При расчете стандартного отклонения генеральной совокупности (обозначается символом ) производят деление на n. Величина выборочного стандартного отклонения получается несколько больше (т. к. делят на n1), что обеспечивает поправку на случайность самой выборки.
В случае, когда набор данных имеет нормальное распределение, стандартное отклонение приобретает особый смысл. На рисунке, представленном ниже, по обе стороны от среднего сделаны отметки на расстоянии одного, двух и трех стандартных отклонений соответственно.
66,7%
95%
99,7%
Из рисунка видно, что примерно 66,7% (две трети) всех значений находятся в пределах одного стандартного отклонения по обе стороны от среднего значения, 95% значений окажутся в пределах двух стандартных отклонений от среднего и почти все данные (99,7%) будут находиться в пределах трех стандартных отклонений от среднего значения. Это свойство стандартного отклонения для нормально распределенных данных называется «правилом двух третей». В некоторых ситуациях, например при анализе контроля качества продукции, часто устанавливают такие пределы, чтобы в качестве заслуживающей внимание проблемы рассматривались те результаты наблюдений (0,3%), которые отстоят от среднего на расстоянии большем, чем три стандартных отклонения. К сожалению, если данные не подчиняются нормальному распределению, то описанное выше правило применять нельзя. В настоящее время существует ограничение, называемое правилом Чебышева, которое можно применять к ассиметричным (скошенным) распределениям.
Задание 1. |
Вычислить и проанализировать стандартное отклонение дневной прибыли на фондовой бирже. |
Размеры прибыли на фондовой бирже меняются каждый день. В таблице 1 представлена динамика изменений дневной прибыли на бирже, зафиксированной в рабочие дни за период от 31 июля по 9 октября 1987 года.
Таблица 1. Динамика изменения дневной прибыли на бирже
Дата |
Дневная прибыль |
Дата |
Дневная прибыль |
Дата |
Дневная прибыль |
1 |
-0,006 |
17 |
0,009 |
33 |
0,012 |
2 |
-0,004 |
18 |
-0,015 |
34 |
-0,004 |
3 |
0,008 |
19 |
-0,006 |
35 |
0,002 |
4 |
0,011 |
20 |
0,002 |
36 |
-0,008 |
5 |
-0,001 |
21 |
0,011 |
37 |
-0,010 |
6 |
0,017 |
22 |
0,013 |
38 |
-0,013 |
7 |
0,017 |
23 |
0,002 |
39 |
0,009 |
8 |
-0,004 |
24 |
-0,018 |
40 |
-0,020 |
9 |
0,008 |
25 |
-0,014 |
41 |
-0,003 |
10 |
-0,002 |
26 |
-0,001 |
42 |
-0,001 |
11 |
0,006 |
27 |
-0,001 |
43 |
0,017 |
12 |
-0,017 |
28 |
-0,013 |
44 |
0,001 |
13 |
0,004 |
29 |
0,030 |
45 |
-0,000 |
14 |
0,015 |
30 |
0,007 |
46 |
-0,035 |
15 |
0,001 |
31 |
-0,007 |
47 |
0,001 |
16 |
-0,005 |
32 |
0,001 |
48 |
-0,014 |
Интерпретация результатов
Снижение дневной прибыли в среднем составило 0,04% (значение средней дневной прибыли получилось равным 0,0004). Это означает, что средняя дневная прибыль за рассматриваемый период времени была приблизительно равна нулю, т.е. на рынке держался средний курс.
Стандартное отклонение получилось равным 0,0118. Это означает, что вложенный в фондовый рынок один доллар ($1) за сутки изменялся в среднем на $0,0118, т.е. его вложение могло привести к прибыли или потере в размере $0,0118.
Проверим, соответствуют ли приведенные в Таблице 1 значения дневной прибыли правилам нормального распределения.
ДанныеФильтрАвтофильтр
Откройте меню, щелкнув на стрелке в заголовке Дневная прибыль, и выберите (Условие…). В диалоговом окне Пользовательский автофильтр установите параметры как показано ниже. Щелкните на кнопке ОК.
Чтобы подсчитать число отфильтрованных данных, выделите диапазон значений дневной прибыли, щелкните правой кнопкой на свободном месте в строке состояния и в контекстном меню выберите команду Количество значений. Прочтите результат. Теперь отобразите все исходные данные, выполнив команду: ДанныеФильтрОтобразить все и выключите автофильтр с помощью команды: ДанныеФильтрАвтофильтр.
Размах: быстрая и поверхностная характеристика
Размах это интервал, вычисляемый как разность между самым большим и самым малым значениями данных. Размах может быть хорошей мерой рассеяния в том случае, когда важны экстремальные значения и возникает необходимость описать пределы изменения значения данных. Как статистическая характеристика размах имеет тот недостаток, что не учитывает типичную картину рассеяния данных, т.к. акцентирует внимание всего лишь на двух экстремальных значениях. Поэтому для большинства целей статистического анализа чаще используют стандартное отклонение. Размах всегда больше, чем стандартное отклонение.
Задание 2. |
Определить и проанализировать размах, среднее и стандартное отклонение заработной платы персонала. |
В таблице 2 приведены данные заработной платы наемных работников технического отдела фирмы.
Таблица 2. Зарплата персонала
Код сотрудника |
Зарплата, дол. |
Код сотрудника |
Зарплата, дол. |
Код сотрудника |
Зарплата, дол. |
1 |
37000 |
5 |
24500 |
9 |
16500 |
2 |
24000 |
6 |
21500 |
10 |
44500 |
3 |
27000 |
7 |
33000 |
11 |
28500 |
4 |
25000 |
8 |
32500 |
12 |
26500 |
Интерпретация результатов
Коэффициент вариации: мера относительной изменчивости
Коэффициент вариации представляет собой относительную меру изменчивости данных и определяется как результат деления стандартного отклонения на среднее значение. Коэффициент вариации показывает, какой процент от среднего (или доля среднего) составляет стандартное отклонение. Например, если покупатель в среднем тратит в супермаркете $35, а стандартное отклонение составляет $14, то коэффициент вариации равен 40% (14/35 = 0,4). Это означает, что суммы, которые тратит при посещении супермаркета покупатель, отличаются от среднего размера затрат приблизительно на 40%.
Коэффициент вариации является безразмерной величиной, поэтому он может быть полезен при сравнении изменчивости данных, представленных в разных единицах. Коэффициент вариации часто используют при проведении сравнений в условиях различных объемов. Например, можно сравнить вариацию объемов продаж для крупной и малой фирм. Для большей фирмы абсолютное значение вариации (стандартное отклонение) окажется больше, однако относительная величина вариации (коэффициент вариации) может оказаться одинаковой для обеих фирм.
Следует отметить, что при ассиметричном (скошенном) распределении данных коэффициент вариации может превысить 100%. Такой результат означает, что в изучаемой ситуации наблюдается очень сильный разброс данных относительно среднего.
Задание 3. |
Рассчитать и проанализировать коэффициенты вариации двух отделов торговли по телефону. |
Рассмотрим два отдела торговли по телефону: отдел, занимающийся продажей билетов на концерты симфонической музыки, и отдел, занимающийся продажей билетов в театры.
В первом отделе каждый сотрудник продает на симфонические концерты в среднем 23 билета в час. Стандартное отклонение составляет 6 билетов в час. Это означает, что любой из сотрудников отдела может продать в час в среднем на 6 билетов больше или меньше среднего значения.
В отделе продаж билетов в театры средний уровень продаж (среднее значение) составляет 35 билетов в час, а стандартное отклонение равно 7.
Интерпретация результатов
Рассматриваемые два отдела различаются по уровню продаж билетов. Производительность труда при продаже театральных билетов в целом выше производительности труда при продаже билетов на симфонические концерты (средние значения составляют 35 и 23), но вместе с тем, естественно, и вариация (стандартное отклонение) в отделе продаж театральных билетов больше (7, а не 6). Однако коэффициент вариации (20%) для отдела продаж театральных билетов оказался меньше, чем коэффициент вариации (26%) для отдела продаж билетов на симфонические концерты. Это означает, что группа, работающая с театральными билетами (с точки зрения производительности отдельных сотрудников), более однородна, поскольку в ней отклонение производительности от среднего на 6% ниже (26% 20% = 6%), чем у группы, занятой продажей билетов на симфонические концерты.
Контрольные вопросы