Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

Лабораторная работа 1

Работа добавлена на сайт samzan.net:

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 24.11.2024

Лабораторная работа №1. Визуальный анализ статистических данных

Статистические данные, как правило, представляются в виде числовых таблиц больших размеров. Если пытаться анализировать данные, просматривая таблицу, потребуются большие затраты времени и, чаще всего, целый ряд свойств данных останется не выявленным, поскольку представление информации в виде чисел лишено наглядности и не дает конкретного визуального указания о наличии этих свойств. Более информативно для анализа использование графического отображения данных, например гистограмм. С помощью табличного процессора Microsoft Excel, либо отдельного статистического пакета программ (например, «Статистика») можно с большей экономией времени построить гистограмму и получить информацию для визуального анализа данных.

Использование гистограмм для анализа данных

Гистограмма представляет собой столбиковую диаграмму частот. По горизонтальной оси диаграммы откладывают измеренные значения из набора данных, по вертикальной – частоту встречаемости этих значений. Высота каждого столбца показывает частоту (количество) значений из набора данных, принадлежащих соответствующему интервалу, равному ширине этого столбца.

Визуальный анализ гистограмм позволяет выявить характер распределения данных и ответить на следующие шесть вопросов:

  1. Какие значения типичны для заданного набора данных?
  2. Как различаются между собой значения (диапазон значений)?
  3. Сконцентрированы ли данные вокруг некоторого типичного значения?
  4. Какой характер имеет эта концентрация данных? В частности, одинаков ли характер «затухания» для малых и больших значений данных?
  5. Есть ли в заданном наборе такие значения, которые сильно отличаются от остальных и требуют специальной обработки (выбросы)?
  6. Можно ли сказать, что в целом это однородный набор или отчетливо наблюдается наличие групп, которые надо анализировать отдельно?

Статистический пакет «Анализ данных» устанавливается кнопкой Office – команда «Параметры Excel» - Надстройки.

Задание 1.

Построить и проанализировать гистограмму процентных ставок ссуд под залог недвижимости.

В таблице 1 представлены размеры фиксированной процентной ставки ссуд под залог недвижимости, предоставляемых на 30 лет ипотечными компаниями.

Таблица 1. Процентные ставки ссуд под залог недвижимости

Кредитор

Процентная ставка

Кредитор

Процентная ставка

Кредитор

Процентная ставка

1

7,000

16

7,125

31

6,875

2

6,875

17

7,125

32

6,500

3

6,875

18

7,000

33

6,875

4

6,750

19

7,000

34

7,000

5

6,875

20

7,000

35

6,875

6

7,250

21

6,875

36

7,000

7

6,875

22

6,875

37

7,250

8

7,000

23

6,500

38

7,000

9

6,875

24

6,500

39

6,625

10

7,000

25

6,500

40

6,875

11

7,250

26

7,250

41

6,625

12

7,000

27

6,750

42

6,625

13

7,000

28

6,875

43

6,250

14

6,125

29

6,875

44

5,875

15

6,750

30

6,875

45

7,000

Чтобы построить гистограмму в Excel с помощью статистического пакета Анализ данных, выполните следующие действия.

  1. Откройте Excel и сохраните файл с именем Гистограммы.
  2. На Листе1  в ячейках А1 и В1 задайте метки (названия) Кредитор и  Процентная ставка, введите из Таблицы 1 значения.
  3. Выберите из ленты ДАННЫЕ команду Анализ  Анализ данных  Гистограмма. Щелкните на кнопке OK.
  4. В появившемся диалоговом окне в области Входные данные укажите Входной интервал:, выделяя диапазон данных В1:В46 вместе с меткой. Установите флажок Метки, чтобы указать, что метка включена в диапазон входного интервала.

  1. В области Параметры вывода установите флажок Вывод графика и включите параметр Выходной интервал: для вывода гистограммы на том же листе, где располагаются входные данные. Для определения места вывода гистограммы сначала щелкните в текстовом поле параметра Выходной интервал, а затем выделите ячейку D2, указывающую адрес левого верхнего угла поля вывода гистограммы. Щелкните на кнопке OK.

Замечание. Если не указывать параметр Интервал карманов, определяющий ширину столбца, то программа Excel устанавливает равные интервалы автоматически. Количество интервалов приближенно равно квадратному корню из числа значений данных.

Excel разместит на листе таблицу распределения частот и гистограмму как показано ниже.

Карман

Частота

5,875

1

6,104167

0

6,333333

2

6,5625

4

6,791667

6

7,020833

25

Еще

6

 

Таблица распределения частот включает исходные карманы. Значения карманов указывают правые границы интервалов. Например, карману со значением 6,5625 соответствует интервал (6,333333; 6,5625]. В данный интервал попали 4 значения процентных ставок. На гистограмме Excel размещает значения карманов по оси Х в середине интервалов, а не у отметок, разделяющих интервалы.

Для того, чтобы гистограмма была удобочитаемой и имела обычный вид, проведите форматирование гистограммы следующим образом.

  1. Удалите легенду. Для этого щелкните по легенде Частота (справа от гистограммы) и нажмите клавишу [Delete].
  2. Для устранения зазоров между столбцами гистограммы, дважды щелкните на любом столбце, выберите в появившемся диалоговом окне вкладку Параметры, установите нулевое значение параметра Ширина зазора и щелкните на кнопке OK.
  3. Для уменьшения разрядности значений процентных ставок на гистограмме до одного знака после запятой выделите диапазон значений карманов D2:D7 и воспользуйтесь соответствующей кнопкой на панели инструментов Форматирование.
  4. Дважды щелкните по значениям оси Y. В диалоговом окне Формат оси на вкладке Шкала установите в текстовом поле цена основных делений: значение 4, а в текстовом поле цена промежуточных делений: значение 1. На вкладке Шрифт установите размер 10. Щелкните на кнопке ОК.
  5. Дважды щелкните по значениям оси Х. В диалоговом окне Формат оси на вкладке Выравнивание дважды щелкните в текстовом поле градусов и введите значение 0, чтобы при любом изменении размеров диаграммы подписи по оси Х всегда были горизонтальными. На вкладке Шрифт установите размер 10. Щелкните на кнопке ОК.
  6. Выделите название диаграммы. Используя список на панели инструментов Форматирование, установите размер шрифта 10. Введите новое название Процентные ставки ссуд под залог недвижимости. Нажмите клавишу [Enter].
  7. Выделите название оси Y. Установите размер шрифта 10. Введите новое название Частота (количество ипотечных компаний). Нажмите клавишу [Enter].
  8. Выделите название оси Х. Установите размер шрифта 10. Введите новое название Процентная ставка. Нажмите клавишу [Enter].
  9.  Выделите Область построения диаграммы и увеличьте ее высоту. Щелкните на кнопке Сохранить. Ниже показан вид полученной гистограммы.

Карман

Частота

5,9

1

6,1

0

6,3

2

6,6

4

6,8

6

7,0

26

Еще

6

Анализ гистограммы

  1.  Размах (диапазон) значений. Размах процентных ставок определяется по левой и правой границам гистограммы. Самая низкая процентная ставка равна приблизительно 5,9%, самая высокая процентная ставка – около 7,2%. Таким образом, размах процентной ставки составляет 1,3% (7,2% – 5,9% = 1,3%).
  2.  Типичные значения. Типичным значениям соответствует самый высокий столбец гистограммы. Наиболее часто встречаются ставки в интервале от 6,8% до 7,0% (26 из 45 организаций предлагают ставки в данном интервале).
  3.  Рассеяние. Рассеяние указывает разницу между типичным значением и остальными значениями, т.е. характеризует, как отстоят другие столбцы относительно самого высокого столбца (типичного). Типичная разница ставок для различных организаций составляет приблизительно 0,5% (6,8% – 6,3% = 0,5%), т.е. умеренно высокие столбцы отстоят от типичного столбца приблизительно на 0,5%.
  4.  Общая конфигурация данных. Большинство организаций сконцентрировано правее середины диапазона процентных ставок (здесь самые высокие столбцы) и немного организаций предлагают либо очень низкие, либо очень высокие ставки (короткие столбцы слева и справа от типичного столбца).
  5.  Характерные особенности. На гистограмме пропущена область от 5,9% до 6,1%. По-видимому, ни одна компания не предлагает ставку в этом интервале.

Выявление нормального распределения

Обычно в статистике предполагают, что распределение данных приблизительно соответствует нормальному. Это объясняется тем, что многие стандартные методы статистического анализа, например, вычисление доверительных интервалов или проверка статистических гипотез, требуют нормального распределения данных (хотя бы приблизительно). Зная свойства нормального распределения и изучив внимательно гистограмму, важно определить, являются ли данные нормально распределенными.

Теоретически нормальное распределение представляет собой гладкую гистограмму в форме колокола без случайных отклонений. Кривая нормального распределения задается функцией плотности распределения:

,

где a и σ2 – параметры распределения: a – математическое ожидание; σ2 – дисперсия данной случайной величины. Для идеального набора нормально распределенных данных такая кривая имеет следующий вид:

Как видим, большинство чисел сконцентрировано в средней части диапазона значений (центр колокола a), а оставшиеся значения с затуханием симметрично располагаются по обе стороны от вершины колокола. Величина σ характеризует ширину (масштаб) колокола.

Фактически существует много кривых нормального распределения, форма которых напоминает симметричный колокол. Эти кривые отличаются друг от друга расположением центра и масштабом σ. Ниже показаны кривые нормального распределения, построенные в разных масштабах.

     

Поскольку реальные наборы нормально распределенных данных носят случайный характер, то они не имеют идеальную степень гладкости гистограмм и содержат некоторые случайные отклонения от теоретической кривой.


Задание 2.

Построить гистограммы для двух различных выборок объемом по 100 значений каждая из нормально распределенного набора данных.

Для получения выборки из нормально распределенного набора данных используйте статистический пакет Анализ данных. Выполните следующие действия.

  1. Откройте файл Гистограммы.xls и выделите Лист2.
  2. Выберите из меню команду: СервисАнализ данныхГенерация случайных чисел. Щелкните на кнопке OK.
  3. В появившемся диалоговом окне установите параметры, как показано ниже. Щелкните на кнопке OK.

  1. Для полученной выборки на том же Листе2 постройте гистограмму, разместите ее вместе с таблицей распределения частот в диапазоне G1:N16 и приведите к виду, указанному ниже.

  1. Получите вторую выборку из нормально распределенных данных с теми же параметрами и разместите ее на Листе2 в диапазоне B1:B100.
  2. Для второй выборки постройте гистограмму, расположите ее вместе с таблицей распределения частот в диапазоне G21:N36 и приведите к виду, указанному ниже. Щелкните на кнопке Сохранить.

Сравнение этих двух гистограмм показывает, насколько случайной может быть форма распределения при ограниченном объеме выборки. Значительное уменьшение объема выборки приводит к увеличению случайности и может быть недостаточно для представления полной картины распределения.

Задание 3.

Построить гистограммы для двух различных выборок объемом по 15 значений каждая из нормально распределенного набора данных.

  1. В файле Гистограммы.xls выделите Лист3.
  2. Используя статистический пакет Анализ данных, получите две выборки объемом по 15 значений каждая из нормально распределенных данных с параметрами, указанными в Задании 2. Постройте гистограммы и сравните форму распределения. Щелкните на кнопке Сохранить.

Ассиметричное распределение и преобразование данных

В реальной жизни не все наборы данных подчиняются нормальному распределению. В экономике часто можно встретить ассиметрию в наборах данных. Ассиметричное распределение характеризуется тем, что значения данных на одной стороне от вершины кривой (самого высокого столбца гистограммы) затухают быстрее, чем на другой. Реальные ассиметрично распределенные данные, также как и нормально распределенные, имеют некоторые случайные отклонения.

Поскольку наиболее распространенные статистические методы требуют, чтобы данные были хотя бы приблизительно нормально распределенными, то применение методов к ассиметричным данным приводит к неточным или просто неверным результатам. Один из способов устранения ассиметрии заключается в использовании такого преобразования данных, которое переводит ассиметричное распределение в более симметричное. Наиболее распространенным типом преобразования данных в экономике является логарифмирование, которое можно использовать только для положительных значений, сконцентрированных около нуля (при движении по горизонтальной оси гистограммы вправо количество значений постепенно уменьшается). Логарифмирование приводит к «растягиванию» на числовой оси малых значений и, наоборот, «стягивает вместе» большие значения, уменьшая разницу между ними. Для правильной интерпретации результата логарифмирования необходимо учитывать, что равным расстояниям на логарифмической шкале соответствуют на исходной шкале равные процентные увеличения, а не просто равные увеличения значений. В преобразованиях данных можно использовать логарифмы по основанию 10 или натуральные логарифмы. В экономике натуральный логарифм часто используют при вычислении сложных процентов, темпов роста, экономической эластичности.

Задание 4.

Построить две гистограммы: гистограмму исходных значений и гистограмму логарифмов значений. Сравнить форму распределения данных на этих гистограммах.

В таблице 2 содержатся данные об активах коммерческих банков.

Таблица 2. Активы коммерческих банков

Банк

Активы, млрд. дол.

Банк

Активы, млрд. дол.

Банк

Активы, млрд. дол.

1

336

18

60

35

21

2

311

19

58

36

21

3

265

20

56

37

21

4

262

21

55

38

20

5

260

22

48

39

19

6

157

23

47

40

19

7

140

24

45

41

18

8

116

25

38

42

17

9

114

26

36

43

15

10

97

27

31

44

14

11

89

28

30

45

14

12

86

29

30

46

14

13

75

30

29

47

13

14

74

31

27

48

9

15

71

32

25

49

7

16

69

33

23

50

4

17

65

34

23

  1. В файле Гистограммы.xls добавьте Лист4, выполнив команду ВставкаЛист.
  2. На Листе4 в ячейке A1 задайте метку Активы, а в диапазон A2:A51 введите из Таблицы2 значения активов.
  3. Постройте гистограмму для исходных значений активов. Гистограмму вместе с таблицей распределения частот расположите на том же листе в диапазоне D1:L19.
  4. Введите в ячейку B1 метку Логарифм активов.
  5. В ячейку B2 введите формулу =LN(A2). Нажмите [Enter].
  6. Выделите ячейку B2 и дважды щелкните на маркере заполнения. Формула будет скопирована в диапазон B3:B51.
  7. Постройте гистограмму для логарифмированных значений активов. Расположите гистограмму вместе с таблицей распределения частот в диапазоне D22:L40. Щелкните на кнопке Сохранить.
  8. Сравните форму распределения данных на построенных гистограммах. Можно ли считать, что преобразованная гистограмма логарифмов активов, не считая случайных отклонений, стала симметричной?

Бимодальное распределение

В некоторых ситуациях набор данных может состоять из двух или нескольких отчетливо различающихся между собой групп. На гистограмме таким ситуациям соответствуют разрывы между соседними группами столбцов. Если на гистограмме четко видны две отдельные группы, то это соответствует бимодальному распределению. Наличие бимодального распределения требует серьезного анализа. Прежде всего, следует выявить причины наличия двух групп. Возможно, интерес представляет только одна группа, поэтому другую группу можно исключить из рассмотрения. А может быть, необходимо изучить обе группы отдельно и внести некоторые уточнения, чтобы учесть факт имеющегося различия.

Задание 5.

Построить и проанализировать гистограмму стоимости использованного сырья двумя менеджерами.

В таблице 3 содержатся затраты на сырье двумя менеджерами.

Таблица 3. Стоимость использованного сырья

Менеджер

Стоимость сырья, дол.

Менеджер

Стоимость сырья, дол.

Менеджер

Стоимость сырья, дол.

1

1459

2

1142

2

1131

1

1502

2

1127

2

1108

1

1492

1

1457

2

1135

2

1120

1

1379

1

1416

1

1483

1

1407

2

1170

2

1136

2

1105

1

1417

2

1123

2

1126

1

1381

1

1542

1

1434

2

1248

1

1484

2

1127

2

1171

1

1379

1

1457

1

1471

1

1406

2

1109

2

1142

1

1487

2

1236

2

1161

2

1138

2

1188

2

1135

1

1529

1

1512

1

1500

  1. В файле Гистограммы.xls добавьте Лист5.
  2. На Листе5 в ячейке A1 задайте метку Стоимость сырья, а в диапазон A2:A43 введите из Таблицы 3 значения стоимости сырья.
  3. Постройте гистограмму и расположите ее на том же листе в диапазоне D1:L20. Щелкните на кнопке Сохранить.
  4. Проанализируйте гистограмму и ответьте на следующие вопросы.
  5. Является ли распределение стоимости сырья бимодальным, или эти данные можно рассматривать как одну группу значений?
  6. Если распределение бимодальное, то имеет ли смысл изучить каждую группу отдельно?

Выбросы

При анализе гистограмм иногда в данных можно наблюдать выбросы (сильно отклоняющиеся значения), т.е. такие значения, которые либо слишком велики, либо слишком малы. Существуют два вида выбросов: ошибки и корректные, но «отличающиеся» значения данных.

С ошибками справиться легко – нужно просто отредактировать значение. Например, если значение объема продаж $1597,15 записано как $159715 (без десятичной точки), то оно будет сильно отличаться от остальных значений на гистограмме. В этом случае нужно перепроверить данные, найти ошибку и исправить это значение.

Более сложной является проблема выбросов корректных данных. Если есть убедительное подтверждение того, что выбросы не соответствуют изучаемым данным, то их можно просто удалить и анализировать оставшиеся более согласованные между собой данные. Например, в наборе данных относительно доходов денежного рынка могут появиться несколько значений доходов фондов, не облагаемых налогом. Если цель исследования состоит в анализе рыночной ситуации для обычных фондов, облагаемых налогом, то эти выбросы лучше исключить. При отсутствии достаточно обоснованного аргумента для исключения выбросов можно выполнить два различных анализа: один с учетом выбросов, другой – с исключением их. В лучшем случае может оказаться, что наличие выбросов не имеет существенного значения. Если два анализа дадут разные результаты, то выводы могут быть менее определенными и неоднозначными. В современной статистике в настоящее время разрабатываются устойчивые методы, в которых применяется мощный вычислительный аппарат для учета наличия выбросов.

Задание 6.

Построить гистограмму процентного изменения общих расходов на телевизионную рекламу. Проанализировать выбросы.

В таблице 4 приведены данные процентного изменения общих расходов на телевизионную рекламу в 1994 г. по сравнению с 1993 г.

Таблица 4. Изменение общих расходов на телевизионную рекламу

Рекламодатель

Изменение расходов на

телерекламу, %

Рекламодатель

Изменение расходов на телерекламу, %

1

43,2

14

-22,7

2

27,5

15

73,5

3

77,9

16

14,0

4

201,0

17

16,5

5

16,7

18

217,3

6

54,5

19

31,4

7

47,7

20

42,4

8

104,4

21

2353,7

9

65,7

22

28,5

10

66,8

23

16,4

11

33,3

24

684,0

12

65,9

25

12,7

13

44,7

  1. В файле Гистограммы.xls добавьте Лист6.
  2. На Листе6 в ячейке A1 задайте метку Процентное изменение расходов, а в диапазон A2:A26 введите из Таблицы 4 значения процентных изменений расходов на телерекламу.
  3. Постройте гистограмму и расположите ее вместе с таблицей распределения частот на том же листе в диапазоне E1:L15. Уменьшите разрядность значений, исключив дробную часть.

Обратите внимание! Наличие выброса на гистограмме справа (для компании №21 увеличение расходов составляет колоссальное число 2353,7%) привело к тому, что почти все компании (22 компании) попали в один столбец гистограммы. Такая гистограмма не очень полезна, т.к. нельзя увидеть подробную картину распределения процентных изменений в других компаниях.

  1. Исключите из рассмотрения компанию №21. Для этого выделите строку 22 и удалите ее. Постройте снова гистограмму для диапазона данных A1:A25 (включая метку) и расположите ее вместе с таблицей распределения частот в диапазоне E17:L31. Уменьшите разрядность значений, исключив дробную часть.

Обратите внимание! Как видно из гистограммы, большинство деталей все еще скрыто из-за наличия на этот раз другого выброса, равного 684,0% (компания №24).

  1. Исключите из рассмотрения компанию №24. Для этого выделите строку 24 и удалите ее. Постройте снова гистограмму для диапазона данных A1:A24 (включая метку) и расположите ее вместе с таблицей распределения частот в диапазоне E33:L47. Уменьшите разрядность значений, исключив дробную часть.

Обратите внимание! В полученной гистограмме большинство компаний сосредоточено в двух столбцах. Можно картину распределения сделать более наглядной, если построить гистограмму с более узкими столбцами. Для этого надо уменьшить интервал, определяющий ширину столбца. В случае явного задания интервалов для облегчения анализа лучше использовать числа, кратные 2, 5, или 10.

  1. В ячейку B33 введите метку Карман. В ячейку B34 введите значение –20 (нижняя граница диапазона входных значений). В ячейку B35 введите значение 0, приняв значение интервала равным 20. Теперь выделите обе ячейки B34:B35 и протащите маркер заполнения до ячейки B46, определив тем самым верхнюю границу диапазона значений, равную 220.
  2. Постройте гистограмму, задавая в поле параметра Интервал карманов: диапазон ячеек B33:B46, включая метку. Расположите гистограмму вместе с таблицей распределения частот в диапазоне N33:U47. Щелкните на кнопке Сохранить.

Обратите внимание! Хотя в полученной гистограмме после исключения двух выбросов есть еще два выброса – более 200% (компании №4 и №18), можно, наконец, увидеть, что распределение изменений расходов на телерекламу для оставшихся рекламодателей является приблизительно нормальным, с центром около 40%.

Контрольные вопросы

  1. Какие шесть свойств набора данных можно выявить при визуальном анализе гистограммы?
  2. Что такое нормальное распределение? Почему нормальное распределение играет важную роль в статистике?
  3. Если реальный набор данных распределен нормально, то можно ли ожидать, что гистограмма будет иметь идеально гладкую форму в виде колокола?
  4. Что такое ассиметричное распределение? Как можно во многих случаях решить проблему ассиметрии?
  5. Что такое бимодальное распределение? Что следует предпринять в случае бимодального распределения?
  6. Что такое выброс? Какие виды выбросов могут наблюдаться?
  7. В каких случаях выбросы можно не учитывать и анализировать только остальные данные?
  8. Какие действия нужно предпринять, если при анализе необходимо учитывать наличие выбросов?

Лабораторная работа №2. Обобщающие показатели одномерного набора данных

Статистический пакет Анализ данных включает в себя два инструмента для анализа одномерного набора данных: Описательная статистика и Ранг и персентиль. С помощью инструмента Описательная статистика рассчитываются показатели, характеризующие типические значения, изменчивость и ассиметрию данных. Инструмент Ранг и персентиль создает таблицу исходных данных, упорядоченных в соответствии с порядковыми числами (рангами) и персентилем.

Использование инструмента анализа Описательная статистика

Задание 1.

Определить обобщающие характеристики для анализа цен 15 объектов.

В таблице 1 представлены цены 15 объектов.

Таблица 1. Цены объектов

Объект

Цена, дол.

Объект

Цена, дол.

Объект

Цена, дол.

1

26,0

6

38,0

11

43,6

2

31,0

7

39,6

12

44,8

3

37,4

8

31,2

13

40,6

4

34,8

9

37,2

14

41,8

5

39,2

10

38,4

15

45,2

  1. Откройте программу Excel. Щелкните на кнопке Сохранить на панели инструментов Стандартная. В появившемся диалоговом окне откройте папку Статистика и задайте имя файлу Описательная статистика.xls.
  2. На Листе1 в ячейке A1 задайте метку Цена, а в диапазон A2:A16 введите данные из Таблицы 1.
  3. Выберите ленте ДАННЫЕ команду: Анализ данныхОписательная статистика. Щелкните на кнопке OK.
  4. В появившемся диалоговом окне в области Входные данные укажите Входной интервал:, выделяя диапазон данных А1:А16 вместе с меткой. Параметр Группирование: выберите по столбцам. Установите флажок Метки в первой строке, т.к. выбранные ячейки включают в себя подписи.

  1. В области Параметры вывода включите параметр Выходной интервал:. Для определения места вывода на листе сначала щелкните в текстовом поле параметра Выходной интервал:, а затем выделите ячейку С1, указывающую адрес левого верхнего угла области вывода данных. Установите следующие флажки:
  2.  Итоговая статистика Данная опция управляет выводом выходных данных.
  3.  Уровень надежности: Данная опция вычисляет половину длины доверительного интервала для среднего с заданной значимостью (в %). В нашем примере установите значимость равной 90%. Это означает, что вероятность того, что среднее генеральной совокупности данных находится в пределах доверительного интервала, равна 0,9.
  4.  К-ый наименьший: Эта опция определяет k-ое наименьшее значение из входных данных. В нашем примере введите K равным 4.
  5.  К-ый наибольший: Эта опция определяет k-ое наибольшее значение из входных данных. В нашем примере введите K равным 4.
  6. Щелкните на кнопке OK. Excel вычислит обобщающие показатели и разместит их в виде таблицы в двух столбцах C и D.

Форматирование таблицы с выходными данными

  1. Некоторые значения в таблице отображаются с девятью десятичными знаками после запятой. Для удобства чтения выделите одновременно ячейки D4, D7:D10, D18 и уменьшите разрядность значений до двух знаков после запятой, используя соответствующую копку на панели инструментов Форматирование.
  2. Измените ширину столбца D, дважды щелкнув на правой границе заголовка этого столбца. Ниже показан полученный вид таблицы выходных данных.

Цена

Среднее

37,92

Стандартная ошибка

1,39

Медиана

38,4

Мода

#Н/Д

Стандартное отклонение

5,38

Дисперсия выборки

28,94

Эксцесс

0,30

Асимметричность

-0,73

Интервал

19,2

Минимум

26

Максимум

45,2

Сумма

568,8

Счет

15

Наибольший(4)

41,8

Наименьший(4)

34,8

Уровень надежности(90,0%)

2,45

Интерпретация результатов

  1. Выходные данные содержат три обобщающих показателя, которые называются типическими значениями.
  2.  Среднее – это средняя цена объектов, равная $37,92. Получается как результат деления суммы цен всех объектов (Сумма $568,8) на количество объектов (Счет 15).
  3.  Медиана – значение, расположенное посередине упорядоченного набора данных. В нашем примере значение медианы равно $38,4.
  4.  Мода – наиболее часто встречающееся значение. Если встречается несколько часто встречающихся значений, то Excel выводит первое из них. Если каждое значение встречается один раз, то Excel выводит запись #Н/Д. В таком случае надо получить таблицу распределения частот, в которой интервал с наибольшей частотой называется модальным интервалом. Для определения модального интервала рекомендуется использовать гистограммы.

Задание 2.

Определить модальный интервал.

По данным Таблицы 1 в файле Описательная статистика.xls на Листе1 постройте гистограмму для диапазона данных A1:A16, включая метку. Интервал входных значений задайте явно равным 5. Нижнюю границу диапазона входных значений примите равной 25, а верхнюю границу равной 50. Значения карманов вместе с меткой Карман расположите в ячейках F1:F7. Выведите гистограмму вместе с таблицей распределения частот в область H1:O10. Укажите величину модального интервала.

  1. В таблице описательной статистики имеется несколько показателей, характеризующих изменчивость (разброс) данных.
  2.  Интервал – размах значений, равный ($19,2). Определяется как разность между Максимумом ($45,2) и Минимумом ($26).
  3.  Дисперсия выборки (28,94). Вычисляется как результат деления суммы квадратов отклонений каждого значения от Среднего на n-1. Выражается в единицах в квадрате ($2).
  4.  Стандартное отклонение ($5,38) – корень квадратный из Дисперсии выборки. Стандартное отклонение приближенно показывает, насколько отдельные значения выборки отличаются от их Среднего. Измеряется в тех же единицах, что и входные данные.
  5.  Стандартная ошибка ($1,39) является характеристикой достоверности Среднего. Вычисляется как Стандартное отклонение, поделенное на . Данная характеристика показывает, насколько Среднее выборки отличается от среднего генеральной совокупности.
  6.  Нибольший(4) и Наименьший(4) являются соответственно четвертым наибольшим ($41,8) и четвертым наименьшим ($34,8) значениями входных данных.
  7.  Уровень надежности(90,0%), равный $2,45, определяет половину длины 90%-го доверительного интервала для Среднего. Следовательно, 90%-й доверительный интервал равен (37,92-2,45; 37,92+2,45), т.е. (35,47; 40,37).
  8. Третья группа показателей характеризует степень симметричности данных.
  9. Эксцесс (0,3) является показателем островершинности симметричных распределений. Если распределение более плоское, чем нормальное (т.е. имеет более «тяжелые» хвосты), то Эксцесс будет положительным. Если же распределение имеет более выраженный пик, чем нормальное (т.е. имеет более «легкие» хвосты), то Эксцесс отрицательный. В нашем примере (см. гистограмму) распределение примерно симметричное с небольшим положительным Эксцессом.
  10. Ассиметричность (К=–0,73) определяет степень симметрии данных. Если большинство экстремальных значений расположено в положительном направлении от центра распределения (скошено вправо), то Ассиметричность положительна. В этом случае Среднее больше Медианы. Если же большинство экстремальных значений расположено в отрицательном направлении от центра распределения (скошено влево), то Ассиметричность отрицательна и Среднее меньше Медианы. Ниже приведена интерпретация показателя Ассиметричности (К) для Excel.

K < –0,5 скошено влево; –1  K  1 приблизительно симметрично; K > 1 скошено вправо.

В нашем примере (см. гистограмму) данные приблизительно симметричны с небольшим отрицательным отклонением (скос влево).

Среднее: типическое значение для количественных данных

Среднее можно интерпретировать как равномерное распределение суммы всех значений между элементарными единицами совокупности. Таким образом, если каждое значение из набора данных заменить средним, то общая сумма не изменится. Это свойство среднего полезно в тех ситуациях, когда необходимо планировать общую сумму для большой группы. В этом случае сначала вычисляют среднее для выборки данных из этой группы. Затем полученное среднее умножают на количество элементов в большой группе. В результате получают оценку или прогноз суммы для большей по размеру совокупности.

Задание 3.

Определить количество бракованных изделий в дневном выпуске.

Каждая партия изделий компании содержит 1000 изделий. В дневном выпуске произведено 253 партии. Для проведения контроля качества изделий была случайным образом взята выборка, включающая 10 партий. Число бракованных изделий в каждой партии составило: 3, 8, 2, 5, 0, 7, 14, 7, 4, 1. Определить, какое количество бракованных изделий можно ожидать в дневном выпуске, состоящем из 253 000 изделий.

  1. Откройте файл Описательная статистика.xls.
  2. На Листе2 в ячейке А1 задайте метку Брак, а в диапазон A2:A11 введите исходные данные.
  3. В ячейке С1 задайте метку Среднее, а в ячейке С2 вычислите Среднее (уровень брака) для бракованных изделий из заданной выборки данных.

Замечание. При расчете среднего воспользуйтесь статистической функцией СРЗНАЧ.

  1. В ячейке А13 задайте метку Количество бракованных изделий. В ячейке А14 вычислите ожидаемое количество бракованных изделий в дневном выпуске.

Задание 4.

Определить средний балл результатов обучения.

Предположим, что в университете каждой дисциплине, в зависимости от ее важности, присваивается определенное количество очков. Система оценок включает оценки от 1,0 (незачет) до 5,0 (отлично). Студент в конце семестра имеет результаты, указанные в таблице 2. Определить средний балл студента.

Таблица 2. Оценки студента за семестр

Дисциплина

Очки

Оценка

Статистика

5

4,7

Экономика

5

4,3

Маркетинг

4

4,5

Спецкурс

1

3,8

В данном задании элементы данных (дисциплины) нельзя рассматривать как равноценные. В этом случае целесообразно не просто усреднить оценки, а вычислить взвешенное среднее, которое позволяет учесть степень важности (вес) каждой дисциплины. Веса обычно представляют собой положительные числа, сумма которых равна 1. Формула для вычисления взвешенного среднего с учетом весов имеет следующий вид.

Взвешенное среднее =

где 1, 2,…, n – соответствующие веса, сумма которых равна 1. Для нашего примера веса определяются делением количества очков по каждой дисциплине на общее количество очков (n=15).

  1. Откройте файл Описательная статистика.xls.
  2. На Листе2 в ячейках F1 и G1 задайте метки Очки и Оценка соответственно. В диапазон F2:G5 введите данные Таблицы 2.
  3. В ячейке F7 задайте метку Взвешенное среднее.
  4. Чтобы найти взвешенное среднее, вначале дайте имена каждой колонке чисел. Для этого выделите обе колонки вместе с метками и выберите команду: ВставкаИмяСоздать

В появившемся диалоговом окне включите опцию в строке выше и щелкните на кнопке ОК. Теперь выделите ячейку F8 и вычислите взвешенное среднее, используя из категории Полный алфавитный перечень функции Excel СУММПРОИЗВ и СУММ. Формула вычисления имеет следующий вид: =СУММПРОИЗВ(Очки;Оценка)/СУММ(Очки). Уменьшите разрядность результата до двух десятичных знаков после запятой. Вы получите средневзвешенное значение, равное 4,45.

  1. Вычислите средний балл студента, просто усреднив оценки. Для этого в ячейке F10 задайте метку Среднее, а в ячейке F11 получите среднее (4,33), используя функцию СРЗНАЧ.

Как видите, результат среднего ниже средневзвешенного, т.к. не учитывает важность дисциплин. Тем не менее, низкая оценка за Спецкурс незначительно повлияла на средний балл студента, потому что вес этой дисциплины мал (всего 1 очко). Средний балл мог оказаться существенно малым, если бы студент получил низкие оценки по экономическим дисциплинам!

Медиана: типическое значение для количественных и порядковых данных

Медиана располагается в центре данных и дает представление о списке значений. Чтобы найти медиану, надо предварительно упорядочить данные в порядке возрастания, а затем определить среднюю точку. Тогда половина элементов в наборе будет меньше значения в средней точке, а вторая половина – больше.

Медиану можно также определить, проставив соответствующие ранги. Ранги связывают числа (номера) 1, 2, 3, …, n со значениями данных таким образом, что наименьшее значение имеет ранг 1, следующее по величине значение – ранг 2 и т.д. до наибольшего значения, которое имеет ранг n.

Если все n значений были отсортированы и проставлены ранги, то при определении медианы возможны два варианта.

1). Если n – нечетное число, то медианой является значение с рангом (n+1)/2.

2). Если n – четное число, то медианой является среднее двух значений, расположенных в середине ряда и имеющих ранги (n/2) и (n/2+1).

Замечание 1. Значениями порядковых (нечисловых) данных являются категории, которые можно упорядочивать. При четном числе категорий медиана, в зависимости от двух расположенных в середине ряда значений, вычисляется по-разному.

Если два средних значения представляют различные категории, то обе эти категории будут медианами. Например, для списка рейтингов облигаций А, ААА, В, АА, ААА, В медиана вычисляется следующим образом:

медиана (А, ААА, В, АА, ААА, В) = медиана (ААА, ААА, АА, А, В, В) = АА и А.

Если два средних значения представляют одну и ту же категорию, то эта категория является медианой. Например, для списка рейтингов облигаций А, В, АА, А медиана равна:

медиана (А, В, АА, А) = медиана (АА, А, А, В) = А.

Замечание 2. Поясним отличие медианы от среднего. При нормальном распределении данных значения медианы и среднего близки между собой, поскольку нормальное распределение симметрично и имеет четко выраженную среднюю точку. Однако для реальных нормально распределенных данных, поскольку всегда присутствует некоторая случайность, медиана и среднее несколько отличаются друг от друга, т.к. определяются по-разному. Для нормально распределенных данных среднее является наиболее эффективной характеристикой.

Если набор данных имеет ассиметричное распределение, то медиана и среднее могут существенно различаться. Обычно среднее по отношению к медиане сдвинуто в направлении более длинного хвоста или в направлении выброса, т.к. среднее учитывает такие экстремальные наблюдения, в то время как для медианы важно, по какую сторону от нее лежит то или иное значение. Медиана является хорошей характеристикой ассиметричного распределения. Кроме того, медиана полезна при наличии выбросов, т.к. она устойчива к их влиянию.


Задание 5.

Определить медиану процентного изменения стоимости акций на момент открытия торгов в день обвала фондового рынка.

В таблице 3 приведены данные о падении стоимости акций 29 промышленных компаний в первый день кризиса биржи в октябре 1987 года.

Таблица 3. Падение акций при открытии торгов

Фирма

Изменение стоимости, %

Фирма

Изменение стоимости, %

Фирма

Изменение стоимости, %

1

-4,1

11

-0,9

21

-15,7

2

-5,1

12

-3,5

22

-12,3

3

-4,5

13

-10,5

23

-9,6

4

-5,4

14

-7,2

24

-12,0

5

-4,0

15

-8,9

25

-12,4

6

-11,6

16

-6,8

26

-8,6

7

-4,0

17

-2,1

27

-11,4

8

-3,0

18

-17,2

28

-10,8

9

-4,4

19

-15,7

29

-8,6

10

-9,3

20

-8,9

  1. В файле Описательная статистика.xls на Листе3 в ячейке A1 задайте метку Изменение стоимости. В диапазон A2:A30 введите данные Таблицы 3. Увеличьте ширину столбца, дважды щелкнув на правой границе заголовка столбца A.
  2. Выделите диапазон A1:A30 и выполните упорядочивание данных с помощью команды: ДанныеСортировка… Параметры сортировки задайте, как указано ниже на рисунке.

  1. В ячейку B1 введите метку Ранг, а в ячейку B2 введите число 1. Выделите диапазон B2:B30 и выберите команду ПравкаЗаполнитьПрогрессия …В диалоговом окне установите опцию Шаг: равной 1 и щелкните на кнопке ОК.
  2. Теперь определите значение медианы. Для этого сначала присвойте имя переменной n ячейке B30. В ячейке D1 задайте метку Ранг, а в ячейку D2 введите формулу =(n+1)/2. В ячейке D5 задайте метку Медиана. В ячейку D6 скопируйте из столбца процентного изменения стоимости акций значение, соответствующее вычисленному рангу медианы.
  3. Постройте гистограмму процентных изменений стоимости акций для диапазона данных A1:A30, включая метку. Интервал входных значений задайте явно равным 2. Нижнюю границу диапазона входных значений примите равной –20, а верхнюю границу равной 0. Значения карманов вместе с меткой Карман расположите в ячейках F1:F12. Выведите гистограмму вместе с таблицей распределения частот в область H1:Р20. Можно ли считать, что распределение данных близко к нормальному?
  4. В ячейке D9 задайте метку Среднее, а в ячейке D10 рассчитайте среднее значение процентного изменения. Уменьшите разрядность полученного значения до одного знака после запятой. Существенно ли отличаются друг от друга значения среднего и медианы?

Задание 6.

Определить медиану и среднее для  служащих сферы общественного питания.

В таблице 4 содержатся данные о количестве служащих в 10 фирмах общественного питания.

Таблица 4. Количество служащих в фирмах общественного питания

Фирма

Количество служащих

Фирма

Количество служащих

1

471000

6

33000

2

183000

7

30000

3

133000

8

51700

4

90000

9

26170

5

44000

10

38000

  1. В файле Описательная статистика.xls добавьте Лист4.
  2. На Листе4 в ячейке A1 задайте метку Количество служащих, а в диапазон A2:A11 введите данные из Таблицы 4.
  3. Постройте гистограмму для диапазона данных A1:A11, включая метку. Интервал входных значений задайте явно равным 20000. Нижнюю границу диапазона входных значений примите равной 26000, а верхнюю границу равной 486000. Значения карманов вместе с меткой Карман расположите в ячейках D1:D25. Расположите таблицу распределения частот в диапазоне F1:G26, а гистограмму – в диапазоне I1:M20. Какой характер распределения имеют данные?
  4. В ячейку J25 введите метку Медиана. В ячейке J26 вычислите медиану, используя статистическую функцию МЕДИАНА.
  5. В ячейку L25 введите метку Среднее. В ячейке L26 вычислите среднее, используя статистическую функцию СРЗНАЧ. Объясните причину отличия значений медианы и среднего.

Использование инструмента анализа Ранг и персентиль

Персентили – это характеристики набора данных, которые определяют ранги элементов в виде процентов таким образом, что наименьшему значению элемента данных соответствует персентиль, равный 0%, наибольшему – 100%, медиане – 50% и т.д. Промежуточные значения имеют персентили, расположенные с шагом 100/(n–1). Персентиль выражается в тех же единицах, что и набор данных. Например, 60-й персентиль эффективности продаж равен $385000 и характеризует деятельность определенного агента по продажам. Это означает, что приблизительно 60% других агентов имеют результаты ниже, чем у данного агента, а 40% агентов имеют более высокие результаты.

Персентили играют важную роль в качестве опорных характеристик данных. Чтобы обобщить основные черты распределения, достаточно знать пять базовых значений персентилей.

  1.  Наименьшее значение данных (0-персентиль).
  2.  Нижний квартиль (25-й персентиль, расположенный на расстоянии одной четверти от наименьшего значения).
  3.  Медиана (50-персентиль).
  4.  Верхний квартиль (75-й персентиль, расположенный на расстоянии одной четверти от наибольшего значения).
  5.  Наибольшее значение данных (100-персентиль).

Нижний и верхний квартили определяют границы половины данных, расположенных в центре, а положение медианы относительно квартилей дает грубое представление о наличии или отсутствии ассиметрии. В инструменте Описательная статистика, как правило, опции К-ый наименьший задается ранг нижнего квартиля, а опции К-ый нибольший – ранг верхнего квартиля. Ранги квартилей определяются по следующим формулам:

Ранг нижнего квартиля = (1+Целое((n+1)/2))/2;

Ранг верхнего квартиля = (n+1) – Ранг нижнего квартиля,

где Целое означает функцию выделения целой части.

Задание 7.

Определить пять базовых показателей для набора данных о размерах выплат руководителям финансовых фирм.

В таблице 5 содержится список о размере выплат (заработная плата и премия) руководителям финансовых компаний (n=30).

Таблица 5. Выплаты руководителям финансовых компаний

Фирма

Зарплата и

премия, дол.

Фирма

Зарплата и

премия, дол.

Фирма

Зарплата и премия, дол.

1

1723000

11

1075000

21

1937000

2

1294000

12

1000000

22

3200000

3

1119000

13

901000

23

2063000

4

6910000

14

1936000

24

1726000

5

1960000

15

1458000

25

1393000

6

896000

16

3077000

26

1877000

7

746000

17

4840000

27

1674000

8

3273000

18

1190000

28

1537000

9

2101000

19

481000

29

743000

10

1384000

20

1040000

30

1242000

  1. В файле Описательная статистика.xls добавьте Лист5.
  2. На Листе5 в ячейке A1 задайте метку Выплаты, а в диапазон A2:A31 введите данные из Таблицы 5.
  3. Выберите команду СервисАнализ данныхРанг и персентиль и задайте параметры как указано ниже на рисунке. Щелкните на кнопке ОК.

В полученной таблице выделите столбец со значениями персентилей (диапазон F2:F31) и уменьшите разрядность до одного знака после запятой.

  1. Объедините диапазон ячеек H1:N1 и введите метку Базовые показатели.
  2. В ячейку H2 введите метку Наименьшее значение, а в ячейку H3 скопируйте значение из ячейки D31.
  3. В ячейку K2 введите метку Наибольшее значение, а в ячейку K3 скопируйте значение из ячейки D2.
  4. В ячейке N2 задайте метку Медиана. В ячейке N3, используя функцию СРЗНАЧ, вычислите медиану как среднее двух значений с рангами 15 и 16 (ячейки D16:D17).
  5. В ячейках H6 и L6 задайте метки Нижний квартиль и Верхний квартиль соответственно.
  6. В ячейку H7 скопируйте значение из ячейки D24, что соответствует нижнему 24,1-персентилю (это число самое близкое к 25%) с рангом 23.
  7. В ячейку L7 скопируйте значение из ячейки D9, что соответствует верхнему 75,8-персентилю (это число самое близкое к 75%) с рангом 8.
  8. Чтобы сделать выводы о симметричности распределения, надо сравнить три значения: медиану и квартили. Проведем визуальное сравнение. Для этого постройте для соответствующих значений (выделив ячейки N3, H7, L7) точечную диаграмму, проставьте значения точек и удалите все надписи. Вид диаграммы показан на рисунке.

Как видим из диаграммы, значение медианы находится приблизительно посередине между квартилями, что соответствует симметричному распределению данных.

Контрольные вопросы

  1. Перечислите обобщающие показатели, характеризующие типические значения набора данных.
  2. Перечислите показатели, характеризующие разброс данных.
  3. Перечислите и кратко опишите показатели, характеризующие степень симметричности данных.
  4. Что такое среднее? Объясните среднее с точки зрения суммы всех значений набора данных.
  5. Что такое взвешенное среднее? В каких случаях этот показатель используется вместо обычного среднего?
  6. Что такое медиана? Как найти медиану для набора данных:

а) С четным количеством значений?

б) С нечетным количеством значений?

  1. Как вычислить медиану для порядковых категорийных данных?
  2. Что такое мода? В каком случае вычисляется модальный интервал?
  3. Какой типический показатель (или показатели) можно использовать для:

а) Количественных данных?

б) Порядковых категорийных данных?

в) Категорийных данных, которые нельзя содержательно упорядочить?

  1. Какие показатели лучше использовать:

а) При нормальном распределении данных?

б) При планировании общей суммы?

в) При ассиметричном распределении, когда общая сумма не важна?

  1. Что такое персентиль? В каких единицах он выражается?
  2. Что такое квартили?
  3. Назовите пять базовых характеристик распределения.

Лабораторная работа №3. Характеристики рассеяния данных

Одна из причин проведения статистического анализа заключается в необходимости учитывать влияние на исследуемый экономический показатель случайных факторов (возмущений), которые приводят к разбросу (рассеянию) данных. Решение задач, в которых присутствует разброс данных, связано с риском, поскольку даже при использовании всей доступной информации нельзя точно предугадать, что же произойдет в будущем. Для адекватной работы в таких ситуациях целесообразно понимать природу риска и уметь определять степень рассеяния набора данных. Существуют три числовые характеристики, описывающие меру рассеяния: стандартное отклонение, размах и коэффициент вариации (изменчивости). В отличие от типических показателей (среднее, медиана, мода), характеризующих центр, характеристики рассеяния показывают, насколько близко к этому центру располагаются отдельные значения набора данных.

Стандартное отклонение: самая распространенная характеристика

Стандартное отклонение (среднее квадратическое отклонение) является мерой случайных отклонений значений данных от среднего.

Если все величины в наборе данных одинаковы, например

5,5;  5,5;  5,5;  5,5;  5,5;  5,5,

то среднее будет иметь значение , а стандартное отклонение S=0. Это указывает на отсутствие разброса данных.

В реальной жизни большинство данных характеризуется рассеянием, т.е. отдельные значения располагаются на некотором расстоянии от среднего. Например, значениями ставки доходности акций (в %) четырех компаний, выбранных случайным образом, являются:

43,0;  17,7;  8,7;  –47,4

Средняя ставка доходности акций в этом случае также равна , однако отдельные значения данных существенно отличаются от среднего. Так, например, первая ставка превышает среднюю ставку на 37,5% (отклонение от среднего равно ), а последняя ставка оказывается ниже среднего на 52,9%, поскольку величина отклонения от среднего отрицательна ().

Использовать стандартное отклонение как обобщающую характеристику рассеяния, просто усреднив отклонения данных нельзя, потому что часть отклонений окажется положительной, а другая часть – отрицательной, и, вследствие этого, результат усреднения может оказаться равным нулю. Чтобы избавиться от отрицательного знака, применяют стандартный прием: сначала вычисляют дисперсию как сумму квадратов отклонений, поделенную на (n–1), а затем из полученного значения извлекают квадратный корень. Формула для вычисления стандартного отклонения выглядит следующим образом:

Замечание 1. Дисперсия не несет никакой дополнительной информации по сравнению со стандартным отклонением, однако ее сложнее интерпретировать, т. к. она выражается в «единицах в квадрате» (например, в «долларах в квадрате»), в то время как стандартное отклонение выражено в привычных для нас единицах (например, в долларах).

Замечание 2. Приведенная выше формула предназначена для расчета стандартного отклонения по выборке и более точно называется выборочное стандартное отклонение. При расчете стандартного отклонения генеральной совокупности (обозначается символом ) производят деление на n. Величина выборочного стандартного отклонения получается несколько больше (т. к. делят на n–1), что обеспечивает поправку на случайность самой выборки.

В случае, когда набор данных имеет нормальное распределение, стандартное отклонение приобретает особый смысл. На рисунке, представленном ниже, по обе стороны от среднего сделаны отметки на расстоянии одного, двух и трех стандартных отклонений соответственно.

66,7%

95%

99,7%

Из рисунка видно, что примерно 66,7% (две трети) всех значений находятся в пределах одного стандартного отклонения по обе стороны от среднего значения, 95% значений окажутся в пределах двух стандартных отклонений от среднего и почти все данные (99,7%) будут находиться в пределах трех стандартных отклонений от среднего значения. Это свойство стандартного отклонения для нормально распределенных данных называется «правилом двух третей». В некоторых ситуациях, например при анализе контроля качества продукции, часто устанавливают такие пределы, чтобы в качестве заслуживающей внимание проблемы рассматривались те результаты наблюдений (0,3%), которые отстоят от среднего на расстоянии большем, чем три стандартных отклонения. К сожалению, если данные не подчиняются нормальному распределению, то описанное выше правило применять нельзя. В настоящее время существует ограничение, называемое правилом Чебышева, которое можно применять к ассиметричным (скошенным) распределениям.

Задание 1.

Вычислить и проанализировать стандартное отклонение дневной прибыли на фондовой бирже.

Размеры прибыли на фондовой бирже меняются каждый день. В таблице 1 представлена динамика изменений дневной прибыли на бирже, зафиксированной в рабочие дни за период от 31 июля по 9 октября 1987 года.

Таблица 1. Динамика изменения дневной прибыли на бирже

Дата

Дневная прибыль

Дата

Дневная прибыль

Дата

Дневная прибыль

1

-0,006

17

0,009

33

0,012

2

-0,004

18

-0,015

34

-0,004

3

0,008

19

-0,006

35

0,002

4

0,011

20

0,002

36

-0,008

5

-0,001

21

0,011

37

-0,010

6

0,017

22

0,013

38

-0,013

7

0,017

23

0,002

39

0,009

8

-0,004

24

-0,018

40

-0,020

9

0,008

25

-0,014

41

-0,003

10

-0,002

26

-0,001

42

-0,001

11

0,006

27

-0,001

43

0,017

12

-0,017

28

-0,013

44

0,001

13

0,004

29

0,030

45

-0,000

14

0,015

30

0,007

46

-0,035

15

0,001

31

-0,007

47

0,001

16

-0,005

32

0,001

48

-0,014

  1. Откройте программу Excel. Щелкните на кнопке Сохранить на панели инструментов Стандартная. В появившемся диалоговом окне откройте папку Статистика и задайте имя файлу Характеристики рассеяния.xls.
  2. На Листе1 в ячейке A1 задайте метку Дневная прибыль, а в диапазон A2:A49 введите данные из Таблицы 1.
  3. В ячейку D1 введите метку Среднее. В ячейке D2 вычислите среднее, используя статистическую функцию СРЗНАЧ. Уменьшите разрядность полученного результата до четвертого знака после запятой.
  4. В ячейку D4 введите метку Стандартное отклонение. В ячейке D5 вычислите стандартное отклонение, используя статистическую функцию СТАНДОТКЛОН. Уменьшите разрядность полученного результата до четвертого знака после запятой.

Интерпретация результатов

Снижение дневной прибыли в среднем составило 0,04% (значение средней дневной прибыли получилось равным –0,0004). Это означает, что средняя дневная прибыль за рассматриваемый период времени была приблизительно равна нулю, т.е. на рынке держался средний курс.

Стандартное отклонение получилось равным 0,0118. Это означает, что вложенный в фондовый рынок один доллар ($1) за сутки изменялся в среднем на $0,0118, т.е. его вложение могло привести к прибыли или потере в размере $0,0118.

Проверим, соответствуют ли приведенные в Таблице 1 значения дневной прибыли правилам нормального распределения.

  1. Рассчитайте интервал, соответствующий одному стандартному отклонению по обе стороны от среднего. В ячейках D7, D8 и F8 задайте соответственно метки: Одно стандартное отклонение, Нижняя граница, Верхняя граница. В ячейку D9 введите формулу
    = -0,0004 – 0,0118, а в ячейку F9 введите формулу = -0,0004 + 0,0118. Получите результат с точностью до четвертого знака после запятой.
  2. Определите число значений дневной прибыли, находящихся в пределах одного стандартного отклонения. Сначала отфильтруйте данные, оставив значения дневной прибыли в интервале [-0,0121, 0,0114]. Для этого выделите любую ячейку в столбце A со значениями дневной прибыли и выполните команду:

ДанныеФильтрАвтофильтр

Откройте меню, щелкнув на стрелке в заголовке Дневная прибыль, и выберите (Условие…). В диалоговом окне Пользовательский автофильтр установите параметры как показано ниже. Щелкните на кнопке ОК.

Чтобы подсчитать число отфильтрованных данных, выделите диапазон значений дневной прибыли, щелкните правой кнопкой на свободном месте в строке состояния и в контекстном меню выберите команду Количество значений. Прочтите результат. Теперь отобразите все исходные данные, выполнив команду: ДанныеФильтрОтобразить все и выключите автофильтр с помощью команды: ДанныеФильтрАвтофильтр.

  1. Вычислите процент значений дневной прибыли, удаленных от среднего на расстоянии одного стандартного отклонения. Для этого в ячейку H8 занесите метку Процент, а в ячейке H9 запрограммируйте формулу вычисления процента и получите результат с точностью до одного знака после запятой.
  2. Рассчитайте интервал значений дневной прибыли в пределах двух стандартных отклонений от среднего. В ячейках D11, D12 и F12 задайте соответственно метки: Два стандартных отклонения, Нижняя граница, Верхняя граница. В ячейки D13 и F13 введите расчетные формулы и получите результат с точностью до четвертого знака после запятой.
  3. Определите число значений дневной прибыли, находящихся в пределах двух стандартных отклонений, предварительно отфильтровав данные.
  4. Вычислите процент значений дневной прибыли, удаленных от среднего на расстоянии двух стандартных отклонений. Для этого в ячейку H12 занесите метку Процент, а в ячейке H13 запрограммируйте формулу вычисления процента и получите результат с точностью до одного знака после запятой.
  5. Рассчитайте интервал значений дневной прибыли в пределах трех стандартных отклонений от среднего. В ячейках D15, D16 и F16 задайте соответственно метки: Три стандартных отклонения, Нижняя граница, Верхняя граница. В ячейки D17 и F17 введите расчетные формулы и получите результат с точностью до четвертого знака после запятой.
  6. Определите число значений дневной прибыли, находящихся в пределах трех стандартных отклонений, предварительно отфильтровав данные. Вычислите процент значений дневной прибыли. Для этого в ячейку H16 занесите метку Процент, а в ячейке H17 запрограммируйте формулу вычисления процента и получите результат с точностью до одного знака после запятой.
  7. Ответьте на вопрос: можно ли считать, что «правило двух третей» выполняется, и размер дневной прибыли подчиняется нормальному распределению?
  8. Постройте гистограмму дневной прибыли акций на бирже и поместите ее вместе с таблицей распределения частот в области J1:S20. Покажите на гистограмме приблизительно среднее значение и интервалы, соответствующие одному, двум и трем стандартным отклонениям от среднего соответственно.

Размах: быстрая и поверхностная характеристика

Размах – это интервал, вычисляемый как разность между самым большим и самым малым значениями данных. Размах может быть хорошей мерой рассеяния в том случае, когда важны экстремальные значения и возникает необходимость описать пределы изменения значения данных. Как статистическая характеристика размах имеет тот недостаток, что не учитывает типичную картину рассеяния данных, т.к. акцентирует внимание всего лишь на двух экстремальных значениях. Поэтому для большинства целей статистического анализа чаще используют стандартное отклонение. Размах всегда больше, чем стандартное отклонение.

Задание 2.

Определить и проанализировать размах, среднее и стандартное отклонение заработной платы персонала.

В таблице 2 приведены данные заработной платы наемных работников технического отдела фирмы.

Таблица 2. Зарплата персонала

Код сотрудника

Зарплата, дол.

Код сотрудника

Зарплата, дол.

Код сотрудника

Зарплата, дол.

1

37000

5

24500

9

16500

2

24000

6

21500

10

44500

3

27000

7

33000

11

28500

4

25000

8

32500

12

26500

  1. Откройте файл Характеристики рассеяния.xls.
  2. На Листе2 в ячейке A1 задайте метку Зарплата. В диапазон A2:A13 введите данные из Таблицы 2.
  3. Отсортируйте данные по возрастанию.
  4. В ячейке C1 задайте метку Размах, а в ячейке C2 запрограммируйте формулу для расчета размаха: = A13–A2.
  5. В ячейке C4 задайте метку Среднее, а в ячейке C5 вычислите среднее, используя статистическую функцию СРЗНАЧ.
  6. В ячейке C7 задайте метку Стандартное отклонение, а в ячейке C8 вычислите стандартное отклонение, используя статистическую функцию СТАНДОТКЛОН.
  7. Постройте гистограмму зарплаты сотрудников для диапазона от 16000 (нижняя граница) до 46000 (верхняя граница), приняв значение интервала равным 5000. Значения карманов вместе с меткой Карман расположите в ячейках F1:F8. Выведите гистограмму вместе с таблицей распределения частот в область H1:P20.

Интерпретация результатов

  1. Размах составляет $28000. Эта величина показывает различие между наиболее (зарплата $44500) и наименее (зарплата $16500) оплачиваемыми сотрудниками. Однако размах не отражает типичную вариацию (изменчивость) зарплаты в отделе. Для этого лучше использовать стандартное отклонение.
  2. Средняя зарплата в отделе составляет $28375 и стандартное отклонение показывает, что зарплаты отдельных сотрудников отличаются от средней зарплаты приблизительно на $7459.
  3. Покажите на гистограмме приблизительно величину размаха, среднее значение и стандартное отклонение.

Коэффициент вариации: мера относительной изменчивости

Коэффициент вариации представляет собой относительную меру изменчивости данных и определяется как результат деления стандартного отклонения на среднее значение. Коэффициент вариации показывает, какой процент от среднего (или доля среднего) составляет стандартное отклонение. Например, если покупатель в среднем тратит в супермаркете $35, а стандартное отклонение составляет $14, то коэффициент вариации равен 40% (14/35 = 0,4). Это означает, что суммы, которые тратит при посещении супермаркета покупатель, отличаются от среднего размера затрат приблизительно на 40%.

Коэффициент вариации является безразмерной величиной, поэтому он может быть полезен при сравнении изменчивости данных, представленных в разных единицах. Коэффициент вариации часто используют при проведении сравнений в условиях различных объемов. Например, можно сравнить вариацию объемов продаж для крупной и малой фирм. Для большей фирмы абсолютное значение вариации (стандартное отклонение) окажется больше, однако относительная величина вариации (коэффициент вариации) может оказаться одинаковой для обеих фирм.

Следует отметить, что при ассиметричном (скошенном) распределении данных коэффициент вариации может превысить 100%. Такой результат означает, что в изучаемой ситуации наблюдается очень сильный разброс данных относительно среднего.

Задание 3.

Рассчитать и проанализировать коэффициенты вариации двух отделов торговли по телефону.

Рассмотрим два отдела торговли по телефону: отдел, занимающийся продажей билетов на концерты симфонической музыки, и отдел, занимающийся продажей билетов в театры.

В первом отделе каждый сотрудник продает на симфонические концерты в среднем 23 билета в час. Стандартное отклонение составляет 6 билетов в час. Это означает, что любой из сотрудников отдела может продать в час в среднем на 6 билетов больше или меньше среднего значения.

В отделе продаж билетов в театры средний уровень продаж (среднее значение) составляет 35 билетов в час, а стандартное отклонение равно 7.

  1. Откройте Лист3 в файле Характеристики рассеяния.xls.
  2. Объедините ячейки диапазона A1:C1 и введите метку Отдел 1.
  3. В ячейках A2, B2 и C2 задайте соответственно метки: Среднее, Стандартное отклонение, Коэффициент вариации. Увеличьте ширину столбцов, чтобы отобразить полностью названия меток.
  4. В ячейки A3 и B3 введите значение среднего и стандартное отклонение, соответствующие отделу, занимающемуся продажей билетов на симфонические концерты. В ячейке C3 рассчитайте коэффициент вариации по формуле =B3/A3*100. Уменьшите разрядность результата до целого значения.
  5. Объедините ячейки диапазона A5:C5 и введите метку Отдел 2.
  6. В ячейках A6, B6 и C6 задайте соответственно метки: Среднее, Стандартное отклонение, Коэффициент вариации.
  7. В ячейки A7 и B7 введите значение среднего и стандартное отклонение, соответствующие отделу, занимающемуся продажей билетов в театры. В ячейку C7 скопируйте формулу из ячейки C3. Уменьшите разрядность результата до целого значения.

Интерпретация результатов

Рассматриваемые два отдела различаются по уровню продаж билетов. Производительность труда при продаже театральных билетов в целом выше производительности труда при продаже билетов на симфонические концерты (средние значения составляют 35 и 23), но вместе с тем, естественно, и вариация (стандартное отклонение) в отделе продаж театральных билетов больше (7, а не 6). Однако коэффициент вариации (20%) для отдела продаж театральных билетов оказался меньше, чем коэффициент вариации (26%) для отдела продаж билетов на симфонические концерты. Это означает, что группа, работающая с театральными билетами (с точки зрения производительности отдельных сотрудников), более однородна, поскольку в ней отклонение производительности от среднего на 6% ниже (26% – 20% = 6%), чем у группы, занятой продажей билетов на симфонические концерты.

Контрольные вопросы

  1. Объясните причину, приводящую к разбросу данных. Какое влияние оказывает рассеяние данных на решение экономических задач?
  2. Какие характеристики используются в качестве меры рассеяния?
  3. Что такое отклонение от среднего значения? Чему равно среднее значение всех отклонений?
  4. Что такое дисперсия?
  5. Что такое стандартное отклонение?
  6. Какую из характеристик легче интерпретировать – стандартное отклонение или дисперсию? Почему?
  7. Чем отличается выборочное стандартное отклонение от стандартного отклонения генеральной совокупности?
  8. Поясните «правило двух третей» для нормального распределения данных.
  9. Что такое размах? В каких единицах он измеряется? В каких случаях пользуются этой характеристикой?
  10. Что такое коэффициент вариации? В каких единицах он измеряется?
  11. Какую характеристику рассеяния лучше использовать при сравнении изменчивости в двух ситуациях при условии, что средние в этих ситуациях сильно отличаются?




1. удовлетворительно от 60 до 79 правильных ответов в тесте ~ хорошо от 80 до 100 правильных ответов в тест
2. Особенности имущественных отношений супругов
3. Тема- составление паспорта крепления однопутного рудного штрека
4. Мастит в молочном скотоводстве
5. Утверждаю Согласовано Проректор по УМР Г
6. Тема- Экономический ростПреимуществом интенсивного типа экономического роста является
7. тема педагогическая система
8. Методические рекомендации по выполнению контрольных работ по курсу Организация деятельности участкового у
9. На тему- Этикет делового человека Над рефератом работал
10. старые добрые времена
11. Лекція 3 Охорона прав на об~єкти інтелектуальноївласності
12. Тема- Анализ состава структуры изменения внеоборотных активов Обучающийся должен- выполнять-
13. Гельминтозные заболевания свиней
14. Зачем нужны черви Мне очень захотелось узнать о дождевых червях более подробно
15. растительные ресурсы
16. а С ГИДОМПРИБЫТИЕ В ТАЛЛИНН
17. Мы ~ хиппи или Да здравствует рокнролл Это словарь сленга языка на котором разговаривают хиппи.
18. Профилактика наркомании
19. На тему- Структуры управления в индустрии иностранного туризма
20. Тема- Проекции с числовыми отметками