У вас вопросы?
У нас ответы:) SamZan.net

Лабораторная работа 4 Категорийные данные Категорийные данные представляют собой набор нечисловых значе

Работа добавлена на сайт samzan.net: 2016-03-30

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Имя

Выберите тип работы:

Принимаю Политику конфиденциальности

Скидка 25% при заказе до 1.7.2025

Лабораторная работа №4 Категорийные данные

Категорийные данные представляют собой набор нечисловых значений, который показывает, к какой категории относится каждый из рассматриваемых объектов. Например, пол задается двумя категориями (мужской и женский), преподавательская должность имеет несколько категорий (ассистент, доцент, профессор), автомобильные марки характеризуются достаточно большим числом категорий (Нисан, Форд, Тойота и др.). Категорийные данные могут быть описаны с помощью частот (или процентов), определяющих число значений данных, попавших в каждую из категорий. Во многих случаях, если известно точное количество категорий, можно каждой категории поставить в соответствие число и затем обрабатывать полученные данные как количественные. Например, если имеется в точности две категории, то их можно обозначить цифрами 1 и 0. Категорийные данные разделяются на два типа: порядковые и номинальные.

Порядковые категорийные данные состоят из категорий, для которых существует порядок, имеющий содержательный смысл. Например, можно вести речь об объекте как о первом («лучшем»), втором («хорошем»), третьем («посредственном») и т.д. Порядковые данные можно ранжировать и использовать это ранжирование для анализа. Для порядковых данных в качестве статистических показателей широко используются медиана и мода.

Номинальные категорийные данные определяются категориями, которые нельзя содержательно упорядочить. Для таких категорий нет чисел, которые можно было бы поставить в соответствие с содержательным смыслом. Следовательно, с номинальными данными нельзя проводить вычисления, и нет основы для ранжирования. Все, что можно сделать – это подсчитать частоту (процент), попадающих в каждую из категорий наблюдений и использовать в качестве обобщающего показателя моду. Примерами номинальных данных являются наименования городов или главный продукт производственных предприятий (электроника, пластмасса, древесина).

Использование Сводной таблицы для одномерного набора данных

В случае одномерного набора категорийных данных (одной переменной) Сводная таблица Excel служит для подсчета частот всевозможных значений. Результат может отображаться либо в абсолютных числах, либо в процентах. Для создания Сводной таблицы в Excel используется Мастер сводных таблиц и диаграмм.

Задание 1.

Создать таблицу распределения частот для оценки ресторанного бизнеса.

Для оценки ресторанного бизнеса введена шкала значений от 1 (Очень неблагоприятная) до 6 (Очень благоприятная). В таблице 1 приведены восемнадцать наблюдений, выбранных из обзора ресторанов 1980 г.

Таблица 1. Оценки ресторанного бизнеса

Ресторан	Оценка	Ресторан	Оценка	Ресторан	Оценка
1	6	7	3	13	1
2	4	8	4	14	5
3	4	9	5	15	1
4	2	10	4	16	2
5	1	11	3	17	3
6	3	12	1	18	4

Несмотря на то, что оценки выражены числами, мы имеем дело с порядковыми категорийными данными, поскольку предложенная шкала оценок носит субъективный характер. Непонятно, например, можно ли считать, что разница между оценками 5 и 4 такая же, как и между оценками 2 и 1, или, что оценка 2 в два раза лучше оценки 1. Опишем данные с помощью таблицы распределения частот, в которой подсчитывается количество ресторанов, имеющих соответствующую оценку.

Откройте программу Excel. Щелкните на кнопке Сохранить на панели инструментов Стандартная. В появившемся диалоговом окне откройте папку Статистика и задайте имя файлу Категорийные данные.xls.
На Листе1 в ячейке A1 задайте метку Ресторан, а в ячейке B1 задайте метку Оценка.
В ячейку A2 введите значение 1. Выделите диапазон A2:A19 и заполните его числами от 1 до 18, используя клавишу Ctrl .
В диапазон B2:B19 введите оценки из Таблицы 1.

Замечание. Ряды строк с данными, такие как отображены на Листе1, в Excel называются списками или базой данных. Строки называются записями, а столбцы – полями.

Выделите любую ячейку в базе данных (диапазон A1:B19) и выберите в меню команду:

Лента ВСТАВКАСводная таблица…

Открывается диалоговое окно Мастер сводных таблиц и диаграмм – шаг 1 из 3. В диалоговом окне включите опции как показано ниже на рисунке. Щелкните на кнопке <ОК>.

В диалоговом Списке полей сводной таблицы перетащите кнопку Оценка, которая находится справа, в область ниже Названия Строк. Кнопку Ресторан перетащите в область Данные (см. рисунок ниже).

Замечание. Когда вы перетащите кнопку Ресторан, ее название может измениться на Сумма по полю Ресторан. В этом случае

разверните стрелку подкоманд и в появившемся диалоговом окне выберите команду параметры полей значения:

сводной таблицы выберите элемент Количество (см. рисунок ниже). Щелкните на кнопке ОК.

Таблица распределения частот разместится в диапазоне E1:F8.

Скопируйте полученную таблицу в диапазон H1:I9. Теперь заменим во второй таблице абсолютные числа процентами.
Выделите любую ячейку в столбце I (например, I4) и щелкните правой кнопкой мыши на этой ячейке. В контекстном меню выберите команду Параметры полей значения… Вкладыш: Дополнительные вычисления: откройте список и выберите элемент Доля от общей сумм. Щелкните на кнопке ОК.
:, в которой откройте список и выберите элемент Доля от общей суммы (см. рисунок ниже). Щелкните на кнопке ОК.

Получили таблицу, в которой количественные показатели выражены в процентах.

Для облегчения чтения, выделите диапазон процентных значений I3:I9 и уменьшите разрядность до целых чисел.

Сравните результаты и ответьте на следующие вопросы.
Какую оценку имеет наибольшее количество ресторанов?
Какой процент ресторанов имеет самую низкую оценку, а какой процент ресторанов имеет самую высокую оценку?

Использование Сводной таблицы с двумя входами

Сводные таблицы с двумя входами часто называют перекрестными таблицами. Такие таблицы используют для установления зависимости между двумя категорийными переменными. Они показывают, сколько раз встречается каждая комбинация из двух категорий.

Задание 2.

Определить зависимость перспектив (оценок) ресторанного бизнеса от вида собственности.

Имеется восемнадцать наблюдений, выбранных из обзора ресторанов 1980 г. В таблице 2 представлены оценки ресторанов и вид собственности. Отсутствующие значения в таблице 2 отмечены звездочками (*).

Таблица 2. Данные обзора ресторанов

Ресторан	Оценка	Владелец	Ресторан	Оценка	Владелец
1	6	3	10	4	2
2	4	1	11	3	1
3	4	1	12	1	1
4	2	*	13	1	*
5	1	3	14	5	3
6	3	1	15	1	1
7	3	3	16	2	1
8	4	2	17	3	3
9	5	3	18	4	3

Откройте файл Категорийные данные.xls.
С Листа1 скопируйте данные (диапазон A1:B19) на Лист2 в тот же диапазон A1:B19.
В ячейке C1 задайте метку Владелец, а в диапазон C2:C19 введите данные собственности, включая отсутствующие значения (*).
Выделите любую ячейку в базе данных (диапазон A1:C19) и выберите в меню команду:

ВСТАВКАСводная таблица…

На втором шаге Мастера сводных таблиц и диаграмм убедитесь, что Excel правильно определил промежуток данных (A1:C19). Задайте положение сводной таблице на том же листе в ячейке Е1.
В окне Список полей сводной таблицы перетащите кнопку Владелец в область под названием Строка, кнопку Оценка перетащите в область Столбец, кнопку Ресторан перетащите в область Данные (см. рисунок ниже). Если при перетаскивании кнопки Ресторан появится название Сумма по полю Ресторан, щелкните дважды по названию и в появившемся диалоговом окне Вычисление поля сводной таблицы из списка в области Операция: выберите элемент Количество.

Щелкните на кнопке ОК. Результат действий изображен ниже на рисунке.

Замечание. Если появляются дополнительные окна, то их надо закрыть.

Чтобы спрятать отсутствующие значения, откройте список поля Владелец, уберите галочку со значка звездочки (*) и щелкните на кнопке ОК.

С целью облегчения сравнения перспектив бизнеса в зависимости от вида собственности количественные показатели лучше выразить в процентах. Для этого скопируйте полученную таблицу в диапазон E10:L15.
Выделите любую ячейку с числом в диапазоне F12:L14 и щелкните правой кнопкой мыши на этой ячейке. В контекстном меню выберите команду Параметры полей значения… Вкладыш: Дополнительные вычисления: откройте список и выберите элемент Доля от суммы по строке. Щелкните на кнопке ОК.
Таблица будет лучше выглядеть, если убрать Общий итог по столбцам. Выделите любую ячейку с числом в диапазоне F12:L14 и щелкните правой кнопкой мыши на этой ячейке. В контекстном меню выберите команду Параметры сводной таблицы… В диалоговом окне снимите флажок с опции Показывать общие итоги для столбцов и щелкните на кнопке ОК.

Выделите ячейку E10 и введите в нее название Доля по строкам. Уменьшите ширину столбца E в соответствии с этим названием.
Шесть категорий перспектив (оценок) бизнеса могут быть избыточными. Оставим только две категории оценок: Неблагоприятная и Благоприятная. Сгруппируйте данные, содержащие оценки 1, 2 и 3. Для этого выделите ячейки с заголовками этих оценок (F11:H11) и щелкните правой кнопкой мыши. В контекстном меню выберите команду: Группировать… Теперь щелкните правой кнопкой мыши на ячейке с названием Группа1 и в контекстном меню выберите команду: Развернуть/СвернутьСвернуть.

Аналогично сгруппируйте данные, содержащие оценки 4, 5 и 6.
Чтобы можно было форматировать таблицу, предварительно скопируйте ее в другую область. Для этого выделите таблицу (диапазон E10:H15) и щелкните на кнопке Копировать на ленте Главная. Теперь щелкните на ячейке E18 и в контекстном меню (после щелчка правой кнопкой мыши) выберите команду Специальная вставка… В диалоговом окне включите опцию значения и форматы чисел. Щелкните на кнопке ОК.
Отформатируйте таблицу как показано ниже.

Доля по строкам
	Оценка	Общий итог
Собственность	Неблагоприятная	Благоприятная
Частная	71%	29%	100%
Товарищество	0%	100%	100%
Корпоративная	43%	57%	100%

Отобразим строчные проценты в линейчатой диаграмме. Выделите в таблице диапазон ячеек E20:G23.
Постройте диаграмму Нормированная линейчатая. Щелкните на кнопке Далее>.
Название диаграммы Оценки бизнеса в зависимости от вида собственности, а на вкладке Линии сетки уберите все отметки. Щелкните на кнопке Далее>.
Для отображения категорий собственности на диаграмме в том же порядке, что и в таблице, выделите вертикальную Ось категорий, щелкните правой кнопкой мыши и в контекстном меню выберите команду: Формат оси… В диалоговом окне на вкладке Шкала установите флажки на опциях обратный порядок категорий и пересечение с осью Y (значений) в максимальной категории. Щелкните на кнопке ОК.

Дважды щелкните на горизонтальной Оси значений. В диалоговом окне Формат оси на вкладке Шкала в области Авто снимите флажок с опции цена основных делений: и в текстовом поле введите 20.
Проанализируйте результаты и ответьте на следующие вопросы.
Какой вид собственности имеет самую высокую оценку, а какой – самую низкую?
Какой вид собственности можно считать перспективным?

Контрольные вопросы

Что представляют собой категорийные данные? В чем отличие между количественными и категорийными данными
В чем заключается разница между порядковыми и номинальными категорийными данными?
Какие обобщающие показатели используются при анализе порядковых данных, а какие – при анализе номинальных данных?
Какие операции можно применять к категорийным данным? Какой инструмент Excel используется при анализе категорийных данных?

Лабораторная работа №5 Двумерные данные

Наборы двумерных данных содержат информацию о двух признаках (переменных) для каждого из объектов. В дополнение к изучению обобщающих характеристик каждой из этих двух переменных, рассматриваемых как отдельные наборы одномерных данных, статистические методы анализа двумерных данных используются для изучения связи между этими двумя переменными. При таком анализе необходимо выяснить следующие вопросы.

Существует ли между этими двумя переменными простая связь?
Насколько сильно взаимосвязаны переменные?
Можно ли предсказать значение одной переменной на основании другой? Если да, то с какой степенью надежности?
Существуют ли отдельные объекты или группа объектов, которые требуют особого внимания?

Приведем пример. Цена одной акции (первая переменная) регистрировалась каждый день (вторая переменная) в течение последних шести месяцев. Если установить связь между ценой и временем (датой), то можно увидеть тенденции в изменении стоимости инвестиций. Однако на основании таких данных трудно предсказать будущую стоимость инвестиций. Для этого требуется выяснить, является ли изменение стоимости непредсказуемым (случайным) явлением или существует некоторая реальная закономерность.

При изучении зависимости между двумя переменными рекомендуется в качестве первоначальной цели провести визуальное исследование, а затем вычислить общие характеристики: корреляцию и ковариацию.

Исследование взаимосвязи переменных с помощью диаграмм рассеяния

Для визуального анализа зависимости между двумя переменными используются графики рассеяния. В Excel данный вид графиков называется точечной диаграммой или диаграммой рассеяния. Диаграмма рассеяния позволяет увидеть структуру двумерных данных. Если ваши данные содержат какие-то проблемы (например, выбросы), чаще всего единственный способ их обнаружения состоит как раз в анализе диаграммы рассеяния.

При построении диаграмм рассеяния одна переменная (обозначается буквой Y) рассматривается как зависимая переменная, другая переменная (обозначается буквой X) является независимой переменной, оказывающей влияние на переменную Y. На диаграмме рассеяния переменой X соответствует горизонтальная ось, а переменной Y – вертикальная ось.

Задание 1.

Исследовать визуально зависимость между размером жилой площади и ценой объекта.

В таблице 1 приведены данные, которые представляют 15 объектов недвижимости, проданных в определенном районе города в течение одного календарного года.

Таблица 1. Объекты недвижимости

Объект	Площадь	Цена	Объект	Площадь	Цена
1	521	26,0	9	965	37,2
2	661	31,0	10	1011	38,4
3	694	37,4	11	1047	43,6
4	743	34,8	12	1060	44,8
5	787	39,2	13	1079	40,6
6	825	38,0	14	1164	41,8
7	883	39,6	15	1298	45,2
8	920	31,2

В данной задаче естественно ожидать, что цена зависит от жилой площади объекта. Введем обозначения: X – независимая переменная, определяющая размер жилой площади (в квадратных метрах); Y – зависимая переменная, определяющая цену продажи жилого объекта (в тысячах долларов).

Откройте программу Excel. Щелкните на кнопке Сохранить на панели инструментов Стандартная. В появившемся диалоговом окне откройте папку Статистика и задайте имя файлу Двумерные данные.xls.
На Листе1 расположите данные в столбцах таким образом, чтобы значения X были слева, а значения Y – справа. Для этого в ячейку A1 введите метку Площадь, в ячейку B1 введите метку Цена, а в диапазон A2:B16 введите соответствующие данные из Таблицы 1.
Выделите диапазон данных A2:B16 и откройте мастер диаграмм.
На шаге 1 выберите тип диаграммы Точечная диаграмма позволяет сравнить пары значений. Щелкните на кнопке Далее>.
На шаге 2 на вкладке Диапазон данных убедитесь, что выбран диапазон A2:B16 и включена опция Ряды в: столбцах. На вкладке Ряд проверьте, что ячейки A2:A16 используются как значения для X, а ячейки B2:B16 как значения для Y. Щелкните на кнопке Далее>.
На шаге 3 на вкладке Заголовки в текстовом поле Название диаграммы: введите Объекты недвижимости, в текстовом поле Ось X (категорий): введите Жилая площадь, в квадратных метрах, в текстовом поле Ось Y (значений): введите Цена продажи, в тысячах долларов. На вкладке Линии сетки уберите все отметки. На вкладке Легенда снимите флажок Добавить легенду. Щелкните на кнопке Далее>.
На шаге 4 убедитесь, что диаграмма будет расположена на имеющемся: листе. Щелкните на кнопке Готово. Расположите диаграмму в диапазоне D1:J16.
Для лучшей наглядности отформатируем диаграмму. Измените ось X, чтобы она отображала значения от 400 до 1400. Щелкните правой кнопкой на Оси X (категорий): и в контекстном меню выберите команду Формат оси… На вкладке Шкала в области Авто снимите флажок с опции минимальное значение: и в текстовом поле введите 400, снимите флажок с опции максимальное значение: и в текстовом поле введите 1400, снимите флажок с опции цена основных делений: и в текстовом поле введите 200. Щелкните на кнопке ОК.
Измените ось Y, чтобы она отображала значения от 20 до 50 тысяч долларов. Щелкните правой кнопкой на Оси Y (значений): и в контекстном меню выберите команду Формат оси… На вкладке Шкала в области Авто снимите флажок с опции минимальное значение: и в текстовом поле введите 20, снимите флажок с опции максимальное значение: и в текстовом поле введите 50, снимите флажок с опции цена основных делений: и в текстовом поле введите 10. Щелкните на кнопке ОК.
Щелкните по названию диаграммы и установите размер шрифта 12. Поочередно щелкните на значениях и заголовках осей (горизонтальной и вертикальной) и установите размер шрифта 10. Дважды щелкните на серой области диаграммы и в диалоговом окне Формат области построения в области Рамка выберите опцию невидимая, а в области Заливка выберите опцию прозрачная. Щелкните на кнопке ОК.
Анализ полученной диаграммы показывает определенную зависимость между переменными, а именно: в среднем, чем больше жилая площадь, тем выше отпускная цена.

Инструмент анализа: Корреляция

Корреляция, или коэффициент корреляции является распространенной общей характеристикой двумерных данных в том же смысле, в каком среднее и стандартное отклонение являются важными характеристиками для анализа одномерного набора данных. Коэффициент корреляции характеризует «силу (тесноту)» линейной зависимости между двумя переменными. Возможные значения коэффициента корреляции лежат в диапазоне от –1 до +1. Отрицательный знак коэффициента корреляции указывает на то, что с увеличением значений одной переменной значения другой переменной будут уменьшаться (прямая с отрицательным углом наклона). В случае положительного коэффициента корреляции с увеличением значений одной переменной значения другой переменной также увеличиваются (прямая с положительным углом наклона).

Формула для вычисления выборочного коэффициента корреляции имеет вид:

где и – средние значения переменных X и Y, а Sx и Sy – стандартные отклонения этих переменных. Числитель в приведенной формуле включает в себя сумму попарных произведений, которая выражает взаимодействие двух переменных X и Y. Знаменатель в формуле введен для нормирования числителя таким образом, чтобы коэффициент корреляции стал безразмерным, и его можно было легко интерпретировать числом в диапазоне от –1 до +1.

Еще раз подчеркнем, что коэффициент корреляции характеризует только линейную зависимость. Если абсолютная величина коэффициента корреляции равна 1, то это указывает на идеальную (функциональную) линейную взаимосвязь. Если коэффициент корреляции равен 0, то это означает, что между переменными отсутствует линейная зависимость. В таком случае требуется дополнительный анализ, поскольку переменные либо являются независимыми, либо взаимосвязь между ними имеет нелинейный характер.

Задание 2.

Исследовать взаимосвязь между размером жилой площади и ценой объекта.

Откройте файл Двумерные данные.xls.
С Листа1 скопируйте данные вместе с метками (диапазон A1:B16) на Лист2 в тот же диапазон.
На Листе2 в ячейку D1 введите Инструмент анализа: Корреляция.
Выберите команду: СервисАнализ данныхКорреляция.
В диалоговом окне Корреляция установите параметры как указано ниже на рисунке.

Щелкните на кнопке ОК. Результаты будут расположены в диапазоне D2:F4 (см. рисунок ниже).

Результатом является матрица попарных корреляций. На диагонали расположены 1, показывающие, что каждая переменная положительно коррелированна сама с собой. Значение коэффициента корреляции (0,814651) указано в левой нижней части матрицы в ячейке E4. Правая верхняя часть матрицы пустая, т.к. ее значения совпадают с соответствующими значениями в левой нижней части.
Вычислите коэффициент корреляции, используя Мастер функций. Для этого в ячейку D6 введите Функция КОРРЕЛ. Выделите ячейку D7, вызовите Мастер функций и выберите статистическую функцию КОРРЕЛ. В диалоговом окне Аргументы функции щелкните в поле Массив1, а затем выделите диапазон A2:A16, не включая метку. Теперь щелкните в поле Массив2 и выделите диапазон B2:B16, не включая метку. Щелкните на кнопке ОК.
Полученное значение коэффициента корреляции (0,814651) близко к 1. Это указывает на то, что между ценой на недвижимость и размером площади существует сильная положительная линейная взаимосвязь. Точки данных довольно плотно сгруппированы (с небольшим случайным отклонением) вокруг прямой, направленной вверх и вправо.

Замечание. В отличие от инструмента анализа Корреляция статистическая функция КОРРЕЛ не статична, т.е. при изменении данных в исходном диапазоне значение коэффициента корреляции, рассчитанного с помощью функции КОРРЕЛ, тоже изменится.

Выделите ячейку B2 и введите в нее число 30. Нажмите [Enter].

Обратите внимание! Величина коэффициента корреляции в ячейке D7 изменилась, а в матрице попарных корреляций осталось прежнее значение.

Щелкните на кнопке Отменить на панели инструментов Стандартная, чтобы вернуться к исходному значению в ячейке B2.

Попарные корреляции

Инструмент анализа Корреляция особенно полезен при определении попарных корреляций трех и более переменных. Полученные результаты используются для анализа множественной регрессионной модели.

Задание 3.

Исследовать попарные корреляции трех переменных: площадь, оценка, цена.

В таблице 2 данные, которые приведены в таблице 1, дополнены еще одной переменной – оценкой.

Таблица 2. Объекты недвижимости

Объект	Площадь	Оценка	Цена	Объект	Площадь	Оценка	Цена
1	521	7,8	26,0	9	965	14,6	37,2
2	661	23,8	31,0	10	1011	26,0	38,4
3	694	28,0	37,4	11	1047	30,0	43,6
4	743	26,2	34,8	12	1060	29,2	44,8
5	787	22,4	39,2	13	1079	24,2	40,6
6	825	28,2	38,0	14	1164	29,4	41,8
7	883	25,8	39,6	15	1298	23,6	45,2
8	920	20,8	31,2

Откройте файл Двумерные данные.xls.
С Листа1 скопируйте данные вместе с метками (диапазон A1:B16) на Лист3 в тот же диапазон.
Выделите столбец B, щелкните на нем правой кнопкой мыши и в контекстном меню выберите команду Добавить ячейки. Данные переменной Цена переместятся в диапазон C1:C16.
В ячейке B1 задайте метку Оценка, а в диапазон B2:B16 введите оценки из таблицы 2.
В ячейку E1 введите Парные корреляции.
Выберите команду: СервисАнализ данныхКорреляция.
В диалоговом окне Корреляция в поле Входной интервал укажите диапазон данных A1:C16, включая метки. Проверьте, что данные сгруппированы по столбцам и установлен флажок Метки в первой строке.
В области Параметры вывода включите опцию Выходной интервал, щелкните в текстовом поле и выделите ячейку E2, определяющую левый верхний угол области вывода результатов. Щелкните на кнопке ОК.

Интерпретация результатов

Выходные данные представляют собой матрицу трех попарных корреляций. Наибольшая корреляция 0,814651 – между Площадью и Ценой. Корреляция между Оценкой и Ценой 0,67537 – меньше и означает меньшую линейную зависимость между этими двумя переменными. Наименьшая корреляция 0,424219 – между Площадью и Оценкой.

Если мы хотим в линейной регрессионной модели использовать для прогноза отпускной цены одну независимую переменную, то полученные парные корреляции показывают, что Площадь больше подходит, чем Оценка, т.к. коэффициент корреляции 0,814651 больше, чем 0,67537.

Если же мы хотим во множественной линейной регрессионной модели использовать для прогноза отпускной цены две независимые переменные, то подойдут Площадь и Оценка, и не будет проблем с их взаимной коррелированностью, т.к. коэффициент корреляции (0,424219) этих двух переменных мал.

Инструмент анализа: Ковариация

Ковариация (корреляционный момент), также как и корреляция, является характеристикой степени линейной зависимости двух переменных. Выражением для вычисления ковариации является числитель в формуле для коэффициента корреляции, а это означает, что ковариация и корреляция представляют, в действительности, одну и ту же информацию. Однако значения ковариации сложнее интерпретировать, т.к. ее единицы измерения являются произведением единиц измерения каждой переменной. Например, для цен и жилой площади ковариация выражена в единицах квадратных метров, умноженных на тысячи долларов. Поэтому при анализе обычно предпочитают использовать коэффициент корреляции, не имеющий размерности. Тем не менее, в некоторых ситуациях ковариация используется как самостоятельная характеристика. Так, например, в теории финансов ковариацию применяют для описания зависимости одних курсов акций по отношению к другим.

Задание 4.

Определить ковариацию между размером жилой площади и ценой объекта.

Откройте файл Двумерные данные.xls.
На Листе2 в ячейку D10 введите Инструмент анализа: Ковариация.
Выберите команду: СервисАнализ данныхКовариация.
В диалоговом окне Ковариация установите параметры как указано ниже на рисунке.

Щелкните на кнопке ОК. Результаты будут расположены в диапазоне D11:F13 (см. рисунок ниже).

Результатом является матрица попарных ковариаций. На диагонали расположены дисперсии для каждой переменной (квадрат стандартного отклонения). Значение ковариации Цены и Площади (853,2427) указано в левой нижней части матрицы в ячейке E13. Правая верхняя часть матрицы пустая, т.к. ее значения совпадают с соответствующими значениями в левой нижней части.
Вычислите ковариацию, используя Мастер функций. Для этого в ячейку D15 введите Функция КОВАР. Выделите ячейку D16, вызовите Мастер функций и выберите статистическую функцию КОВАР. В диалоговом окне Аргументы функции щелкните в поле Массив1, а затем выделите диапазон A2:A16, не включая метку. Теперь щелкните в поле Массив2 и выделите диапазон B2:B16, не включая метку. Щелкните на кнопке ОК.

Замечание. В отличие от инструмента анализа Ковариация статистическая функция КОВАР не статична, т.е. при изменении данных в исходном диапазоне значение ковариации, рассчитанной с помощью функции КОВАР, тоже изменится.

Выделите ячейку B2 и введите в нее число 30. Нажмите [Enter].

Обратите внимание! Величина ковариации в ячейке D16 изменилась, а в матрице попарных ковариаций осталось прежнее значение.

Щелкните на кнопке Отменить на панели инструментов Стандартная, чтобы вернуться к исходному значению в ячейке B2.

Контрольные вопросы

В чем отличие анализа двумерных данных от анализа одномерных данных?
На какие вопросы можно ответить, проанализировав двумерные данные?
Что такое диаграмма рассеяния? С какой целью она используется для анализа?
Что такое коэффициент корреляции?
На что указывает знак (положительный или отрицательный) коэффициента корреляции?
Если большие значения X вызывают появление больших значений Y, то какой, по вашему мнению, должна быть корреляция – положительной, отрицательной или нулевой? Почему?
Для каждого из приведенных ниже равенств укажите типичный вариант интерпретации?

а) r = 1; б) r = 0,85; в) r = 0; г) r = –0,15; д) r = –1.

Поясните как, по вашему мнению, располагаются точки на диаграмме рассеяния в следующих ситуациях.

а) Взаимосвязь между X и Y отсутствует.

б) Линейная взаимосвязь с сильной положительной корреляцией.

в) Линейная взаимосвязь с сильной отрицательной корреляцией.

г) Линейная взаимосвязь со слабой положительной корреляцией.

д) Линейная взаимосвязь со слабой отрицательной корреляцией.

е) Линейная взаимосвязь с корреляцией +1?

ж) Линейная взаимосвязь с корреляцией –1?

Что представляет собой ковариация между X и Y?
Какую из характеристик легче интерпретировать – корреляцию или ковариацию? Почему?

Лабораторная работа №6 Простая линейная регрессия

Анализ двумерных данных включает в себя три основных цели:

Описание и понимание взаимосвязи.
Прогнозирование и предсказание нового наблюдения.
Корректировка и управление процессом.

Существует два вида анализа двумерных данных, представленных переменными X и Y: корреляционный анализ, позволяющий оценить степень взаимосвязи между переменными X и Y, и регрессионный анализ, определяющий форму связи между этими переменными. Таким образом, регрессионный анализ всегда проводится после корреляционного анализа, когда между переменными установлена взаимосвязь. Регрессионный анализ используется для прогнозирования одной переменной на основании другой (как правило, Y на основании X), или показывает, как можно управлять одной переменной с помощью другой.

Определение формы зависимости между переменными X и Y является одной из главных задач регрессионного анализа. Для этого необходимо построить уравнение регрессионной связи между Y и X (уравнение регрессии) следующего вида:

Y = f(x) + ,

в котором f(x) называется функцией регрессии, а – величина, учитывающая случайные воздействия. Для выборочных данных уравнение регрессионной связи удобно представить следующим образом:

При наличии случайной составляющей i значения yi имеют определенный разброс. Поэтому нет смысла подбирать функцию регрессии, проходящую через все точки. Основное правило подбора вида функции регрессии заключается в том, чтобы все точки диаграммы рассеяния были сконцентрированы около графика этой функции.

На практике, поскольку мы располагаем выборочными данными, невозможно точно построить функцию регрессии, можно только получить ее оценку, которую обозначим как . Уравнение, включающее оценку для функции регрессии, называется выборочным уравнением регрессии и имеет вид: . Построив «выборочную» функцию регрессии далее необходимо проверить достоверность функции и ее параметров, а также провести оценку неизвестных значений (прогноз) зависимой переменной Y.

Простейшей, с точки зрения анализа, является линейная взаимосвязь между X и Y, которая выражается в том, что точки на диаграмме рассеяния случайным образом группируются вдоль прямой линии, имеющей наклон (вверх или вниз). По выборке можно построить выборочную линейную функцию регрессии вида , которая является оценкой линейной функции регрессии f(x, 0, 1). Таким образом, выборочное уравнение линейной регрессии имеет вид:

Коэффициенты b0, b1 являются оценками параметров 0, 1. Для вычисления коэффициентов b0, b1 используется метод наименьших квадратов (МНК), который характеризуется наименьшей суммой квадратов отклонений значений переменной Y от прямой. Это означает, что прямая на диаграмме рассеяния будет проходить «достаточно близко» к точкам (xi, yi). Коэффициент b1 определяет наклон прямой (его часто называют коэффициентом регрессии). При увеличении значения переменной X ровно на единицу значение переменной Y в среднем увеличивается (если b1>0) или уменьшается (если b1<0) на b1 единиц. Коэффициент b0 (постоянный член, или константа регрессии) определяет сдвиг прямой, т.е. такое значение Y, когда значение X равно нулю. При использовании МНК сдвиг определяется таким образом, чтобы прямая проходила через точку (), где – средние значения переменных X и Y соответственно. В тех случаях, когда нулевое значение X лишено смысла, сдвиг рассматривается как необходимая характеристика для построения функции регрессии и его не следует интерпретировать.

В Excel используются три метода построения функции линейной регрессии: команда Добавить линию тренда, инструмент анализа Регрессия и соответствующие статистические функции.

Добавление линейного тренда

Задание 1.

Построить график линейной зависимости между стоимостью и площадью жилого объекта.

Откройте программу Excel. Щелкните на кнопке Сохранить на панели инструментов Стандартная. В появившемся диалоговом окне откройте папку Статистика и задайте имя файлу Простая регрессия.xls.
Откройте файл Двумерные данные.xls. Выделите Лист1 и выполните команду Правка→Переместить/скопировать лист… В диалоговом окне из списка в книгу: выберите файл Простая регрессия.xls, в списке перед листом: выберите Лист1, установите флажок Создавать копию и щелкните на кнопке ОК.
В файле Простая регрессия.xls удалите Лист1, а имя Лист1(2) замените на имя Лист1. Закройте файл Двумерные данные.xls.
На диаграмме рассеяния щелкните правой кнопкой мыши на любой точке данных (Ряд1) и в контекстном меню выберите команду Добавить линию тренда… Появится диалоговое окно (см. рисунок ниже).

В диалоговом окне на вкладке Тип щелкните по пиктограмме Линейная.
Откройте вкладку Параметры (см. рисунок ниже) и в области Название аппроксимирующей (сглаженной) кривой выберите опцию автоматическое:. Убедитесь, что опция пересечение кривой с осью Y в точке: не отмечена. Включите опции показывать уравнение на диаграмме и поместить на диаграмму величину достоверности аппроксимации (R^2). Щелкните на кнопке ОК.

Выделите текст с уравнением регрессии и значением R2, щелкните у его границы и перетащите на свободное место диаграммы.

Интерпретация линии тренда

Полученная линия тренда (иногда ее называют линией наименьших квадратов) является графиком функции регрессии, построенной на выборочных данных с использованием МНК. Уравнение регрессии можно записать в следующем виде:

Постоянный член в уравнении b0=18,789. Он показывает, что недвижимость без жилой площади (площадь равна нулю) имеет цену 18,789 тысяч долларов. Однако такая интерпретация не имеет смысла, т.к. по представленным данным наименьшее значение площади равно 521 квадратный метр. Поэтому будем рассматривать данную константу как стартовую точку для объектов недвижимости с жилой площадью между 521 и 1298 квадратными метрами.

Коэффициент регрессии b1=0,021 (b1>0). Он показывает, что при увеличении размера жилой площади на один квадратный метр цена в среднем увеличивается на 0,021 тысячу долларов (или $21). Например, если жилая площадь двух объектов отличается на 100 квадратных метров, то и стоимость их будет отличаться на 0,021*100=2,1 тысяч долларов (или $2100).

Величина R2, указанная на диаграмме рассеяния, называется коэффициентом детерминации, который определяет долю изменения переменной Y в зависимости от X. В нашем случае R2=0,6637. Это означает, что приблизительно 66% колебаний стоимости жилой площади связано с ее размером, а остальные 34% колебаний вызваны другими (неучтенными) факторами.

Использование инструмента анализа Регрессия

Инструмент анализа Регрессия помимо тех результатов, которые выдает команда Добавить линию тренда…, позволяет получить дополнительную информацию о зависимости двух переменных.

Задание 2.

Исследовать линейную зависимость между стоимостью и площадью жилого объекта с помощью инструмента анализа Регрессия.

Откройте файл Простая регрессия.xls.
Скопируйте данные с Листа1 (диапазон A1:B16) на Лист2 в такой же диапазон.
Выберите команду: СервисАнализ данныхРегрессия.
В диалоговом окне Регрессия установите параметры как указано ниже на рисунке.

Поясним назначение параметров диалогового окна Регрессия.

Входной интервал Y: – диапазон со значениями зависимой переменной Y, включая метку.
Входной интервал X: – диапазон со значениями независимой переменной X, включая метку.
Метки – эту опцию включают, если Входные интервалы X, Y содержат подписи сверху.
Константа - ноль – данную опцию включают только в том случае, когда вы хотите, чтобы прямая регрессии проходила через начало координат (0, 0).
Уровень надежности: – по умолчанию используется 95%-ый доверительный интервал. Для получения других доверительных интервалов устанавливают флажок и вводят уровень значимости.
Выходной интервал: – включается опция и в текстовое поле вводится ссылка (ячейка), указывающая левый верхний угол области вывода результатов.
Остатки – эту опцию включают для получения значений выборочной функции регрессии () и остатков (отклонений ).
График остатков – включение этой опции позволяет получить диаграмму остатков для каждого значения переменной X.
Стандартизованные остатки – получение нормированных остатков (каждый из остатков делится на стандартное отклонение остатков). Данная процедура позволяет легко увидеть значения, выходящие за пределы.
График подбора – получение точечной диаграммы входных значений Y относительно переменной X, а также графика функции регрессии. Данная диаграмма соответствует точечной диаграмме с добавлением линии тренда.
График нормальной вероятности – данная опция в Excel реализована не полностью, поэтому ее включать не следует.
Щелкните на кнопке ОК. Для большей наглядности полученные результаты необходимо отформатировать.
Используя клавишу [Ctrl], выделите следующие ячейки и диапазоны: D6, I11, E16:L16, D24:G24. Выполните команду ФорматСтолбецАвтоподбор ширины.

Интерпретация регрессии

Коэффициенты b0, b1 уравнения линейной регрессии представлены в столбце Коэффициенты. Коэффициент Y-пересечение 18,78946749 (ячейка E17) является постоянным членом уравнения b0, а коэффициент Площадь 0,021010249 (ячейка E18) – коэффициентом регрессии b1. Таким образом, уравнение регрессии имеет вид:

Интерпретация уравнения регрессии была приведена выше при анализе линии тренда.

В таблице ВЫВОД ОСТАТКА значения столбца Предсказанное Цена (диапазон E25:E39) являются значениями функции регрессии , которые оценивают стоимость каждого объекта недвижимости. В столбце Остатки (диапазон F25:F39) указаны отклонения , определяющие разность между фактическими значениями и значениями функции регрессии (подобранными значениями). Например, первый объект имеет площадь в 521 квадратный метр. В среднем мы ожидаем, что его стоимость приблизительно равна =29,73580748 тысяч долларов ($29736), но реальная стоимость равна $26000. Отклонение для данного объекта (ячейка F25) составляет $26000 – $29736 = –$3736 тысяч долларов. Следовательно, реальная стоимость меньше ожидаемой на $3736.

Для ответа на вопрос «Насколько хорошо полученная функция регрессии соответствует данным», используются четыре характеристики: стандартная ошибка, R2, t-статистика и анализ дисперсии.

Стандартную ошибку часто называют стандартной ошибкой оценки. Ее можно интерпретировать как стандартное отклонение остатков, которое показывает, какой величины ошибку в среднем вы допускаете, когда вместо фактического значения Y используете значение функции регрессии. Стандартная ошибка измеряется в тех же единицах, что и Y. В ячейке E7 указана величина стандартной ошибки, равная 3,237774407 тысяч долларов (приблизительно $3238). Это означает, что фактическая стоимость объекта недвижимости отличается от стоимости, вычисленной с помощью полученной функции регрессии, на $3238. В случае нормального распределения остатков можно ожидать, что примерно 2/3 точек данных находится на расстоянии не более $3238 выше или ниже прямой.

Если стандартная ошибка оценки является абсолютной мерой величины ошибок, то коэффициент детерминации R2 является относительной мерой. Величина R2 находится в пределах от 0 до 1 и часто выражается в процентах. Значение R2 указано в ячейке E5 и составляет приблизительно 66%. Интерпретация R2 была дана выше при анализе линии тренда. Значение Нормированный R-квадрат, приведенное в ячейке E6, используется для сравнения с другими моделями, содержащими дополнительные независимые переменные.

Значения t-статистик в ячейках G17 и G18 являются частью проверок гипотез о наличии зависимости между переменными X и Y. Данные 15 объектов недвижимости рассматриваются как выборка из большей (генеральной) совокупности. Выдвигается нулевая гипотеза о том, что зависимость отсутствует, т.е. коэффициент регрессии генеральной совокупности 1 для площади (переменная Х) равен нулю, а, следовательно, изменение площади не влияет на стоимость (переменная Y).

По полученным результатам коэффициент регрессии выборки b1 имеет незначительную стандартную ошибку 0,004148397 (ячейка F18). Это означает, что b1 и 1 мало отличаются друг от друга. Для заданного объема выборки по t-таблице распределения Стьюдента при двустороннем 95%-ом доверительном интервале (в Excel 95%-ый Уровень надежности принят по умолчанию) определяется критическое значение t-статистики (tтабл), которое показывает на сколько стандартных ошибок выборочный коэффициент регрессии b1 может отличаться от 1=0, чтобы нулевая гипотеза оставалась истинной. В нашем случае tтабл=2,16, а значение t-статистики равно 5,064667406 (ячейка G18). Выборочный коэффициент регрессии b1 находится на расстоянии 5,064667406 стандартных ошибок от нуля, что существенно больше, чем при tтабл (5,064667406>2,16). Следовательно, нулевая гипотеза отвергается, вычисленный коэффициент регрессии является значимым и имеется зависимость между стоимостью и площадью.

Замечание. Для многих расчетов, исходя из предположения, что выборочные данные распределены нормально, принимают tтабл=2.

В ячейке H18 приведено Р-значение 0,00021678, которое является вероятностью получения результатов при выполнении нулевой гипотезы с 5%-ым уровнем значимости (для 5%-ого уровня значимости вероятность ошибки I рода, когда отвергается нулевая гипотеза, являющаяся истинной, равна 0,05). Обычно нулевую гипотезу отвергают, когда Р-значение меньше 0,05. В данном случае мы можем отвергнуть нулевую гипотезу об отсутствии связи.

Таблица анализа дисперсии подытоживает проверку нулевой гипотезы. Более подробно этот анализ будет рассмотрен при построении множественной модели регрессии.

Интерпретация диаграмм регрессии

В случае линейной регрессии инструмент анализа Регрессия строит две диаграммы регрессии: график остатков и график подбора. Первоначально диаграммы располагаются справа от итоговых результатов в ячейках M1:S12.

График подбора аналогичен графику с добавлением линии тренда, за исключением того, что значения функции регрессии (Предсказанное Цена) отображаются маркерами без соединяющих линий. Проведем форматирование диаграммы.

Выделите диаграмму Площадь График остатков и переместите ее в диапазон N16:S25.
На диаграмме Площадь График подбора щелкните правой кнопкой мыши на любом маркере Ряда «Предсказанное Цена» и в контекстном меню выберите команду: Формат рядов данных… В диалоговом окне на вкладке Вид в области Линия включите опцию обычная, а в области Маркер включите опцию отсутствует. Щелкните на кнопке ОК.
Щелкните правой кнопкой мыши по Оси X (категорий) и в контекстном меню выберите команду Формат оси… На вкладке Шкала в области Авто снимите флажок минимальное значение: и в текстовом поле введите значение 400, снимите флажок максимальное значение: и в текстовом поле введите значение 1400, снимите флажок цена основных делений: и в текстовом поле введите значение 200. На вкладке Шрифт установите Arial 8. Щелкните на кнопке ОК.
Щелкните правой кнопкой мыши по Оси Y (значений) и в контекстном меню выберите команду Формат оси… На вкладке Шкала в области Авто снимите флажок минимальное значение: и в текстовом поле введите значение 20, снимите флажок максимальное значение: и в текстовом поле введите значение 50, снимите флажок цена основных делений: и в текстовом поле введите значение 10. На вкладке Число в списке Числовые форматы: выберите формат Числовой и установите Число десятичных знаков: равным 0. На вкладке Шрифт установите Arial 8. Щелкните на кнопке ОК.
Выделите заголовок диаграммы и смените название на Объекты недвижимости. Установите шрифт жирный, Arial 12.
Выделите название оси X и смените название на Жилая площадь, в кв. метрах. Установите шрифт Arial 8.
Выделите название оси Y и смените название на Цена продажи, в тысячах долларов. Установите шрифт Arial 8.
Для легенды установите шрифт Arial 8.
Измените размеры диаграммы таким образом, чтобы она занимала диапазон N1:T14.

График остатков применяется для определения, является ли приемлемым приближение
(в нашем случае использование МНК) для функции регрессии. Отформатируем диаграмму.

Выделите заголовок диаграммы и смените название на График остатков. Установите шрифт жирный, Arial 12.
Измените размеры диаграммы таким образом, чтобы она занимала диапазон N16:S30.

Линейное приближение считается удовлетворительным, если график остатков имеет случайный разброс точек, а прямая функции регрессии является на этом графике горизонтальной линией. В данном случае мы имеем «хорошее» приближение.

Использование статистических функций

Задание 3.

Исследовать линейную зависимость между стоимостью и площадью жилого объекта с помощью статистических функций.

Откройте файл Простая регрессия.xls.
Скопируйте данные с Листа1 (диапазон A1:B16) на Лист3 в такой же диапазон.
В ячейку F1 введите Значение, а в ячейку H1 введите Функция.
Выделите ячейку H2, вызовите Мастер функций и в списке статистических функций выберите функцию ОТРЕЗОК. В диалоговом окне Аргументы функции задайте соответствующие диапазоны переменных Y (Цена) и X (Площадь), не включая меток. Щелкните на кнопке ОК. В ячейке H2 будет вычислен постоянный член уравнения регрессии b0= 18,78947.
Выделите ячейку H3, вызовите Мастер функций и в списке статистических функций выберите функцию НАКЛОН. В диалоговом окне Аргументы функции задайте соответствующие диапазоны переменных Y (Цена) и X (Площадь), не включая меток. Щелкните на кнопке ОК. В ячейке H3 будет вычислен коэффициент регрессии b1= 0,02101.
Выделите ячейку H4, вызовите Мастер функций и в списке статистических функций выберите функцию СТОШYX. В диалоговом окне Аргументы функции задайте соответствующие диапазоны переменных Y (Цена) и X (Площадь), не включая меток. Щелкните на кнопке ОК. В ячейке H4 будет вычислена стандартная ошибка оценки 3,2377744.
Как будет выглядеть уравнение регрессии? Сравните с результатами, полученными с помощью инструмента анализа Регрессия.
Скопируйте значения из столбца H в столбец F. Для этого выделите ячейки с вычисленными значениями (H2:H4) и выполните команду: ПравкаКопировать, а затем выделите ячейку F2 и выполните команду: ПравкаСпециальная вставка... В диалоговом окне включите опцию значения и щелкните на кнопке ОК.
Чтобы формулы были видны в столбце H, выберите команду СервисПараметры... и на вкладке Вид в области Параметры окна включите опцию Формулы. Увеличьте ширину столбца H, чтобы формулы были видны полностью.

Для предсказания цены используется функция ПРЕДСКАЗ. Допустим, мы хотим знать цену для объекта с жилой площадью в 1000 квадратных метров.

В ячейку D8 введите Площадь, а в ячейку F8 введите Предсказанная цена, в ячейку H8 введите Функция. В ячейке D9 задайте значение 1000.
Выделите ячейку H9 и вызовите Мастер функций. В списке статистических функций выберите функцию ПРЕДСКАЗ. В диалоговом окне Аргументы функции задайте значение X, выделив ячейку D9, а также соответствующие диапазоны переменных Y (Цена) и X (Площадь), не включая меток. Щелкните на кнопке ОК. В ячейке H9 будет выведена формула.
Выделите ячейку с формулой H9 и выполните команду: ПравкаКопировать, а затем выделите ячейку F9 и выполните команду: ПравкаСпециальная вставка... В диалоговом окне включите опцию значения и щелкните на кнопке ОК. Какую стоимость будет иметь объект с жилой площадью в 1000 квадратных метров?

Контрольные вопросы

В чем разница между корреляционным анализом и регрессионным анализом?
Какова основная задача регрессионного анализа?
Какой вид анализа (корреляционный или регрессионный) применяется в каждой из описанных ниже ситуаций?
а) Выяснение наличия какой-либо взаимосвязи между расходами на рекламу и объемом продаж.
б) Разработка системы прогнозирования эффективности портфеля ценных бумаг, основанной на изменениях одного из ведущих индексов фондовой биржи.
в) Создание инструмента формирования сметы, позволяющего выражать затраты в терминах количества произведенных изделий.
г) Анализ данных с целью определения силы взаимосвязи между моральным состоянием работников и их производительностью.
Какой вид имеет выборочная функция линейной регрессии?
С какой целью используется МНК? Чем характеризуется этот метод?
Чем отличается линия наименьших квадратов от других линий на диаграмме рассеяния?
Как интерпретируются коэффициенты линейной регрессии b0, b1.
Что показывает коэффициент детерминации R2? Какое значение R2 лучше, более низкое или более высокое?
Как интерпретируется стандартная ошибка оценки для линии регрессии? Какое значение стандартной ошибки лучше, более низкое или более высокое?
Какие характеристики используются при оценке значимости коэффициента регрессии?
Каким образом осуществляется прогнозирование в построенной линейной модели регрессии?

1. Питание и здоровье
2. Контрольная работа- Международная миграция.html
3. Ресторанный бизнес в России технология успеха
4. тема правових соціальноекономічних санітарногігієнічних та лікувальнопрофілактичних заходів та засобів
5. на тему- Управление конфликтами Москва 2007 г
6. Альфа ПРИКАЗ 56 об утверждении учетной политики для целей бухгалтерского учета
7. 64 Пересечение цилиндра с плоскостьюПри пересечении цилиндра плоскостью фигура сечения будет зависеть о
8. УТВЕРЖДАЮ Проректордиректор Высшей
9. жизненный цикл программного средства
10. Не боюсь Вирджинии Вулф Действующие лица друзья по школе

Материалы собраны группой SamZan и находятся в свободном доступе