Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Лабораторная работа №4 Категорийные данные
Категорийные данные представляют собой набор нечисловых значений, который показывает, к какой категории относится каждый из рассматриваемых объектов. Например, пол задается двумя категориями (мужской и женский), преподавательская должность имеет несколько категорий (ассистент, доцент, профессор), автомобильные марки характеризуются достаточно большим числом категорий (Нисан, Форд, Тойота и др.). Категорийные данные могут быть описаны с помощью частот (или процентов), определяющих число значений данных, попавших в каждую из категорий. Во многих случаях, если известно точное количество категорий, можно каждой категории поставить в соответствие число и затем обрабатывать полученные данные как количественные. Например, если имеется в точности две категории, то их можно обозначить цифрами 1 и 0. Категорийные данные разделяются на два типа: порядковые и номинальные.
Порядковые категорийные данные состоят из категорий, для которых существует порядок, имеющий содержательный смысл. Например, можно вести речь об объекте как о первом («лучшем»), втором («хорошем»), третьем («посредственном») и т.д. Порядковые данные можно ранжировать и использовать это ранжирование для анализа. Для порядковых данных в качестве статистических показателей широко используются медиана и мода.
Номинальные категорийные данные определяются категориями, которые нельзя содержательно упорядочить. Для таких категорий нет чисел, которые можно было бы поставить в соответствие с содержательным смыслом. Следовательно, с номинальными данными нельзя проводить вычисления, и нет основы для ранжирования. Все, что можно сделать это подсчитать частоту (процент), попадающих в каждую из категорий наблюдений и использовать в качестве обобщающего показателя моду. Примерами номинальных данных являются наименования городов или главный продукт производственных предприятий (электроника, пластмасса, древесина).
Использование Сводной таблицы для одномерного набора данных
В случае одномерного набора категорийных данных (одной переменной) Сводная таблица Excel служит для подсчета частот всевозможных значений. Результат может отображаться либо в абсолютных числах, либо в процентах. Для создания Сводной таблицы в Excel используется Мастер сводных таблиц и диаграмм.
Задание 1. |
Создать таблицу распределения частот для оценки ресторанного бизнеса. |
Для оценки ресторанного бизнеса введена шкала значений от 1 (Очень неблагоприятная) до 6 (Очень благоприятная). В таблице 1 приведены восемнадцать наблюдений, выбранных из обзора ресторанов 1980 г.
Таблица 1. Оценки ресторанного бизнеса
Ресторан |
Оценка |
Ресторан |
Оценка |
Ресторан |
Оценка |
1 |
6 |
7 |
3 |
13 |
1 |
2 |
4 |
8 |
4 |
14 |
5 |
3 |
4 |
9 |
5 |
15 |
1 |
4 |
2 |
10 |
4 |
16 |
2 |
5 |
1 |
11 |
3 |
17 |
3 |
6 |
3 |
12 |
1 |
18 |
4 |
Несмотря на то, что оценки выражены числами, мы имеем дело с порядковыми категорийными данными, поскольку предложенная шкала оценок носит субъективный характер. Непонятно, например, можно ли считать, что разница между оценками 5 и 4 такая же, как и между оценками 2 и 1, или, что оценка 2 в два раза лучше оценки 1. Опишем данные с помощью таблицы распределения частот, в которой подсчитывается количество ресторанов, имеющих соответствующую оценку.
Замечание. Ряды строк с данными, такие как отображены на Листе1, в Excel называются списками или базой данных. Строки называются записями, а столбцы полями.
Лента ВСТАВКАСводная таблица…
Открывается диалоговое окно Мастер сводных таблиц и диаграмм шаг 1 из 3. В диалоговом окне включите опции как показано ниже на рисунке. Щелкните на кнопке <ОК>.
Замечание. Когда вы перетащите кнопку Ресторан, ее название может измениться на Сумма по полю Ресторан. В этом случае
разверните стрелку подкоманд и в появившемся диалоговом окне выберите команду параметры полей значения:
сводной таблицы выберите элемент Количество (см. рисунок ниже). Щелкните на кнопке ОК.
Получили таблицу, в которой количественные показатели выражены в процентах.
Для облегчения чтения, выделите диапазон процентных значений I3:I9 и уменьшите разрядность до целых чисел.
Использование Сводной таблицы с двумя входами
Сводные таблицы с двумя входами часто называют перекрестными таблицами. Такие таблицы используют для установления зависимости между двумя категорийными переменными. Они показывают, сколько раз встречается каждая комбинация из двух категорий.
Задание 2. |
Определить зависимость перспектив (оценок) ресторанного бизнеса от вида собственности. |
Имеется восемнадцать наблюдений, выбранных из обзора ресторанов 1980 г. В таблице 2 представлены оценки ресторанов и вид собственности. Отсутствующие значения в таблице 2 отмечены звездочками (*).
Таблица 2. Данные обзора ресторанов
Ресторан |
Оценка |
Владелец |
Ресторан |
Оценка |
Владелец |
1 |
6 |
3 |
10 |
4 |
2 |
2 |
4 |
1 |
11 |
3 |
1 |
3 |
4 |
1 |
12 |
1 |
1 |
4 |
2 |
* |
13 |
1 |
* |
5 |
1 |
3 |
14 |
5 |
3 |
6 |
3 |
1 |
15 |
1 |
1 |
7 |
3 |
3 |
16 |
2 |
1 |
8 |
4 |
2 |
17 |
3 |
3 |
9 |
5 |
3 |
18 |
4 |
3 |
ВСТАВКАСводная таблица…
Щелкните на кнопке ОК. Результат действий изображен ниже на рисунке.
Замечание. Если появляются дополнительные окна, то их надо закрыть.
Доля по строкам |
|
|
|
|
Оценка |
Общий итог |
|
Собственность |
Неблагоприятная |
Благоприятная |
|
Частная |
71% |
29% |
100% |
Товарищество |
0% |
100% |
100% |
Корпоративная |
43% |
57% |
100% |
Контрольные вопросы
Лабораторная работа №5 Двумерные данные
Наборы двумерных данных содержат информацию о двух признаках (переменных) для каждого из объектов. В дополнение к изучению обобщающих характеристик каждой из этих двух переменных, рассматриваемых как отдельные наборы одномерных данных, статистические методы анализа двумерных данных используются для изучения связи между этими двумя переменными. При таком анализе необходимо выяснить следующие вопросы.
Приведем пример. Цена одной акции (первая переменная) регистрировалась каждый день (вторая переменная) в течение последних шести месяцев. Если установить связь между ценой и временем (датой), то можно увидеть тенденции в изменении стоимости инвестиций. Однако на основании таких данных трудно предсказать будущую стоимость инвестиций. Для этого требуется выяснить, является ли изменение стоимости непредсказуемым (случайным) явлением или существует некоторая реальная закономерность.
При изучении зависимости между двумя переменными рекомендуется в качестве первоначальной цели провести визуальное исследование, а затем вычислить общие характеристики: корреляцию и ковариацию.
Исследование взаимосвязи переменных с помощью диаграмм рассеяния
Для визуального анализа зависимости между двумя переменными используются графики рассеяния. В Excel данный вид графиков называется точечной диаграммой или диаграммой рассеяния. Диаграмма рассеяния позволяет увидеть структуру двумерных данных. Если ваши данные содержат какие-то проблемы (например, выбросы), чаще всего единственный способ их обнаружения состоит как раз в анализе диаграммы рассеяния.
При построении диаграмм рассеяния одна переменная (обозначается буквой Y) рассматривается как зависимая переменная, другая переменная (обозначается буквой X) является независимой переменной, оказывающей влияние на переменную Y. На диаграмме рассеяния переменой X соответствует горизонтальная ось, а переменной Y вертикальная ось.
Задание 1. |
Исследовать визуально зависимость между размером жилой площади и ценой объекта. |
В таблице 1 приведены данные, которые представляют 15 объектов недвижимости, проданных в определенном районе города в течение одного календарного года.
Таблица 1. Объекты недвижимости
Объект |
Площадь |
Цена |
Объект |
Площадь |
Цена |
1 |
521 |
26,0 |
9 |
965 |
37,2 |
2 |
661 |
31,0 |
10 |
1011 |
38,4 |
3 |
694 |
37,4 |
11 |
1047 |
43,6 |
4 |
743 |
34,8 |
12 |
1060 |
44,8 |
5 |
787 |
39,2 |
13 |
1079 |
40,6 |
6 |
825 |
38,0 |
14 |
1164 |
41,8 |
7 |
883 |
39,6 |
15 |
1298 |
45,2 |
8 |
920 |
31,2 |
В данной задаче естественно ожидать, что цена зависит от жилой площади объекта. Введем обозначения: X независимая переменная, определяющая размер жилой площади (в квадратных метрах); Y зависимая переменная, определяющая цену продажи жилого объекта (в тысячах долларов).
Инструмент анализа: Корреляция
Корреляция, или коэффициент корреляции является распространенной общей характеристикой двумерных данных в том же смысле, в каком среднее и стандартное отклонение являются важными характеристиками для анализа одномерного набора данных. Коэффициент корреляции характеризует «силу (тесноту)» линейной зависимости между двумя переменными. Возможные значения коэффициента корреляции лежат в диапазоне от 1 до +1. Отрицательный знак коэффициента корреляции указывает на то, что с увеличением значений одной переменной значения другой переменной будут уменьшаться (прямая с отрицательным углом наклона). В случае положительного коэффициента корреляции с увеличением значений одной переменной значения другой переменной также увеличиваются (прямая с положительным углом наклона).
Формула для вычисления выборочного коэффициента корреляции имеет вид:
,
где и средние значения переменных X и Y, а Sx и Sy стандартные отклонения этих переменных. Числитель в приведенной формуле включает в себя сумму попарных произведений, которая выражает взаимодействие двух переменных X и Y. Знаменатель в формуле введен для нормирования числителя таким образом, чтобы коэффициент корреляции стал безразмерным, и его можно было легко интерпретировать числом в диапазоне от 1 до +1.
Еще раз подчеркнем, что коэффициент корреляции характеризует только линейную зависимость. Если абсолютная величина коэффициента корреляции равна 1, то это указывает на идеальную (функциональную) линейную взаимосвязь. Если коэффициент корреляции равен 0, то это означает, что между переменными отсутствует линейная зависимость. В таком случае требуется дополнительный анализ, поскольку переменные либо являются независимыми, либо взаимосвязь между ними имеет нелинейный характер.
Задание 2. |
Исследовать взаимосвязь между размером жилой площади и ценой объекта. |
Замечание. В отличие от инструмента анализа Корреляция статистическая функция КОРРЕЛ не статична, т.е. при изменении данных в исходном диапазоне значение коэффициента корреляции, рассчитанного с помощью функции КОРРЕЛ, тоже изменится.
Обратите внимание! Величина коэффициента корреляции в ячейке D7 изменилась, а в матрице попарных корреляций осталось прежнее значение.
Попарные корреляции
Инструмент анализа Корреляция особенно полезен при определении попарных корреляций трех и более переменных. Полученные результаты используются для анализа множественной регрессионной модели.
Задание 3. |
Исследовать попарные корреляции трех переменных: площадь, оценка, цена. |
В таблице 2 данные, которые приведены в таблице 1, дополнены еще одной переменной оценкой.
Таблица 2. Объекты недвижимости
Объект |
Площадь |
Оценка |
Цена |
Объект |
Площадь |
Оценка |
Цена |
1 |
521 |
7,8 |
26,0 |
9 |
965 |
14,6 |
37,2 |
2 |
661 |
23,8 |
31,0 |
10 |
1011 |
26,0 |
38,4 |
3 |
694 |
28,0 |
37,4 |
11 |
1047 |
30,0 |
43,6 |
4 |
743 |
26,2 |
34,8 |
12 |
1060 |
29,2 |
44,8 |
5 |
787 |
22,4 |
39,2 |
13 |
1079 |
24,2 |
40,6 |
6 |
825 |
28,2 |
38,0 |
14 |
1164 |
29,4 |
41,8 |
7 |
883 |
25,8 |
39,6 |
15 |
1298 |
23,6 |
45,2 |
8 |
920 |
20,8 |
31,2 |
Интерпретация результатов
Выходные данные представляют собой матрицу трех попарных корреляций. Наибольшая корреляция 0,814651 между Площадью и Ценой. Корреляция между Оценкой и Ценой 0,67537 меньше и означает меньшую линейную зависимость между этими двумя переменными. Наименьшая корреляция 0,424219 между Площадью и Оценкой.
Если мы хотим в линейной регрессионной модели использовать для прогноза отпускной цены одну независимую переменную, то полученные парные корреляции показывают, что Площадь больше подходит, чем Оценка, т.к. коэффициент корреляции 0,814651 больше, чем 0,67537.
Если же мы хотим во множественной линейной регрессионной модели использовать для прогноза отпускной цены две независимые переменные, то подойдут Площадь и Оценка, и не будет проблем с их взаимной коррелированностью, т.к. коэффициент корреляции (0,424219) этих двух переменных мал.
Инструмент анализа: Ковариация
Ковариация (корреляционный момент), также как и корреляция, является характеристикой степени линейной зависимости двух переменных. Выражением для вычисления ковариации является числитель в формуле для коэффициента корреляции, а это означает, что ковариация и корреляция представляют, в действительности, одну и ту же информацию. Однако значения ковариации сложнее интерпретировать, т.к. ее единицы измерения являются произведением единиц измерения каждой переменной. Например, для цен и жилой площади ковариация выражена в единицах квадратных метров, умноженных на тысячи долларов. Поэтому при анализе обычно предпочитают использовать коэффициент корреляции, не имеющий размерности. Тем не менее, в некоторых ситуациях ковариация используется как самостоятельная характеристика. Так, например, в теории финансов ковариацию применяют для описания зависимости одних курсов акций по отношению к другим.
Задание 4. |
Определить ковариацию между размером жилой площади и ценой объекта. |
Замечание. В отличие от инструмента анализа Ковариация статистическая функция КОВАР не статична, т.е. при изменении данных в исходном диапазоне значение ковариации, рассчитанной с помощью функции КОВАР, тоже изменится.
Обратите внимание! Величина ковариации в ячейке D16 изменилась, а в матрице попарных ковариаций осталось прежнее значение.
Контрольные вопросы
а) r = 1; б) r = 0,85; в) r = 0; г) r = 0,15; д) r = 1.
а) Взаимосвязь между X и Y отсутствует.
б) Линейная взаимосвязь с сильной положительной корреляцией.
в) Линейная взаимосвязь с сильной отрицательной корреляцией.
г) Линейная взаимосвязь со слабой положительной корреляцией.
д) Линейная взаимосвязь со слабой отрицательной корреляцией.
е) Линейная взаимосвязь с корреляцией +1?
ж) Линейная взаимосвязь с корреляцией 1?
Лабораторная работа №6 Простая линейная регрессия
Анализ двумерных данных включает в себя три основных цели:
Существует два вида анализа двумерных данных, представленных переменными X и Y: корреляционный анализ, позволяющий оценить степень взаимосвязи между переменными X и Y, и регрессионный анализ, определяющий форму связи между этими переменными. Таким образом, регрессионный анализ всегда проводится после корреляционного анализа, когда между переменными установлена взаимосвязь. Регрессионный анализ используется для прогнозирования одной переменной на основании другой (как правило, Y на основании X), или показывает, как можно управлять одной переменной с помощью другой.
Определение формы зависимости между переменными X и Y является одной из главных задач регрессионного анализа. Для этого необходимо построить уравнение регрессионной связи между Y и X (уравнение регрессии) следующего вида:
Y = f(x) + ,
в котором f(x) называется функцией регрессии, а величина, учитывающая случайные воздействия. Для выборочных данных уравнение регрессионной связи удобно представить следующим образом:
При наличии случайной составляющей i значения yi имеют определенный разброс. Поэтому нет смысла подбирать функцию регрессии, проходящую через все точки. Основное правило подбора вида функции регрессии заключается в том, чтобы все точки диаграммы рассеяния были сконцентрированы около графика этой функции.
На практике, поскольку мы располагаем выборочными данными, невозможно точно построить функцию регрессии, можно только получить ее оценку, которую обозначим как . Уравнение, включающее оценку для функции регрессии, называется выборочным уравнением регрессии и имеет вид: . Построив «выборочную» функцию регрессии далее необходимо проверить достоверность функции и ее параметров, а также провести оценку неизвестных значений (прогноз) зависимой переменной Y.
Простейшей, с точки зрения анализа, является линейная взаимосвязь между X и Y, которая выражается в том, что точки на диаграмме рассеяния случайным образом группируются вдоль прямой линии, имеющей наклон (вверх или вниз). По выборке можно построить выборочную линейную функцию регрессии вида , которая является оценкой линейной функции регрессии f(x, 0, 1). Таким образом, выборочное уравнение линейной регрессии имеет вид:
.
Коэффициенты b0, b1 являются оценками параметров 0, 1. Для вычисления коэффициентов b0, b1 используется метод наименьших квадратов (МНК), который характеризуется наименьшей суммой квадратов отклонений значений переменной Y от прямой. Это означает, что прямая на диаграмме рассеяния будет проходить «достаточно близко» к точкам (xi, yi). Коэффициент b1 определяет наклон прямой (его часто называют коэффициентом регрессии). При увеличении значения переменной X ровно на единицу значение переменной Y в среднем увеличивается (если b1>0) или уменьшается (если b1<0) на b1 единиц. Коэффициент b0 (постоянный член, или константа регрессии) определяет сдвиг прямой, т.е. такое значение Y, когда значение X равно нулю. При использовании МНК сдвиг определяется таким образом, чтобы прямая проходила через точку (), где средние значения переменных X и Y соответственно. В тех случаях, когда нулевое значение X лишено смысла, сдвиг рассматривается как необходимая характеристика для построения функции регрессии и его не следует интерпретировать.
В Excel используются три метода построения функции линейной регрессии: команда Добавить линию тренда, инструмент анализа Регрессия и соответствующие статистические функции.
Добавление линейного тренда
Задание 1. |
Построить график линейной зависимости между стоимостью и площадью жилого объекта. |
Интерпретация линии тренда
Полученная линия тренда (иногда ее называют линией наименьших квадратов) является графиком функции регрессии, построенной на выборочных данных с использованием МНК. Уравнение регрессии можно записать в следующем виде:
Постоянный член в уравнении b0=18,789. Он показывает, что недвижимость без жилой площади (площадь равна нулю) имеет цену 18,789 тысяч долларов. Однако такая интерпретация не имеет смысла, т.к. по представленным данным наименьшее значение площади равно 521 квадратный метр. Поэтому будем рассматривать данную константу как стартовую точку для объектов недвижимости с жилой площадью между 521 и 1298 квадратными метрами.
Коэффициент регрессии b1=0,021 (b1>0). Он показывает, что при увеличении размера жилой площади на один квадратный метр цена в среднем увеличивается на 0,021 тысячу долларов (или $21). Например, если жилая площадь двух объектов отличается на 100 квадратных метров, то и стоимость их будет отличаться на 0,021*100=2,1 тысяч долларов (или $2100).
Величина R2, указанная на диаграмме рассеяния, называется коэффициентом детерминации, который определяет долю изменения переменной Y в зависимости от X. В нашем случае R2=0,6637. Это означает, что приблизительно 66% колебаний стоимости жилой площади связано с ее размером, а остальные 34% колебаний вызваны другими (неучтенными) факторами.
Использование инструмента анализа Регрессия
Инструмент анализа Регрессия помимо тех результатов, которые выдает команда Добавить линию тренда…, позволяет получить дополнительную информацию о зависимости двух переменных.
Задание 2. |
Исследовать линейную зависимость между стоимостью и площадью жилого объекта с помощью инструмента анализа Регрессия. |
Поясним назначение параметров диалогового окна Регрессия.
Интерпретация регрессии
Коэффициенты b0, b1 уравнения линейной регрессии представлены в столбце Коэффициенты. Коэффициент Y-пересечение 18,78946749 (ячейка E17) является постоянным членом уравнения b0, а коэффициент Площадь 0,021010249 (ячейка E18) коэффициентом регрессии b1. Таким образом, уравнение регрессии имеет вид:
.
Интерпретация уравнения регрессии была приведена выше при анализе линии тренда.
В таблице ВЫВОД ОСТАТКА значения столбца Предсказанное Цена (диапазон E25:E39) являются значениями функции регрессии , которые оценивают стоимость каждого объекта недвижимости. В столбце Остатки (диапазон F25:F39) указаны отклонения , определяющие разность между фактическими значениями и значениями функции регрессии (подобранными значениями). Например, первый объект имеет площадь в 521 квадратный метр. В среднем мы ожидаем, что его стоимость приблизительно равна =29,73580748 тысяч долларов ($29736), но реальная стоимость равна $26000. Отклонение для данного объекта (ячейка F25) составляет $26000 $29736 = $3736 тысяч долларов. Следовательно, реальная стоимость меньше ожидаемой на $3736.
Для ответа на вопрос «Насколько хорошо полученная функция регрессии соответствует данным», используются четыре характеристики: стандартная ошибка, R2, t-статистика и анализ дисперсии.
Стандартную ошибку часто называют стандартной ошибкой оценки. Ее можно интерпретировать как стандартное отклонение остатков, которое показывает, какой величины ошибку в среднем вы допускаете, когда вместо фактического значения Y используете значение функции регрессии. Стандартная ошибка измеряется в тех же единицах, что и Y. В ячейке E7 указана величина стандартной ошибки, равная 3,237774407 тысяч долларов (приблизительно $3238). Это означает, что фактическая стоимость объекта недвижимости отличается от стоимости, вычисленной с помощью полученной функции регрессии, на $3238. В случае нормального распределения остатков можно ожидать, что примерно 2/3 точек данных находится на расстоянии не более $3238 выше или ниже прямой.
Если стандартная ошибка оценки является абсолютной мерой величины ошибок, то коэффициент детерминации R2 является относительной мерой. Величина R2 находится в пределах от 0 до 1 и часто выражается в процентах. Значение R2 указано в ячейке E5 и составляет приблизительно 66%. Интерпретация R2 была дана выше при анализе линии тренда. Значение Нормированный R-квадрат, приведенное в ячейке E6, используется для сравнения с другими моделями, содержащими дополнительные независимые переменные.
Значения t-статистик в ячейках G17 и G18 являются частью проверок гипотез о наличии зависимости между переменными X и Y. Данные 15 объектов недвижимости рассматриваются как выборка из большей (генеральной) совокупности. Выдвигается нулевая гипотеза о том, что зависимость отсутствует, т.е. коэффициент регрессии генеральной совокупности 1 для площади (переменная Х) равен нулю, а, следовательно, изменение площади не влияет на стоимость (переменная Y).
По полученным результатам коэффициент регрессии выборки b1 имеет незначительную стандартную ошибку 0,004148397 (ячейка F18). Это означает, что b1 и 1 мало отличаются друг от друга. Для заданного объема выборки по t-таблице распределения Стьюдента при двустороннем 95%-ом доверительном интервале (в Excel 95%-ый Уровень надежности принят по умолчанию) определяется критическое значение t-статистики (tтабл), которое показывает на сколько стандартных ошибок выборочный коэффициент регрессии b1 может отличаться от 1=0, чтобы нулевая гипотеза оставалась истинной. В нашем случае tтабл=2,16, а значение t-статистики равно 5,064667406 (ячейка G18). Выборочный коэффициент регрессии b1 находится на расстоянии 5,064667406 стандартных ошибок от нуля, что существенно больше, чем при tтабл (5,064667406>2,16). Следовательно, нулевая гипотеза отвергается, вычисленный коэффициент регрессии является значимым и имеется зависимость между стоимостью и площадью.
Замечание. Для многих расчетов, исходя из предположения, что выборочные данные распределены нормально, принимают tтабл=2.
В ячейке H18 приведено Р-значение 0,00021678, которое является вероятностью получения результатов при выполнении нулевой гипотезы с 5%-ым уровнем значимости (для 5%-ого уровня значимости вероятность ошибки I рода, когда отвергается нулевая гипотеза, являющаяся истинной, равна 0,05). Обычно нулевую гипотезу отвергают, когда Р-значение меньше 0,05. В данном случае мы можем отвергнуть нулевую гипотезу об отсутствии связи.
Таблица анализа дисперсии подытоживает проверку нулевой гипотезы. Более подробно этот анализ будет рассмотрен при построении множественной модели регрессии.
Интерпретация диаграмм регрессии
В случае линейной регрессии инструмент анализа Регрессия строит две диаграммы регрессии: график остатков и график подбора. Первоначально диаграммы располагаются справа от итоговых результатов в ячейках M1:S12.
График подбора аналогичен графику с добавлением линии тренда, за исключением того, что значения функции регрессии (Предсказанное Цена) отображаются маркерами без соединяющих линий. Проведем форматирование диаграммы.
График остатков применяется для определения, является ли приемлемым приближение
(в нашем случае использование МНК) для функции регрессии. Отформатируем диаграмму.
Линейное приближение считается удовлетворительным, если график остатков имеет случайный разброс точек, а прямая функции регрессии является на этом графике горизонтальной линией. В данном случае мы имеем «хорошее» приближение.
Использование статистических функций
Задание 3. |
Исследовать линейную зависимость между стоимостью и площадью жилого объекта с помощью статистических функций. |
Для предсказания цены используется функция ПРЕДСКАЗ. Допустим, мы хотим знать цену для объекта с жилой площадью в 1000 квадратных метров.
Контрольные вопросы