Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

Подписываем
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Предоплата всего
Подписываем
Статистический анализ данных.
После завершения любого научного исследования, фундаментального или экспериментального, производится статистический анализ полученных данных. Чтобы статистический анализ был успешно проведен и позволил решить поставленные задачи, исследование должно быть грамотно спланировано. Следовательно, без понимания основ статистики невозможно планирование и обработка результатов научного эксперимента.
Прежде чем говорить об основах статистического анализа, следует прояснить смысл термина «статистика». Существует множество определений, но наиболее полным и лаконичным является, на наш взгляд, определение статистики как «науки о сборе, представлении и анализе данных».
Статистический анализ данных - это раздел прикладной статистики, разрабатывающая и систематизирующая понятия, приемы, математические методы и модели, предназначенные для организации, сбора, стандартной записи, систематизации и обработки статистических данных с целью их удобного представления, интеграции и получения научных и практических выводов.
Эконометрия, эконометрика- одно из направлений экономико-математических методов анализа, которое заключается в статистическом измерении, (оценивании) параметров математических выражений: характеризующих некоторую экономическую концепцию о взаимосвязи и развитии объекта, явления, и в применении полученных таким путем моделей эконометрических для конкретных экономических выводов. Эконометрика отличается от математической экономики тем, что она не ограничивается общей математической характеристикой какой-либо экономической теории, а доводит результаты анализа до получения конкретных числовых измерителей и экономических оценок.
Одной из основных задач прикладной статистики является выявление и изучение закономерностей.
Познание закономерностей возможно лишь в том случае, если изучаются не отдельные явления, а совокупности явлений- ведь закономерности общественной жизни проявляются в полной мере лишь в массе явлений.
Каждое из этих явлений состоит из массы однородных элементов, которые объединены единой качественной основой, но различаются по ряду признаков. Все они, взятые вместе, в определенных границах времени и пространства, образуют статистическую совокупность. Статистическая совокупность, представляющая собой единое целое, состоит из отдельных единиц.
Например, в отношении каждого человека во время переписи населения собираются сведения о его возрасте , национальности, занятости и т.д., а все население на момент переписи представляет определенную статистическую совокупность.
Каждая единица статистической совокупности может быть описана, охарактеризована рядом свойств и особенностей, которыми они обладают. В примере в отношении каждого человека, являющегося единицей совокупности, при переписи населения записываются его возраст , образование, семейное положение и т.п. Каждый из этих вопросов отражает собой определенный , конкретный признак, характеризующий особенности данной единицы совокупности. Выбор единицы совокупности и перечня признаков, ее характеризующих, зависит от целей и задач исследования.
Следует заметить, что очень часто статистику сводят только к обработке экспериментальных данных, не обращая внимания на этап их получения. Однако статистические знания необходимы уже во время планирования эксперимента, чтобы полученные в ходе него показатели могли дать исследователю достоверную информацию. Поэтому, можно сказать, что статистический анализ результатов эксперимента начинается еще до начала исследования.
Уже на этапе разработки плана исследователь должен четко представлять себе, какого типа переменные будут в его работе. Все переменные можно разделить на два класса: качественные и количественные. То, какой диапазон может принимать переменная, зависит от шкалы измерений. Можно выделить четыре основных шкалы:
1. номинальную;
2. ординальную;
3. интервальную;
4. рациональную (шкалу отношений).
В номинальной шкале (шкале «названий») присутствуют лишь условные обозначения для описания некоторых классов объектов, например, «пол» или «профессия». Номинальная шкала подразумевает, что переменная будет принимать значения, количественные взаимоотношения между которыми определить невозможно. Так, невозможно установить математические отношения между мужским и женским полом. Условные числовые обозначения (женщины - 0, мужчины - 1, либо наоборот) даются абсолютно произвольно и предназначены только для компьютерной обработки. Номинальная шкала является качественной в чистом виде, отдельные категории в этой шкале выражают частотами (количество или доля наблюдений, проценты).
Ординальная (порядковая) шкала предусматривает, что отдельные категории в ней могут выстраиваться по возрастанию или убыванию. Ординальная шкала относится к полуколичественным типам данных, и ее градации можно описывать как частотами (как в качественной шкале), так и мерами центральных значений, на чем мы остановимся ниже.
Интервальная и рациональная шкалы относятся к чисто количественным типам данных. В интервальной шкале мы уже можем определить, насколько одно значение переменной отличается от другого.
Рациональная шкала (шкала отношений) имеет одну точку отсчета и только положительные значения.
Следует добавить, что любая количественная переменная может быть непрерывной или же дискретной.
Указанные различия имеют решающее значение для выбора методов статистического анализа результатов эксперимента. Так, для номинальных данных применим критерий «хи-квадрат», а известный тест Стьюдента требует, чтобы переменная (интервальная либо рациональная) была непрерывной.
После того как будет решен вопрос о типе переменной, следует заняться формированием выборки. Выборка - это небольшая группа объектов определенного класса. Для получения абсолютно точных данных нужно исследовать все объекты данного класса, однако, из практических (зачастую - финансовых) соображений изучают только часть популяции, которая и называется выборкой. В дальнейшем, статистический анализ позволяет исследователю распространить полученные закономерности на всю популяцию с определенной степенью точности. Фактически, вся статистика направлена на получение наиболее точных результатов из наименее возможного количества наблюдений.
Все единицы совокупности, обладающие интересующими исследователя признаками, составляют генеральную совокупность. Часть совокупности, случайным образом отобранная из генеральной совокупности,- выборочная совокупность-выборка. Число единиц (элементов) статистической совокупности называется ее объемом. Объем генеральной совокупности обозначается N, а объем выборочной совокупности n. Если объем совокупности велик, то его полагают равным бесконечности.
Случайная выборка из n элементов - это такой отбор , при котором элементы извлекаются по одному из всей генеральной совокупности и каждый из них имеет равный шанс быть отобранным. Требование случайности обеспечивается отбором по таблицам случайных чисел или по жребию. Такая выборка называется собственно- случайной. Одним из примеров является проведение тиражей выигрышей денежно- вещевых лотерей, при которых обеспечивается равная возможность попадания в тираж любого номера лотерейного билета.
Создание выборки регламентируется рядом обязательных требований, нарушение которых может привести к ошибочным выводам из результатов исследования. Во-первых, важен объем выборки. От объема выборки зависит точность оценки исследуемых параметров. Здесь следует обратить внимание на слово «точность». Чем больше размеры исследуемых групп, тем более точные (но не обязательно правильные) результаты получает ученый. Для того же, чтобы результаты выборочных исследований можно было переносить на всю популяцию в целом, выборка должна быть репрезентативной. Репрезентативность выборки предполагает, что в ней отражены все существенные свойства популяции. Другими словами, в исследуемых группах лица разного пола, возраста, профессий, социального статуса и пр. встречаются с той же частотой, что и во всей популяции.
Формировать выборки можно различными путями. Самый простой из них - выбор с помощью генератора случайных чисел необходимого количества объектов из популяции или выборочной рамки (sampling frame). Такой способ называется «простой случайной выборкой». Если случайным образом выбрать начальную точку в выборочной рамке, а затем взять каждый второй, пятый или десятый объекты (в зависимости от того каких размеров группы требуются в исследовании), то получится интервальная выборка. Интервальная выборка не является случайной, так как никогда не исключается вероятность периодических повторений данных в рамках выборочной рамки.
Возможен вариант создания так называемой «стратифицированной выборки», которая предполагает, что совокупность состоит из нескольких различных групп и эту структуру следует воспроизвести в экспериментальной группе. Например, если в популяции соотношение мужчин и женщин 30:70, тогда в стратифицированной выборке их соотношение должно быть таким же. При данном подходе критически важно не балансировать выборку избыточно, то есть избежать однородности ее характеристик, в противном случае исследователь может упустить шанс найти различия или связи в данных.
Кроме описанных способов формирования групп есть еще кластерная и квотная выборки. Первая используется в случае, когда получение полной информации о выборочной рамке затруднено из-за ее размеров. Тогда выборка формируется из нескольких групп, входящих в совокупность. Вторая - квотная - аналогична стратифицированной выборке, но здесь распределение объектов не соответствует таковому в совокупности.
Возвращаясь к объему выборки, следует сказать, что он тесно связан с вероятностью статистических ошибок первого и второго рода. Статистические ошибки могут быть обусловлены тем, что в исследовании изучается не вся совокупность, а ее часть. Ошибка первого рода - это ошибочное отклонение нулевой гипотезы. В свою очередь, нулевая гипотеза - это предположение о том, что все изучаемые группы взяты из одной генеральной совокупности, а значит, различия либо связи между ними случайны. Если провести аналогию с диагностическими тестами, то ошибка первого рода представляет собой ложноположительный результат.
Ошибка второго рода - это неверное отклонение альтернативной гипотезы, смысл которой заключается в том, что различия либо связи между группами обусловлены не случайным совпадением, а влиянием изучаемых факторов. И снова аналогия с диагностикой: ошибка второго рода - это ложноотрицательный результат. С этой ошибкой связано понятие мощности, которое говорит о том, насколько определенный статистический метод эффективен в данных условиях, о его чувствительности. Мощность вычисляется по формуле: 1-β , где β - это вероятность ошибки второго рода. Данный показатель зависит преимущественно от объема выборки. Чем больше размеры групп, тем меньше вероятность ошибки второго рода и выше мощность статистических критериев. Зависимость эта как минимум квадратичная, то есть уменьшение объема выборка в два раза приведет к падению мощности минимум в четыре раза. Минимально допустимой мощностью считают 80%, а максимально допустимый уровень ошибки первого рода принимают 5%. Однако всегда следует помнить, что эти границы заданы произвольно и могут изменяться в зависимости от характера и целей исследования. Как правило, научным сообществом признается произвольное изменение мощности, однако в подавляющем большинстве случаев уровень ошибки первого рода не может превышать 5%.
Все сказанное выше имеет непосредственное отношение к этапу планирования исследования. Тем не менее, многие исследователи ошибочно относятся к статистической обработке данных только как к неким манипуляциям, выполняемым после завершения основной части работы. Зачастую после окончания никак не спланированного эксперимента, появляется непреодолимое желание заказать анализ статистических данных на стороне. Но из «кучи мусора» даже специалисту по статистике будет очень сложно выудить ожидаемый исследователем результат. Поэтому при недостаточных знаниях необходимо обращаться за помощью в статистическом анализе еще до начала эксперимента.
Обращаясь к самой процедуре анализа, следует указать на два основных типа статистических техник: описательные и доказательные (аналитические). Описательные техники включают в себя методы позволяющие представить данные в компактном и легком для восприятия виде. Сюда можно отнести таблицы, графики, частоты (абсолютные и относительные), меры центральной тенденции (средние, медиана, мода) и меры разброса данных (дисперсия, стандартное отклонение и пр.). Другими словами, описательные методы дают характеристику изучаемым выборкам.
Наиболее популярный (хотя и зачастую ошибочный) способ описания имеющихся количественных данных заключается в определении следующих показателей:
количество наблюдений в выборке или ее объем;
средняя величина(среднее арифметическое);
стандартное отклонение- показатель того, насколько широко изменяются значения переменных.
Важно помнить, что среднее арифметическое и стандартное отклонение - это меры центральной тенденции и разброса в достаточно небольшом числе выборок. В таких выборках значения у большинства объектов с равной вероятностью отклонены от среднего, а их распределение образует симметричный «колокол» (кривую Гаусса-Лапласа). Такое распределение еще называют «нормальным». Если же значения переменной распределены несимметрично относительно центра, то группы лучше описывать с помощью медианы и квантилей ( процентилей, квартилей, децилей).
Завершив описание групп, необходимо ответить на вопрос об их взаимоотношениях и о возможности обобщить результаты исследования на всю совокупность. Для этого используются доказательные методы статистики. Именно о них в первую очередь вспоминают исследователи, когда идет речь о статистической обработке данных. Обычно этот этап работы называют «тестированием статистических гипотез».
Задачи тестирования гипотез можно разделить на две большие группы. Первая группа отвечает на вопрос, имеются ли различия между группами по уровню некоторого показателя.
В практическом плане задачи из первой группы можно разделить на два подтипа:
сравнение показателя только в двух группах;
сравнение трех и более групп.
Необходимо учитывать, что статистические методы существенно отличаются для качественных и количественных данных.
В ситуации, когда изучаемая переменная - качественная и сравниваются только две группы, можно использовать критерий «хи-квадрат». Это достаточно мощный и широко известный критерий, однако, он оказывается недостаточно эффективным в случае, если количество наблюдений мало. Для решения данной проблемы существуют несколько методов, один из них метод Фишера.
Если изучаемая переменная является количественной, то можно использовать один из двух видов статистических критериев. Критерии первого вида основаны на конкретном типе распределения генеральной совокупности и оперируют параметрами этой совокупности. Такие критерии называют «параметрическими», и они, как правило, базируются на предположении о нормальности распределения значений. Непараметрические критерии не базируются на предположении о типе распределения генеральной совокупности и не используют ее параметры. Иногда такие критерии называют «свободными от распределения» (distribution-free tests). В определенной степени это ошибочно, поскольку любой непараметрический критерий предусматривает, что распределения во всех сравниваемых группах будут одинаковыми, иначе могут быть получены ложноположительные результаты.
Существует два параметрических критерия применяемых к данным, извлеченным из нормально распределенной совокупности: t-тест Стьюдента для сравнения двух групп и F-тест Фишера, позволяющий проверить равенство дисперсий (он же - дисперсионный анализ). Непараметрических же критериев значительно больше. Разные критерии отличаются друг от друга по допущениям, на которых они основаны, по сложности вычислений, по статистической мощности и т. д. Однако наиболее приемлемыми в большинстве случаев считаются критерий Вилкоксона (для связанных групп) и критерий Манна-Уитни, также известный как критерий Вилкоксона для независимых выборок. Эти тесты удобны тем, что не требуют предположения о характере распределения данных. Но если окажется, что выборки взяты из нормально распределенной генеральной совокупности, то их статистическая мощность будет несущественно отличаться от таковой для теста Стьюдента.
Полное описание статистических методов можно найти в специальной литературе, однако, ключевым моментом является то, что каждый статистический тест требует набора правил (допущений) и условий для своего использования, и механический перебор нескольких методов для поиска «нужного» результата абсолютно неприемлем с научной точки зрения. Бесконтрольное применение статистических тестов опасно, ведь на них базируются гипотезы и выводы.
Для более полного понимания вопроса точности статистического анализа необходимо определить и разобрать понятие «доверительной вероятности». Доверительная вероятность - это величина, принятая в качестве границы между вероятными и маловероятными событиями. Традиционно, она обозначается буквой «p». Для многих исследователей единственной целью выполнения статистического анализа является расчет заветного значения p, которое словно проставляет запятые в известной фразе «казнить нельзя помиловать». Максимально допустимой доверительной вероятностью считается величина 0,05. Следует помнить, что доверительная вероятность - это не вероятность некоторого события, а вопрос доверия. Выставляя перед началом анализа доверительную вероятность, мы тем самым определяем степень доверия к результатам наших исследований. А, как известно, чрезмерная доверчивость и излишняя подозрительность одинаково негативно сказываются на результатах любой работы.
Уровень доверительной вероятности показывает, какую максимальную вероятность возникновения ошибки первого рода исследователь считает допустимой. Уменьшение уровня доверительной вероятности, иначе говоря, ужесточение условий тестирования гипотез, увеличивает вероятность ошибок второго рода. Следовательно, выбор уровня доверительной вероятности должен осуществляться с учетом возможного ущерба от возникновения ошибок первого и второго рода.
Необходимо иметь в виду, что сама по себе величина p малоинформативна для специалиста, поскольку говорит только о вероятности ошибочного отклонения нулевой гипотезы. Поэтому есть мнение, что вместо уровня доверительной вероятности лучше было бы оценивать результаты исследования по величине доверительного интервала. Доверительный интервал - это диапазон значений, в котором с определенной вероятностью заключено истинное значение совокупности (для среднего, медианы или частоты). На практике удобнее иметь оба эти значения, что позволяет с большей уверенностью судить о применимости полученных результатов к совокупности в целом.
В заключение следует сказать несколько слов об инструментах, которыми пользуется специалист по статистике, либо исследователь, самостоятельно проводящий анализ данных. Давно ушли в прошлое ручные вычисления. Существующие на сегодняшний день статистические компьютерные программы позволяют проводить статистический анализ, не имея серьезной математической подготовки. Такие мощные системы как SPSS, SAS, R, Excel и др. дают возможность исследователю использовать сложные и мощные статистические методы. Однако далеко не всегда это является благом. Не зная о степени применимости используемых статистических тестов к конкретным данным эксперимента, исследователь может провести расчеты и даже получить некоторые числа на выходе, но результат будет весьма сомнительным. Поэтому, обязательным условием для проведения статистической обработки результатов эксперимента должно быть хорошее знание математических основ статистики.
Статистическая проверка статистических гипотез.
Статистической называют гипотезу о виде неизвестного распределения или о параметрах известных распределений.
Нулевой (основной) называют выдвинутую гипотезу Н0.
Конкурирующей (альтернативной) называют гипотезу Н1, которая противоречит нулевой.
Различают гипотезы, которые содержат одно и более одного предположений.
Простой называют гипотезу, содержащую только одно предложение.
Сложной называют гипотезу, которая состоит из конечного или бесконечного числа простых гипотез.
Статистическим критерием называют случайную величину К, которая служит для проверки гипотезы. Наблюдаемым (эмпирическим) значением Кнабл называют то значение критерия, которое вычислено по выборкам.
Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают.
Областью допустимых значений называют совокупность значений критерия, при которых нулевую гипотезу принимают.
Основной принцип проверки статистических гипотез: если наблюдаемое значение критерия принадлежит критической области, то нулевую гипотезу отвергают; если наблюдаемое значение критерия принадлежит области принятия гипотезы, то гипотезу принимают.
Критическими точками (границами) ккр называют точки, отделяющие критическую область от области принятия гипотезы.
Правосторонней называют критическую область, определяемую неравенством К˃ ккр , где ккр- положительное число.
Левосторонней называют критическую область, определяемую неравенством К< ккр , где ккр- отрицательное число.
Двусторонней называют критическую область, определяемую неравенством К< к1, К˃ к2, где к1 < к2 .
Сравнение двух дисперсий нормальных генеральных совокупностей.
По независимым выборкам, объемы которых n1 , n2 извлеченным из нормальных генеральных совокупностей, найдены исправленные выборочные дисперсии sX2 и sY2 . Требуется сравнить эти дисперсии.
Правило 1. Для того, чтобы при заданном уровне значимости α проверить нулевую гипотезу Н0: D(X)=D(Y) о равенстве генеральных дисперсий нормальных совокупностей при конкурирующей гипотезе Н1: D(X)˃D(Y), надо вычислить наблюдаемое значение критерия (отношение большой исправленной дисперсии к меньшей)
и по таблице критических точек распределения Фишера-Снедекора, по заданному уровню значимости α и числам степеней свободы
к1= n1-1, к2= n2-1 ( к1- число степеней свободы большей исправленной дисперсии) найти критическую точку Fкр(α, к1, к2). Если < Fкр нет оснований отвергнуть нулевую гипотезу, если ˃ Fкр - отвергают нулевую гипотезу.
Правило 2. При конкурирующей гипотезе Н1: D(X)≠D(Y) критическую точку Fкр(α/2, к1, к2) ищут по уровню значимости α/2 и числам степеней свободы к1, к2 . Если < Fкр нет оснований отвергнуть нулевую гипотезу, если ˃ Fкр - отвергают нулевую гипотезу.
Пример. По двум независимым выборкам, объемы которых n1=11 и n2=14, извлеченным из нормальных генеральных совокупностей X и Y, найдены исправленные выборочные дисперсии sX2 =0,76 и sY2=0,38. При уровне значимости α=0,05, проверить нулевую гипотезу Н0: D(X)=D(Y) о равенстве генеральных дисперсий нормальных совокупностей при конкурирующей гипотезе Н1: D(X)˃D(Y).
Решение. Найдем отношение большой исправленной дисперсии к меньшей:
По условию конкурирующая гипотеза Н1: D(X)˃D(Y), поэтому критическая область - правосторонняя.
По табл. приложения, по уровню значимости α=0,05 и числам степеней свободы к1= n1-1=11-1=10 , к2= n2-1= 14-1=13 находим критическую точку
Fкр(0,05, 10, 13)=2,67. Так как < Fкр нет оснований отвергнуть нулевую гипотезу о равенстве генеральных дисперсий. Другими словами, выборочные исправленные дисперсии различаются незначимо.
Сравнение исправленной выборочной дисперсии с гипотетической генеральной дисперсией нормальной совокупности.
Обозначим через n объем выборки, по которой найдена исправленная дисперсия s2.
Правило 1. Для того, чтобы при заданном уровне значимости α проверить нулевую гипотезу Н0: σ2=σ02 о равенстве неизвестной дисперсии σ2 гипотетическому (предполагаемому) значению σ02 при конкурирующей гипотезе Н1: σ2˃σ02 , надо вычислить наблюдаемое значение критерия
и по таблице критических точек распределения χ2, по заданному уровню значимости α и числу степеней свободы к= n-1 критическую точку χ2кр(α, к). Если < χ2кр -нет оснований отвергнуть нулевую гипотезу,
если ˃ χ2кр - отвергают нулевую гипотезу.
Пример. Из нормальной генеральной совокупности извлечена выборка объема n=21, и по ней найдена исправленная выборочная дисперсия s2=16,2.Требуется при уровне значимости 0,01 проверить нулевую гипотезу Н0: σ2=σ02=15, приняв в качестве конкурирующей гипотезы Н1: σ02˃15.
Решение. Найдем наблюдаемое значение критерия:
=21,6
По условию конкурирующая гипотеза Н1: σ02˃15, поэтому критическая область- правосторонняя. По таблице приложения, по уровню значимости 0,01 и числу степеней свободы к= n-1=21-1=20 находим критическую точку χ2кр(0,01, 20)=37,6.
Так как < χ2кр -нет оснований отвергнуть нулевую гипотезу о равенстве генеральной дисперсии σ2 гипотетическому (предполагаемому) значению. Другими словами, различие между исправленной дисперсией и гипотетической незначимо.
Корреляционно- регрессионный анализ
Корреляционно- регрессионный анализ проводится поэтапно в определенной логической последовательности.
Этапы проведения комплексного
корреляционно-регрессионного анализа
1. Предварительный анализ явлений и выявление причин возникновения взаимосвязей между признаками, характеризующими эти явления
2. Разделение признаков на факторные и результативные, выбор наиболее существенных признаков для их исследования на предмет включения в корреляционно-регрессионные модели
3. Построение матрицы коэффициентов парной корреляции и оценка возможных вариантов группировки признаков корреляционно-регрессионных моделей
4. Предварительная оценка формы уравнения регрессии
5. Решение уравнения регрессии, вычисление коэффициентов регрессии и их смысловая интерпретация
6. Расчет теоретически ожидаемых (воспроизведенных по уравнению регрессии) значений результативного признака
7. Определение и сравнительный анализ дисперсий: общей, факторной и остаточной; оценка тесноты связи между признаками, включенную в регрессионную модель
8. Общая оценка качества модели, отсев несущественных (или включение дополнительных) факторов, построение модели, т.е. повторение п. 1 7
9. Статистическая оценка достоверности параметров уравнения регрессии, построение доверительных границ для теоретически ожидаемых по уравнению регрессии значений функции
10. Практические выводы из анализа
Наиболее разработанной является методология парной линейной корреляции, рассматривающая влияние вариации переменной х на переменную у и представляющая собой однофакторный корреляционный и регрессионный анализ.
Понятие корреляционного анализа
раздел математической статистики, посвященный изучению взаимосвязей между случайными величинами. Применятся тогда, когда данные наблюдений можно считать случайными и выбранными из генеральной совокупности, распределенной по многомерному нормальному закону
Корреляционный анализ
- это
Корреляционные анализ заключается в количественном определении тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи)
ВАЖНО!
Понятие корреляции
статистическая зависимость между случайными величинами, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой
Корреляция
- это
Варианты корреляции
Корреляция
Частная
Множественная
Парная
Зависимость между результативным и одним факторным признаками или двумя факторными признаками при фиксированном значении других факторных признаков
Зависимость между результативным признаком и двумя и более факторными признаками, включенными в исследование
Связь между двумя признаками (результативным и факторным или двумя факторными)
Теснота связи количественно выражается величиной коэффициентов корреляции. Эта величина ковариация. Она характеризует сопряженность вариации двух признаков и представляет собой статическую меру взаимодействия двух случайных переменных.
гдеn объем исследуемой совокупности;
- i-е значение независимой переменной
(i = 1, 2, …, n);
- i-е значение зависимой переменной
(i = 1, 2, …, n);
- среднее значение независимой переменной. Определяется по формуле ;
- среднее значение зависимой переменной. Определяется по формуле ;
Формула определения ковариации
Ковариация
При наличии прямой связи большие значения х должны сочетаться с большими значениями у, следовательно, отклонения и ( yi - ӯ ) будут положительными.
Для малых значений х и у эти отклонения будут отрицательными, а их произведения положительными. Значит при прямой связи ковариация будет величиной положительной.
При наличии обратной связи отклонения и ( yi - ӯ ) будут иметь разные знаки (большие значения х сочетаются с меньшими значениями у и наоборот). Ковариация будет отрицательной величиной.
Наконец, при отсутствии связи сочетания знаков отклонений и
( y i- ӯ ) будет беспорядочным, при суммировании отрицательные и положительные произведения и ( yi - ӯ ) будут взаимно погашаться и ковариация будет близка к нулю.
Размер ковариации зависит от масштаба признаков х и у . Для получения относительной характеристики связи ковариацию делят на максимально возможное значение, равное произведению средних квадратических отклонений двух признаков. В результате получают линейный коэффициент корреляции
где средние квадратические отклонения случайных величин х и у.
Определяются по формулам
Формула линейного коэффициента корреляции
Линейный коэффициент корреляции
Коэффициент корреляции принимает значение от -1 до +1. Положительное значение коэффициента свидетельствует о наличии прямой связи, отрицательное обратной. Если , корреляционная связь представляется линейной функциональной зависимостью. При линейная корреляционная связь отсутствует
ВАЖНО!
Значение
От 0 до
От до
От до
От до
Характер связи
Практически отсутствует
Слабая
Умеренная
Сильная
Качественные характеристики связи
Коэффициенты корреляции как статистические величины подвергаются в анализе оценки на достоверность. Это объясняется тем, что любая совокупность наблюдений представляет собой некоторую выборку, следовательно, значение любого показателя, вычисленное на основе выборке, не может рассматриваться как истинное, а является только более или менее точной его оценкой. В связи с этим возникает необходимость проверки существенности (значимости) показателей.
Для оценки значимости коэффициента корреляции используют t-критерий Стьюдента, который применяется при t-распределении, отличном от нормального. При этом выдвигается и проверяется нулевая гипотеза (Н0) о равенстве rxy нулю. Если нулевая гипотеза отвергается , то коэффициент корреляции признается значимым, а связь между переменными существенной.
Формула расчета t-критерия Стьюдента
где k число факторных признаков, включенных в модель
t-критерий Стьюдента
(t-статистика)
Значение t-критерия сравнивают с табличным tα,γ, где α- заданный уровень значимости ( обычно принимается равным 0,05 или 0,01), γ=n-k-1 число степеней свободы.
Если выполняется неравенство , то значение коэффициента корреляции признается значимым, т.е. нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается и делается вывод о том, что между исследуемыми переменными есть тесная статистическая взаимосвязь
ВАЖНО!
Зная линейный коэффициент корреляции, можно определить парный кэффициент детерминации, он представляет собой rxy2.
показывает, какая доля вариации переменной у учтена в модели и обусловлена влиянием на нее переменной х
Парный коэффициент детерминации
Регрессионный анализ заключается в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения
ВАЖНО!
Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака от факторных признаков.
Основной предпосылкой регрессионного анализа является то, что только результативный признак подчиняется нормальному закону распределения, а факторные признаки- произвольному закону распределения. При этом в регрессионном анализе заранее подразумевается наличие причинно-следственных связей между результативным и факторными признаками.
Уравнение регрессии
Уравнение регрессии, или модель связи социально-экономических
явлений, выражается функцией
где k число факторных признаков
Множественная регрессии
(характеризует связь между результативным признаком и двумя и более факторным признаками)
Парная регрессии
(характеризует связь между двумя признаками: результативным и факторным)
Уравнение адекватно реально моделируемому явлению или процессу в случае соблюдения требований его построения
Требования к построению уравнения регрессии
Постоянство территориальной и временной структуры изучаемой совокупности
Возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей
Наличие достаточно большого объема исследуемой выборочной совокупности
Совокупность исходных данных должна быть однородной и математически описываться непрерывными функциями
Причинно-следственные связи между явлениями и процессами, по возможности, следует описывать линейной (или приводимой к линейной) формой зависимости
Отсутствие количественных ограничений на параметры модели
Количественное выражение факторных признаков
Теоритическая обоснованность моделей.
Теоритическая обоснованность моделей взаимосвязи явлений обеспечивается соблюдением определенных условий.
Отдельные наблюдения должны быть независимыми, т.е. результаты, полученные в
i-м наблюдении, не должны быть связаны с предыдущими и содержать информацию о последующих наблюдениях, а также влиять на них
Дисперсия модулируемого признака должна все время оставаться постоянной при изменении величины и значений факторных признаков
Все признаки и их совместные распределения должны починяться нормальному закону распределения
Условия теоретической обоснованности моделей
Форма связи может быть выражена как линейной функцией, так и нелинейной функциями. Подбор функции для выражения формы связи между признаками проходит несколько этапов: графический, логический, экономический, а также математическую проверку близости эмпирических данных к теоретическим.
Уравнение линейной парной регрессии
Уравнение линейной парной регрессии
- это
где параметры модели;
случайная величина (величина остатка)
Параметры модели и их содержание
Параметр |
Содержание параметра |
Свободный коэффициент (член) регрессионного уравнения. Не имеет экономического смысла и показывает значение результативного признака у, если факторный признак х = 0 |
|
Коэффициент регрессии показывает, на какую величину в среднем изменится результативный признак у, если переменную х увеличить на единицу измерения. Знак при коэффициенте регрессии показывает направление связи: при связь прямая; при связь обратная |
|
Независимая, нормально распределенная случайная величина, остаток с нулевым математически ожиданием и постоянной дисперсией. Отражает тот факт, что изменение у будет неточно описываться изменением х, так как присутствуют другие факторы, не учтенные в данной модели |
Система нормальных уравнений для нахождения параметра линейной парной регрессии методом наименьших квадратов
- это
t-критерий Стьюдента
(t-статистика)
- это
Расчет параметров
а0 и а1
Формула для определения значения параметров а0 и а1
Параметр а1 нельзя использовать для непосредственной оценки влияния факторного признака на результативный из-за различия единиц измерения исследуемых показателей. Для этих целей вычисляют коэффициент эластичности и β- коэффициент.
Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак у при изменении факторного признака х на один процент
ВАЖНО!
- это
Формула определения коэффициента эластичности
Коэффициент эластичности
ВАЖНО!
Бета-коэффициент
- это
где и средние квадратические отклонения случайных величин у и х
Формула определения бета-коэффициента
Бета-коэффициент показывает, на какую часть своего среднего квадратического отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину своего среднего квадратического отклонения
Проверка адекватности модели
Уровень ряда остатков
Проверка адекватности и точности уравнения регрессии
Установление наличия или отсутствия систематической ошибки
Определение значимости модели
Формула для определения t-критерия Стьюдента
где стандартные отклонения свободного члена и коэффициента регрессии. Определяются по формулам
где стандартное отклонение остатков модели (стандартная ошибка оценки). Определяется по формуле
t-критерий Стьюдента для оценки коэффициентов регрессии
Если расчетное значение t-критерия превосходит его табличное значение , то параметр признается значимым. В таком случае практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями
ВАЖНО!
Для проверки значимости уравнения регрессии в целом используют F-критерия Фишера. В случае парной линейной регрессии значимость модели регрессии определяется по следующей формуле.
Формула определения F-критерия Фишера
F-критерий Фишера
Если при заданном уровне значимости расчетное значение F-критерия с степенями свободы больше табличного, то модель считается значимой, гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность
ВАЖНО!
Требования, при которых модель считается адекватной
Уровни ряда остатков имеют случайный характер
Математическое ожидание уровней ряда остатков равно нулю
Дисперсия каждого отклонения Е: одинаково для всех значений
Значение уровней ряда остатков независимы друг от друга (отсутствует автокорреляция)
Уровни ряда остатков распределены по нормальному закону
Если модель регрессии признана адекватной, а параметры модели значимы, то переходят к построению прогноза.
Прогнозируемое значение переменной у получается при подстановке в уравнение регрессии ожидаемой независимой переменной xпрогн.
Прогнозируемое значение переменной у
Прогнозируемое значение переменной у и доверительные интервалы прогноза
Данный прогноз называется точечным. Вероятность реализации точечного прогноза практически равна нулю, поэтому рассчитывается доверительный интервал прогноза с большей надежностью.
где определяется по таблице распределения Стьюдента для уровня значимости и числа степеней свободы
Доверительные интервалы прогноза
Нелинейные модели и их линеаризация.
Нелинейность может проявляться как относительно переменных, так и относительно входящих в функцию коэффициентов(переменных).
Различают два класса нелинейных регрессий.
Классы нелинейных регрессий
Регрессии, нелинейные по оцениваемым параметрам (степенная, показательная, экспоненциальная функции)
Регрессии, нелинейные по переменным, включенным в анализ, но линейные по оцениваемым параметрам (различные полиномы, гипербола)
Для оценки параметров нелинейных моделей используют два подхода.
Первый подход основан на линеаризации модели и заключается в том, что с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линейного соотношения между преобразованными переменными.
Второй подход обычно применяется в случаях, когда подобрать соответствующее линеаризующее преобразование не удается. Тогда используют методы нелинейной оптимизации на основе исходных переменных.
Оценка параметров нелинейной регрессии по переменным, включенным в анализ, но линейным по оцениваемым параметрам, проводится с помощью МНК путем решения нормальных уравнений.
Регрессии, нелинейные по переменным, но линейные по оцениваемым параметрам
Наименование регрессии |
Уравнение регрессии |
Нормальные уравнения |
Полином второго порядка |
||
Гипербола |
Или заменим на новую переменную Х. В результате получим линейное уравнение: Параметры определяются из следующих формул: |
Линеаризация регрессий, нелинейных по оцениваемым параметрам
Наименование регрессии |
Уравнение регрессии |
Линеаризация |
Степенная функция |
Для определения параметров степенной функции с помощью МНК необходимо привести ее к линейному виду путем логарифмирования обеих частей уравнения: Это уравнение представляет собой прямую линую на графике, по осям которого откладывается не сами числа, а их логарифмы (так называемая логарифмическая шкала или логарифмическая сетка). Пусть . Тогда уравнение примет вид . Параметры модели определяются по следующим формулам: |
|
Показательная функция |
Линеаризацию переменных проведем путем логарифмирования обеих частей уравнения: Уравнение изображается прямой линией по полулогарифмической сетке, которая получается как сочетание натуральной шкалы для значений независимой переменной х и логарифмической шкалы для значений зависимой переменной у. Пусть . Тогда уравнение примет вид Параметры модели определяются по следующим формулам: |
При использовании любой формы криволинейной корреляционной зависимости теснота связи между переменными может быть определена с помощью индекса корреляции, который определяется аналогично коэффициенту корреляции для линейной формы связи.
Уравнение корреляционной связи должно быть по возможности более простым, чтобы сущность изучаемой зависимости между переменными проявлялась достаточно четко, а параметры уравнения поддавались определенному экономическому толкованию. Вопрос выбора соответствующего уравнения связи решается в каждом отдельном случае.
КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ В MS EXCEL
Для построения корреляционного поля в командной строке выбираем меню Вставка/ Диаграмма. В появившемся диалоговом окне выберите тип диаграммы: Точечная; вид: Точечная диаграмма, позволяющая сравнить пары значений (Рис. 22).
Рисунок 22 Выбор типа диаграммы
Нажимаем кнопку Далее>. В появившемся диалоговом окне (Рис. 23) указываем диапазон значений, в нашем примере = Лист1!A2:B26 и указываем расположение данных: в столбцах.
Рисунок 23 Вид окна при выборе диапазона и рядов
Нажимаем кнопку Далее>. В следующем диалоговом окне (рис. 24) указываем название диаграммы, наименование осей. Нажимаем кнопку Далее>, и Готово.
Рисунок 24 Вид окна, шаг 3.
Таким образом, получаем корреляционное поле зависимости y от x. Далее добавим на графике линию тренда, для чего выполним следующие действия:
Рисунок 25 Вид окна, шаг 4
3. В появившемся диалоговом окне выбираем тип графика (в нашем примере линейная) и параметры уравнения, как показано на рисунке 26.
Рисунок 26 Установка параметров линии тренда
Нажимаем ОК. Результат представлен на рисунке 27.
Рисунок 27 Корреляционное поле зависимости производительности труда от фондовооруженности
Аналогично строим корреляционное поле зависимости производительности труда от коэффициента сменности оборудования. (рисунок 28).
Рисунок 28 Корреляционное поле зависимости производительности труда
от коэффициента сменности оборудования
Для построения корреляционной матрицы в меню Сервис выбираем Анализ данных.
С помощью инструмента анализа данных Регрессия, помимо результатов регрессионной статистики, дисперсионного анализа и доверительных интервалов, можно получить остатки и графики подбора линии регрессии, остатков и нормальной вероятности. Для этого необходимо проверить доступ к пакету анализа. В главном меню последовательно выберите Сервис/ Надстройки. Установите флажок Пакет анализа (Рисунок 29)
Рисунок 29 Подключение надстройки Пакет анализа
В диалоговом окне Анализ данных выбираем Корреляция (Рисунок 30).
Рисунок 30 Диалоговое окно Анализ данных
После нажатия ОК в появившемся диалоговом окне указываем входной интервал (в нашем примере А2:D26), группирование (в нашем случае по столбцам) и параметры вывода, как показано на рисунке 31.
Рисунок 31 Диалоговое окно Корреляция
Результат расчетов представлен в таблице 4.
Таблица 4 Корреляционная матрица
Столбец 1 |
Столбец 2 |
Столбец 3 |
|
Столбец 1 |
1 |
||
Столбец 2 |
0,3395753 |
1 |
|
Столбец 3 |
-0,1020202 |
-0,161494 |
1 |
ОДНОФАКТОРНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
С ПРИМЕНЕНИЕМ ИНСТРУМЕНТА РЕГРЕССИИ
Для проведения регрессионного анализа зависимости производительности труда от фондовооруженности в меню Сервис выбираем Анализ данных и указываем инструмент анализа Регрессия (Рисунок 32).
Рисунок 32 Диалоговое окно Анализ данных
После нажатия ОК в диалоговом окне Регрессия указываем входной интервал Y (в нашем примере А2: А26) и входной интервал X (в нашем примере B2: B26), а также параметры вывода, остатки, нормальную вероятность как указано на рисунке 33.
Рисунок 33 Диалоговое окно Регрессия
КЛАСТЕРНЫЙ АНАЛИЗ
Кластерный анализ позволяет из п объектов, характеризуемых k признаками, сформировать разбивку на однородные группы (кластеры). Однородность объектов определяется по расстоянию , где и векторы, составленные из значений k признаков i-го и j-го объектов соответственно.
Для объектов, характеризуемых числовыми признаками, расстояние определяется по следующей формуле: .
Объекты считаются однородными, если .
Графическое изображение объединения может быть получено с помощью дерева объединения кластеров дендрограммы.
КЛАСТЕРНЫЙ АНАЛИЗ В EXCEL
Программа Excel из состава пакета MS Office является стандартным средством
хранения и обработки числовой информации. Кроме того, благодаря встроенному языку
программирования Visual Basic for Application (VBA), пользователи этой программы имеют уникальную возможность создавать собственные приложения, ориентированные на решение
специализированных задач практически любой степени сложности. В данном случае
средствами VBA реализован один из наиболее используемых методов статистических
исследований кластерный анализ. В программе выполняется алгоритм иерархической
кластеризации, в качестве меры сходства объектов используется эвклидово расстояние (Q-
тип) или парный коэффициент корреляции (R-тип). Программа представляет собой
надстройку Excel (файл с расширением имени xla). Чтобы установить программу, надо
выполнить следующие действия: в меню
Сервис выбрать команду Надстройки;
нажать кнопку Обзор и найти файл,
содержащий программу; в окне Список
надстроек появится название надстройки
“Cluster” с установленным флажком.
Нажимаете кнопку ОК и после этого
программа готова к использованию. В Excel
появится дополнительная панель
инструментов с двумя кнопками: Q и R,
соответственно для анализа Q и R типа.
Загрузив файл, содержащий данные, следует
выделить диапазон ячеек, первая строка
которого обязательно должна содержать
имена переменных, а первая колонка номера
образцов (анализов и т.п.). Выделение может
состоять из нескольких областей. Таким
образом можно, например, исключать из
расчета некоторые переменные или анализы.
Пример такого выделения показан на рисунке.
Многодиапазонное выделение выполняется
при нажатой клавише Ctrl. После выделения
данных кнопкой на панели инструментов
активизируется процедура кластерного анализа Q или R типа. Процесс вычислений
контролируется индикатором выполнения. После завершения расчетов на листе появится
окно, содержащее дендрограмму, построенную по результатам кластерного анализа.
Полученный график можно редактировать и распечатать непосредственно из Excel или
перенести, воспользовавшись буфером обмена, в какой-либо графический редактор,
например, в CorelDraw. Векторный формат изображения удобен для редактирования при
подготовке иллюстрационной графики. Основным преимуществом данного подхода является
возможность избежать утомительной процедуры экспорта данных из Excel в программу,
выполняющую статистические вычисления, что существенно экономит время.
ДИСПЕРСИОННЫЙ АНАЛИЗ
Дисперсионный анализ дает общую схему проверки статистических гипотез, основанную на тщательном изучении различных источников вариации (изменчивости, неоднородности) в сложной ситуации. Он позволяет оценить влияние одного или нескольких факторов на результирующий признак.
Предположения, лежащие в основе дисперсионного анализа, довольно жесткие и подчеркивают тот факт, что данный метод следует использовать только для таких зависимых переменных, которые были тщательно изучены и точно измерены. До тех пор, пока объемы выборок приблизительно равны, дисперсионный анализ может мириться с некоторым нарушением допущений модели. Но в ситуации выборок, сильно отличающихся по объему, следует воспользоваться другими методами (например, критерием хи-квадрат).
Однофакторный дисперсионный анализ
На практике часто встречается ситуация, когда можно указать один фактор, влияющий на конечный результат, и этот фактор принимает конечное число значений. Такая ситуация может быть проанализирована при помощи однофакторного дисперсионного анализа.
Данные для однофакторного дисперсионного анализа это k независимых выборок их k генеральных совокупностей. Однофакторный дисперсионный анализ сравнивает два источника вариации: между выборками (межгрупповая вариация) и внутри каждой выборки (внутригрупповая вариация). Каждая генеральная совокупность подчиняется нормальному распределению, причем все стандартные отклонения одинаковы.
Гипотеза утверждает, что все средние равны между собой. Альтернативная гипотеза говорит о том, что не все средние равны между собой (есть хотя бы две неравные средние).
Фактор А имеет k уровней. На каждом уровне проводится выборка объемом . Тогда общее число наблюдений равно
.
Пусть результаты j-й выборки. Отсюда
.
Статистика . Доверительная вероятность р, .
По таблице F-распределения находим граничную точку . Если , то мы отклоняем гипотезу на уровне зависимости .
Двухфакторный дисперсионный анализ
Рассмотрим влияние двух факторов А и В на конечный результат. Здесь дисперсионный анализ основывается на результатах эксперимента, проводимого на различных уровнях каждого из факторов. Все предположения остаются в силе.
Считаем, что взаимосвязь факторов отсутствует. Для простоты ограничимся случаем, когда для каждой пары уровней рассматриваемых факторов проводится по одному наблюдению (двухфакторный дисперсионный анализ без повторений).
Пусть число уровней фактора А, - число уровней фактора В. Тогда общее число наблюдений для всех возможных пар уровней факторов А и В равно .
Гипотеза утверждает, что фактор А не влияет на конечный результат.
Гипотеза утверждает, что фактор В не влияет на конечный результат.
Пусть - результат наблюдений при i-м уровне факторов А и j-м уровне факторов В.
Введем следующие обозначения:
Статистика . Статистика .
Доверительная вероятность р, . По таблице F-распределения находим граничные точки (для ) и (для ).
Если , то отклоняем гипотезу на уровне значимости .
Если , то мы отклоняем гипотезу на уровне значимости .
Однофакторный дисперсионный анализ
1. Решение задач однофакторного дисперсионного анализа с помощью программы Excel.
Задание 1. Имеются четыре партии сырья для текстильной промышленности. Из каждой партии отобрано по пять образцов и проведены испытания на определение величины разрывной нагрузки. Результаты испытаний приведены в таблице.
Необходимо выяснить, существенно ли влияние различных партий сырья на величину разрывной нагрузки. Данная задача сводится к проверке выдвигаемой нулевой гипотезы Н0:. а1= а2=…= аm о равенстве математических ожиданий, осуществляемой в дисперсионном анализе. т .е. нужно проверить гипотезу о том, что на уровне значимости α = 0,05 (с надежностью 0,95) различие между партиями сырья не оказывает существенное влияние на величину разрывной нагрузки.
Порядок работы
Рис.1
>•Откройте табличный процессор Microsoft Excel. Щелкните мышью на ярлыке Лист2 (Sheet2), чтобы перейти на другой рабочий лист.
>• Введите данные для дисперсионного анализа, изображенные на рис.1.
>•Преобразуйте данные в числовой формат. Для этого выберите команду меню Формат • Ячейки. На экранe появится окно формат ячеек (Рис.2). Выберите Числовой формат и введенные данные преобразуются к виду, показанному на рис. 3
>•Выберите команду меню Сервис • Анализ данных (Тоо1s * Dаtа Апа1уsis). На экранe появится окно Анализ данных (Dаtа Апа1уsis) (Рис.4).
>• Щелкните мышью на строке Однофакторный дисперсионный анализ (Аnоvа: Single Factor) в списке Инструменты анализа (Апа1уsis Тоо1s).
>• Нажмите кнопку ОК, чтобы закрыть окно Анализ данных (Dаtа Апа1уsis). На экране появится окно Однофакторный дисперсионный анализ для проведения дисперсионного анализа данных (Рис.5).
Рис.3
Рис.2
>• Щелкните мышью в поле Входной интервал. Выделите диапазон ячеек E3::I6, данные в котором нужно проанализировать. В поле Входной интервал (Input Range) группы элементов управления Входные данные, (Input) появится указанный диапазон.
Рис.4
Рис.5
>• Если в группе элементов управления Входные данные (Input ) не установлен переключатель по строкам, то установите его, чтобы программа Ехcel воспринимала группы данных по строкам - партиям.
>• Установите флажок Метки в первой строке (Labels in Firts Rom) в группе элементов управления Входные данные (Input), если первый столбец выделенного диапазона данных содержит названия строк.
>• В поле ввода Альфа (А1рhа) группы элементов управления Входные данные по умолчанию отображается величина 0,05, которая связана с вероятностью возникновения ошибки в дисперсионном анализе.
>• Если в группе элементов управления Параметры вывода (Input options) не установлен переключатель Новый рабочий лист (Nev Worksheet Ply), то установите его, чтобы результаты дисперсионного анализа были помещены на новый рабочий лист
> Нажмите кнопку ОК, чтобы закрыть окно Однофакторный дисперсионный анализ (Аnоvа: Single Factor). На новом рабочем листе появятся результаты дисперсионного анализа (Рис. 6).
Рис.6 |
В диапазоне ячеек А4:Е6 расположены результаты описательной статистики. В строке 4 находятся названия параметров, в строках 5 - 8 - статистические значения, вычисленные по партиям.
В столбце Счет (Соunt) расположены количества измерений, в столбце Сумма - суммы величин, в столбце Среднее (Аvегаgе) - средние арифметические значения, в столбце Дисперсия (Vаriаnсе) - дисперсии.
Полученные результаты показывают, что наибольшая средняя разрывная нагрузка в партии №3, а наибольшая дисперсия разрывной нагрузки в партии №1.
В диапазоне ячеек А11:G16 отображается информация, касающаяся существенности расхождений между группами данных. В строке 12 находятся названия параметров дисперсионного анализа, в строке 13 - результаты межгрупповой обработки, в строке 14 - результаты внутригрупповой обработки, а в строке 16 суммы значений упоминавшихся двух строк.
В столбце SS (Qi) расположены величины варьирования, т.е. суммы квадратов по всем отклонениям. Варьирование, как и дисперсия, характеризует разброс данных. По таблице можно заметить, что межгрупповой разброс разрывной нагрузки существенно выше величины внутригруппового варьирования.
В столбце df (k) находятся значения чисел степеней свободы. Данные числа указывают на количество независимых отклонений, по которым будет вычисляться дисперсия. Например, межгрупповое число степеней свободы равняется разности количеству групп данных и единицы. Чем больше число степеней свободы, тем выше надежность дисперсионных параметров. Данные степеней свобод в таблице показывают, что для внутригрупповых результатов надежность выше, чем для межгрупповых параметров.
В столбце MS (S2) расположены величины дисперсии, которые определяются отношением варьирования и числа степеней свобод. Дисперсия характеризует степень разброса данных, но в отличие от величины варьирования, не имеет прямой тенденции увеличиваться с ростом числа степеней свобод. Из таблицы видно, что межгрупповая дисперсия значительно больше внутригрупповой дисперсии.
В столбце F находится, значение F-статистики, вычисляемое отношением межгрупповой и внутригрупповой дисперсий.
В столбце F критическое (F crit) расположено F-критическое значение, рассчитываемое по числу степеней свободы и величине Альфа (А1рhа). F-статистика и F-критическое значение используют критерий Фишера-Снедекора.
Если F-статистика больше F-критического значения, то можно утверждать, что различия между группами данных носят неслучайный характер. т.е. на уровне значимости α = 0,05 (с надежностью 0,95) нулевая гипотеза отвергается и принимается альтернативная: различие между партиями сырья оказывает существенное влияние на величину разрывной нагрузки.
В столбце Р-значение (Р-value) находится значение вероятности того, что расхождение между группами случайно. Так как в таблице данная вероятность очень мала, то отклонение между группами носит неслучайный характер.
2. Решение задач двухфакторного дисперсионного анализ без повторений
Microsoft Excel располагает функцией Anova: Двухфакторный дисперсионный анализ без повторений (Two-Factor Without Replication), которая используется для выявления факта влияния контролируемых факторов А и В на результативный признак на основе выборочных данных, причем каждому уровню факторов А и В соответствует только одна выборка. Для вызова этой функции необходимо на панели меню выбрать команду Сервис Анализ данных. На экране раскроется окно Анализ данных, в котором следует выбрать значение Двухфакторный дисперсионный анализ без повторений и щелкнуть на кнопке ОК. В результате на экране раскроется диалоговое окно, показанное на рисунке 1.
В диалоговом окне задаются следующие параметры.
1. В поле Input Range вводится ссылка на диапазон ячеек, содержащий анализируемые данные.
Рис. 1
2. Флажок опции Метки (Labels) устанавливается в том случае, если первая строка во входном диапазоне содержит заголовки столбцов. Если заголовки отсутствуют, флажок следует сбросить. В этом случае для данных выходного диапазона будут автоматически созданы стандартные названия.
3. В поле Aльфа вводится принятый уровень значимости α, соответствующий вероятности возникновения ошибки первого рода.
4. Переключатель в группе Output options может быть установлен в одно из трех положений: Output Range (Выходной диапазон), New Worksheet Ply (Новый рабочий лист) или New Workbook (Новая рабочая книга).
Пример.
Рассмотрим использование функции Двухфакторный дисперсионный анализ без повторений (Anova: Two-Factor Without Replication) на следующем примере.
На рисунке. 2 представлены данные об урожайности (ц/га) четырех сортов пшеницы (четыре уровня фактора А), достигнутой при использовании пяти типов удобрений (пять уровней фактора В). Данные получены на 20 участках одинакового размера и аналогичного почвенного покрова. Необходимо определить, влияет ли сорт и тип удобрения на урожайность пшеницы.
Результаты двухфакторного дисперсионного анализа с помощью функции Двухфакторный дисперсионный анализ без повторений представлены на рисунке 3.
Как видно по результатам, расчетное значение величины F-статистики для фактора А (тип удобрения) FА=l,67, а критическая область образуется правосторонним интервалом (3,49; +∞). Так как FА=l,67 не попадает в критическую область, гипотезу НА: a1 = a2 + ••• = ak принимаем, т.е. считаем, что в этом эксперименте тип удобрения не оказал влияния на урожайность.
Рис. 3
Расчетное значение величины F-статистики для фактора В (сорт пшеницы) FВ =2,03, а критическая область образуется правосторонним интервалом (3,259;+∞).
Так как FВ =2,03 не попадает в критическую область, гипотезу НВ: b1 = b2 = ... = bm
также принимаем, т.е. считаем, что в данном эксперименте сорт пшеницы также не оказал влияния на урожайность.
2. Двухфакторный дисперсионный анализ c повторениями
Microsoft Excel располагает функцией Anova: Двухфакторный дисперсионный анализ с повторениями (Two-Factor With Replication), которая также используется для выявления факта влияния контролируемых факторов А и В на результативный признак на основе выборочных данных, однако каждому уровню одного из факторов А (или В) соответствует более одной выборки данных.
Рассмотрим использование функции Двухфакторный дисперсионный анализ с повторениями на следующем примере.
Пример 2. В таблице. 6 приведены суточные привесы (г) собранных для исследования 18 поросят в зависимости от метода удержания поросят (фактор А) и качества их кормления (фактор В).
Необходимо оценить существенность (достоверность) влияния каждого фактора и их взаимодействия на суточный привес поросят.
Рис. 5
На рисунке 4 порядок ввода данных на рабочий лист табличного процессора Microsoft Excel.
Для вызова необходимой функции необходимо на панели меню выбрать команду Сервис Анализ данных (Tools-Data Analysis). На экране раскроется диалоговое окно Анализ данных (Data Analysis), в котором следует выбрать значение Anova: Двухфакторный дисперсионный анализ с повторениями (Two-Factor With Replication)и щелкнуть на кнопке ОК. В результате на экране раскроется диалоговое окно Двухфакторный дисперсионный анализ с повторениями, показанное на рисунке 5.
Рис. 4
Рис. 5
В этом диалоговом окне задаются следующие параметры.
1. В поле Входной интервал (Input Range) вводится ссылка на диапазон ячеек, содержащий анализируемые данные. Необходимо выделить ячейки от G 4 до I 13.
2. В поле Число строк для выборки (Rows per sample) определяется число выборок, которое приходится на каждый уровень одного из факторов. Каждый уровень фактора должен содержать одно и то же количество выборок (строк таблицы). В нашем случае число строк равно трем.
3. В поле Альфа (Alpha) вводится принятое значение уровня значимости α, которое равно вероятности возникновения ошибки первого рода.
4. Переключатель в группе Output options может быть установлен в одно из трех положений: Output Range (Выходной интервал), New Worksheet Ply (Новый рабочий лист) или New Workbook (Новая рабочая книга).
Результаты двухфакторного дисперсионного анализа с помощью функции Двухфакторный дисперсионный анализ сповторениями представлены на рисунке 6.
Рис. 6
Очевидно, данные факторы имеют фиксированные уровни, т.е. мы находимся в рамках модели I. Поэтому для проверки существенности влияния факторов А, В и их взаимодействия АВ необходимо найти отношения
и сравнить их с табличными значениями соответственно :=3,88; =: =4,75; =3,88. Так как и то влияние метода содержания поросят (фактора А) и качества их кормления (фактора В) является существенным. В силу того что взаимодействие указанных факторов незначимо (на 5%-ном уровне).