Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
ВВЕДЕНИЕ
Учебно-методическое пособие знакомит студентов с основными понятиями о теории вероятностей, случайных процессах, статистическом оценивании и проверке гипотез, статистических методах обработки экспериментальных данных, математических методах, принятых в биологических исследованиях.
Пособие состоит из четырех разделов:
Введение в теорию вероятностей дает представление о случайных событиях, вероятности и ее свойствах, случайных величинах и основных теоретических распределениях случайных величин.
При изучении второго раздела разбираются понятия о совокупности и выборке, классификации признаков, дается представление о схемах научного эксперимента и научных гипотезах, достоверности и надежности результатов.
Третий раздел знакомит со статистическими методами описания групп, способами их сравнения в зависимости от характера распределения исходных данных. Большое внимание уделено корреляционно-регрессионному анализу, лежащему в основе многомерных методов анализа. Разбираются широко распространенные в биологических исследованиях методы оценки динамики, цикличности и классификации. При описании каждого метода описываются условия, необходимые для проведения статистической обработки, и возможные трудности в интерпретации полученных показателей.
Четвертый раздел посвящен практическому применению методов статистической обработки данных с помощью специализированной программы «Статистическая обработка медико-биологических данных» (EasyStatistics). Данная программа разработана автором пособия (Роспатент №2003612171) и предназначена для статистической обработки данных биологических и медицинских исследований и, в первую очередь, нацелена на выполнение курсовых и дипломных работ студентами. В то же время это не замена уже существующим мощным статистическим пакетам, таким как Statistica, а скорее дополнение, помогающее оценить возможности манипулирования данными и принципы работы с основными статистическими методами.
Каждый раздел содержит список вопросов и заданий для самопроверки.
Пособие также содержит список учебно-методических материалов, рекомендуемых для самостоятельной работы студентов.
РАЗДЕЛ I. ВВЕДЕНИЕ В ТЕОРИЮ ВЕРОЯТНОСТЕЙ
Закономерности, которым подчиняются случайные события, изучаются в разделах математики, которые называются теорией вероятностей и математической статистикой.
Понятие о случайном событии
Опыт, эксперимент, наблюдение явления называются испытанием. Испытаниями, например, являются: бросание монеты, выстрел из винтовки, бросание игральной кости (кубика с нанесенными на каждую грань числом очков от одного до шести).
Результат, исход испытания называется событием.
Для обозначения событий используются большие буквы латинского алфавита: А, В, С и т. д.
Два события называются совместимыми, если появление одного из них не исключает появление другого в одном и том же испытании.
Испытание: однократное бросание игральной кости. Событие А появление четырех очков. Событие В появление четного числа очков. События Аи В совместимые.
Два события называются несовместимыми, если появление одного из них исключает появление другого в одном и том же испытании.
Испытание: однократное бросание монеты. Событие А выпадение герба, событие В выпадение цифры. Эти события несовместимы, так как появление одного из них исключает появление другого.
Несовместимость более чем двух событий означает их попарную несовместимость
Испытание: однократное бросание игральной кости. Пусть события А1, А2, А3, А4, А5, А6 соответственно выпадение одного очка, двух, трех и т. д. Эти события являются несовместимыми..
Два события А и В называются противоположными, если в данном испытании они несовместимы и одно из них обязательно происходит.
Событие, противоположное событию А, обозначают через А~.
Испытание: бросание монеты. Событие А выпадение герба, событие В выпадение цифры. Эти события противоположны, так как исходами бросания могут быть лишь они, и появление одного из них исключает появление другого, т. е. А = В~ или А~ = В.
Событие называется достоверным, если в данном испытании оно является единственно возможным его исходом, и невозможным, если в данном испытании оно заведомо не может произойти.
Испытание: извлечение шара из урны, в которой все шары белые. Событие А вынут белый шар достоверное событие; событие В вынут черный шар невозможное событие.
Достоверное и невозможное события в данном испытании являются противоположными.
Событие А называется случайным, если оно объективно может наступить или не наступить в данном испытании.
Выпадение шести очков при бросании игральной кости случайное событие. Оно может наступить, но может и не наступить в данном испытании.
Прорастание девяноста восьми зерен пшеницы из ста случайное событие. Это событие может наступить, но, может быть, прорастет зерен больше или меньше.
Классическое определение вероятности
Всякое испытание влечет за собой некоторую совокупность исходов результатов испытания, т. е. событий. Во многих случаях возможно перечислить все события, которые могут быть исходами данного испытания.
Говорят, что совокупность событий образует полную группу событий для данного испытания, если его результатом обязательно становится хотя бы одно из них.
События Ul, U2, ..., Un , образующие полную группу попарно несовместимых и равновозможных событий, будем называть элементарными событиями.
Вернемся к опыту с подбрасыванием игральной кости. Пусть Ui событие, состоящее в том, что кость выпала гранью с цифрой i. Как уже отмечалось, события U1, U2, …, U6 образуют полную группу попарно несовместимых событий. Так как кость предполагается однородной и симметричной, то события U1, U2, …, U6 являются и равновозможными, т. е. элементарными.
Событие А называется благоприятствующим событию В, если наступление события А влечет за собой наступление события В.
Пусть при бросании игральной кости события U2, U4 и U6 появление соответственно двух, четырех и шести очков и А событие, состоящее в появлении четного очка; события U2, U4 и U6 благоприятствуют событию А.
Классическое определение вероятности
Вероятностью Р (А) события А называется отношение m/n числа элементарных событий, благоприятствующих событию А, к числу всех элементарных событий, т. е.
Вычислим вероятность выпадения герба при одном бросании монеты. Очевидно, событие А выпадение герба и событие В выпадение цифры образуют полную группу несовместимых и равновозможных событий для данного испытания. Значит, здесь n = 2. Событию А благоприятствует лишь одно событие само А, т. е. здесь m = 1. Поэтому Р(А) = 0,5.
Найти вероятность того, что при бросании игральной кости выпадет число очков, делящееся на 2 (событие А). Число элементарных событий здесь 6. Число благоприятствующих элементарных событий 3 (выпадение 2, 4 и 6).
Поэтому .
Из приведенного классического определения вероятности вытекают следующие ее свойства.
1. Вероятность достоверного события равна единице.
Действительно, достоверному событию должны благоприятствовать все n элементарных событий, т. е. m = n и, следовательно, P(A)=1.
2. Вероятность невозможного события равна нулю. В самом деле, невозможному событию не может благоприятствовать ни одно из элементарных событий, т. е. m = 0, откуда P(A)=0.
3. Вероятность случайного события есть положительное число, заключенное между нулем и единицей.
Действительно, случайному событию благоприятствует лишь часть из общего числа элементарных событий. Поэтому в этом случае 0 < m < n , значит, 0 <= Р (А)<= 1.
Относительная частота.
Статистическое определение вероятности.
Классическое определение вероятности не является пригодным для изучения произвольных случайных событий. Так, оно неприемлемо, если результаты испытания не равновозможны. Например, при бросании неправильной игральной кости выпадение ее различных граней не равновозможно.
В таких случаях используется так называемое статистическое определение вероятности.
Пусть произведено n испытаний, при этом некоторое событие А наступило m раз. Число m называется абсолютной частотой (или просто частотой) события А, а отношение называется относительной частотой события А.
При транспортировке из 10 000 арбузов испортилось 26. Здесь m= 26 абсолютная частота испорченных арбузов, а P*(A)=0,0026 относительная.
Результаты многочисленных опытов и наблюдений помогают заключить: при проведении серий из n испытаний, когда число n сравнительно мало, относительная частота Р*(A) принимает значения, которые могут довольно сильно отличаться друг от друга. Но с увеличением n числа испытаний в сериях относительная частота Р*(А) приближается к некоторому числу Р(А), стабилизируясь возле него и принимая все более устойчивые значения.
Было проведено 10 серий бросаний монеты, по 1000 бросаний в каждой. Относительные частоты выпадения герба оказались равными 0,501; 0,485; 0,509; 0,536; 0,485; 0,488; 0,500;0,497; 0,494; 0,484. Эти частоты группируются около числа 0,5
Статистическое определение вероятности
Вероятностью события А в данном испытании называется число Р (А), около которого группируются значения относительной частоты при больших n.
По официальным данным шведской статистики, относительные частоты рождения девочек по месяцам 2007 г. характеризуются следующими числами (расположены в порядке следования месяцев, начиная с января): 0,486; 0,489; 0,490; 0,471; 0,478; 0,482; 0,462; 0,484; 0,485; 0,491; 0,482; 0,473. Эти частоты группируются около числа 0,482.
Таким образом, относительная частота события приближенно совпадает с его вероятностью, если число испытаний достаточно велико.
Геометрическая вероятность
До этого мы рассматривали возможные эксперименты, в которых реализуется конечное множество событий. Однако существует большое количество задач, для которых такое предположение не является справедливым. При решении таких задач предполагается, что множество реализуемых событий может быть представлено в виде некоторой геометрической фигуры, а конкретное событие соответствует точке заданной части этой фигуры.
В качестве события A можно рассмотреть любую подобласть области Ω. Например, фигуру внутри исходной фигуры на плоскости или отрезок, лежащий внутри исходного отрезка на прямой.
Заметим, что элементарным событием на таком множестве может быть только точка. В самом деле, если множество содержит более одной точки, его можно разбить на два непустых подмножества. Следовательно, такое множество уже неэлементарно.
Теперь определим вероятность. Тут тоже все легко: вероятность «попадания» в каждую конкретную точку равна нулю. Иначе получим бесконечную сумму одинаковых положительных слагаемых (ведь элементарные события равновероятны), которые в сумме больше P(Ω) = 1.
Итак, элементарные события для бесконечных областей Ω это отдельные точки, причем вероятность «попадания» в любую из них равна нулю. Но как искать вероятность неэлементарного события, которое, подобно Ω, содержит бесконечное множество точек? Вот мы и пришли к определению геометрической вероятности.
Геометрическая вероятность события A, являющегося подмножеством множества Ω точек на прямой или плоскости это отношение площади фигуры A к площади всего множества Ω.
Мишень имеет форму окружности. Какова вероятность попадания в ее правую половину, если попадание в любую точку мишени равновероятно? При этом промахи мимо мишени исключены.
Взглянем на картинку: нас устроит любая точка из правого полукруга. Очевидно, площадь S(A) этого полукруга составляет ровно половину площади всего круга, поэтому имеем
P=0,5
Студент и студентка договариваются о встрече на заданном промежутке времени Т. Тот, кто приходит первым ожидает другого в течение времени t<T, а затем уходит. Какова вероятность встречи.
В качестве множества элементарных событий рассмотри квадрат, состоящий из точек (x,y), 0<=x<=T, 0<=y<=T, где x и у время прихода его и ее.
Благоприятсвующие события образуют точки, для которых |x-y|<t, т.е. точки квадрата между прямыми y=x-t, y=x+t. Площадь получающейся фигуры равна T2-(T-t)2, а площадь всего квадрата Т2. Отсуда искомая вероятность
Свойства вероятностей
Сложение вероятностей несовместимых событий
Суммой событий А и В называется событие С = А + В, состоящее в наступлении по крайней мере одного из событий А или В.
Стрельба двух стрелков (каждый делает по одному выстрелу). Событие А попадание в мишень первым стрелком, событие В попадание в мишень вторым стрелком. Суммой событий А и В будет событие С = А + В, состоящее в попадании в мишень по крайней мере одним стрелком.
Произведением событий А и В называется событие С = АВ, состоящее в том, что в результате испытания произошло и событие А, и событие В.
Аналогично произведением конечного числа событий A1 А2, …, Ak называется событие А = А1 * A2 * ... * Ak, состоящее в том, что в результате испытания произошли все указанные события.
В условиях предыдущего примера произведением событий А и В будет событие С = АВ, состоящее в попадании в мишень двух стрелков.
Из определения непосредственно следует, что АВ = ВА.
Вероятность суммы двух несовместимых событий А и В равна сумме вероятностей этих событий:
Р (А + В) = Р (А) + Р (В).
Следствие. Сумма вероятностей противоположных событий А и А~ равна единице:
Р(А) + Р(А~)=1.
В урне 10 шаров: 3 красных, 5 синих и 2 белых. Какова вероятность вынуть цветной шар, если вынимается один шар? Вероятность вынуть красный шар Р(А) = 0,3, синий Р (В) =0,5.
Так как события А и В несовместимы, то по теореме имеем P(A+B)=0,8.
На клумбе растут 20 красных, 30 синих и 40 белых астр. Какова вероятность сорвать в темноте окрашенную астру, если рвется одна астра? Искомая вероятность равна сумме вероятностей сорвать красную или синюю астру, т. е. 20/90+30/90=50/90=5/9.
Умножение вероятностей
Два события А и В называются независимыми, если вероятность появления каждого из них не зависит от того, появилось другое событие или нет. В противном случае события А и В называют зависимыми.
Пусть в урне находятся 2 белых и 2 черных шара. Пусть событие А вынут белый шар. Очевидно, Р (А) =0,5. После первого испытания вынутый шар кладется обратно в урну, шары перемешиваются и снова вынимается шар. Событие В во втором испытании вынут белый шар также имеет вероятность р (В) =0,5 , т. е. события А и В независимые.
Предположим теперь, что вынутый шар в первом испытании не кладется обратно в урну. Тогда если произошло событие А, т. е. в первом испытании вынут белый шар, то вероятность события В уменьшается (P(В) = 1/3); если в первом испытании был вынут черный шар, то вероятность события В увеличивается (Р(В) = 2/3 ) Итак, вероятность события В существенно зависит от того, произошло или не произошло событие А; в таких случаях события А и В зависимые.
Пусть А и В зависимые события. Условной вероятностью РA(В) события В называется вероятность события В, найденная в предположении, что событие А уже наступило.
Если события А и В независимы, то РА(В) =Р(В).
Вероятность произведения двух зависимых событий А и В равна произведению вероятности одного из них на условную вероятность другого, найденную в предположении, что первое событие уже наступило:
Р (АВ) = Р (А)РА(В).
Р (ВА) = Р (В)РВ(А).
Р (А)РА(В) = Р (В)РB(А).
Вероятность произведения двух независимых событий А и В равна произведению вероятностей этих событий:
Р (АВ) = Р (А) Р (В).
Найти вероятность одновременного поражения цели двумя орудиями, если вероятность поражения цели первым орудием (событие А) равна 0,8, а вторым (событие В) 0,7.
События А и В независимы, поэтому искомая вероятность Р(АВ) = 0,7 • 0,8 = 0,56.
Сложение вероятностей совместимых событий
Вероятность суммы двух совместимых событий A и В равна сумме вероятностей этих событий минус вероятность их произведения:
Р(А + В) = Р(А) + Р (В) Р(АВ).
Вероятности попадания в цель при стрельбе первого и второго орудий соответственно равны: Р(А)=0,7 и Р(В)=0,8. Найти вероятность попадания при одном залпе (из обоих орудий) хотя бы одним из орудий.
Очевидно, события А к В совместимы и независимы. Поэтому
Р (А + В) =Р (А) +Р (В) - Р (АВ) = 0,7 + 0,8 - 0,7* 0,8 = 1,5 0,56 = 0,94.
Замечание. Если события А и В несовместимы, то их произведение АВ есть невозможное событие и, следовательно, Р (АВ) = 0.
Формула полной вероятности
Вероятность события А, которое может наступить лишь при условии появления одного из n попарно несовместимых событий В1, В2, ..., Вn образующих полную группу, равна сумме произведений вероятностей каждого из этих событий на соответствующую условную вероятность события А:
Р (А) = Р (В1) PB1 (А) + Р (В2)РВ2 (А) + ... + Р (Вn)РBn(А)
Имеются три одинаковых по виду ящика. В первом находятся две белые мыши и одна серая, во втором три белые и одна серая, в третьем две белые и две серые мыши. Какова вероятность того, что из наугад выбранного ящика будет извлечена белая мышь?
Обозначим В1 выбор первого ящика, В2 выбор второго ящика, B3 выбор третьего ящика, А извлечение белой мыши.
Так как все ящики одинаковы, то Р (B1)= Р (B2) = Р (B3) = 1/3.
Если выбран первый ящик, то Рв1 (А) = 2/3. Аналогично Рв2 (А) =3/4, Рв3(А) = 0,5. Наконец, по формуле получаем:
В группе студентов 4 отличника, 13 хорошо успевающих и 8 слабых студентов. Результаты предшествующих экзаменационных сессий показали, что отличники получают только отличные оценки (потому они и отличники); «хорошисты», как правило, в девяти случав из десяти получают отличные или хорошие оценки; наконец слабые студенты в одном случае из пяти получают хорошие оценки.
Для сдачи экзамена выбирается один студент. Найти вероятность события А, что студент получит хорошую или отличную оценку.
Основные формулы комбинаторики
Комбинаторика раздел математики, изучающий вопросы о том, сколько комбинаций определенного типа можно составить из данных предметов (элементов).
Как при решении задач с использованием классического определения вероятности, так и в дальнейшем нам понадобятся некоторые формулы комбинаторики. Приведем наиболее употребительные из них.
Размещениями из n различных элементов по m элементов (m х n) называются комбинации, составленные из данных n элементов по m элементов, которые отличаются либо самими элементами, либо порядком элементов.
Например, из трех элементов а, b, с можно составить по два элемента следующие размещения:
ab, ас, ba, bc, ca, cb.
Число различных размещений из n элементов по m элементов определяется с помощью формулы
.
Сколько можно составить сигналов из 6 флажков различного цвета, взятых по 2? Искомое число сигналов 5*6=30.
Перестановками из n различных элементов называются размещения из этих n элементов по n.
Перестановки можно считать частным случаем размещений при m = n. Следовательно, число всех перестановок из n элементов вычисляется по формуле Рn = n(n - 1)(n - 2) ... 3 • 2 • 1 = n!
Сколько трехзначных чисел можно составить из цифр 1, 2, 3, если каждая цифра входит в изображение числа только один раз? Искомое число трехзначных чисел Р = 3! = 1 *2*3 = 6.
Сочетаниями из n различных элементов по m элементов называются комбинации, составленные из данных n элементов по m элементов, которые отличаются хотя бы одним элементом.
Отметим разницу между сочетаниями и размещениями: в первых не учитывается порядок элементов.
Число сочетаний из п элементов по m элементов вычисляется по формуле
Отметим особенность формулы:
.
Этой особенностью удобно пользоваться, когда m > n/2.
Сколькими способами можно выбрать две детали из ящика, содержащего 10 деталей? Искомое число способов
Приведем, наконец, один из примеров применения формул комбинаторики к нахождению вероятности события.
Набирая номер телефона, абонент забыл две последние цифры и, помня лишь, что эти цифры различны, набрал их наудачу. Какова вероятность того, что номер набран правильно?
Две последние цифры можно набрать способами, а благоприятствовать событию М (цифры набраны правильно) будет только один способ. Поэтому
Дискретные и непрерывные случайные величины.
Понятие «случайные величины»
Случайной величиной называется переменная величина, которая в зависимости от исхода испытания случайно принимает одно значение из множества возможных значений.
Примеры.
1) Число очков, выпавших при однократном бросании игральной кости, есть случайная величина, она может принять одно из значений: 1, 2, 3, 4, 5, 6;
2) прирост веса домашнего животного за месяц есть случайная величина, которая может принять значение из некоторого числового промежутка;
3) число родившихся мальчиков среди пяти новорожденных есть случайная величина, которая может принять значения 0,1,2, 3, 4, 5.
Случайные величины будем обозначать прописными буквами X, Y, Z, а их возможные значения соответствующими строчными буквами х, у, z. Например, если случайная величина X имеет три возможных значения, то они будут обозначены так: x1,x2,x3.
Случайная величина, принимающая различные значения, которые можно записать в виде конечной или бесконечной последовательности, называется дискретной случайной величиной.
Случайные величины из примеров 1 и 3 дискретные.
Случайная величина, которая может принимать все значения из некоторого числового промежутка, называется непрерывной случайной величиной.
Случайная величина из примера 2 является непрерывной.
В отличие от неслучайных (детерминированных) величин для случайной величины нельзя предсказать точно, какое она примет значение в определенных условиях, можно только указать закон распределения этой случайной величины.
Закон распределения случайной величины
Закон распределения считается заданным, если известны:
Пусть на плоскость бросают два тела, имеющие форму тетраэдра, грани которого занумерованы числами 1, 2, 3, 4. Допустим, что для каждого тетраэдра вероятность упасть на любую грань равна 1/4. В этом случае, если бросания тетраэдров выполняются независимо, то вероятность получить, например, результат (2,4), т. е. вероятность того, что первый тетраэдр упадет на грань 2, второй - на грань 4, равна (1/4)(1/4) = 1/16. Аналогично вычисляются и вероятности других исходов, так что каждый из 16 элементарных исходов имеет вероятность 1/16. На этом же пространстве элементарных исходов определим некоторую величину У, которая будет называться случайной величиной и значения которой у представляют собой суммы чисел, стоящих на нижних гранях тетраэдра.
(1,1)=2 (1,2)=3 (1,3)=4 (1,4)=5 |
(2,1)=3 (2,2)=4 (2,3)=5 (2,4)=6 |
(3,1)=4 (3,2)=5 (3,3)=6 (3,4)=7 |
(4,1)=5 (4,2)=6 (4,3)=7 (4,4)=8 |
Используя данные этой таблицы, легко получить распределение вероятностей f(y) случайной величины y.
Y |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
p(y) |
1/16 |
2/16 |
3/16 |
4/16 |
3/16 |
2/16 |
1/16 |
Элементарные исходы и соответствующие значения y |
График функции распределения |
Функция F(x) = р(Х < х), определенная на множестве всех вещественных чисел х и задающая вероятность того, что случайная величина X не превзойдет х, называется функцией распределения
Если X случайная величина, то каково бы ни было вещественное число х, существует функция f(x) = р(Х = х), задающая вероятность того, что X принимает значение х. Эта функция определяет распределение частот и носит название плотности вероятности.
Функция распределения непрерывной случайной величины связана с плотностью вероятности следующим отношением:
Для дискретных случайных величин плотность распределения определяется набором вероятностей для отдельных дискретных значений в пространстве элементарных событий.
ТЕОРЕТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ
При решении целого ряда теоретических и прикладных вопросов теории вероятностей и математической статистики возникает задача нахождения такого математического описания случайных величин, получаемых либо в ходе теоретических построений, либо при проведении экспериментов, с помощью которого они могут быть охарактеризованы посредством небольшого числа параметров. Этот подход состоит в попытке найти математическое выражение для так называемого теоретического распределения и выделить на основании аналитических выкладок и экспериментов параметры этого распределения таким образом, чтобы вся существенная информация, заключенная в анализируемых наборах случайных величин, сконцентрировалась в этих параметрах, а также в функциональной форме распределения.
Из большого числа теоретических распределений мы рассмотрим достаточно подробно в этом пособии только три, играющие важнейшую роль в теории вероятностей: биномиальное, пуассоновское и нормальное.
Биномиальное распределение
Повторные независимые испытания называются испытаниями Бернулли, если при каждом испытании имеется только два возможных исхода и вероятности этих исходов остаются неизменными для всех испытаний.
Пространство элементарных событий для каждого отдельного испытания состоит из двух точек, которые принято называть «успехом» (У) и «неудачей» (Н), а их вероятности обозначать соответственно через р и q, p+q=1. Для n испытаний Бернулли пространство элементарных событий содержит 2n точек или последовательностей из n символов У и Н, где каждая точка представляет возможный исход составного опыта. Можно подсчитать вероятность появления какой-то определенной последовательности. Так как опыты независимы, то такая вероятность получается перемножением вероятностей элементарных событий У и Н, составляющих данную последовательность.
Рассмотрим следующий пример. Пусть пол новорожденного не зависит от пола детей, родившихся в семье до него. Примем для простоты, что соотношение полов 1 : 1, а это значит, что вероятности рождения мальчика или девочки одинаково равны ½. Если в семье двое детей, то можно оценить вероятность и того, что оба ребенка мальчики или девочки или один мальчик, а другой девочка. При принятом упрощении вероятности рождения двух мальчиков или двух девочек равны ½*½ =¼, а вероятности рождения сначала девочки, а потом мальчика и наоборот также равны ¼.
Усложним задачу. Пусть в семье пятеро детей и нас интересует вероятность того, что трое из них мальчики, а двое девочки, и при этом последовательность, в которой рождались эти дети, неважна. Тогда, исходя из тех же предположений, что и в предыдущем параграфе, вероятность рождения трех мальчиков будет равна (½)3, a девочек (½)2, а общая вероятность в семье с пятью детьми иметь трех мальчиков и двух девочек равна (½)3(½)2n5, где n5 число различных последовательностей рождений трех мальчиков и двух девочек в рассматриваемой семье. Чему же равно это число? Очевидно, что оно равно числу сочетаний из пяти по два или по три т.е.
Таким образом, интересующая нас вероятность равна 5/16. Этот результат может быть записан в виде
Как в этой, так и в большом числе других задач представляет интерес лишь число успехов или неудач, достигнутых в последовательности из n испытаний Бернулли, независимо от порядка их следования. В общем случае, если производится серия из n зависимых испытаний, в каждом из которых возможны два исхода с вероятностями p и q=1-p, не меняющимися от испытания к испытанию, и при этом k раз имел место успех, а (n k) раз неудача (0 < k < n), то вероятность
Пусть в аудитории имеется 6 светильников и каждый из при включении может перегореть с вероятностью 1/4. Считается, что аудитория непригодна для занятий, если горят меньше чем четыре лампочки. Интерес представляет определение вероятности того, что после включения освещения аудитория будет непригодна для занятий.
Событие, означающее пригодность светильника при включении, обозначим через А. Тогда р(А) = 3/4, a q(A) = 1/4. Аудитория будет пригодна для занятий, если в ней будет гореть 4, 5 или 6 светильников. Вероятность сложного события, состоящего в том, что не менее 4 лампочек будет исправно, может быть подсчитана следующим образом:
Представим себе, что некоторое редкое заболевание встречается у 0,1% данной большой популяции. Из этой популяции случайно выбирают 5000 человек и проверяют на это заболевание. Интерес представляет определение того, каково наиболее вероятное число людей, имеющих это заболевание, и какова вероятность, что оно будет обнаружено именно у этого количества людей.
Условия задачи полностью соответствуют схеме Бернулли, поэтому наиболее вероятное число людей, у которых будет обнаружено заболевание при обследовании 5000 людей, равно n*р= 5000*0,001 = 5. Вероятность того, что именно у 5 человек будет найдено это заболевание, может быть найдена из распределения Бернулли:
Даже на непросвещенный взгляд вычисление интересующего нас результата таких параметрах получить довольно сложно. Мы отложим получение численного значения интересующей нас вероятности и перейдем к рассмотрению нового распределения, которое может быть представлено как приближение биномиального
Распределение Пуассона
Пусть в нашем распоряжении имеется биномиальная случайная величина с параметрами n и р, распределение вероятностей которой задается формулой биноминального распределения. Предположим, что n неограниченно увеличивается, а параметр р стремится к нулю таким образом, что произведение n*p=λ остается постоянным. Тогда,
Теперь вернемся к численной оценке вероятности обнаружения в случайной популяции из 5000 людей ровно пяти человек, страдающих неким заболеванием, встречающимся с частотой 0,001. Используя пуассоновское приближение биномиального распределения, имеем (λ=n*p=5):
Числовые характеристики дискретных случайных величин
Математическое значение дискретной случайной величины Х, имеющее конечное число возможных значений, равно
Дисперсия дискретной случайной величины Х, имеющее конечное число возможных значений, равно
или
Дискретная случайная величина задана рядом распределения:
Xi |
1 |
2 |
4 |
Pi |
0.1 |
0.3 |
0.6 |
M(X)=1*0.1+2*0.3+4*0.6=3.1
D(X)=(1-3.1)2*0.1+(2-3.1)2*0.3+(4-3.1)2*0.6=1.29
Или по второй формуле
D(X)=12*0.1+22*0.3+42*0.6-3.12=1.29
Нормальное распределение
В теории вероятностей и математической статистике важнейшую роль играет так называемое нормальное или гауссовское распределение. Значимость нормального распределения определяется тем, что оно служит хорошим приближением для большого числа наборов случайных величин, получаемых при наблюдениях и экспериментах. Нормальное распределение почти всегда имеет место, когда наблюдаемые случайные величины формируются под влиянием большого числа случайных факторов, ни один из которых существенно не превосходит остальные.
С другой стороны, нормальное распределение появляется как точное решение некоторых математических задач в рамках принятых моделей исследуемых явлений. Одно из первых таких решений, приводящие к нормальному закону распределения, были получены К. Гауссом при решении задач теории ошибок наблюдений и Дж. Максвеллом при учении распределения скоростей молекул в газе.
Функция носит название плотности нормального распределения, а ее интеграл называется нормальной функцией распределения.
Постоянная определена таким образом, чтобы вероятность попадания в случайный интервал от -∞<x<∞ была равна 1.
Постоянные μ (математическое ожидание) и σ2 (дисперсия) называются параметрами распределения.
Общим для всех кривых нормального распределения является то, что примерно 68, 95 и 99,7 % площади под ними лежат соответственно в пределах ±σ, ±2σ, ±3σ.
Вопросы для самопроверки:
13. Найти дисперсию и математическое ожидание дискретной случайной величины X, заданной законом распределения:
а)
X |
4,3 |
5,1 |
10,6 |
p |
0,2 |
0,3 |
0,5 |
б)
X |
131 |
140 |
160 |
180 |
p |
0,05 |
0,1 |
0,25 |
0,6 |
РАЗДЕЛ II. ОСНОВНЫЕ ПОНЯТИЯ И ТЕРМИНЫ
БИОЛОГИЧЕСКОЙ СТАТИСТИКИ
Генеральная совокупность и выборка
Пусть требуется изучить множество однородных объектов (это множество называется статистической совокупностью) относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным контролируемый размер детали.
Лучше всего произвести сплошное обследование, т. е. изучить каждый объект. Однако в большинстве случаев по разным причинам это сделать невозможно. Препятствовать сплошному обследованию может большое число объектов, недоступность их. Если, например, нужно знать среднюю глубину воронки при взрыве снаряда из опытной партии, то, производя сплошное обследование, мы уничтожим всю партию.
Если сплошное обследование невозможно, то из всей совокупности выбирают для изучения часть объектов.
Множество объектов, конечное или бесконечное, относительно которого делаются статистические выводы, носит название генеральной совокупности. Реально же мы имеем дело с конечными генеральными совокупностями, размеры которых, правда, могут колебаться в очень широких пределах.
Например, вся генеральная совокупность уссурийских тигров насчитывает около двухсот особей, в то время как число таких деревьев, как березы или осины, измеряется миллионами. В статистических выводах важен не сам по себе объем генеральной совокупности, а та доля от него, которую составляет выборка. Во всех случаях, когда объем выборки меньше сотой части всей генеральной совокупности, последнюю по отношению к выборке принято считать практически бесконечной и использовать математический аппарат, основанный на таком представлении.
Множество объектов, случайно отобранных из генеральной совокупности, называется выборкой.
Плоды одного дерева (200 штук) обследуют на наличие специфического для данного сорта вкуса. Для этого отбирают 10 шт. Здесь 200 объем генеральной совокупности, а 10 объем выборки.
Число объектов генеральной совокупности и выборки называется соответственно объемом генеральной совокупности и объемом выборки.
Если выборку отбирают по одному объекту, который обследуют, и снова возвращают в генеральную совокупность, то выборка называется повторной. Если объекты выборки уже не возвращаются в генеральную совокупность, то выборка называется бесповторной. На практике чаще используется бесповторная выборка. Если объем выборки составляет небольшую долю объема генеральной совокупности, то разница между повторной и бесповторной незначительна.
Непреднамеренный отбор. Метод последовательных номеров.
Случайный и механический методы отбора
Особенностью биологических исследований является то, что подопытный материал, находящийся в распоряжении исследователя, поступает к нему случайно. Поэтому не всегда удается соблюсти метод случайного отбора. Пренебрежение методами случайного отбора приводит к тому, что результаты одинаковых исследований различны у различных исследователей.
Можно опять применить случайный отбор по таблице случайных чисел. Кроме этого существует метод, называемый механическим (Россия) или систематическим (США, Англия). Сущность этого метода в следующем: делят общее число случаев на число случаев, за которыми надо наблюдать, и получают так называемую интервальную стопу. Затем по таблице находят первое число и 5, 10, 15, 20.
Признаки и показатели
ПРИЗНАКОМ в статистике называют свойство, характерную черту или иную особенность единиц совокупности, которые могут быть наблюдаемы и измерены. Признаки, принимающие различные значения или видоизменения у отдельных единиц совокупности, называются варьирующими, а отдельные их значения или видоизменения - вариантами.
В литературе приняты различные принципы классификации признаков по шкалам измерений. Классификация в зависимости от числа допустимых арифметических операций над признаками, измеренными в данных шкалах, включает:
Номинальные признаки (признаки с неупорядоченными состояниями, классификационные признаки), например: велосипед, мотоцикл, автомобиль. Номинальные признаки могут быть оцифрованы 0,1,2, однако смысла эти цифры, за исключением возможности различать признаки между собой, не имеют. Частным случаем номинальных признаков являются бинарные (качественные, дихотомические) признаки, представляющие собой номинальные признаки с двумя градациями, например: «нет» 0, «да» 1. Рекомендуется для бинарных признаков использовать оцифровку типа 0 и 1, а не какую-либо иную (например, -1 и +1), так как только эти две цифры предполагается использовать в методах анализа бинарных признаков.
Порядковые признаки (признаки с упорядоченными состояниями, ординальные признаки), например: отлично, хорошо, удовлетворительно, плохо. Порядок состояний имеет смысл, признаки могут быть осмысленно оцифрованы (в данном примере: 5, 4, 3, 2) и могут сравниваться между собой, однако расстояния между ними не определены. Как и предыдущие, подобного типа признаки часто используются в задачах диагностики, в том числе медицинской.
Количественные (численные, вариационные) признаки, иногда подразделяемые на интервальные и относительные, различающиеся положением нулевой отметки на шкале измерения. Например, год рождения относительный количественный признак, а срок службы в рядах вооруженных сил интервальный количественный признак. Если в первом примере определены только операции различения, сравнения и вычитания, то во втором к ним добавляются операции сложения и отношения. Численные признаки определяют измеряемые или исчислимые количества (величины) и являются истинными количественными, причем могут измеряться как непрерывные, так и целочисленные признаки.
Действия над признаками, измеренными в различных шкалах
Шкала измерения |
Допустимые действия |
Пример применения |
Номинальная |
Различение |
Наличие или отсутствие симптома |
Порядковая |
Различение, сравнение |
Школьная оценка |
Количественная |
Различение, сравнение, все арифметические операции |
Температура, масса, время, длина |
Шкалы могут приводиться одна к другой: количественная шкала к порядковой или номинальной, порядковая шкала к номинальной. Обратные операции считаются некорректными. Приведение одной шкалы к другой обычно называют понижением шкалы. Приведение признаков к шкале, отличной от тех, в которых первоначально признаки были измерены, необходимо при анализе групп признаков, измеренных в разных шкалах. Понижение шкалы ведет к потере некоторой части информации об изучаемых признаках.
Правила ранжирования
Использование порядковой шкалы позволяет присваивать ранги объектам по какому-либо признаку. Таким образом, метрические значения переводятся в ранговые. При этом фиксируются различия в степени выраженности свойств. В процессе ранжирования следует придерживаться 2 правил.
Правило порядка ранжирования. Надо решить, кто получает первый ранг: объект с самой большей степенью выраженности какого-либо качества или наоборот. Чаще всего это абсолютно безразлично и не отражается на конечном результате. Традиционно принято первый ранг приписывать объектам с большей степенью выраженности качества (большему значению меньший ранг). Например, чемпиону присуждают первое место, а не наоборот. Хотя, и здесь если бы был принят обратный порядок, то результаты от этого не изменились бы. Так что порядок ранжирования каждый исследователь вправе определять сам. Например, Е.В. Сидоренко рекомендует меньшему значению приписывать меньший ранг. В некоторых случаях это удобнее, но непривычнее.
Например: имеется неупорядоченная выборка, данные которой необходимо проранжировать. {2, 7, 6, 8, 11, 15, 9}. После упорядочивания выборки ранжируем ее.
Метрические данные |
Ранги |
Альтернативный вариант: |
Метрические данные |
Ранги |
15 |
1 |
15 |
7 |
|
11 |
2 |
11 |
6 |
|
9 |
3 |
9 |
5 |
|
8 |
4 |
8 |
4 |
|
7 |
5 |
7 |
3 |
|
6 |
6 |
6 |
2 |
|
2 |
7 |
2 |
1 |
Отдельно следует сказать следующее. Существует группа редко используемых непараметрических критериев (Т-критерий Вилкоксона, U-критерий Манна-Уитни, Q-критерий Розенбаума и др.), при работе с которыми всегда надо меньшему значению приписывать меньший ранг.
Правило связанных рангов. Объектам с одинаковой выраженностью свойств приписывается один и тот же ранг. Этот ранг представляет собой среднее значение тех рангов, которые они получили бы, если бы не были равны. Например, надо проранжировать выборку, содержащую ряд одинаковых метрических данных: {4, 5, 9, 2, 6, 5, 9, 7, 5, 12}. После упорядочивания выборки следует вычислить среднее арифметическое значение связанных рангов.
Метрические данные |
Предварительное ранжирование |
Окончательное ранжирование |
12 |
1 |
1 |
9 |
2 |
(2+3)/2=2,5 |
9 |
3 |
(2+3)/2=2,5 |
7 |
4 |
4 |
6 |
5 |
5 |
5 |
6 |
(6+7+8)/3=7 |
5 |
7 |
(6+7+8)/3=7 |
5 |
8 |
(6+7+8)/3=7 |
4 |
9 |
4 |
2 |
10 |
2 |
Рассмотренная классификация признаков по шкалам измерений не исчерпывает всех мыслимых типов классификаций. Так, для применения статистических методов, оперирующих частотами распределений, более существенной может оказаться классификация по такому критерию, как непрерывность теоретической функции эмпирического распределения. Для других методов определяющим является решение вопроса о том, какому теоретическому типу распределения соответствует эмпирическое распределение либо, в более узком смысле, является ли распределение нормальным. Если же различать условия исследования того или иного явления, признаки могут подразделяться на факториальные признаки (причина) и результативные признаки (следствие). Успех применения любого метода зависит от того, насколько хорошо анализируемые данные соответствуют основным предположениям, принятым при разработке статистического метода. Методы анализа, разработанные для определенного типа признаков, могут привести к совершенно неверным выводам при их применении к признакам другого типа, поэтому нужно быть особенно внимательным при выборе метода, адекватного анализируемым данным. Тип исходных данных определяет, какими методами эти данные могут быть обработаны. Формулы нельзя применять слепо и автоматически, без рассмотрения вопроса об их пригодности в каждом данном случае.
ПОКАЗАТЕЛЬ - одно из основных понятий статистики, под которым имеется в виду обобщенная количественная характеристика явлений и процессов в их качественной определенности в условиях конкретного места и времени. Примерами конкретных показателей служат: численность населения, плодородие почв, уровень производительности труда и др.
Величина показателя определяется в результате измерения объектов (элементов) и меняется в зависимости от методологических особенностей его построения обусловленных, в свою очередь степенью охвата изучаемых процессов.
Показатели называются натуральными, когда они выражены в единицах счета или в различных физических единицах измерения (в мерах линейных, площади, объема, массы и др.), и денежными, или стоимостными, когда они представляют собой денежную оценку экономических объектов.
ВАРИАЦИЯ - различия в значениях того или иного признака у отдельных единиц, входящих в данную статистическую совокупность. Например, студенты учебной группы различаются по успеваемости, затратам времени на подготовку к занятиям, любимым занятиям в свободное время, росту, полу и т. д. Для изучения вариации используют ряды распределения и показатели размеров вариации. Изучение вариации позволяет судить об исходных данных с точки зрения их однородности. Чем больше вариация, больше различия между единицами, тем более неоднородны исходные данные.
Способы группировки первичных данных.
Зафиксированные в документах учета сведения об изучаемом объекте (или объектах) представляют тот фактический материал, который нуждается в соответствующей обработке. Обработка начинается с упорядочения или систематизации собранных данных. Процесс систематизации результатов массовых наблюдений, объединения их в относительно однородные группы по некоторому признаку называется группировкой.
Группировка - это не просто технический прием, позволяющий представить первичные данные в комплексном виде, но и осмысленное действие, направленное на выявление связи между явлениями. Один и тот же материал дает совершенно противоположные выводы при разных приемах группировки. Нельзя группировать в одну и ту же совокупность неоднородные по составу данные, необдуманно выбирать способ группировки. Группировка должна отвечать требованию задачи и соответствовать содержанию изучаемого явления.
Таблицы. Наиболее распространенной формой группировки являются статистические таблицы; они бывают простыми и сложными. К простым относятся, например, четырехпольные таблица, применяемые при альтернативной группировке, когда одна группа переменных противопоставляется другой; например, здоровые - больным, высокие - низким и т.д.
Школьные классы |
Детей |
Всего |
|
Здоровых |
Больных |
||
Третьи и четвертые |
63 |
92 |
155 |
Пятые и шестые |
71 |
39 |
110 |
Всего |
134 |
131 |
265 |
К сложным относятся многопольные таблицы, применяемые при изучении корреляционной зависимости и при выяснении причинно-следственных отношений между варьирующими признаками. Примером корреляционной таблицы служат данные, показывающие наличие положительной зависимости между ростом родителей и ростом их детей.
В качестве примера группировки, применяемых при выяснении причинно-следственных отношений между признаками, можно привести следующую зависимость:
Биотопы |
1993 |
1994 |
1995 |
Среднее |
лес |
10 |
15 |
12 |
12 |
поле |
100 |
200 |
150 |
150 |
дом |
35 |
35 |
35 |
35 |
Из примеров видно, что статистические таблицы имеют не только иллюстративное, но и аналитическое значение, позволяющее обнаруживать связи между варьирующими признаками.
Статистические ряды. Особую форму группировки представляют так называемые статистические ряды. Статистическим называется ряд числовых значений признака расположенных в определенном порядке. В зависимости от того, какие признаки изучаются, статистические ряды делят на атрибутивные, вариационные, ряды динамики и регрессии, а также ряды ранжированнных значений признаков и ряды накопленных частот, являющихся производными вариационных рядов. Примером атрибутивного ряда могут служить данные, показывающие зависимость между содержанием гемоглобина в крови и высотой организации позвоночных животных.
Класс животных |
Рыбы |
Амфибии |
Рептилии |
Птицы |
Млекопитающие |
Кол-во Hb (г/кг массы) |
1.6 |
2.9 |
3.8 |
11.2 |
11.7 |
Среди группировок видное место занимают вариационные ряды. На их описании следует остановиться более подробно. Ряды регрессии, динамики и другие мы разберем на следующих лекциях.
Вариационным рядом или рядом распределения называют двойной ряд чисел, показывающий, каким образом числовые значения признака связаны с их повторяемостью в данной статистической совокупности. Например, из урожая картофеля, собранного на огороде, случайным образом отобрано 10 клубней, в которых подсчитывали число глазков. Результаты подсчета оказались следующие: 6, 9, 5, 7, 10, 8, 9, 10, 8, 11. Чтобы разобраться в этих данных, расположим их в ряд (в порядке регистрации результатов наблюдений) с учетом повторяемости вариант в совокупности.
Варианты (х) |
6 |
9 |
5 |
7 |
10 |
8 |
11 |
Число вариант (f) |
1 |
2 |
1 |
1 |
2 |
2 |
1 |
Это и есть вариационный ряд. Числа, показывающие, сколько раз отдельные варианты встречаются в данной совокупности называются частотами или весами вариант и обозначаются строчной буквой латинского алфавита f. Общая сумма частот вариационного ряда равна объему данной совокупности.
Частоты (веса) выражают не только абсолютными, но и относительными числами - в долях единицы или в процентах от общей численности вариант, составляющих данную совокупность. В таких случаях веса называют относительными частотами или частостями.
Распределение исходных данных в вариационный ряд преследует определенные цели. Одна из них ускорение работы при вычислении по вариационному ряду обобщающих числовых характеристик - средней величины и показателей вариации. Другая сводится к выявлению закономерности варьирования учитываемого признака. Приведенный ряд удовлетворяет первой, но не удовлетворяет достижению второй цели. Чтобы ряд распределения полностью удовлетворял предъявляемым к нему требованиям, его нужно строить по ранжированным значениям признака.
Под ранжированием понимают расположение членов ряда в возрастающем (или убывающем) порядке. Так, в данном случае результаты наблюдений следует расположить так:
Варианты (х) |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
Число вариант (f) |
1 |
1 |
1 |
2 |
2 |
2 |
1 |
В зависимости от того, как варьирует признак - дискретно или непрерывно, в широком или узком диапазоне, - статистическая совокупность распределяется в безынтервальный или интервальный вариационные ряды. В первом случае частоты относятся непосредственно к ранжированным значениям признака, которые приобретают положение отдельных групп или классов вариационного ряда, во втором - подсчитывают частоты, относящиеся к отдельным промежуткам или интервалам (от - до), на которые разбивается общая вариация признака в пределах от минимальной до максимальной варианты данной совокупности. Эти промежутки могут быть равными и не равными по ширине. Отсюда различают равно- и неравноинтервальные вариационные ряды. Примером неравноинтервального ряда могут служить данные показывающие зависимость между числом стай каких-то птиц и количеством особей в стае в гнездовой и послегнездовой период.
В неравноинтервальных рядах характер распределения частот меняется по мере изменения ширины классовых интервалов. Поэтому в качестве числовых характеристик таких рядов используют особые показатели.
Неравноинтервальную группировку в биологии применяют сравнительно редко. Как правило данные располагаются в равноинтервальные ряды, что позволяет не только выявить закономерность варьирования, но и облегчает вычисление сводных числовых характеристик вариационного ряда, сопоставление рядов распределения друг с другом.
Приступая к построению равноинтервального вариационного ряда, важно правильно наметить ширину классового интервала. Дело в том, что грубая группировка (когда устанавливают очень широкие классовые интервалы) искажает типичные черты варьирования и ведет к снижению точности числовых характеристик. При выборе чрезмерно узких интервалов точность обобщающих числовых характеристик повышается, но ряд получается слишком растянутым и не дает четкой картины варьирования.
Для получения хорошо обозримого вариационного ряда и обеспечения достаточной точности вычисляемых по нему числовых характеристик следует разбить вариацию признака (в пределах от минимальной до максимальной варианты) на такое число групп или классов, которое удовлетворяло бы обоим требованиям. Эту задачу решают делением размаха варьирования признака на число групп или классов, намечаемых при построении вариационного ряда:
l=(хmax-хmin)/k,
где l - величина классового интервала;
k - число классов, на которые следует разбить вариацию признака.
Число классов можно приблизительно наметить, пользуясь таблицей:
Число наблюдений |
Число классов |
25-40 |
5-6 |
40-60 |
6-8 |
60-100 |
7-10 |
100-200 |
8-12 |
>200 |
10-15 |
Более точно величину К можно определить по формуле Стерджеса: К=1+3.32*lg n. При наличии в совокупности большого числа членов (больше 100) можно использовать формулу К=5*lg n.
Схемы (модели) научного исследования
В начале работы исследователь, исходя из задач, стоящих перед ним, намечает определенную схему организации исследования. Эта схема носит название модели. Она может быть составлена самим исследователем или в качестве такой схемы может быть избрана какая-либо хорошо обоснованная статистико-математическая модель. Существует довольно много таких схем исследования. Их применение, однако, требует от исследователя стандартизации условий, при которых проводится исследование.
Однофакторная и многофакторная модель
Контрольные и экспериментальные группы
Наиболее элементарная модель научного исследования та, при которой одна единственная группа, однородная в отношении определенных признаков (например, пол, возраст и т.п., в зависимости от характера проводимого эксперимента), подвергается воздействию определенного экспериментального режима, а затем полученные результаты подытоживаются. В этом случае исследуемая группа называется экспериментальной, а наблюдаемые в ней случаи подопытными. Разновидность этой модели представляет исследование, при котором наблюдение производят не над одной, а над несколькими группами. При этом различие между экспериментальными группами может быть или в отношении условий, по которым стандартизован подопытный материал (например, если сформированы группы разного возраста или разного пола), или в отношении экспериментального режима (группы одинаковы, но в отношении каждой группы применяется различный экспериментальный режим). В этом случае принятая модель исследования дает возможность сравнивать как воздействие разных экспериментальных режимов (например, различные дозы), так и воздействие одного и того же экспериментального режима на различный подопытный материал.
Довольно часто наряду с экспериментальными группами исследователь формирует другую группу, называемую контрольной. По составу она та же, что и экспериментальная, но в отличие от нее не подвергается воздействию экспериментального режима. Предназначение контрольной группы - сравнение. Она - эталон-мера, при помощи которой устанавливается, насколько существенны различия полученных результатов и не зависят ли они от действия случайных факторов. В связи с назначением контрольной группы необходимо, чтобы обе группы (экспериментальная и контрольная) были одинаковыми и отличались бы только по тому фактору, который подвергается исследованию. Все другие факторы, способные усилить или ослабить действие испытуемого фактора, нужно устранить или хотя бы обеспечить их одинаковое влияние на обе группы.
Такого рода модели проведения научного исследования носят название схемы однофакторного анализа.
Доза |
Полученные результаты |
Экспериментальная группа |
|
Контрольная группа |
На практике, однако, часто приходится исследовать воздействие больше чем одного фактора. Тогда говорят о двухфакторном, трехфакторном и т. д. анализе. Увеличивая число исследуемых факторов, исследователь должен увеличивать и объем исследований, в частности число наблюдений.
Метод автоконтроля
В практике экспериментальных исследований имеется возможность использовать одну и ту же группу последовательно в качестве контрольной и в качестве экспериментальной. Метод автоконтроля удобен, но обладает существенным недостатком: при нем не ведется учет действия многочисленных посторонних факторов, которые могут повлиять на конечный результат. Ввиду этого, если есть основания опасаться, что за время, в которое длится эксперимент, на полученный результат могут повлиять другие факторы (помимо экспериментальных), рекомендуется вести исследование раздельно с контрольной и экспериментальной группой.
Метод дублирования
Сущность метода в следующем: прежде чем начать экспериментальное исследование, например над животными, подопытный материал находится под наблюдением и регистрируются те его признаки, которые подлежат исследованию. В зависимости от полученных результатов подопытный материал ранжируют по восходящей градации и нумеруют. Затем соединяют подопытных животных попарно, первая пара имеет номера 1 и 2, вторая 3 и 4, третья - 5 и 6 и т. д. Пары подопытных животных, сформированные подобным образом, имеют равные или приблизительно равные по величине характеристики. Затем жребием для каждой пары определяют, какое из животных должно идти в контрольную и какое в экспериментальную группу. По окончании эксперимента подытоживают результаты и для каждой пары животных определяют, существенны ли статистически полученные результаты.
Метод последовательного пополнения групп
Особенностью этого метода является то, что сначала исследование начинается над малым числом объектов. Полученные результаты дают возможность разобраться в ряде подробностей изучаемого явления и помогают точнее и правильнее оценить необходимое число наблюдений. Разница между первоначально наблюдаемым числом и необходимым числом, получившаяся по окончании первого этапа исследований, показывает, сколько еще наблюдений следует дополнительно провести, чтобы иметь их достаточное число. Не рекомендуется применять этот метод тогда, когда изучаемые показатели с течением времени меняют свою величину (например, сезонные изменения уровня гормонов).
Численность контрольных и экспериментальных групп
Почти всегда при определенном числе наблюдений большая точность результатов исследования обеспечивается при численном равенстве контрольной и экспериментальной групп. Если это равенство не обеспечено, точность результатов уменьшается в тем большей степени, чем больше неравенство. Однако стоимость проведения одного исследования в одной группе может быть равна стоимости нескольких исследований в другой группе. Кроме того, у исследователя не всегда имеются в распоряжении возможности (лаборатория, аппаратура, персонал и т. д.), необходимые для проведения необходимого числа наблюдений. Все это играет роль при определении правильного соотношения между числами наблюдений в обеих группах. Если стоимость одного наблюдения в контрольной группе в 10 раз ниже стоимости одного наблюдения в экспериментальной группе, то, незначительно уменьшая число наблюдений в экспериментальной группе, исследователь может в 10 раз увеличить число наблюдений в контрольной группе. Так как размер точности результатов исследования зависит от общего количества наблюдений, то в этом случае нарушение численного равенства обеих групп приводит к увеличению общего числа наблюдений и к увеличению точности.
Научные гипотезы
Формулирование гипотез систематизирует предположения исследователя и представляет их в четком и лаконичном виде. Благодаря гипотезам исследователь не теряет путеводной нити в процессе расчетов и ему легко понять после их окончания, что, собственно, он обнаружил.
Статистические гипотезы подразделяются на нулевые и альтернативные, направленные и ненаправленные.
Нулевая гипотеза - это гипотеза об отсутствии различий.
Она обозначается как Hо называется нулевой потому, что содержит число 0: X1Х2=0, где X1, X2 - сопоставляемые значения признаков.
Нулевая гипотеза - это то, что мы хотим опровергнуть, если перед нами стоит задача доказать значимость различий.
Альтернативная гипотеза - это гипотеза о значимости различий.
Она обозначается как Н1. Альтернативная гипотеза - это то, что мы хотим доказать, поэтому иногда ее называют экспериментальной гипотезой.
Бывают задачи, когда мы хотим доказать как раз незначимость различий, то есть подтвердить нулевую гипотезу. Например, если нам нужно убедиться, что разные испытуемые получают хотя и различные, но уравновешенные по трудности задания, или что экспериментальная и контрольная выборки не различаются между собой по каким-то значимым характеристикам. Однако чаще нам все-таки требуется доказать значимость различий, ибо они более информативны для нас в поиске нового. Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными.
Направленные гипотезы
H0: X1 не превышает Х2
H1: X1 превышает Х2
Ненаправленные гипотезы
H0; X1 не отличается от Х2
H1: X1 отличается от Х2
Если вы заметили, что в одной из групп индивидуальные значения испытуемых по какому-либо признаку, например по росту, выше, а в другой ниже, то для проверки значимости этих различий нам необходимо сформулировать направленные гипотезы.
Если мы хотим доказать, что в группе А под влиянием каких-то экспериментальных воздействии произошли более выраженные изменения, чем в группе Б, то нам тоже необходимо сформулировать направленные гипотезы.
Если же мы хотим доказать, что различаются формы распределения признака в группе А и Б, то формулируются ненаправленные гипотезы.
При описании каждого критерия в пособии даны формулировки гипотез, которые он помогает нам проверить.
Статистические критерии
Статистический критерий - это решающее правило, обеспечивающее надежное поведение, то есть принятие истинной и отклонение ложной гипотезы с высокой вероятностью.
Статистические критерии обозначают также метод расчета определенного числа и само это число.
Когда мы говорим, что достоверность различий определялась по критерию X2, то имеем в виду, что использовали метод X2 для расчета определенного числа.
Когда мы говорим, далее, что X2 = 12,676, то имеем в виду определенное число, рассчитанное по методу X2. Это число обозначается как эмпирическое значение критерия.
По соотношению эмпирического и критического значений критерия мы можем судить о том, подтверждается ли или опровергается нулевая гипотеза. Например, если X2эмп > X2кр., то Н0 отвергается.
В большинстве случаев для того, чтобы мы признали различия значимыми, необходимо, чтобы эмпирическое значение критерия превышало критическое, хотя есть критерии (например, критерий Манна-Уитни или критерий знаков), в которых мы должны придерживаться противоположного правила.
Эти правила оговариваются в описании каждого из представленных в руководстве критериев.
В некоторых случаях расчетная формула критерия включает в себя количество наблюдений в исследуемой выборке, обозначаемое как п. В этом случае эмпирическое значение критерия одновременно является тестом для проверки статистических гипотез. По специальной таблице мы определяем, какому уровню статистической значимости различий соответствует данная эмпирическая величина. Примером такого критерия является критерий φ*, вычисляемый на основе углового преобразования Фишера.
В большинстве случаев, однако, одно и то же эмпирическое значение критерия может оказаться значимым или незначимым в зависимости от количества наблюдений в исследуемой выборке (n) или от так называемого количества степеней свободы, которое обозначается как ν или как df.
Число степеней свободы равно числу классов вариационного ряда минус число условий, при которых он был сформирован. К числу таких условий относятся объем выборки (n), средние и дисперсии.
Если мы расклассифицировали наблюдения по классам какой-либо номинативной шкалы и подсчитали количество наблюдений в каждой ячейке классификации, то мы получаем так называемый частотный вариационный ряд. Единственное условие, которое соблюдается при его формировании - объем выборки п. Допустим, у нас 3 класса: "Умеет работать на компьютере - умеет выполнять лишь определенные операции - не умеет работать на компьютере". Выборка состоит из 50 человек. Если в первый класс отнесены 20 испытуемых, во второй - тоже 20, то в третьем классе должны оказаться все остальные 10 испытуемых. Мы ограничены одним условием - объемом выборки. Поэтому даже если мы потеряли данные о том, сколько человек не умеют работать на компьютере, мы можем определить это, зная, что в первом и втором классах - по 20 испытуемых. Мы не свободны в определении количества испытуемых в третьем- разряде, "свобода" простирается только на первые две ячейки классификации:
df = c-l = 3- 1 = 2
Аналогичным образом, если бы у нас была классификация из 10 разрядов, то мы были бы свободны только в 9 из них, если бы у нас было 100 классов - то в 99 из них и т. д.
Способы более сложного подсчета числа степеней свободы при двухмерных классификациях приведены в разделах, посвященных критерию χ2 и дисперсионному анализу.
Зная п и/или число степеней свободы, мы по специальным таблицам можем определить критические значения критерия и сопоставить с ними полученное эмпирическое значение. Обычно это записывается так: "при n=22 критические значения критерия составляют ..." или "при v=2 критические значения критерия составляют ..." и т.п.
Критерии делятся на параметрические и непараметрические.
Параметрические критерии
Критерии, включающие в формулу расчета параметры распределения, то есть средние и дисперсии (/-критерий Стьюдента, критерий F и др.)
Непараметрические критерия
Критерии, не включающие в формулу расчета параметров распределения и основанные на оперировании частотами или рангами (критерий Q Розенбаума, критерий Т Вилкоксона и др.)
Возможности и ограничения параметрических и непараметрических критериев
ПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
1. Позволяют прямо оценить различия в средних, полученных в двух выборках (t - критерий Стьюдента).
а) значения признака измерены по интервальной шкале;
б) распределение признака является нормальным;
в) в дисперсионном анализе должно соблюдаться требование равенства дисперсий в ячейках комплекса.
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
1. Позволяют оценить лишь средние тенденции, например, ответить на вопрос, чаще ли в выборке А встречаются более высокие, а в выборке Б - более низкие значения признака (критерии Q, U, φ* и др.).
2.Позволяют оценить лишь различия в диапазонах вариативности признака (критерий φ*).
3.Позволяют выявить тенденции изменения признака при переходе от условия к условию при любом распределении признака (критерии тенденций L и S).
4.Эта возможность отсутствует.
5.Экспериментальные данные могут не отвечать ни одному из этих условий:
а) значения признака могут быть представлены в любой шкале, начиная от шкалы наименований;
б) распределение признака может быть любым и совпадение его с каким-либо теоретическим законом распределения
необязательно и не нуждается в проверке;
в) требование равенства дисперсий отсутствует.
6.Математические расчеты по большей части просты и занимают мало времени (за исключением критериев χ2 и λ).
7.Если условия, перечисленные в п.5, не выполняются, непараметрические критерии оказываются более мощными, чем параметрические, так как они менее чувствительны к "засорениям".
Уровни статистической значимости
Уровень значимости - это вероятность того, что мы сочли различия существенными, а они на самом деле случайны.
Когда мы указываем, что различия достоверны на 5%-ом уровне значимости, или при р<0,05, то мы имеем виду, что вероятность того, что они все-таки недостоверны, составляет 0,05.
Когда мы указываем, что различия достоверны на 1%-ом уровне значимости, или при р<0,01, то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01.
Если перевести все это на более формализованный язык, то уровень значимости - это вероятность отклонения нулевой гипотезы, в то время как она верна.
Ошибка, состоящая в той, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой
1 рода.
Вероятность такой ошибки обычно обозначается как α. В сущности, мы должны были бы указывать в скобках не р<0,05 или р<0,01, а α<0,05 или α<0,01. В некоторых руководствах так и делается (Рунион Р., 1982; Захаров В.П., 1985 и др.).
Если вероятность ошибки - это α, то вероятность правильного решения: 1α. Чем меньше α, тем больше вероятность правильного решения.
Исторически сложилось так, что принято считать низшим уровнем статистической значимости 5%-ый уровень (р≤0,05): достаточным 1%-ый уровень (р≤0,01) и высшим 0,1%-ый уровень (р≤0,001), поэтому в таблицах критических значений обычно приводятся значения критериев, соответствующих уровням статистической значимости р≤0,05 и р≤0,01, иногда - р≤0,001. Для некоторых критериев в таблицах указан точный уровень значимости их разных эмпирических значений. Например, для φ*=1,56 р=О,06.
До тех пор, однако, пока уровень статистической значимости не достигнет р=0,05, мы еще не имеем права отклонить нулевую гипотезу.
Мощность критерия - это его способность выявлять различия, если они есть. Иными словами, это его способность отклонить нулевую гипотезу об отсутствии различий, если она неверна.
Ошибка, состоящая в том, что мы приняли нулевую гипотезу, в то время как она неверна, называется ошибкой II рода.
Вероятность такой ошибки обозначается как β. Мощность критерия - это его способность не допустить ошибку II рода, поэтому:
Мощность=1β
Мощность критерия определяется эмпирическим путем. Одни и те же задачи могут быть решены с помощью разных критериев, при этом обнаруживается, что некоторые критерии позволяют выявить различия там, где другие оказываются неспособными это сделать, или выявляют более высокий уровень значимости различий. Возникает вопрос: а зачем же тогда использовать менее мощные критерии? Дело в том, что основанием для выбора критерия может быть не только мощность, но и другие его характеристики, а именно:
а)простота;
б)более широкий диапазон использования (например, по отношению к данным, определенным по номинальной шкале, или по отношению к большим n);
в)применимость по отношению к неравным по объему выборкам;
г)большая информативность результатов.
Вопросы для самопроверки
РАЗДЕЛ III. СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
Задача |
Количественные переменные, имеющие нормальное распределение |
Количественные и порядковые переменные |
Качественные переменные |
Описательные статистики |
MS или Mm |
Me, 25 и 75 персентиль |
% |
Сравнение двух независимых выборок |
Т критерий |
U критерий Манна-Уитни |
Тест Фишера, 2 |
Сравнение более двух независимых выборок |
Дисперсионный анализ Фишера |
Дисперсионный анализ Краскел-Уоллиса |
2 |
Сравнение двух зависимых выборок |
Парный Т критерий |
Критерий Вилкоксона |
Тест Мак-Немара |
Изучение взаимосвязи между признаками |
Коэффициент корреляции Пирсона |
Коэффициент корреляции Спирмена |
2 |
Предсказать изменение одного значения, если было измерено другое значение |
Простая линейная или нелинейная регрессия |
Непараметрическая регрессия |
Простая логистическая регрессия |
В данной таблице приведены основные методы, использующиеся в биологических исследованиях, в зависимости от задач исследователя. В следующих главах мы постараемся подробно описать области применения, способ расчета и интерпретацию получаемых результатов.
Проверка гипотезы о законе распределения
Большое познавательное значение имеет сопоставление фактических кривых распределения с теоретическими.
Под теоретической кривой распределения понимается графическое изображение ряда в виде непрерывной линии изменения частот в вариационном ряду, функционально связанного с изменением вариантов (значений признака). Теоретическое распределение может быть выражено аналитически - формулой, которая связывает частоты вариационного ряда и соответствующие значения признака. Такие алгебраические формулы носят название законов распределения
Гипотезы о распределениях заключаются в том, что выдвигается предположение о том, что распределение в генеральной совокупности подчиняется какому-то определенному закону. Проверка гипотезы состоит в том, чтобы на основании сравнения фактических (эмпирических) частот с предполагаемыми (теоретическими) частотами сделать вывод о соответствии фактического распределения гипотетическому распределению. Может проводиться и сравнение частостей.
Под гипотетическим распределением необязательно понимается нормальное распределение. Может быть выдвинута гипотеза о биномиальном распределении, распределении Пуассона и т.д. Причина частого обращения к нормальному распределению в том, что в этом типе распределения выражается закономерность, возникающая при взаимодействии множества случайных причин, когда ни одна из них не имеет преобладающего влияния. Закон нормального распределения лежит в основе многих теорем математической статистики, применяемых для оценки репрезентативности выборок, при измерении связей и т. д.
Итак, пусть имеется вариационный ряд. Предположим, что признак Х распределен по некоторому вероятностному закону Р.
х |
х1 |
х2 |
.... |
xk |
р |
p1 |
p2 |
..... |
pk |
По теоретическому распределению Р можно построить так называемое выравнивающие или теоретические частоты . Если отличия между теоретическими и эмпирическими частотами небольшое, то можно считать, что Х распределен по закону Р.
χ2 Пирсона
Критерий согласия χ2 разработан достаточно хорошо и поэтому используется достаточно часто. Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитываемыми по формулам нормального распределения.
Если все эмпирические частоты равны соответствующим теоретическим частотам, то χ2 равно нулю. Очевидно, что чем больше отличаются эмпирические и теоретические частоты, тем χ2 больше; если расхождение несущественно, то χ2 должно быть малым.
Гипотезы -
Н0: Различия между двумя распределениями недостоверны.
H1: Различия между двумя распределениями достоверны.
Существуют табличные значения (см. приложение) для соответствующего числа степеней свободы К и уровня значимости . По таблице находятся K=k-1-r, где r - число общих характеристик теоретического распределения, принятых равными соответствующим эмпирическим.
λ - критерий Колмогорова-Смирнова
Назначение критерия
Критерий λ предназначен для сопоставления двух распределений:
а) эмпирического с теоретическим, например, равномерным или нормальным;
б) одного эмпирического распределения с другим эмпирическим распределением.
Критерий позволяет найти точку, в которой сумма накопленных расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения.
Если в методе χ2 мы сопоставляли частоты двух распределений отдельно по каждому разряду, то здесь мы сопоставляем сначала частоты по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т. д. Таким образом, мы сопоставляем всякий раз накопленные к данному разряду частоты.
Гипотезы -
Н0: Различия между двумя распределениями недостоверны (судя по точке максимального накопленного расхождения между ними).
H1: Различия между двумя распределениями достоверны (судя по точке максимального накопленного расхождения между ними).
Если различия между двумя распределениями существенны, то в какой-то момент разность накопленных частот достигнет критического значения, и мы сможем признать различия статистически достоверными. В формулу критерия λ включается эта разность. Чем больше эмпирическое значение λ, тем более существенны различия.
Описательные статистики
Концепция сжатия экспериментальных данных
Графическое представление всей совокупности экспериментальных данных позволяет многими способами осмыслить длинные ряды наблюдений. Тем не менее, построение графиков и таблиц представляет собой только первый шаг при статистическом анализе данных. Следующий шаг представление результатов в компактной форме, удобной для хранения, сопоставления с другими данными и т. д. При этом желательно, чтобы характерные особенности распределения численностей выражались небольшим числом показателей.
Графические представления распределения численностей, рассмотренные нами ранее, очень существенно отличаются друг от друга. Однако у всех этих графиков существуют и общие характерные особенности, которые позволяют их сравнивать между coбой.
Прежде всего, видно, что все распределения группируются относительно некоторого центра. Для измерения положения этого центра существует группа показателей, носящих название мер центральной тенденции. К ним относятся средние (среднее арифметически среднее геометрическое, среднее гармоническое), мода и медиана.
Другой характерной особенностью распределений численностей является разброс экспериментальных значений относительно центра распределения. Количественная оценка этого разброса осуществляется с помощью мер рассеяния, важнейшими из которых являются размах, дисперсия, среднеквадратическое отклонение и коэффициент вариации.
Визуальный анализ графических изображений показывает, что некоторые распределения асимметричны, т. е. по обе стороны от центра расположено неравное количество значений, причем асимметрия может быть как право-, так и левосторонней. Наконец, графики некоторых распределений более заострены, а других уплощены. Эти характерные особенности распределений экспериментальных данных скошенность и островершинность также могут быть описаны с помощью показателей асимметрии и эксцесса (островершинности).
Оказывается, что для описания практически любого встречающегося на практике распределения численностей достаточно этих четырех групп мер: показателей центральной тенденции, показателей рассеяния (вариации), показателей асимметрии, показателей эксцесса, вся совокупность которых получила название «статистик свертки».
Показатели центральной тенденции. Средние.
В отличие от индивидуальных числовых характеристик средние величины обладают большей устойчивостью, способностью характеризовать целую группу одним (средним) числом.
В зависимости от того, как распределены исходные данные - в равно- или неравноинтервальный вариационный ряд, для их характеристики применяют разные средние величины. Именно при распределении собранных данных в неравноинтервальный вариационный ряд более подходящей обобщающей характеристикой изучаемого объекта служит так называемая плотность распределения, т. е. отношение частот или частостей к ширине классовых интервалов. Кроме того, числовыми характеристиками таких рядов могут служить средние из абсолютных или относительных показателей плотности распределения. Средняя плотность показывает, сколько единиц данной совокупности приходится в среднем на интервал, равный единице измерения учитываемого признака.
В качестве статистических характеристик равноинтервальных вариационных рядов применяют средние величины.
Средняя арифметическая. Этот показатель является центром распределения, вокруг которого группируются все варианты статистической совокупности. Средняя арифметическая может быть простой и взвешенной. Простую арифметическую определяют как сумму всех членов совокупности, деленную на их общее число.
Когда отдельные варианты повторяются, среднюю арифметическую вычисляют по формуле: и называют взвешенной средней.
Имеется распределение учета численности косуль за апрель 2003г. Требуется вычислить среднее количество косуль за учет.
Число косуль |
0 |
1 |
2 |
3 |
4 |
5 |
Итого 30 |
Число учетов |
3 |
7 |
10 |
4 |
3 |
3 |
X=(7+20+12+12+15)/30=66/30=2.02.
В биологических науках среднюю арифметическую принято обозначать как М.
Средняя арифметическая обладает рядом важных свойств.
1. Если каждую варианту статистической совокупности уменьшить или увеличить на некоторое произвольно взятое положительное число, то и средняя уменьшится или увеличится на это число.
2. Если каждую варианту разделить или умножить на какое-то одно и то же число, то и средняя арифметическая изменится во столько же раз.
3. Сумма произведений отклонений вариант от их средней арифметической на соответствующие им частоты равна нулю.
4. Сумма квадратов отклонений вариант от их средней меньше суммы квадратов отклонений тех же вариант от любой другой величины.
Это свойство среднего имеет приложения в приближенных решениях задач следующего вида. Допустим, на основании достаточно обширного экспериментального материала известны средние характеристики одного и того вида животных или растений, занимающих разные экологические ниши. Экземпляры из разных мест обитания будут, как правило, отличаться по численным значениям некоторых характеристик. Если в распоряжении исследователя оказалась одна или несколько особей, для которых известно, что они взяты из одного какого-то местообитания, но неизвестно, из какого именно, то как решить вопрос об их принадлежности к той или иной экологической нише? (Впервые поставил и решил такую задачу немецкий ихтиолог Ф. Гейнике при изучении принадлежности отдельных особей к той или иной расе сельдей Северного моря. При этом было использовано приведенное выше свойство среднего.)
Как практически его использовать, покажем на следующем примере. Известен пример определения вида по 8 количественным характеристикам измерения черепа. Были найдены отклонения этих характеристик для черепа зайца неизвестного вида от соответствующих средних для зайца-беляка и зайца-русака. Ряды отклонений по абсолютной величине выглядят так: беляка 1,7; 4,2; 0; 2; 1,8; 3,4; 0,6; 6,1, от русака2,8; 2,5; 1; 0; 0,8; 2,1; 2,1; 2. Суммы квадратов этих отклонений равны соответственно 60,05 и 28,55, поэтому сделан вывод о том, что неизвестный череп принадлежал зайцу-русаку.
Средняя гармоническая. Эту характеристику в отличие от средней арифметической определяют как сумму обратных значений вариант, деленную на их число.
Средняя гармоническая применяется тогда, когда результаты наблюдений обнаруживают обратную зависимость заданных обратными значениями вариант.
5 студентов за 1 час набрали следующее количество жуков: 1 - 10, 2 - 20, 3 - 25, 4 - 30, 5 - 20. Всего 105 штук. Оценим итоги с помощью Х и Хh. X=21 жук.
Xh=5/(1/10+1/20+1/25+1/30+1/20)=18.31.
Разница весьма заметна. Какая же из средних верна. Попробуем с помощью Х вычислить время, затраченное на 1 жука - 60/21=2.86 мин. Верно ли это ? Проверим результат. первый студент затратил 6 мин, 2 - 3, 3 - 2.4, 4 - 2, 5 - 3. В среднем получится 3.38мин. Видно, что средняя арифметическая непригодна для определения среднего времени, затрачиваемого на поимку 1 жука.
Средняя квадратическая. Для более точной числовой характеристики мер площади применяется средняя квадратическая.
.
Имеются три участка земельной площади со сторонами квадрата x1=100м, x2=200м, x3=300м. Если использовать арифметическую среднюю величину, то общая площадь всех участков была бы 3*2002=120000м2. Правильный ответ дает средняя квадратическая величина 3*2162=140000м2.
Средняя кубическая. В качестве характеристики объемных признаков более точной является средняя кубическая.
Средняя геометрическая. Этот показатель представляет собой корень n-й степени из произведений членов ряда. Средняя геометрическая - более точная характеристика рядов динамики, чем средняя арифметическая. Однако, они, как правило, незначительно отличаются друг от друга. К тому же вычисление средней арифметической проще. Поэтому вместо средней геометрической в качестве приближенной характеристики темпов динамики нередко используют среднюю арифметическую. При этом приходится учитывать, что средняя геометрическая дает хорошие (не искаженные) результаты лишь при наличии геометрической прогрессии, заложенной в самой динамике явления. Это обстоятельство ограничивает область применения средней геометрической.
Количество волков в прошлом году увеличилось в два раза и в этом еще в три раза. Ясно, что за два года численность выросла в 6 раз. Каков средний рост за год? Арифметическая средняя здесь непригодна, ибо если за год численность возросла бы в (2+3)/2=2,5 раз, то за два года численность бы выросла в 2,5*2,5=6,25 раз, а не в шесть раз. Геометрическая средняя дает правильный ответ: 6 = 2,45 раз.
Медиана
Медиана (Md) определяется как срединное значение в ранжированном ряду данных. Это значит, что по обе стороны от нее расположено ровно по половине данных. Применительно к кривой распределения медиана представляет такую точку на оси абсцисс, что ордината, проходящая через нее, делит площадь под кривой на две равные части.
Для определения медианы рекомендуется сначала упорядочить данные. Например, для определения значения медианы в массиве {8, 11, 12, 20, 12, 13, 9, 15, 19, 17, 19} необходимо этот массив упорядочить (произвести сортировку по возрастанию): {8, 9, 11, 12, 12, 13, 15, 17, 19, 19, 20}. Медиана будет равна 13 (обозначатся след. образом: Ме = 13). Если количество данных в выборке четное, то медиана равна средней арифметической между двумя центральными значениями. Например, если добавить в последнюю выборку значение 20, и упорядоченный массив примет следующий вид: {8, 9, 11, 12, 12, 13, 15, 17, 19, 19, 20, 20}, то медиана будет равна 14. В подобном случае медиана не может соответствовать ни одному из значений выборки. Медиана может принимать и дробные значения. Например, если мы в последнем примере 15 (одно из двух центральных значений) заменим на 14, то выборка примет вид {8, 9, 11, 12, 12, 13, 14, 17, 19, 19, 20, 20} и медиана будет равна 13,5.
В тех случаях, когда в выборке относительно немного данных, медиана ищется по указанному правилу. Если же данных много и они представлены в виде таблицы распределения численностей, то медиана определяется приближенно в том класс-интервале, для которого накоплено более половины значений анализируемого ряда данных.
Медиана обладает свойством, на котором основывается теоретическое и практическое применение. Это свойство состоит в том, что сумма абсолютных значений отклонений всех значений ряда от его медианы есть величина наименьшая.
Персентили
Персентили - это показатели типа средних по расположению в ряду. Если данные не сгруппированы, они определяются по месту нахождения после того, как все данные будут расположены по восходящей градации по величине изучаемого признака (пятидесятый персентиль известен под именем медианы, в предыдущем примере было показано как он вычисляется). Если данные сгруппированы в равномерно отстоящие друг от друга интервалы, то для получения соответствующих персентилей используется формула:
Pi=LPi+(c/f)*e,
где Lpi - нижняя граница интервала, в котором находится соответствующий персентиль;
с - число случаев, которое требуется прибавить к кумулятивному ряду случаев доперсентильных интервалов, чтобы получить порядковое число персентильного случая;
f - число случаев персентильного интервала;
е - величина персентильного интервала.
В практике обычно пользуются только некоторыми из персентилей: P3, P10, P25, P50, P75, P90, P97. Считается, что если индивидуально наблюдаемый признак находится в границах от Р25 до Р75, то величина его соответствует норме (следовательно, в норму входят 50% всех случаев), если он находится в границах от Р10 до Р25 и от Р75 до Р90, то оценка его соответственно выше или ниже средней (по 15%). Если величина рассматриваемого признака находится в границах от Р3 до Р10 и Р90 до Р97, оценка будет соответственно низкой или высокой (по 7%). В остальных случаях - очень низкая или очень высокая.
Если распределение изучаемого признака отличается от нормального, то при выработке нормативов следует предпочесть метод персентилей.
Имеются следующие данные о истолическом давлении крови у мужчин в возрасте 25-29лет. Необходимо найти персентили P3, P10, P25, P50, P75, P90, P97 и определить интервалы, в границах которых находятся отдельные нормативные группы .
Чтобы выполнить заданную задачу, первоначально находят так называемый начетный ряд (кумулятивные итоги - третий столбец таблицы). Он получается следующим образом, к числу случаев первого интервала прибавляют число случаев второго, к полученному итогу прибавляют число случаев третьего интервала и т.д.
RR в мм. рт. сб. |
Число случаев |
Куммулятивные суммы |
70-90 |
10 |
10 |
90-110 |
100 |
110 |
110-130 |
400 |
510 |
130-150 |
200 |
710 |
150-170 |
100 |
810 |
170-190 |
70 |
880 |
190-210 |
60 |
940 |
210-230 |
30 |
970 |
230-250 |
20 |
990 |
250-270 |
10 |
1000 |
Затем находим номера соответствующих персентилей по формуле:
Sf/100*Pi, где Sf - сумма всех случаев (в нашем примере 1000), Pi - соответствующий персентиль. По этой формуле номер третьего персентиля будет равен 30=(1000/100)*3, десятого персентиля -100, остальных персентилей соответственно 250, 500, 750, 900, 970.
По куммулятивным суммам определяют, в каком интервале находится каждый из требующихся персентилей. Например, персентиль №30 находится во втором интервале 90-100, №100 - в том же интервале, №250 - в интервале 110-130 и т.д. Затем при помощи формулы 1 находят величины искомых персентилей. В нашем случае: Р3=90+(20/100)*20=94 мм;
Р10=90+(90/100)*20=108 мм; Р25=110+(140/400)*20=117 мм;
Р50=110+(390/400)*20=129.5 мм; Р75=150+(40/100)*20=158 мм;
Р90=190+(20/60)*20=186.67 мм;
Р97=210+(30/30)*20=230 мм;
Следовательно, интервалы нормативов будут следующие:
Персентиль |
Р3 |
Р10 |
Р25 |
Р50 |
Р75 |
Р90 |
Р97 |
Давление |
94 |
108 |
117 |
130 |
158 |
187 |
230 |
Очень низкое. Сильно выраженная гипотония |
Низкое. Гипото-ния. |
Ниже среднего. Слабо выраженная гипотония. |
Средние. Нормальные случаи. |
Выше среднего. Слабо выраженная гипертония. |
Высокие. Гипертония. |
Очень высокие. Сильно выраженная гипертония. |
Следует учитывать, что вырабатывать нормативы следует на большом количестве случаев (100-200 и более). Только тогда имеет смысл вычислять персентили.
Мода
Мода (Mo) представляет собой наиболее часто встречающееся в распределении численностей значение. Если к данным таблицы распределения численностей подобрать теоретическую кривую распределения, то мода равна абсциссе точки, имеющей максимальную для этой кривой ординату.
Например, в следующей выборке: {2, 3, 5, 1, 4, 5, 6, 5, 2} модой будет являться значение 5 (обозначатся следующим образом: Мо = 5). Если массив содержит 2 моды, то распределение называется бимодальным. Таким примером может служить выборка {3, 3, 5, 1, 4, 5, 6, 5, 3}. Здесь Мо1 = 5, а Мо2 = 3.
Бимодальное или полимодальное распределение могут рассматриваться как признак неоднородности выборки. Например, школьный класс образован в результате механического слияния двух разных классов, и показатели мод интеллекта были изначально различны. После слияния в объединенной выборке профиль интеллекта будет иметь 2 моды.
Существует несколько приближенных способов оценки моды. Один из них состоит в том, что гистограмма тем или иным способом аппроксимируется непрерывной кривой, и затем находится абсцисса, соответствующая максимальной ординате. Она и будет приближенно равна моде.
В симметричных распределениях х, Mo, Md совпадают, в умеренно асимметричных распределениях Md находится между х и Мо на расстоянии от х, равном примерно одной третьей расстояния от х до Мо. На этом и построено приведенное ниже эмпирическое соотношение:
Mo = x-3*(x-Md).
Показатели изменчивости
Изучение и количественное описание изменчивости (вариации) осуществляется различными методами, и можно сказать, что разработанные в математической статистике методы анализа экспериментальных данных в значительной своей части предназначены именно для оценки вариации.
Размах вариации. Это показатель, представляющий собой разность максимальной и минимальной вариант совокупности. Чем сильнее варьирует признак, тем больше размах вариации и наоборот.
Р = Хmax Xmin
Лимиты и размах вариации - простые и наглядные характеристики варьирования, однако им присущи существенные недостатки: при повторных измерениях одного и того же группового объекта они могут существенно изменяться; кроме того, они не отображают существенные черты варьирования.
Более удобной характеристикой вариации мог бы служить показатель, который строится на основании отклонений вариант от их средней. Сумма таких отклонений, взятая без учета знаков и отнесенная к числу наблюдений, называется средним линейным отклонением.
Дисперсия и ее свойства. Несмотря на явное преимущество среднего линейного отклонения перед лимитами и размахом вариации, этот показатель не получил широкого распространения на практике. Наиболее подходящим оказался показатель, построенный не на отклонениях вариант от их средних, а на квадратах этих отклонений, его называют дисперсией (рассеяние) и выражают формулой .
Ценность дисперсии заключается в том, что, являясь мерой варьирования числовых значений признака вокруг их средней арифметической, она измеряет и внутреннюю изменчивость значений признака, зависящую от разностей между наблюдениями. Преимущество дисперсии перед другими показателями вариации состоит также в том, что она разлагается на составные компоненты, позволяя тем самым оценивать влияние различных факторов на величину учитываемого признака.
Вместе с тем установлено, что рассчитываемая по формуле дисперсия оказывается смещенной по отношению к своему генеральному параметру на величину, равную n/n-1. Чтобы получить несмещенную дисперсию, нужно в формулу ввести в качестве множителя поправку на смещенность, называемую поправкой Бесселя. В результате Разность n-1 называют числом степеней свободы, под которым понимают число свободно варьирующих единиц в составе численно ограниченной статистической совокупности.
Дисперсия обладает рядом важных свойств, из которых необходимо выделить следующие.
1. Если каждую варианту совокупности уменьшить или увеличить на одно и то же постоянное число, то дисперсия не изменится.
2. Если каждую варианту совокупности умножить или разделить на одно и то же постоянное число А, то дисперсия уменьшится или увеличится в А2 раз.
Среднее квадратичное отклонение (S) Наряду с дисперсией важнейшей характеристикой варьирования является среднее квадратичное отклонение - показатель, представляющий корень квадратный из дисперсии.
Эта величина в ряде случаев оказывается более удобной характеристикой варьирования чем дисперсия, так как выражается в тех же единицах, что и средняя арифметическая.
Коэффициент вариации. Рассмотренные до сих пор показатели изменчивости: размах, дисперсия, стандартное отклонение определяют вариацию в абсолютных единицах, имеют размерность такую же или в квадрате (для дисперсии), как и сама измеряемая величина. При описании распределений численности это удобно, но если есть необходимость сравнить показатели рассеяния двух распределений, данные которых имеют разные размерности, то естественно возникают затруднения. Такие же затруднения возникают иногда даже в тех случаях, когда измеряемые величины имеют одну и ту же размерность. Например, показатели рассеяния в распределениях количества выпавших осадков и роста людей вычислены в сантиметрах. Однако из того, что стандартное отклонение роста людей больше, чем стандартное отклонение выпавших осадков, не следует, что изменчивость в первом случае больше. Меры изменчивости при сравнении показательны лишь в соотношении со средними, от которых измеряют отклонения. Поэтому возникает необходимость в таком показателе рассеяния, который был бы безразмерным и указывал на изменчивость по отношению к среднему, относительно которого вычисляются отклонения. Наиболее часто используемым показателем, удовлетворяющим этим требованиям, является коэффициент вариации .
Из формулы видно, что на величину коэффициента вариации влияет как стандартное отклонение, так и среднее. Причем так как среднее стоит в знаменателе, при стремлении его к нулю коэффициент вариации становится неопределенным. Поэтому для распределений численностей со средними, близкими к нулю, использование коэффициента вариации в качестве показателя изменчивости нежелательно.
Стандартизованные данные
Из информации о конкретном значении признака и знания средней всей совокупности не очевидно относительное положение интересующего нас значения. Тем не менее достаточно часто желательно иметь возможность описать место некоторого значения в совокупности данных. Это можно сделать, измеряя его отклонение от среднего в единицах стандартного отклонения, т. е. .
Величины zi носят название стандартизованных (стандартизированных) величин.
Ясно, что при переходе к стандартизированным данным любое распределение численностей преобразуется в распределение со средним, равным нулю, и единичной дисперсией.
Стандартизованные данные, как и коэффициент вариации, являются безразмерными величинами, поэтому с их помощью можно сравнивать между собой распределения численностей, имеющие разную размерность.
Показатели асимметрии и эксцесса
При анализе распределения численностей значительный интерес представляет оценка отклонения данного распределения от симметричного, или, иначе говоря, его скошенность. Степень скошенности (асимметрия) является одним из наиболее важных свойств распределения численностей. Существует целый ряд статистических показателей, предназначенных для вычисления асимметрии. Все они отвечают, как минимум, двум требованиям, предъявляемым к любому показателю скошенности: он должен быть безразмерным и равным нулю, если распределение симметрично.
Из этой формулы следует, что распределения, скошенные влево, имеют положительную асимметрию, а скошенные вправо отрицательную. Естественно, что для симметричных распределений, для которых среднее и медиана совпадают, асимметрия равна нулю.
Известно, что величина As, определяемая по формуле, находится в интервале [-3,3]. Но практически эта величина очень редко достигает своих крайних значений, и для умеренно асимметричных одновершинных распределений она по модулю обычно меньше единицы.
Показатель асимметрии может быть использован не только для формального описания распределения численностей, но и для содержательной интерпретации полученных данных.
В самом деле, если наблюдаемый нами признак формируется под воздействием большого числа независимых друг от друга причин, каждая из которых вносит относительно небольшой вклад в величину этого признака, то в соответствии с некоторыми теоретическими предпосылками, обсуждавшимися в разделе по теории вероятностей, вправе ожидать, что получаемое в результате эксперимента распределение численностей будет симметричным. Однако если для экспериментальных данных получена значительная величина асимметрии (большая по абсолютной величине, чем 0,5), то можно предположить, что условия, указанные выше, не соблюдаются.
В этом случае имеет смысл предположить либо существование какого-то одного или двух факторов, вклад которых в формирование наблюдаемой в эксперименте величины существенно больше, чем остальных, либо постулировать наличие специального механизма, отличного от механизма независимого влияния множества причин на величину наблюдаемого признака.
Так, например, если изменения интересующей нас величины, соответствующие действию некоторого фактора, пропорциональны самой этой величине и интенсивности действия причины, то получаемое при этом распределение будет всегда скошено влево, иметь положительную асимметрию. С таким механизмом сталкиваются, например, биологи, оценивая величины, связанные с ростом растений и животных.
Другой способ оценки асимметрии основан на методе моментов.
.
Таким образом, мера скошенности представляет собой среднее значение стандартизованных данных, возведенных в куб.
Показатели асимметрии, вычисленные по разным формулам, отличаются друг от друга по величине, но одинаково указывают на характер скошенности. В пакетах прикладных программ для статистического анализа при расчете асимметрии используют последнюю формулу.
Эксцесс
Итак, мы рассмотрели три из четырех групп показателей, с помощью которых описываются распределения численностей. Последней из них является группа показателей островершинности, или эксцесса. Для вычисления одного из возможных показателей эксцесса используется следующая формула:
.
Величина эксцесса для нормальной (гауссовой) кривой распределения, играющей в статистике, так же как и в теории вероятностей большую роль, равна 3. Исходя из целого ряда соображений заостренность этой кривой принимают за стандарт, и поэтому в качестве показателя эксцесса используют величину γ=Ех - 3.
Эксцесс может принимать очень большие значения, , но он не может быть меньше единицы. Оказывается, что если распределение двувершинно (бимодально), то значение эксцесса близко к единице, так что γ близко к -2. Экспериментально установлено, что если значение γ меньше -1,4 , то можно быть уверенным, что имеющееся в нашем распоряжении распределение по крайней мере бимодально. Это особенно важно учитывать, когда эспериментальные данные, минуя стадию предварительной обработки, анализируются с помощью ЭВМ и перед глазами исследователя нет графического изображения распределения численностей.
Работа с качественными переменными
Количественная оценка результатов эксперимента.
Явления, интересующие исследователя, должны изучаться в их взаимосвязи, в зависимости от их структуры, соотношений, в которых они находятся между собой и пр. Для целостного изучения явлений, статистика выработала показатели, известные под названием показателей относительной доли или показателей структуры и показателей соотношения. Эти показатели даются в процентах, промилле, продецимилле и т. д.
Так как наблюдаемый признак в каждом отдельном случае может быть, а может не быть, то такие признаки называются альтернативными, а их обозначение при помощи статистических показателей и анализ этих показателей называется альтернативным анализом.
Техника вычисления относительных величин не трудна (она связана только с действием деления). При анализе же этих показателей часто допускаются ошибки. На некоторых из них следует остановиться.
Для того, чтобы проанализировать типы допускаемых ошибок, следует дать классификацию соответствующих показателей. В общей форме можно назвать 2 категории: показатели структуры и показатели соотношения.
Показатели структуры называются иначе экстенсивными показателями. Их можно разделить на 2 группы: экстенсивно-расчленительные и экстенсивно-указательные. Первые отражают выраженное в процентах соотношение между частью и целым, а вторые - выраженное также в процентах отношение между частями целого.
Из 500 случайно отобранных листьев 450 без повреждений, а остальные погрызены вредителями. В этом случае экстенсивно-расчленительный показатель равен (450/500)100=90 %. Этот процент, дающий представление о структуре совокупности, составляют целые. Экстенсивно-указательный показатель будет обозначать отношение целых к погрызенным: (450/50)100=900 %. Это число показывает, что на 100 погрызенных приходится 900 целых. Иногда экстенсивно-указательные величины вычисляются не в процентах. В приведенном выше примере (450/50)=9 эта цифра показывает, что на 1 испорченный вредителями лист приходится 9 целых. При экстенсивно-указательных величинах не имеет значения какая цифра будет в числителе, а какая в знаменателе. Во взятом примере можно дать отношение и в форме (50/450)=0,11. Изменится только толкование (на один целый приходится 0,11 испорченных).
Показатели соотношения называются также частотами, потому что они показывают частоту изучаемых явлений. Эти показатели можно разделить на 2 категории: интенсивные и координационные показатели. Интенсивные представляют собой соотношение между числом случаев некоторого события и средой, в которой это событие наступает. Координационные же представляют соотношение между числом случаев в двух явлениях, между которыми существует непрямая связь.
В городе Кемерове 100000 детей школьного возраста, население - 500000 человек, а число преподавателей 2000 человек. Требуется вычислить показатель, отражающий количество учеников в составе взрослого населения, и показатель обеспеченности населения учителями.
Так как событием является вступление ребенка в школьный возраст, а средой, в которой оно происходит, - население, то первый показатель будет равняться (100000/500000) 1000=200 на 1000 населения.
Координационным показателем обеспеченности населения учителями является отношение между численностью населения и числом преподавателей. Он может быть вычислен двумя способами: (500000/2000)=225 или (2000/500000) 1000=4. Толкование этих показателей таково: 1) один учитель приходится на 225 человек или 2) на 1000 человек населения приходится 4 преподавателя.
Предложенная классификация дает возможность лучше понять природу ошибок, допускаемых при вычислении относительных показателей.
Не следует забывать, что за вычисленными относительными величинами стоят конкретные данные. Иногда 1 % какого-либо показателя по своему значению равняется 10 % того же показателя, вычисленного для другого объекта. Поэтому при составлении статистических таблиц необходимо вместе с процентными числами приводить и абсолютные числа.
Показатели относительной доли не рекомендуется суммировать или усреднять (кроме некоторых специальных случаев).
Экстенсивно-указательные величины показывают процентное отношение между частями одного и того же целого, поэтому здесь возможен результат как меньший, так и больший 100 %. При вычислении этих показателей необходимо обращать внимание на следующее: окончательный результат различен в зависимости от того, какая из частей целого помещена в числитель, а какая в знаменатель. Рекомендуется в этом случае обращать внимание не на разность в процентах, а на их соотношения, а эти соотношения равны. В первом примере, 11,1(1) % и 900 %. В данном случае (900/100)=9 и (100/11,1(1))=9, т.е. в первом случае в 9 раз меньше, а во втором в 9 раз больше 100 %.
При вычислении интенсивных статистических показателей необходимо тщательно определять среду, в которой происходят изучаемые события. Это определение в некоторых случаях затрудняется тем, что не всегда можно количественно учесть среду. Например, при изучении показателя смертности необходимо знать не только число умерших, но и число заболевших. Однако, в то время как об умерших можно иметь точные данные (на каждого умершего составляется акт о смерти, в который вписана причина смерти), точное число заболевших часто не известно.
Иногда, чтобы избежать этой трудности, вычисление интенсивных статистических показателей заменяется вычислением экстенсивных, что приводит к ошибочным выводам.
Порядок изменения экстенсивных показателей не всегда соответствует порядку изменения интенсивных.
Следует быть особенно осторожными при вычислении показателей относительной доли при малочисленных выборках. Например, решено проверить воздействие определенного токсического вещества только в одном эксперименте. В этом случае возможны только 2 варианта: испытуемое животное или умрет, или не умрет, т.е. для оценки эффекта процент может быть или 0, или 100. В первом случае недооценивается действие испытуемого вещества, во втором оно переоценивается.
При пользовании процентами, являющимися мерой-эталоном сравнения, надо знать основание, в отношении которого они вычислены. Это особенно важно когда имеют дело с так называемой многократной манипуляцией и процентами.
Изучая некоторые явления при помощи интенсивных статистических показателей, сталкиваются с фактом, что величина этих показателей не зависит от структуры среды, в которой имеют место изучаемые явления. Так, например, смертность выше в тех населенных пунктах, в которых число детей раннего детского возраста и стариков больше, потому что среди них смертность наиболее высока.
При таких и подобных им случаях при сравнении интенсивных статистических показателей, вычисленных для среды с различной структурой, необходимо применять так называемый метод стандартизации.
Метод стандартизации ставит себе задачей унифицировать структуру среды, в отношении которой вычисляются интенсивные статистические показатели. Различаются прямой и косвенный методы стандартизации. Прямой метод применяется в тех случаях, когда известны абсолютные числа, характеризующие изучаемое явление, а также среду, в которой оно происходит.
Эти числа необходимо знать раздельно для частей той среды, которая оказывает влияние на величину интенсивных показателей.
Эти числа необходимо знать раздельно для частей той среды, которая оказывает влияние на величину интенсивных показателей. Косвенный метод применяется в тех случаях, когда известна только общая численность изучаемого явления.
Пример. В 1931г. смертность среди служителей культа и шахтеров в Уэльсе была такова
Возрастные группы |
Духовенство |
Шахтеры |
Стандарт L |
Стандартизованные коэффициенты |
|||||
Всего |
умерли |
смертность |
всего |
умерли |
смертность |
духовенство |
шахтеры |
||
16-24 |
200 |
0 |
0 |
70000 |
259 |
3.7 |
22.0 |
0 |
81.4 |
25-34 |
2300 |
0 |
0 |
131000 |
524 |
4.0 |
22.0 |
0 |
88.00 |
35-44 |
3600 |
16 |
4.4 |
102000 |
663 |
6.5 |
17.9 |
78.76 |
116.35 |
45-54 |
4900 |
28 |
5.6 |
77000 |
939 |
12.2 |
16.4 |
91.84 |
200.08 |
55-64 |
5300 |
95 |
17.8 |
49000 |
1279 |
26.2 |
12.6 |
224.28 |
330.12 |
старше 65 |
6400 |
490 |
76.6 |
31000 |
3026 |
97.6 |
9.1 |
697.06 |
888.16 |
Всего |
22700 |
629 |
27.7 |
460000 |
6690 |
14.5 |
100.0 |
1091.94 |
1704.11 |
Если по этим числам вычислить интенсивные статистические показатели смертности, то окажется, что у служителей культа она выше P1=27.7 на 1000 человек (629/22700)*1000; а у шахтеров она ниже P2=14.5=(6690/ /460000)*1000. Однако эти показатели выведены для профессий имеющих различный возрастной состав. Если вычислить показатели смертности для отдельных возрастных групп, то окажется, что смертность шахтеров гораздо выше. Следовательно необходимо применить метод стандартизации для того, чтобы унифицировать возрастную структуру этих двух групп населения. Для использования прямого метода стандартизации необходимо избрать некоторый условный стандарт. В качестве такого стандарта в данном случае избран возрастной состав мужского населения Уэльса в возрасте 16 лет и старше. После этого рассчитываются стандартизованные коэффициенты для отдельных возрастных групп по формуле (P*L).
Эти коэффициенты исчисляются отдельно для обоих групп населения: полученные таким образом цифры суммируются и делятся на 100. Получаются стандартизованные коэффициенты смертности, в которых устранено влияние различной возрастной структуры. В данном примере стандартизованный коэффициент смертности служителей культа составляет 10.92 на 1000, а шахтеров 17.04 на 1000. Следовательно, первоначальное заключение должно быть изменено.
В научных исследованиях применяют два вида статистического исследования: сплошное и выборочное. При выборочном исследовании наблюдение ведется только за частью случаев, входящих в объект исследования, а полученные результаты обобщаются применительно ко всем случаям. Выборочные исследования имеют ряд преимуществ: они дешевле, проводятся в более короткие сроки, а в некоторых случаях являются единственной возможной формой исследования. Однако, так как эти наблюдения не являются сплошными, в них всегда имеется некоторая неточность, называемая ошибкой репрезентативности.
При наблюдении над 100 непреднамеренно подобранными студентами было установлено, что 90 из них любят конфеты (т.е. 90 %) . Так как эта величина получена при относительно малом количестве человек, то возникает вопрос: если провести другие такие же наблюдения, будет ли получен тот же процент.
Очевидно - нет. Следовательно, если поставить вопрос о количестве любителей сладкого, то дать на него ответ в виде точно определенного процента нельзя, можно лишь указать интервал, в границах которого находится интересующий исследователя процент. Этот интервал определяется следующим образом. Его нижняя граница равна Р-D, а верхняя Р+D, где Р - полученный процент, D- размер неточности, допущенной вследствие несплошного характера наблюдения. Эту величину находят по следующей формуле:
, где n - число наблюдаемых случаев, Р - найденный процент; t - в этом случае представляет собой так называемый доверительный коэффициент. При вероятности Р=0,95 (t=1,96), при Р=0,99 (t=2,58).
В использованном примере при доверительной вероятности Р=0,95 и t=1,96.
Видоизменяя формулу, например, можно рассчитать необходимое число наблюдений для получения определенного размера неточности: .
В условиях предыдущей задачи найти число наблюдений, чтобы ошибка не превышала 4 %
Вопросы для самопроверки:
Сравнение двух независимых групп
Т критерий Стьюдента
Пусть проверяемая гипотеза H0 состоит в том, что X1=M, а альтернативная гипотеза H1 состоит в том, что X1M.
Если это известное значение равно M, то , где Sx это выборочное стандартное отклонение.
Показано, что если H0 справедлива, то t в выражении имеет t-распределение Стьюдента с n-1 степенями свободы. Если выбрать уровень значимости (вероятность отбросить нулевую гипотезу) равным , то т. к. распределение Стьюдента симметрично, (1-) часть площади под кривой этого распределения будет заключена между точками , которые равны друг другу по абсолютной величине. Следовательно, все значения меньше отрицательного и больше положительного значения для t-распределения при выбранном уровне значимости будут составлять критическую область. Попадание выборочного значения t в эту область приводит к принятию альтернативной гипотезы.
Итак, пусть в нашем примере известно, что диаметр раковины моллюска равен 18,2мм. В нашем распоряжении оказалась выборка из 50 вновь найденных раковин, для которых x=18,9мм, а Sx=2,18мм. Проверим 18,9=18,2, против 18,918,2.
Если уровень значимости выбрать 0,05, то критическое значение t=2,01. Отсюда следует, что нулевую гипотезу можно отклонить в пользу альтернативной на уровне значимости 0,05. Т.е. можно утверждать, что диаметр раковин зависит от места обитания.
Рассмотрим теперь случай, когда необходимо сравнить между собой средние двух генеральных совокупностей. Проверяемые гипотезы выглядят так: H0: X1- X2=0, H1: X1- X20. Предполагается, что дисперсии в обеих группах равны. Тогда:
, где .
Пусть при измерении листьев одной и той же популяции растений в течение двух сезонов получены следующие результаты: X1=53,5; ; n1=485; X2=50,2; ; n2=325. Оценим H0: X1- X2=0 на уровне значимости 0,01.
Табличное значение t=2,58. Поэтому нулевая гипотеза о равенстве средних значений должна быть отвергнута на выбранном уровне значимости.
Нужно сделать некоторые замечания, связанные с предположениями, используемыми при построении t-критерия. Прежде всего, показано, что нарушения допущения о нормальности для H0: X1- X2=0 имеют незначительное влияние на уровень значимости и мощность критерия для n30. Несущественно также и нарушение предположения об однородности дисперсий обеих генеральных совокупностей, из которых берутся выборки, но только в том случае, когда объемы выборок равны.
Если же n1n2, а дисперсии обеих выборок отличаются друг от друга: .
Критерии согласия для дисперсий
против
Для проверки нулевой гипотезы используется критерий отношений дисперсий Фишера.
.
Так как суммы квадратов отклонений нормально распределенных случайных величин от их средних значений имеют распределение 2, то числитель и знаменатель представляют собой величины с распределением 2, поделенные соответственно на n1 и n2, и следовательно, их отношение имеет F-распределение с n1-1 и n2-1 степенями свободы.
Общепринято и так построены таблицы F-распределения что в качестве числителя берется большая из дисперсий, и поэтому определяется только одна критическая точка, соответствующая выбранному уровню значимости.
U критерий Маана-Уитни
Критерий Манна-Уитни представляет непараметрическую альтернативу t-критерия для независимых выборок.
Критерий Манна-Уитни предполагает, что рассматриваемые переменные измерены, по крайней мере, в порядковой шкале (ранжированы). Интерпретация теста по существу похожа на интерпретацию результатов t-критерия для независимых выборок, за исключением того, что U критерий вычисляется, как сумма индикаторов попарного сравнения элементов первой выборки с элементами второй выборки.
U критерий - наиболее мощная (чувствительная) непараметрическая альтернатива t-критерия для независимых выборок; фактически, в некоторых случаях он имеет даже большую мощность, чем t-критерий.
Если объем выборки больше 20, то распределение выборки для U статистики быстро сходится к нормальному распределению.
Поэтому вместе с U статистикой часто показываются z значения (для нормального распределения и соответствующее p-значение.
Проверим гипотезу о принадлежности сравниваемых независмых выборок к одной и той же генеральной совокупности с помощью непараметрического U-критерия Манна-Уитни. Сравним результаты, полученные в примере 1 для 2-го и 3-го столбцов таблицы по критерий Стьюдента, с результатами непараметрического сравнения. Для расчета U-критерия расположим варианты сравниваемых выборок в порядке возрастания в один обобщенный ряд и присвоим вариантам обобщенного ряда ранги от 1 до n1 + n2. Первая строка представляет собой варианты первой выборки, вторая - второй выборки, третья - соответствующие ранги в обобщенном ряду:
6 |
7 |
7 |
8 |
8 |
|
9 |
9 |
9 |
|
|
10 |
11 |
|
|
|
|
|
|
|
|
|
|
|
|
8 |
|
|
|
9 |
9 |
|
|
11 |
11 |
12 |
12 |
12 |
13 |
13 |
1 |
2,5 |
2,5 |
5 |
5 |
5 |
9 |
9 |
9 |
9 |
9 |
12 |
14 |
14 |
14 |
17 |
17 |
17 |
19,5 |
19,5 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
Надо обратить внимание, что если имеются одинаковые варианты, им присваивается средний ранг, однако значение последнего ранга должно быть равно n1 + n2 (в нашем случае 20). Это правило используют для проверки правильности ранжирования.
Отдельно для каждой выборки рассчитываем суммы рангов их вариант R1 и R2. В нашем случае:
R1 = 1 + 2,5 + 2,5 + 5 + 5 + 9 + 9 + 9 + 12 + 14 = 69
R2 = 5 + 9 + 9 + 14 + 14 + 17 + 17 +17 + 19,5 + 19,5 = 141
Для проверки правильности вычислений можно воспользоваться другим правилом: R1 + R2 = 0,5 * (n1 + n2) * (n1 + n2 + 1). В нашем случае R1 + R2 = 210.
Статистика U1 = 69 - 10*11/2 = 14; U2 = 141 - 10*11/2 = 86.
Для проверки одностороннего критерия выбираем минимальную статистику U1 = 14 и сравниваем ее с критическим значением для n1 = n2 = 10 и уровня значимости 1%, равным 19. Так как вычисленное значение критерия меньше табличного, нулевая гипотеза отвергается на выбранном уровне значимости, и различия между выборками признаются статистически значимыми.
Сравнение качественных признаков
Критерий χ2
Условия применения: объем выборки n 40, выборочные данные сгруппированы в интервальный вариационный ряд с числом интервалов не менее 7, ожидаемые (теоретические) частоты интервалов не должны быть меньше 5.
Проверяемая гипотеза H0 состоит в том, что плотность распределения генеральной совокупности, из которой была взята выборка соответствует теоретической модели.
Хи-квадрат = ∑(Э - Т)² / Т
df = (R - 1) * (C - 1), где R количество строк в таблице, C количество столбцов.
К примеру, психолог хочет узнать, действительно ли то, что учителя более предвзято относятся к мальчикам, чем к девочкам. Т.е. более склонны хвалить девочек. Для этого психологом были проанализированы характеристики учеников, написанные учителями. Данные о частоте встречаемости слов были занесены в таблицу:
|
«Активный» |
«Старательный» |
«Дисциплинированный» |
Мальчики |
10 |
5 |
6 |
Девочки |
6 |
12 |
9 |
Для этого построим таблицу распределения эмпирических частот, т.е. тех частот, которые мы наблюдаем:
|
«Активный» |
«Старательный» |
«Дисциплинированный» |
Итого: |
Мальчики |
10 |
5 |
6 |
21 |
Девочки |
6 |
12 |
9 |
27 |
Итого: |
16 |
17 |
15 |
n = 48 |
Теоретически, мы ожидаем, что частоты распределятся равновероятно, т.е. частота распределится пропорционально между мальчиками и девочками. Построим таблицу теоретических частот. Для этого умножим сумму по строке на сумму по столбцу и разделим получившееся число на общую суму (n).
|
«Активный» |
«Старательный» |
«Дисциплинированный» |
Итого: |
Мальчики |
(21 * 16)/48 = 7 |
(21 * 17)/48 = 7.44 |
(21 * 15)/48 = 6.56 |
21 |
Девочки |
(27 * 16)/48 = 9 |
(27 * 17)/48 = 9.56 |
(27 * 15)/48 = 8.44 |
27 |
Итого: |
16 |
17 |
15 |
n = 48 |
Итоговая таблица для вычислений будет выглядеть так:
Категория 1 |
Категория 2 |
Эмпирич. |
Теоретич. |
(Э-Т)2/Т |
Мальчики |
«Активный» |
10 |
7 |
1,28 |
|
«Старательный» |
5 |
7,44 |
0,8 |
|
«Дисциплини-рованный» |
6 |
6,56 |
0,47 |
Девочки |
«Активный» |
6 |
9 |
1 |
|
«Старательный» |
12 |
9,56 |
0,62 |
|
«Дисциплини-рованный» |
9 |
8,44 |
0,04 |
|
|
|
|
Сумма: 4,21 |
В нашем случае хи-квадрат = 4,21; df = 2.
По таблице критических значений критерия находим: при df = 2 и уровне ошибки 0,05 критическое значение χ2 = 5,99.
Полученное значение меньше критического, а значит принимается нулевая гипотеза. Вывод: учителя не придают значение полу ребенка при написании ему характеристики.
Сравнение долей
Для сравнения частот применяется Т-критерий Стьюдента для долей
Точный тест Фишера
Точный метод ФишераИрвина (критерий ФишераИрвина, точный метод Фишера) применяется для проверки нулевой гипотезы о том, отобраны ли две исследуемые бинарные (дихотомические) выборки из генеральных совокупностей с одинаковой частотой встречаемости изучаемого эффекта. Рассматриваемый метод предназначен для обработки так называемых четырехпольных (четырехклеточных) таблиц, или таблиц «2 х 2».
Таблицы 2х2 или четырехпольные таблицы имеют вид
|
Есть эффект |
Нет эффекта |
|
1 группа |
a |
b |
a+b |
2 группа |
c |
d |
c+d |
|
a+c |
b+d |
a+b+c+d |
где a,b,c,d - наблюдаемые частоты
a+b, c+d - суммы частот по строкам
a+c, b+d - суммы частот по колонкам
a+b+c+d - общее число наблюдений
В результате вычислений получается точное значение уровня значимости нулевой гипотезы. Вычисление производится по формуле:
Допустим имеется таблица "2х2" следующего вида:
2 |
3 |
6 |
4 |
Подсчитываем маргинальные частоты для данной таблицы:
2 |
3 |
5 |
6 |
4 |
10 |
8 |
7 |
15 |
p=(2+3)!*(6+4)!*(2+6)!*(3+4)!/((2+3+6+4)!*2!*3!*6!*4!)=0,326
Для вычисления одностороннего значения уровня значимости необходимо найти сумму всех вероятностей для комбинаций данной таблицы со значениями от 0 до вероятности данной таблицы (0,326).
Для вычисления двустороннего значения уровня значимости необходимо найти сумму всех вероятностей для комбинаций данной таблицы со значениями меньше или равными данной таблицы (0,326).
Минимальная маргинальная частота равна 5, поэтому для данной таблицы возможно (5+1) комбинаций с заданными маргинальными частотами.
0 |
5 |
p=(0+5)!*(8+2)!*(0+8)!*(5+2)!/((0+8+5+2)!*0!*8!*5!*2!)=0,007 |
8 |
2 |
|
1 |
4 |
p=(1+4)!*(7+7)!*(1+7)!*(4+7)!/((1+4+7+7)!*1!*4!*7!*7!)=0,093 |
7 |
7 |
|
2 |
3 |
p=(2+3)!*(6+4)!*(2+6)!*(3+4)!/((2+3+6+4)!*2!*3!*6!*4!)=0,326 |
6 |
4 |
|
3 |
2 |
p=(3+2)!*(5+5)!*(3+5)!*(2+5)!/((3+2+5+5)!*3!*2!*5!*5!)=0,392 |
5 |
5 |
|
4 |
1 |
p=(4+1)!*(4+6)!*(4+4)!*(1+6)!/((4+1+4+6)!*4!*1!*4!*6!)=0,163 |
4 |
6 |
|
5 |
0 |
p=(5+0)!*(3+7)!*(5+3)!*(0+7)!/((5+0+3+7)!*5!*0!*3!*7!)=0,019 |
3 |
7 |
Таким образом уровень значимости для односторонней гипотезы составляет:
P=0,326 +0,093 + 0,007 = 0,426
а для двусторонней гипотезы:
P=0,326 + 0,093 + 0,007 + 0,163 + 0,019 = 0,608
Сравнение более двух независимых групп
Однофакторный дисперсионный анализ Фишера
Дисперсионный анализ это статистический метод оценки связи между факторными и результативным признаками в различных группах, отобранный случайным образом, основанный на определении различий (разнообразия) значений признаков. В основе дисперсионного анализа лежит анализ отклонений всех единиц исследуемой совокупности от среднего арифметического. В качестве меры отклонений берется дисперсия (В) средний квадрат отклонений. Отклонения, вызываемые воздействием факторного признака (фактора) сравниваются с величиной отклонений, вызываемых случайными обстоятельствами. Если отклонения, вызываемые факторным признаком, более существенны, чем случайные отклонения, то считается, что фактор оказывает существенное влияние на результативный признак.
Для того, чтобы вычислить дисперсию значения отклонений каждой варианты (каждого зарегистрированного числового значения признака) от среднего арифметического возводят в квадрат. Тем самым избавляются от отрицательных знаков. Затем эти отклонения (разности) суммируют и делят на число наблюдений, т.е. усредняют отклонения. Таким образом, получают значения дисперсий.
Важным методическим значением для применения дисперсионного анализа является правильное формирование выборки. В зависимости от поставленной цели и задач выборочные группы могут формироваться случайным образом независимо друг от друга (контрольная и экспериментальная группы для изучения некоторого показателя, например, влияние высокого артериального давления на развитие инсульта). Такие выборки называются независимыми.
Нередко результаты воздействия факторов исследуются у одной и той же выборочной группы (например, у одних и тех же пациентов) до и после воздействия (лечение, профилактика, реабилитационные мероприятия), такие выборки называются зависимыми.
Дисперсионный анализ, в котором проверяется влияние одного фактора, называется однофакторным (одномерный анализ). При изучении влияния более чем одного фактора используют многофакторный дисперсионный анализ (многомерный анализ).
Факторные признаки это те признаки, которые влияют на изучаемое явление.
Результативные признаки это те признаки, которые изменяются под влиянием факторных признаков.
Условия применения дисперсионного анализа:
Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния различных факторов (пол и возраст, физическая активность и питание и т.д.).
Изучаемые факторы должны быть независимые (несвязанные) между собой. Например, нельзя изучать совместное влияние стажа работы и возраста, роста и веса детей и т.д. на заболеваемость населения.
Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (перев. с англ. random), т.е. выбранные наугад.
Можно применять как количественные, так и качественные (атрибутивные) признаки.
При проведении однофакторного дисперсионного анализа рекомендуется (необходимое условие применения):
Сначала формулируется нулевая гипотеза, то есть предполагается, что исследуемые факторы не оказывают никакого влияния на значения результативного признака и полученные различия случайны.
Затем определяем, какова вероятность получить наблюдаемые (или более сильные) различия при условии справедливости нулевой гипотезы.
Если эта вероятность мала, то мы отвергаем нулевую гипотезу и заключаем, что результаты исследования статистически значимы. Это еще не означает, что доказано действие именно изучаемых факторов (это вопрос, прежде всего, планирования исследования), но все же маловероятно, что результат обусловлен случайностью.
При выполнении всех условий применения дисперсионного анализа, разложение общей дисперсии математически выглядит следующим образом:
Doбщ. = Dфакт + D ост.,
Doбщ. - общая дисперсия наблюдаемых значений (вариант), характеризуется разбросом вариант от общего среднего. Измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Общее разнообразие складывается из межгруппового и внутригруппового;
Dфакт - факторная (межгрупповая) дисперсия, характеризуется различием средних в каждой группе и зависит от влияния исследуемого фактора, по которому дифференцируется каждая группа. Например, в группах различных по этиологическому фактору клинического течения пневмонии средний уровень проведенного койко-дня неодинаков наблюдается межгрупповое разнообразие.
D ост. - остаточная (внутригрупповая) дисперсия, которая характеризует рассеяние вариант внутри групп. Отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неуточненных факторов и не зависящую от признака фактора, положенного в основание группировки. Вариация изучаемого признака зависит от силы влияния каких-то неучтенных случайных факторов, как от организованных (заданных исследователем), так и от случайных (неизвестных) факторов.
Поэтому общая вариация (дисперсия) слагается из вариации, вызванной организованными (заданными) факторами, называемыми факториальной вариацией и неорганизованными факторами, т.е. остаточной вариацией (случайной, неизвестной).
Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS (от английского Sum of Squares - Сумма квадратов). Далее слово выборочная мы часто опускаем, прекрасно понимая, что рассматривается выборочная дисперсия или оценка дисперсии. В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Рассмотрим следующий набор данных:
|
Группа 1 |
Группа 2 |
Наблюдение 1 |
2 |
6 |
Наблюдение 2 |
3 |
7 |
Наблюдение 3 |
1 |
5 |
Среднее |
2 |
6 |
Сумма квадратов (СК) |
2 |
2 |
Общее среднее |
4 |
|
Общая сумма квадратов |
28 |
Средние двух групп существенно различны (2 и 6 соответственно). Сумма квадратов отклонений внутри каждой группы равна 2. Складывая их, получаем 4. Если теперь повторить эти вычисления без учета групповой принадлежности, то есть, если вычислить SS исходя из общего среднего этих двух выборок, то получим величину 28. Иными словами, дисперсия (сумма квадратов), основанная на внутригрупповой изменчивости, приводит к гораздо меньшим значениям, чем при вычислении на основе общей изменчивости (относительно общего среднего). Причина этого, очевидно, заключается в существенной разнице между средними значениями, и это различие между средними и объясняет существующее различие между суммами квадратов.
|
SS |
ст.св. |
MS |
F |
p |
Эффект |
24.0 |
1 |
24.0 |
24.0 |
.008 |
Ошибка |
4.0 |
4 |
1.0 |
|
|
Как видно из таблицы, общая сумма квадратов SS = 28 разбита на компоненты: сумму квадратов, обусловленную внутригрупповой изменчивостью (2+2=4; см. вторую строку таблицы) и сумму квадратов, обусловленную различием средних значений между группами (28-(2+2)=24; см первую строку таблицы). Заметим, что MS в этой таблице есть средний квадрат, равный SS, деленная на число степеней свободы (ст.св).
В рассмотренном выше простом примере вы могли бы сразу вычислить t-критерий для независимых выборок. Полученные результаты, естественно, совпадут с результатами дисперсионного анализа.
Однако, ситуации, когда некоторое явление полностью описывается одной переменной, чрезвычайно редки. Например, если мы пытаемся научиться выращивать большие помидоры, следует рассматривать факторы, связанные с генетической структурой растений, типом почвы, освещенностью, температурой и т.д. Таким образом, при проведении типичного эксперимента приходится иметь дело с большим количеством факторов. Основная причина, по которой использование дисперсионного анализа предпочтительнее повторного сравнения двух выборок при разных уровнях факторов с помощью серий t-критерия, заключается в том, что дисперсионный анализ существенно более эффективен и, для малых выборок, более информативен.
Предположим, что в рассмотренном выше примере анализа двух выборок мы добавим еще один фактор, например, Пол. Пусть каждая группа теперь состоит из 3 мужчин и 3 женщин. План этого эксперимента можно представить в виде таблицы:
|
Экспериментальная группа 1 |
Экспериментальная группа 2 |
Мужчины |
2 |
6 |
|
3 |
7 |
|
1 |
5 |
Среднее |
2 |
6 |
Женщины |
4 |
8 |
3 |
5 |
9 |
1 |
3 |
7 |
Среднее |
4 |
8 |
До проведения вычислений можно заметить, что в этом примере общая дисперсия имеет, по крайней мере, три источника:
Отметим, что существует еще один возможный источник изменчивости - взаимодействие факторов, который мы обсудим позднее). Что произойдет, если мы не будем включать пол как фактор при проведении анализа и вычислим обычный t-критерий? Если мы будем вычислять суммы квадратов, игнорируя пол (т.е. объединяя объекты разного пола в одну группу при вычислении внутригрупповой дисперсии и получив при этом сумму квадратов для каждой группы равную SS =10 и общую сумму квадратов SS = 10+10 = 20), то получим большее значение внутригрупповая дисперсии, чем при более точном анализе с дополнительным разбиением на подгруппы по полу (при этом внутригрупповые средние будут равны 2, а общая внутригрупповая сумма квадратов равна SS = 2+2+2+2 = 8).
Итак, при введении дополнительного фактора: пол, остаточная дисперсия уменьшилась. Это связано с тем, что среднее значение для мужчин меньше, чем среднее значение для женщин, и это различие в средних значениях увеличивает суммарную внутригрупповую изменчивость, если фактор пола не учитывается. Управление дисперсией ошибки увеличивает чувствительность (мощность) критерия.
На этом примере видно еще одно преимущество дисперсионного анализа по сравнению с обычным t-критерием для двух выборок. Дисперсионный анализ позволяет изучать каждый фактор, управляя значениями других факторов. Это, в действительности, и является основной причиной его большей статистической мощности (для получения значимых результатов требуются меньшие объемы выборок). По этой причине дисперсионный анализ даже на небольших выборках дает статистически более значимые результаты, чем простой t-критерий.
Критерий Краскела-Уоллиса
Критерий Краскела-Уоллиса - это непараметрическая альтернатива одномерному (межгрупповому) дисперсионному анализу. Он используется для сравнения трех или более выборок, и проверяет нулевые гипотезы, согласно которым различные выборки были взяты из одного и того же распределения, или из распределений с одинаковыми медианами. Таким образом, интерпретация критерия Краскела-Уоллиса в основном сходна с параметрическим одномерным дисперсионным анализом, за исключением того, что этот критерий основан скорее на рангах, чем на средних.
Сравнение двух зависимых групп
Парный Т критерий Стьюдента
В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента.
Вычисление значения t осуществляется по формуле:
где di=xi-yi разности между соответствующими значениями переменной X и переменной У, а d - среднее этих разностей;
Sd вычисляется по следующей формуле:
Число степеней свободы k определяется по формуле k=n-1. Рассмотрим пример использования t-критерия Стьюдента для связных и, очевидно, равных по численности выборок.
Если tэмп<tкрит, то нулевая гипотеза принимается, в противном случае принимается альтернативная.
Изучался уровень ориентации учащихся на художественно-эстетические ценности. С целью активизации формирования этой ориентации в экспериментальной группе проводились беседы, выставки детских рисунков, были организованы посещения музеев и картинных галерей, проведены встречи с музыкантами, художниками и др. Закономерно встает вопрос: какова эффективность проведенной работы? С целью проверки эффективности этой работы до начала эксперимента и после давался тест.
До эксперимента |
После эксперимента |
d |
d2 |
|
1 |
14 |
18 |
4 |
16 |
2 |
20 |
19 |
-1 |
1 |
3 |
15 |
22 |
7 |
49 |
4 |
11 |
17 |
6 |
36 |
5 |
16 |
24 |
8 |
64 |
6 |
13 |
21 |
8 |
64 |
7 |
16 |
25 |
9 |
81 |
8 |
19 |
26 |
7 |
49 |
9 |
15 |
24 |
9 |
81 |
10 |
9 |
15 |
6 |
36 |
Сумма |
148 |
211 |
63 |
477 |
d=63/10=6,3
=6,678
Число степеней свободы: k=10-1=9 и по таблице приложения находим tкрит =2.262, экспериментальное t=6,678, откуда следует возможность принятия альтернативной гипотезы (H1) о достоверных различиях средних арифметических, т. е. делается вывод об эффективности экспериментального воздействия.
В терминах статистических гипотез полученный результат будет звучать так: на 5% уровне гипотеза Н0 отклоняется и принимается гипотеза Н1
Парный критерий Т Вилкоксона
Для решения задач, в которых осуществляется сравнение двух рядов чисел психолог может использовать парный критерий Т - Вилкоксона. Этот критерий применяется для оценки различий экспериментальных данных, полученных в двух разных условиях на одной и той же выборке испытуемых. Он позволяет выявить не только направленность изменений, но и их выраженность, т. е. он позволяет установить, насколько сдвиг показателей в каком-то одном направлении является более интенсивным, чем в другом.
Критерий Т основан на ранжировании абсолютных величин разности между двумя рядами выборочных значений в первом и втором эксперименте (например, до и после какого-либо воздействия). Ранжирование абсолютных величин означает, что знаки разностей не учитываются, однако в дальнейшем наряду с общей суммой рангов находится отдельно сумма рангов, как для положительных, так и для отрицательных сдвигов. Если интенсивность сдвига в одном направлении оказывается большей, то и соответствующая сумма рангов также оказывается больше. Этот сдвиг называется типичным, а противоположный, меньший по сумме рангов сдвиг - нетипичным. Эти два сдвига оказываются дополнительными друг другу. Критерий Т - Вилкоксона базируется на величине нетипичного сдвига, который называется Тэмп.
Психолог проводит с младшими школьниками коррекционную работу по формированию навыков внимания, используя для оценки результатов корректурную пробу. Задача состоит в том, чтобы определить, будет ли уменьшаться количество ошибок внимания у младших школьников после специальных коррекционных упражнений.
Для решения этой задачи психолог у 19 детей определяет количество ошибок при выполнении корректурной пробы до и после коррекционных упражнений. В таблице приведены соответствующие экспериментальные данные и дополнительные столбцы, необходимые для работы по парному критерию Т - Вилкоксона.
|
До |
После |
Сдвиг |
Абсолютные величины разностей |
Ранги |
Нетипичный сдвиг |
1 |
24 |
22 |
-2 |
2 |
10,5 |
|
2 |
12 |
12 |
0 |
0 |
2 |
|
3 |
42 |
41 |
-1 |
1 |
6,5 |
|
4 |
30 |
31 |
1 |
1 |
6,5 |
* |
5 |
40 |
32 |
-8 |
8 |
15 |
|
6 |
55 |
44 |
-11 |
11 |
16 |
|
7 |
50 |
50 |
0 |
0 |
2 |
|
8 |
52 |
32 |
-20 |
20 |
18 |
|
9 |
50 |
32 |
-18 |
18 |
17 |
|
10 |
22 |
21 |
-1 |
1 |
6,5 |
|
11 |
33 |
34 |
1 |
1 |
6,5 |
* |
12 |
78 |
56 |
-22 |
22 |
19 |
|
13 |
79 |
78 |
-1 |
1 |
6,5 |
|
14 |
25 |
23 |
-2 |
2 |
10,5 |
|
15 |
28 |
22 |
-6 |
6 |
13,5 |
|
16 |
16 |
12 |
-4 |
4 |
12 |
|
17 |
17 |
16 |
-1 |
1 |
6,5 |
|
18 |
12 |
18 |
6 |
6 |
13,5 |
* |
19 |
25 |
25 |
0 |
0 |
2 |
|
Сумма |
|
|
|
|
190 |
26,5 |
Обработка данных по критерию Т - Вилкоксона осуществляется следующим образом:
В четвертый столбец таблицы вносятся величины сдвигов с учетом знака. Их вычисляют путем вычитания из чисел третьего столбца соответствующих чисел второго столбца.
В пятом столбце в соответствие каждому значению сдвига ставят его абсолютную величину.
В шестом столбце ранжируют абсолютные величины сдвигов, представленных в пятом столбце.
По формуле: подсчитывают сумму рангов. В нашем примере она составляет:
12,5 + 6,5 + 6,5 + 15 + 16 + 2 + 18 + 17 + 6,5 + 6,5 + 19 + 6,5 + 10,5 + 13,5 + 12 + 6,5 + 13,5 +2 = 190
Проверяют правильность ранжирования на основе совпадения сумм рангов полученных двумя способами. В нашем случаи обе величины совпали, 190 = 190, следовательно, ранжирование проведено правильно.
Любым символом отмечают все имеющиеся в таблице нетипичные сдвиги. В нашем случае это три положительных сдвига.
Суммируют ранги нетипичных сдвигов. Это и будет искомая величина . В нашем случае эта сумма равна: = 6,5 + 13,5 + 6,5 = 26,5.
Ткрит для P<=0,05=53
Ткрит для P<=0,01=38
Cледовательно, можно утверждать, что зафиксированные в эксперименте изменения не случайны и значимы на 1% уровне. Таким образом, психолог может говорить о том, что применение коррекционных упражнений способствует повышению точности выполнения корректурной пробы, следовательно, оказывает положительное влияние на развитие внимания школьников.
Критерий X2r Фридмана
Назначение критерия
Критерий X2r применяется для сопоставления показателей, измеренных в трех или более условиях на одной и той же выборке испытуемых.
Критерий позволяет установить, что величины показателей от условия к условию изменяются, но при этом не указывает на направление изменений.
Данный критерий является распространением критерия Т Вилкоксона на большее, чем 2, количество условий измерения. Однако здесь мы ранжируем не абсолютные величины сдвигов, а сами индивидуальные значения, полученные данным испытуемым в 1, 2, 3 и т. д. замерах.
Гипотезы
Н0: Между показателями, полученными (измеренными) в разных условиях, существуют лишь случайные различия.
H1: Между показателями, полученными в разных условиях, существуют неслучайные различия.
Например, если у испытуемого в первом замере определена скорость прохождения графического лабиринта 54 сек, во втором замере - 42 сек, а в третьем замере - 63 сек, то эти показатели получат ранги, соответственно, 2, 1, 3, поскольку меньшему значению, полученному во втором замере, мы начислим ранг 1, среднему значению, полученному в первом замере - ранг 2, а наибольшему значению, полученному в третьем замере - ранг 3.
После того, как все значения будут проранжированы, подсчитываются суммы рангов по столбцам для каждого из произведенных замеров.
Если различия между значениями признака, полученными в разных условиях, случайны, то суммы рангов по разным условиям будут приблизительно равны. Но если значения признака изменяются в разных условиях каким-то закономерным образом, то в одних условиях будут преобладать высокие ранги, а в других - низкие. Суммы рангов будут достоверно различаться между собой. Эмпирическое значение критерия X2r и указывает на то, насколько различаются суммы рангов. Чем больше эмпирическое значение X2r , тем более существенные расхождения сумм рангов оно отражает.
Если X2r равняется критическому значению или превышает его, различия статистически достоверны.
Тест Мак-Немара
Критерий Мак-Немара - является аналогом параметрического критерия Стьюдента и непараметрического критерия Вилкоксона, применяется для анализа связанных измерений в случае изменения реакции с помощью дихотомической переменной.
До |
После |
|
0 |
1 |
|
0 |
a |
b |
1 |
c |
d |
Этот метод позволяет сравнить долю респондентов, которые не имели некоторой характеристики (0) во время первого обследования (например до воздействия), но стали обладать ею во время повторного обследования (1), с долей тех, кто имел это свойство (1), но перестал иметь его после (0).
Вычисляются два значения хи-квадрат: для ячеек А и D и для ячеек B и C. A/D хи-квадрат проверяет гипотезу о том, что частоты в ячейках A и D (верхняя левая, нижняя правая) одинаковы. B/C хи-квадрат проверяет гипотезу о равенстве частот в ячейках B и C (верхняя правая, нижняя левая). Метод не может использоваться для выборок, содержащих меньше 10 элементов.
Для ячеек А и D эмпирическое значение хи-квадрат для теста Мак-Немара вычисляется по формуле
Нулевая гипотеза формулируется как Н0: P(A) = P(D).
Для ячеек B и C эмпирическое значение хи-квадрат для теста Мак-Немара вычисляется по формуле
Нулевая гипотеза формулируется как Н0: P(A) = P(D).
Корреляционный анализ
Различают два типа связей между различными явлениями и их признаками: функциональную или жестко детерминированную, с одной стороны, и статистическую или стохастически детерминированную, с другой. Строго определить различие этих двух типов связи можно тогда, когда они получают математическую формулировку. Для простоты будем говорить о связи двух явлений или двух признаков, математически отображаемой в форме уравнения связи двух переменных.
Если с изменением значения одной из переменных вторая изменяется строго определенным образом, т. е. значению одной переменной соответствует одно или несколько точно заданных значений другой переменной, связь между ними является функциональной.
Нередко говорят о строгом соответствии лишь одного значения второй из переменных каждому значению первой из них, но это неверно. Например, связь между x и y является строго функциональной если y=√x; но значению x=4 соответствует не одно, а два значения; y1=2 и y2=-2. Уравнения более высоких степеней могут иметь несколько корней, связь разумеется остается функциональной.
Функциональная связь двух величин возможна лишь при условии, что вторая из них зависит только от первой и ни от чего более. В реальной природе таких связей нет; они являются лишь абстракциями, полезными и необходимыми при анализе явлений, но упрощающими реальность. Функциональная зависимость данной величины y от многих факторов x1, x2, ... xk возможна только в том случае, если величина y всегда зависит только от переменного набора факторов x1, x2, ... xk и ни от чего больше. Между тем все явления и процессы реального мира связаны между собой, и нет такого конечного числа переменных k, которые абсолютно полно определяли бы собой зависимую величину y. Следовательно, множественная функциональная зависимость переменных есть тоже абстракция, упрощающая реальность.
Однако в науке успешно используют представление связей как функциональных не только в аналитических целях, но нередко и в целях прогнозирования. Это возможно потому, что в некоторых простых системах интересующая нас переменная зависит в основном (скажем на 99% или даже на 99.99%) от немоногих других переменных или только от одной переменной. То есть связь в такой несложной системе является хотя и не абсолютно функциональной, но практически очень близкой к таковой.
Длина года (период обращения Земли вокруг Солнца) почти функционально зависит только от массы Солнца и расстояния Земли от него. На самом деле она зависит в очень слабой степени и от масс, и расстояния других планет от Земли, но вносимые ими (и тем более в миллионы раз более далекими звездами) искажения функциональной связи для всех практических целей, кроме космонавтики, пренебрежимо малы.
Статистическая связь не имеет ограничений и условий, присущих функциональной связи. Если с изменением значения одной переменной вторая может в определенных пределах принимать любые значения с вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону - связь является статистической. Иными словами, при статистической связи разным значениям одной переменной соответствуют разные распределения значений другой переменной.
Корреляционной связью называют важнейший частный случай статистической связи, состоящий в том, что различным значениям одной переменной соответствуют различные средние значения другой. С изменением значения x закономерным образом изменяется среднее значение признака y; в то время как в каждом отдельном случае значение признака y (с различными степенями вероятности) может принимать множество различных значений.
Если же с изменением значения признака x среднее значение признака y не изменяется закономерным образом, но закономерно изменяется другая статистическая характерис-тика (показатели вариации, асимметрии, эксцесса и т.п.), то связь является не корреляционной, а статистической.
Статистическая связь между двумя признаками (переменными величинами) предполагает, что каждый из них имеет случайную вариацию индивидуальных значений относительно средней величины. Если же такую вариацию имеет лишь один из признаков, а значения другого являются строго детерминированными, то говорят лишь о регрессии, но не о статистической (тем более корреляционной) связи.
При анализе динамических рядов можно измерять регрессию уровней ряда урожайности (имеющих случайную изменчивость) на номера лет. Но нельзя говорить о корреляции между ними и применять показатели корреляции с соответствующей им интерпретацией.
Само слово корреляция ввел в употребление в статистику английский биолог и статистик Френсис Гальтон в конце XIX века. Тогда оно писалось как “corelation” (соответствие), но не просто “связь” (relation), а “как бы связь”, т.е. связь, но не в привычной функциональной форме. В науке вообще, а именно в палеонтологии, термин “корреляция” применял еще раньше, в конце XVIII века французский палеонтолог Жорж Кювье. Он ввел даже “закон корреляции” частей и органов животных. “Закон корреляции” помогает восстановить по найденным в раскопках черепу, костям и т.д. облик всего животного и его место в системе: если череп с рогами, то это было травоядное животное, а его конечностями были копыта; если же лапа с когтями - то хищное животное без рогов, но с крупными клыками.
Например, измеряем рост и вес человека, каждое измерение представлено точкой в двумерном пространстве:
Несмотря на то, что величины носят случайный характер, в общем наблюдается некоторая зависимость - величины коррелируют.
В данном случае это положительная корреляция (при увеличении одного параметра второй тоже увеличивается). Возможны также такие случаи:
Отрицательная корреляция: |
Отсутствие корреляции: |
Взаимосвязь между переменными необходимо охарактеризовать численно, чтобы, например, различать такие случаи:
Корреляционная связь между признаками может возникать различными путями:
Вычисление и интерпретация параметров
парной линейной корреляции
Простейшей системой корреляционной связи является линейная связь между двумя признаками - парная линейная корреляция. Практическое ее значение в том, что есть системы, в которых среди всех факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей. Есть такие системы связей, при изучении которых необходимо предпочесть парную корреляцию.
Условия применения и ограничения корреляционно анализа
Поскольку корреляционная связь является статистической, первым условием возможности ее изучения является общее условие всякого статистической исследования: наличие данных по достаточно большой совокупности явлений. По отдельным явлениям можно получить совершенно неправильное представление о связи признаков, ибо в каждом отдельном явлении значения признаков кроме закономерной составляющей имеют случайное отклонение (вариацию).
Какое именно число наблюдений достаточно для анализа корреляционной и вообще статистической связи, зависит от цели анализа, требуемой точности и надежности параметров связи, от числа факторов с которыми корреляция изучается. Обычно считают, что число наблюдений должно быть не менее чем в 5-6 раз, а лучше не менее чем в 10 раз больше числа факторов. Еще лучше если число наблюдений в несколько десятков или в сотни раз больше числа факторов, тогда закон больших чисел, действуя в полную силу, обеспечивает эффективное взаимопогашение случайных отклонений от закономерного характера связи признаков.
Вторым условием закономерного проявления корреляционной связи служит условие, обеспечивающее надежное выражение закономерности в средней величине. Кроме уже указанного большого числа единиц совокупности для этого необходима достаточно качественная однородность совокупности. Нарушение этого условия может извратить параметры корреляции.
Наблюдается прямая зависимость между численностью животных и площадью на которой она подсчитывалась. Однако, есть колониальные животные и есть одиночные и, если исследовать зависимость между общим числом животных всех видов и площадью, то получится совершенно другая зависимость.
Иногда как условие корреляционного анализа выдвигают необходимость подчинения распределения совокупности по результативному и факторным признакам нормальному закону распределения вероятностей. Это условие связано с применением метода наименьших квадратов при расчете параметров корреляции: только при нормальном распределении метод наименьших квадратов дает оценку параметров, отвечающую принципам максимального правдоподобия. На практике эта предпосылка чаще всего выполняется приближенно, но и тогда метод наименьших квадратов дает неплохие результаты.
Однако при значительном отклонении распределений признаков от нормального закона нельзя оценивать надежность выборочного коэффициента корреляции, используя параметры нормального распределения вероятности или распределения Стьюдента.
Еще одним спорным вопросом является допустимость применения корреляционного анализа к функционально связанным признакам. Безусловно нельзя проводить корреляционный анализ в тех случаях когда заведомо известно, что между параметрами существует жестко детерминированная связь.
Однако, полезно проводить корреляционный анализ если уровень зависимости параметров обычно жестко детерминированных, может в ряде случаев принимать другую форму.
Корреляционный анализ учитывает межфакторные связи, следовательно дает нам более полное измерение роли каждого фактора: прямое, непосредственное его влияние на результативный признак; косвенное влияние фактора через влияние его на другие факторы; влияние всех факторов на результативный признак. Если связь между факторами несущественна, можно ограничиться индексным анализом. В противном случае его полезно дополнить корреляционно-регрессионным измерением влияния факторов, даже если они функционально связаны с результативным признаком.
Вычисление и интерпретация параметров
парной линейной корреляции
Простейшей системой корреляционной связи является линейная связь между двумя признаками - парная линейная корреляция. Практическое ее значение в том, что есть системы, в которых среди всех факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей. Есть такие системы связей, при изучении которых необходимо предпочесть парную корреляцию.
Измерение связи количественных признаков
В случае, когда параметры измеряются количественно, теснота парной линейной корреляционной связи может быть измерена корреляционным отношением:
.
Кроме того, при линейной форме уравнения применяется и другой показатель тесноты связи - коэффициент корреляции rxy. Этот показатель представляет собой стандартизованный коэф-фициент регрессии, т.е. коэффициент выраженный не в абсолют-ных единицах измерения признаков, а в долях среднего квадратичного отклонения результирующего признака:
.
Коэффициент корреляции был предложен английским статистиком Пирсоном. Его интерпретация такова: отклонение признака-фактора от его среднего значения на величину своего среднего квадратичного отклонения в среднем по совокупности приводит к отклонению признака-результата от своего среднего значения на Rxy его среднего квадратичного отклонения.
Для интерпретации коэффициента корреляции необходимо знать область его существования 0<=|r|<=1. Как ясно из формулы, минимальное, именно нулевое значение коэффициента корреляции может быть достигнуто, если положительные и отрицательные произведения отклонений признаков от их средних величин в числителе уравновесят друг друга. Это свидетельствовало бы о полном отсутствии связи, но вероятность такого абсолютно точного взаимопогашения абсолютно мала для любой реальной, но бесконечно большой совокупности. Поэтому и при отсутствии реальной связи коэффициент корреляции на практике не равен 0. Максимально тесная связь - это связь функциональная.
Измерение связи порядковых признаков
Показатель ранговой корреляции Спирмена применяется в случаях, если изучается линейная связь между рядами, представленными в количественной или порядковой шкале. Практически при анализе количественных признаков применять показатель Спирмена вместо коэффициента корреляционного отношения Пирсона не следует, так как при его вычислении происходит понижение количественной шкалы до порядковой. Расчет ведется по формуле:
,
где ri,si, i=1,2, …, n массивы рангов;
n число пар вариант исследуемых рядов;
Bx,By поправки на объединение рангов в соответствующих рядах;
m число групп объединенных рангов в ряду;
ni, i=1,2, … , m число рангов в i-й группе.
Предположим, что группа городов ранжирована по чис-ленности населения и уровню загрязненности окружающей среды.
Города |
а |
б |
В |
г |
д |
е |
ж |
з |
и |
к |
Численность |
3 |
7 |
5 |
9 |
1 |
8 |
6 |
10 |
4 |
2 |
Загрязнение |
2 |
4 |
3 |
5 |
1 |
9 |
8 |
10 |
7 |
6 |
Разности S |
1 |
3 |
2 |
4 |
0 |
-1 |
-2 |
0 |
-3 |
-4 |
Разности S2 |
1 |
9 |
4 |
16 |
0 |
1 |
4 |
0 |
9 |
16 |
.
Измерение связи номинальных признаков
Учеными ряда стран за последние 100 лет разработано несколько методов измерения связи таких признаков. Описательные признаки - обычно альтернативные признаки, при которых каждый имеет по две разновидности. Например, больные могут выздороветь, а могут не выздороветь, признак есть (нет).
Коэффициент взаимной сопряженности Бравайса. В тех случаях, когда находящиеся в связи явления представлены описательными величинами, коэффициент корреляции находят по следующей формуле.
, где a,b,c,d - количество случаев отдельных комбинаций разновидностей исследуемых явлений.
При вычислении коэффициента корреляции знаменатель формулы всегда имеет положительный знак. Знак перед r зависит от того, какое из произведений больше ad или bc. Для того чтобы легче вычислить коэффициент корреляции, пользуются так называемой четырехпольной таблицей. В первом столбце этой таблицы указывают обе разновидности одного явления - Х1 и Х2, а в первой строке - обе разновидности второго -Y1 и Y2. При этом X1 и Y2 обозначают положительные разновидности, а X2 и Y1 - отрицательные. В указанных выше примерах под положительными разновидностями подразумевают выздоровевших, получивших отравление. При таком состоянии четырехпольная таблица принимает следующий вид:
X |
Y1 |
Y2 |
Всего |
X1 |
a |
B |
(a+b) |
X2 |
c |
D |
(c+d) |
Всего |
(a+c) |
(b+d) |
(a+b+c+d) |
Пример: Имеются следующие данные о вакцинации против гриппа и заболеваемости гриппом во время эпидемии:
Заболело |
Не заболело |
Всего |
|
Вакцинировано |
10 |
490 |
500 |
Не вакцинировано |
990 |
510 |
1500 |
Всего |
1000 |
1000 |
2000 |
Требуется определить размер связи между проведенной вакцинацией и заболеваемостью.r=-0,6. Коэффициент корреляции показывает обратную связь: вакцинированные реже болеют, чем не вакцинированные.
Коэффициент сопряженности Чупрова. Дальнейшим обоб-щением четырехпольных таблиц являются многопольные таблицы, для которых сопряженность наиболее часто оценивается по формуле, предложенной русским статистиком А. А. Чупровым. Прежде чем приводить ее рассмотрим несколько реальных ситуаций, когда такая оценка может потребоваться. Известно, например, что окраска тюльпанов связана с наличием определенных пигментов. Может представлять интерес вопрос о том, с какими именно пигментами преимущественно связана та или иная окраска цветка. Или другой пример. Окружающая гнездо полярной крачки обстановка может представлять собой зеленые растения, растения и гальку, пестрые камешки и т. д. При этом можно наблюдать самые разные по качеству гнезда: от его отсутствия до очень хорошо сделанного. В этом случае желательно знать, связано ли качество гнезда с какой-то одной или несколькими характеристиками окружающей среды. Общим для этих и других подобных задач является то, что в распоряжении экспериментатора оказываются данные о некотором множестве объектов, обладающих двумя признаками, причем каждый из признаков может иметь несколько градаций. В этом случае , где m - число разновидностей явления Х; k - число разновидностей явления Y, n общее число объектов (m*k).
Независимо то того, что каждый из описательных признаков, несмотря на разницу в численности его разновидностей, можно свести к альтернативному - только с двумя разновидностями, довольно часто в практике возникает необходимость работать с описательными признаками более двух разновидностей. В таких случаях необходимо при вычислении коэффициента корреляции составлять так называемую корреляционную таблицу (где X1,X2,...Xn - обозначают разновидность одного признака, а Y1, Y2... Yn - разновидности другого).
При наличии такой схемы коэффициент корреляции находят по формуле: , где - коэффициент связи, m- число разновидностей явления Х; k - число разновидностей явления Y.
Данный метод пригоден также и для экспрессной оценки связи между количественными (например возраст) и качествен-ными (например брак) параметрами.
На практике (особенно в зоологии и ботанике) довольно часто встречаются другие меры измерения связи.
Коэффициент Жаккара |
|
Простой коэффициент втречаемости (показатель подобия Сокала и Миченера) |
|
Показатель подобия Рассела и Рао |
|
Коэффициент ассоциации Юла |
|
Хеммингово расстояние |
H=a+d |
Коэффициент детерминации |
R=r2 |
Коэффициент определения |
R=100r2 |
Коэффициент акорреляции |
Относительный риск. Отношение шансов
Исход есть (1) |
Исхода нет (0) |
Всего |
|
Фактор риска есть (1) |
10 (А) |
13 (В) |
23 (А+В) |
Фактора риска нет (0) |
4 (С) |
21 (D) |
25 (С+D) |
Всего |
14 |
34 |
48 |
Мы рассмотрели способы проверки гипотез о наличии статистической связи между номинальными переменными, а также способы оценки силы взаимосвязи между этими переменными. Тем не менее сообщение о том, что была обнаружена статистически значимая связь средней силы между фактором риска и исходом, для исследователей в области биомедицинских наук, заинтересованных в практическом применении результатов исследования, недостаточно информативно. Гораздо продуктивнее было бы говорить о количественной оценке вероятности исхода, связанной с наличием фактора риска. Однако не все исследования позволяют говорить о риске и оценивать вероятность возникновения исхода в зависимости от наличия или отсутствия фактора риска.
Мы же остановимся только на некоторых расчетах, применимых к нашему примеру. Учитывая, что наше гипотетическое исследование было проспективным, мы можем рассчитать относительный риск (Relative Risk, RR). Поскольку в примере ничего не сообщается о времени наблюдения, но подразумевается, что оно было одинаковым для обеих групп (с наличием фактора риска и без него), относительный риск будет равен отношению рисков. Отношение рисков отражает, во сколько раз риск исхода при наличии фактора риска выше риска исхода при отсутствии фактора риска и рассчитывается применимо к таблице следующим образом:
Это говорит о том, что фактор риска может увеличивать вероятность возникновения исхода в 2,7 раза или что риск исхода у тех, у кого есть фактор риска, в 2,7 раза выше, чем у тех, у кого фактора риска нет. Такой результат гораздо более информативен. Однако различия в 2,7 раза справедливы только для нашей выборочной совокупности. Даже если допустить, что наша выборка репрезентативна, систематические ошибки отсутствуют, а влияние вмешивающихся факторов (конфаундеров) минимально, относительный риск для генеральной совокупности может отличаться, поэтому всегда рекомендуется представлять интервальную оценку относительного риска с помощью 95 % доверительного интервала. Этот интервал представляет собой область, в которую попадает истинное значение доли в 95 % случаев. Другими словами, можно с 95 % надежностью сказать, что истинное значение частоты встречаемости признака в генеральной совокупности будет находиться в пределах 95 % доверительного интервала. Методы расчета доверительного интервала для частот и долей рассматривались в предыдущем номере журнала [4]. Для относительного риска 95 % доверительный интервал можно рассчитать по формуле:
Верхняя граница: ex, где
Нижняя граница: ех, где
а е основание натурального логарифма (число Эйлера ~ 2,7). Для данного примера можно с 95 % уверенностью сказать, что относительный риск будет находиться в промежутке от 1,0 до 7,5. Значительная ширина доверительного интервала вызвана малым объемом выборки. Хотелось бы предостеречь читателей от переоценки важности относительного риска. Например, относительный риск может быть равен 2,0 как в ситуации, когда абсолютные риски развития заболевания равны 1 на 1 000 000 и 2 на 1 000 000, а также 1 на 10 и 2 на 10. В первом случае абсолютная разница рисков будет не очень важна, так как составит 0,000 001. Во втором же разница рисков составит 0,1. Если взять обратные величины из полученных разностей рисков, то можно будет увидеть у скольких человек необходимо устранить фактор риск, чтобы предотвратить 1 исход. В первом случае надо устранить фактор риска у миллиона, а во втором всего у 10 человек. Особенно актуальными такие расчеты становятся при оценке эффективности лечебного вмешательства. Рассчитанная величина будет называться числом пациентов, подвергаемых лечению, на один предотвращенный неблагоприятный исход (в англоязычной литературе NNT Number Needed to Treat).
Для нашего примера тоже можно рассчитать разность рисков: А(А+В)/С(С+D), которая будет равна 0,275, или 27,5 %, а для того, чтобы предотвратить один исход, необходимо устранить фактор риска всего у 4 человек (NNT ~3,6), что говорит о том, что потенциальный эффект от профилактических мер, направленных на устранение изучаемого фактора риска, очень велик (при условии, что распространенность фактора риска в генеральной совокупности такая же, как и в выборке).
Если бы наше исследование было типа «случай контроль», было бы неверным рассчитывать относительный риск. В таких исследованиях в качестве меры эффекта выступает отношение шансов (Odds Ratio, OR). Представим на минуту, что наше исследование было исследованием типа «случай контроль». Тогда
то есть шансы на изучаемый исход были в 4 раза выше у тех участников исследования, у кого имелся фактор риска, чем у тех, у кого фактора риска не было. При проецировании результатов на генеральную совокупность также необходимо рассчитать 95 % доверительный интервал, в который попадут значения
от
до
где е основание натурального логарифма. Для нашего примера 95 % значений отношения шансов (ОШ) будут попадать в интервал от 1,0 до 15,6. Следует помнить, что вышеприведенные формулы для расчета доверительных интервалов предназначены только для независимых данных и неприменимы в исследованиях типа «до после», а также в исследованиях типа «случай контроль» по методу подобранных пар (Matched case-control study). Не стоит представлять в одном исследовании и относительный риск, и отношение шансов в одном и том же исследовании. Для исследований типа «случай контроль» описанные выше расчеты относительного риска, разницы рисков и NNT провести невозможно.
Статистическая оценка надежности параметров
парной корреляции
Показатели корреляционной связи, вычисленные по ограниченной совокупности (по выборке), являются лишь оценкой той или иной статистической закономерности, поскольку в любом параметре сохраняется элемент не полностью погасившейся случайности, присущей индивидуальным значениям признака. Поэтому необходима статистическая оценка степени точности и надежности параметров корреляции. Под надежностью здесь понимается вероятность того, что значение проверяемого параметра не равно 0, не включает в себя величины противоположных знаков.
Вероятностная оценка параметров корреляции проводится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцениваемой величины со средней случайной ошибкой оценки. Для коэффициента парной регрессии b средняя вычисляется как:
, где n-2 число степеней свободы. Зная среднюю ошибку коэффициента регрессии, можно вычислить вероятность того, что нулевое значение коэффициента входит в интервал возможных с учетом ошибки значений. С этой целью находится отношение коэффициента к его средней ошибке, т.е. t-критерий Стьюдента.
t=b/mb.
или
Надежность установления связи можно проверить и по средней случайной ошибке коэффициента корреляции:
Если коэффициент корреляции близок к единице, то распределение его оценок отличается от нормального или распределения Стьюдента, так как он ограничен величиной 1. В таких случаях Фишер предложил для оценки надежности коэффициента преобразовать его величину в форму не имеющую ограничения:
, средняя ошибка величины z определяется по формуле
Частная корреляция
Ранее упоминалось, что обнаруживаемая по коэффициенту корреляции взаимосвязь между двумя случайными величинами может быть всего лишь отражением того, что обе они коррелируют с третьей величиной. В такой ситуации необходимо рассмотреть так называемую частную корреляцию.
Найдено три взаимосвязи
Артериальное давление возраст: -0,59
Артериальное давление вес: -0,41
Возраст вес: 0,91
Что же показывает частная корреляция? Если корреляция между двумя величинами уменьшается, когда фиксируется третья величина, то это значит, что взаимосвязь между этими двумя величинами возникает частично за счет действия третьей величины. В пределе, если корреляция между указанными двумя величинами становится равной нулю, то можно считать, что взаимосвязь между ними целиком возникает за счет третьей величины.
Частный коэффициент корреляции вычисляется по формуле:
.
Два других коэффициента r13,2 и r23,1 вычисляются циклической перестановкой коэффициентов.
Рассчитаем частные коэффициенты для примера:
,
,
.
Прежде всего мы видим, что r12,3 и r23,1 практически не отличаются от r12 и r23. Что касается взаимосвязи между весом и артериальным давлением, то здесь наглядно видно, какие «ловушки» подстерегают исследователя при истолковании коэффициентов корреляции.
В самом деле, если бы в нашем распоряжении оказались только данные о максимальном артериальном давлении и весе детей, то, базируясь только на вычисленном коэффициенте корреляции, нужно было бы сделать вывод о том, что увеличение веса в среднем приводит к уменьшению артериального давления. На самом же деле такая связь существует между возрастом и артериальным давлением, а вес имеет очень тесную взаимосвязь с возрастом, за счет чего и получается вычисленное значение r13.
Метод множественных корреляций в отличие от метода парных корреляций позволяет выявить общую структуру корреляционных зависимостей, существующих внутри многомерного экспериментального материала, включающего более двух переменных, и представить эти корреляционные зависимости в виде некоторой системы
ФАКТОРНЫЙ АНАЛИЗ
Один из наиболее распространенных вариантов этого метода факторный анализ позволяет определить совокупность внутренних взаимосвязей, возможных причинно-следственных связей, существующих в экспериментальном материале. В результате факторного анализа обнаруживаются так называемые факторы причины, объясняющие множество частных (парных) корреляционных зависимостей.
Фактор математико-статистическое понятие. Будучи переведенным на язык психологии (эта процедура называется содержательной или психологической интерпретацией факторов), он становится психологическим понятием. Например, в известном 16-факторном личностном тесте Р. Кеттела каждый фактор взаимно однозначно связан с определенными чертами личности человека.
С помощью выявленных факторов объясняют взаимозависимость психологических явлений. Поясним сказанное на примере. Допустим, что в некотором психолого-педагогическом эксперименте изучалось взаимовлияние таких переменных, как характер, способности, потребности и успеваемость учащихся. Предположим далее, что, оценив каждую из этих переменных у достаточно представительной выборки испытуемых и подсчитав коэффициенты парных корреляций между всевозможными парами данных переменных, мы получили следующую матрицу интеркорреляций (в ней справа и сверху цифрами обозначены в перечисленном выше порядке изученные в эксперименте переменные, а внутри самого квадрата показаны их корреляции друг с другом; поскольку всевозможных пар в данном случае меньше, чем клеток в матрице, то заполнена только верхняя часть матрицы, расположенная выше ее главной диагонали).
Анализ корреляционной матрицы показывает, что переменная 1 (характер) значимо коррелирует с переменными 2 и 3 (способности и потребности). Переменная 2 (способности) достоверно коррелирует с переменной 3 (потребности), а переменная 3 (потребности) с переменной 4 (успеваемость). Фактически из шести имеющихся в матрице коэффициентов корреляции четыре являются достаточно высокими и, если предположить, что они определялись на совокупности испытуемых, превышающей 10 человек, значимыми.
1 |
2 |
3 |
4 |
|
1 |
0,82 |
0,50 |
0,04 |
|
2 |
0,40 |
0,24 |
||
3 |
0,75 |
|||
4 |
Зададим некоторое правило умножения столбцов цифр на строки матрицы: каждая цифра столбца последовательно умножается на каждую цифру строки и результаты парных произведений записываются в строку аналогичной матрицы. Пример: если по этому правилу умножить друг на друга три цифры столбца и строки, представленные в левой части матричного равенства, то получим матрицу, находящуюся в правой части этого же равенства:
2 |
X |
2 |
3 |
4 |
= |
4 |
6 |
8 |
3 |
6 |
9 |
12 |
|||||
4 |
8 |
12 |
16 |
Задача факторного анализа по отношению к только что рассмотренной является как бы противоположной. Она сводится к тому, чтобы по уже имеющейся матрице парных корреляций, аналогичной представленной в правой части показанного выше матричного равенства, отыскать одинаковые по включенным в них цифрам столбец и строку, умножение которых друг на друга по заданному правилу порождает корреляционную матрицу.
Иллюстрация:
Х1 |
х |
Х1 |
Х2 |
Х3 |
Х4 |
= |
0,16 |
0,50 |
0,30 |
|
Х2 |
0,16 |
0,40 |
0,24 |
|||||||
Х3 |
0,50 |
0,40 |
0,75 |
|||||||
Х4 |
0,30 |
0,24 |
0,75 |
Здесь х1 х2, x3 и х4 искомые числа.
Для их точного и быстрого определения существуют специальные математические процедуры и программы для ЭВМ.
Допустим, что мы уже нашли эти цифры: x1= 0,45, х2 =,36 х3 = 1,12, х4= 0,67. Совокупность найденных цифр и называется фактором, а сами эти цифры факторными весами или нагрузками.
Эти цифры соответствуют тем психологическим переменным, между которыми вычислялись парные корреляции,
х1 характер,
х2 способности,
х3 потребности,
х4 успеваемость.
Поскольку наблюдаемые в эксперименте корреляции между переменными можно рассматривать как следствие влияния на них общих причин факторов, а факторы интерпретируются в психологических терминах, мы можем теперь от факторов перейти к содержательной психологической интерпретации обнаруженных статистических закономерностей. Фактор содержит в себе ту же самую информацию, что и вся корреляционная матрица, а факторные нагрузки соответствуют коэффициентам корреляции. В нашем примере х3 (потребности) имеет наибольшую факторную нагрузку (1,12), а х2 (способности) наименьшую (0,36).
Следовательно, наиболее значимой причиной, влияющей на все остальные психологические переменные, в нашем случае являются потребности, а наименее значимой способности. Из корреляционной матрицы видно, что связи переменной х3 со всеми остальными являются наиболее сильными (от 0,40 до 0,75), а корреляции переменной х2 самыми слабыми (от 0,16 до 0,40).
Чаще всего в итоге факторного анализа определяется не один, а несколько факторов, по-разному объясняющих матрицу интеркорреляций переменных. В таком случае факторы делят на генеральные, общие и единичные.
Генеральными называются факторы, все факторные нагрузки которых значительно отличаются от нуля (нуль нагрузки свидетельствует о том, что данная переменная никак не связана с остальными и не оказывает на них никакого влияния в жизни).
Общие это факторы, у которых часть факторных нагрузок отлична от нуля.
Единичные это факторы, в которых существенно отличается от нуля только одна из нагрузок.
Вопросы для самопроверки:
Регрессионный анализ
Довольно часто в практике исследовательской работы имеет место ситуация, когда важнейшие переменные, описывающие некоторый процесс, известны заранее, но модель процесса еще не известна. В этом случае возможны разные подходы. Одним из них является построение эмпирических моделей.
Построение эмпирических моделей предполагает проведение экспериментов или наблюдений для сбора опытных данных, выбор одной определенной модели из некоторого множества возможных, вычисление коэффициентов модели («подгонку») и оценку полученных результатов.
Число цветков при разном количестве неорганического брома в почве.
Кол-во брома (мкг/см3) |
2 |
4 |
6 |
8 |
10 |
12 |
14 |
Среднее число цветков |
3,6 |
2,9 |
3,2 |
1,8 |
2,3 |
1,7 |
0,8 |
Метод наименьших квадратов
Метод наименьших квадратов, разработанный знаменитыми математиками К. Гауссом и А. Лежандром, берет свое начало от задач геодезии и астрономии. Рассмотрим его существо на примере линейной модели. Итак, пусть для представления полученных данных мы выбрали линейную модель y*=a+bx, где х независимая переменная, т. е., переменная, которую экспериментатор может менять по своему усмотрению; y* - зависимая переменная или отклик; a и b коэффициенты (параметры). Из данных, приведенных в примере, видно, что именно такой моделью (уравнением прямой линии) может быть описана зависимость.
С другой стороны, видно что реально наблюдаемые значения отклика yi несколько отличаются от откликов yi*, соответствующих уравнению модели. И такое положение будет всегда, даже в тех случаях, когда зависимая и независимая переменные будут связаны строгой функциональной зависимостью. В этом случае отклонения эмпирических значений от теоретических связаны с погрешностями измерений, которые всегда имеют место.
Итак, каждому значению независимой переменной в общем случае соответствует ошибка: i=yi-yi*.
Естественно, что в зависимости от того, как будет проведена прямая, аппроксимирующая набор экспериментальных данных, величины i будут различны. Именно, для того, чтобы избежать субъективности при построении эмпирической модели, и был разработан метод наименьших квадратов, позволяющий однозначно определить параметры выбранной модели. В основе этого метода лежит критерий минимизации суммы квадратов ошибок, т. е. требование, чтобы была минимальной.
Покажем, как используется метод наименьших квадратов на примере оценки параметров для уравнения y*=a+bx.
В общем случае необходимо решить систему уравнений:
, из которых находятся коэффициенты a и b.
Подставляя данные из примера, получаем:
16,3=7a+56b
107=56a+560b
Откуда a=4, b=-0,209.
В таблице приведено сравнение между реальными и теоретическими данными, а также величины ошибок.
Y |
3,6 |
2,9 |
3,2 |
1,8 |
2,3 |
1,7 |
0,8 |
y* |
3,582 |
3,164 |
2,746 |
2,328 |
1,91 |
1,492 |
1,074 |
i |
0,018 |
-0,264 |
0,454 |
-0,528 |
0,39 |
0,208 |
-0,274 |
Сумма i |
0,825 |
Выбор формы функциональной зависимости
Пусть имеется ряд данных, представляющих одну зависимую и одну независмую переменную, и требуется определить функциональную связь между ними. Универсального способа решения этой задачи не существует. Иногда анализ графического изображения имеющихся данных, а также понимание механизма исследуемого процесса помогают выбрать вид аналитической зависимости. Особенно просто оценить вид функциональной зависимости, если экспериментальные данные укладываются или группируются относительно некоторой прямой.
Значительное число зависимостей, встречающихся в практике научных исследований в самых разных областях знаний, может быть описано следующими уравнениями:
y=a+bx,
y=a+bx+cx2,
y=abx,
y=axb,
y=x/(a+bx).
Применение парного линейного уравнения регрессии
Прежде чем обсуждать вопросы использования уравнений парной регрессии, вспомним, что парный корреляционный анализ не дает чистых мер влияния только одного изучаемого фактора. Если факторы взаимосвязаны, то парная связь измеряет влияние данного фактора и часть влияния прочих факторов, связанных с ним.
Уравнение регрессии применимо для прогнозирования возможных ожидаемых значений результативного признака. При этом следует учесть, что перенос закономерности связи, измеренной в варьирующей совокупности, в статике на динамику, не является, строго говоря, корректным и требует условий допустимости такого переноса (экстраполяции), что выходит за рамки статистики и может быть сделано только специалистом, хорошо знающим объект (систему) и возможности его развития в будущем).
Ограничением прогнозирования на основе регрессионного уравнения, тем более парного, служит условие стабильности или по крайней мере малой изменчивости других факторов и условий изучаемого процесса, не связанных с ними. Если резко изменится внешняя среда протекающего процесса, прежнее уравнение результативного признака на факторный потеряет свое значение. В сильно засушливый год доза удобрения может не оказать влияния на урожайность, так как последнюю лимитирует пониженная влагообеспеченность (закон Либиха).
Корреляционно-регрессионные модели (КРМ)
и их применение в анализе и прогнозе.
Корреляционно-регрессионной моделью системы взаимосвязанных признаков является такое уравнение регрессии, которое включает основные факторы, влияющие на результативный признак, обладает высоким (не ниже 0.5) коэффициентом детерминации и коэффициентами регрессии.
Приведенное определение КРМ включает достаточно строгие условия: далеко не всякое уравнение регрессии можно считать моделью.
Теория и практика выработали ряд рекомендация для построения корреляционно-регрессионной модели:
Интерпретировать корреляционные показатели строго следует лишь в терминах вариации (различий в пространстве) отклонений от средней величины. Если же задача исследования состоит в измерении связи не между вариацией двух признаков в совокупности, а между измерениями признаков объекта во времени, то метод корреляциооно-регрессионного анализа требует значительного изменения.
Из вышеприведенного определения об интерпретации показателей корреляции следует, что нельзя трактовать корреляцию признаков как связь их уровней. Это ясно хотя бы из такого примера: Если бы все студенты, которые ходят на лекции, учились бы только на пятерки, то вариация этого признака равнялась бы нулю, а следовательно успеваемость абсолютно не могла бы влиять на посещаемость. Параметры корреляции между успеваемостью и посещаемостью всегда будут равняться нулю. Но ведь и в этом случае уровень знаний зависел бы от числа лекций - он был бы тем выше, чем больше лекций.
Итак, строго говоря, метод корреляциооно-регрессионного анализа не может объяснить роли факторных признаков в создании результативного признака. Это очень серьезное ограничение метода, о котором не следует забывать.
Следующий общий вопрос - это вопрос о “чистоте” измерения влияния каждого признака. Группировка совокупности по одному факторному признаку может отразить влияние именно данного признака на результативный признак при условии, что все другие факторы не связаны с изучаемым, а случайные отклонения и ошибки взаимопогасились в большой совокупности. Если же изучаемый фактор связан с другими факторами, влияющими на результативный признак, будет получена не “чистая” характеристика влияния только одного фактора, а сложный комплекс, состоящий как из непосредственного влияния фактора, так и из его косвенных влияний, через его связь с другими факторами и их влияние на результативный признак. Данное положение полностью относится и к парной корреляционной связи. Главным достоинством корреляционно-регрессионного метода заключается в возможности разделить влияние комплекса факторных признаков, анализировать различные стороны сложной системы взаимосвязей. Корреляционный метод при объеме совокупности около 100 единиц позволяет вести анализ системы с 8-10 факторами и разделить их влияние.
Необходимо сказать и о других задачах применения метода, имеющих не формально математических, а содержательный характер.
1. Задача выделения важнейших факторов, влияющих на результативный признак (т.е. на вариацию его значений в совокупности). Эта задача решается в основном на базе мер тесноты связи факторов с результативным признаком.
2. Задача прогнозирования возможных значений результативного признака при задаваемых значениях факторных признаков. Такая задача решается путем подстановки ожидаемых, или планируемых, или возможных значений факторных признаков в уравнение связи и вычисления ожидаемых значений результативного признака. Приходится решать и обратную задачу: вычисление необходимых значений факторных признаков для обеспечения планового или желаемого значения результативного признака. Эта задача обычно не имеет одного решения.
При решении каждой из названных задач нужно учитывать особенности и ограничения корреляционного метода. Всякий раз необходимо специально обосновывать возможность причинной интерпретации уравнения как объясняющего связь между вариацией фактора и результата. Трудно обеспечить раздельную оценку влияния каждого из факторов. В этом отношении корреляционные методы глубоко противоречивы. С одной стороны, их идеал - измерения чистого влияния каждого фактора. С другой стороны, такое измерение возможно при отсутствии связи между факторами и случайной вариации признаков. А тогда связь является функциональной, и корреляционные методы анализа излишни. В реальных системах связь всегда имеет статистический характер.
Множественная регрессия
Регрессионный анализ, по-видимому, наиболее широко используемый метод многомерного статистического анализа. Различные аспекты регрессионного анализа подробно рассмотрены в специальной литературе32. Термин ''множественная регрессия'' объясняется тем, что анализу подвергается зависимость одного признака (результирующего) от набора независимых (факторных) признаков. Разделение признаков на результирующий и факторные осуществляется исследователем на основе содержательных представлений об изучаемом явлении (процессе). Все признаки должны быть количественными (хотя допускается и использование дихотомических признаков, принимающих лишь два значения, например 0 и 1).
Для корректного использования регрессионного анализа требуется выполнение определенных условий. Факторные признаки должны быть некоррелированы (отсутствие мультиколлинеарности), они предполагаются замеренными точно и в их измерениях нет автокорреляции, т.е. значения признаков у одного объекта не должны зависеть от значений признаков у других объектов. Результирующий признак должен иметь постоянную дисперсию (Напомним определения основных показателей рассеяния (разброса) количественных признаков: дисперсии (D), среднеквадратического отклонения (σ) и коэффициента вариации (V).
здесь п - число объектов; xj- значение признака xn для j -го объекта; - среднее значение признака X; . Чем сильнее степень разброса значений признака X, тем больше значения D, σ и V , Коэффициент вариации V - сопоставимая величина для признаков разной природы, его значения выражаются в процентах. Мы не рассматриваем здесь известный вопрос о форме распределения. Отметим лишь, что для признаков, распределение которых близко к нормальному, некоррелированность влечет независимость. Кроме того, при изучении связей таких признаков можно корректно вычислить выборочные оценки, построить доверительные интервалы.), не зависящую от факторных признаков (наличие гомоскепастичности). Число объектов должно превосходить число признаков в несколько раз, чтобы параметры уравнения множественной регрессии были статистически надежными. Исследуемая совокупность должна быть в достаточной мере качественно однородной. Существенные нарушения этих условий приводят к некорректному использованию моделей множественной регрессии.
При построении регрессионных моделей прежде всего возникает вопрос о виде функциональной зависимости, характеризующей взаимосвязи между результирующим признаком и несколькими признаками-факторами. Выбор формы связи должен основываться на качественном, теоретическом и логическом анализе сущности изучаемых явлений.
Чаще всего ограничиваются линейной регрессией, т.е. зависимостью вида:
где Y - результирующий признак; x1, …, xm - факторные признаки; b1,…,bm - коэффициенты регрессии; а - свободный член уравнения; - ''ошибка" модели.
Уравнение является линейным по коэффициентам bj и в общем случае нелинейным по признакам Xj, где j=1,2,…,т (в уравнении (1) вместо Xj могут стоять Xj2 log Xj и т.д.). Вопрос о том, нужны ли преобразования исходных факторов Xj, а если нужны, то какие, подробно рассматривается в литературе33 . Наиболее распространенным на практике является логарифмическое преобразование (log X). Его используют, если наибольшее значение Х вдвое (или больше) превышает наименьшее при высокой корреляции между Х и Y (rXY>0,9). Если максимальное значение X в 20 или более раз превосходит минимальное, то это преобразование необходимо почти всегда.
В большинстве приложений регрессионной модели признаки берут в исходном виде, т.е. уравнение получается линейным и по признакам X1,...,Xm. При использовании нелинейных преобразований исходных признаков регрессионную модель нередко называют нелинейной регрессией.
Коэффициенты регрессии bj определяются таким образом, чтобы рассогласования ε, характеризующие степень приближения реальных значений результирующего признака Y с помощью линейной модели были минимальными, Это достигается на основе метода наименьших квадратов.
Если уравнение множественной регрессии (l) уже построено, то в вариации результирующего признака Y можно выделить часть, обусловленную изменениями факторных признаков, т.е. объясненную с помощью регрессионной модели, и остаточную, необъясненную часть. Очевидно, чем большую часть вариации признака V объясняет уравнение регрессии, тем точнее по значениям факторных признаков можно восстановить значение результирующего, и, следовательно, тем теснее связь между ними. Естественной мерой тесноты этой связи служит отношение дисперсии признака Y, объясненной регрессионной моделью, к общей дисперсии признака Y :
Величина R называется коэффициентом множественной корреляции и определяет степень тесноты связи результирующего признака Y со всем набором факторных признаков X1,...,Xm. В случае парной регрессии (т.е. при наличии всего одного фактора X1) совпадает с обычным коэффициентом парной корреляции rx,y. (Коэффициент корреляции rx,y - статистическая мера тесноты линейной связи пары признаков X и Y. Значения rx,y находятся в пределах [-1;+1]; чем ближе rx,y к , тем теснее связь данной пары признаков, тем ближе она к функциональной. Значения rx,y, близкие к нулю, указывают на отсутствие линейной связи признаков.) Чем ближе R2 к единице, тем точнее описывает уравнение регрессии (1) эмпирические данные.
Укажем содержательный смысл коэффициентов bj, в уравнении множественной линейной регрессии (I): величина bj - показывает, насколько в среднем изменяется результирующий признак Y при увеличении соответствующего фактора Xj на единицу шкалы его измерения при фиксированных (постоянных) значениях других факторов, входящих в уравнение регрессии (т.е. оценивается "чистое" воздействие каждого фактора на результат).
Из этого определения следует, что коэффициенты регрессии bj непосредственно не сопоставимы между собой, так как зависят от единиц измерения факторов Xj. Чтобы сделать эти коэффициенты сопоставимыми, все признаки выражают в стандартизированном масштабе:
где и , - средние значения признаков Y и Xj, σY и σXi средние квадратичные отклонения признаков Y и Xi.
Уравнение множественной регрессии, построенное с использованием стандартизованных признаков, называется стандартизованным уравнением регрессии, а соответствующие коэффициенты регрессии - стандартизованными, или β (бэта) - коэффициентами. Между коэффициентами Вj и βi- существует простая связь:
Стандартизованный коэффициент регрессии βi показывает, на сколько средних квадратичных отклонений σY изменяется Y при увеличении Xj - на одно среднеквадратическое отклонение , если остальные факторы, входящие в уравнение регрессии считать неизменными.
Сопоставление факторов можно проводить и не на основе β -коэффициентов, а по их "вкладу" в объясненную дисперсию.
В том случае, когда модель множественной регрессии строится для выборочной совокупности, необходимо проверять значимость коэффициентов регрессии Вj (с этой целью используется t -критерий Стыодента), а также коэффициента множественной корреляции R (этой цели служит F-критерий Фишера). С помощью F-критерия осуществляется проверка достоверности и соблюдения условий, которым должна удовлетворять исходная информация в уравнении множественной регрессии.
Указанные критерии математической статистики используют и при изучении взаимосвязей признаков в генеральной совокупности. В этом случае проверяют, не вызвана ли выявленная статистическая закономерность стечением случайных обстоятельств, насколько она характерна для того комплекса условий, в которых находится обследуемая совокупность. Эта совокупность - не выборка из реальной генеральной совокупности, существование которой лишь предполагается. Имеющиеся данные рассматривают как выборку из некоторой гипотетической совокупности единиц, находящихся в тех же условиях. Гипотетическая совокупность является научной абстракцией. При интерпретации вероятностной оценки результатов сплошного наблюдения (оценки значимости и т.д.) надо учитывать, что в действительности никакой генеральной совокупности нет. Устанавливается не истинность полученного результата для какой-то более обширной генеральной совокупности, а степень его закономерности, свободы от случайных воздействий.
Данный подход к оценке результатов сплошного наблюдения последовательно излагается в литературе по математической статистике. Его широко используют на практике, в частности для отсева незначимых по t-статистике факторов. Здесь необходимо отметить, что этот метод проверки существенности факторов заслуживает доверия лишь в тех случаях, когда признаки-факторы не коррелированы (или весьма слабо коррелированны), что зачастую невыполнимо на практике. В моделях множественной регрессии с взаимокоррелированными признаками возможны ситуации, когда t -критерий будет давать ложные результаты, указывая на статистическую незначимость признаков, в действительности существенно влияющих на результирующий признак.
Рассмотренный подход, на наш взгляд, более применим для оценки устойчивости параметров регрессионной модели, степени ее адекватности реальным данным. Но судить о том, насколько закономерна установленная по сплошным данным зависимость, не вызвана ли она стечением случайных обстоятельств, только на основе t - или F -критериев едва ли целесообразно. Здесь необходим качественный анализ, знание конкретных исторических условий, относящихся к изучаемому явлению.
При построении уравнений множественной регрессии основным этапом является отбор наиболее существенных факторов, воздействующих на результирующий признак. Этот этап построения модели множественной регрессии производится на основе качественного, теоретического анализа в сочетании с использованием статистических приемов. Обычно отбор факторов проходит две стадии. На первой стадии на основе содержательного анализа намечают круг факторов, теоретически существенно влияющих на результирующий признак. На второй стадии качественный анализ дополняется количественными оценками, которые позволяют отобрать статистически существенные факторы для рассматриваемых конкретных условий реализации связи. Таких оценок существует довольно много. Они основаны на использовании парных или частных коэффициентов корреляции факторных признаков с результирующим признаком Y, t-критерия вкладов факторов в объясненную дисперсию и т.д.
Отбор факторов на второй стадии исследования начинают обычно с анализа матрицы парных коэффициентов корреляции признаков, полученных на первой стадии. Выявляются факторы, тесно связанные между собой . При наличии таких связей между факторными признаками один или несколько из них нужно исключить таким образом, чтобы между оставшимися факторами не было тесных связей (при этом коэффициенты корреляции между результирующим признаком Y и факторами могут быть, конечно, высокими). Эта процедура позволяет избежать отрицательных эффектов мультиколлинеарности.
Затем можно использовать стратегию шагового отбора, реализованную в ряде алгоритмов пошаговой регрессии. Здесь получили распространение две схемы отбора. В соответствии с первой схемой признак включается в уравнение в том случае, если его включение существенно увеличивает значение множественного коэффициента корреляции, что позволяет последовательно отбирать факторы, оказывающие существенное влияние на результирующий признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов из содержательных соображений36. При этом, очевидно, первым в уравнение включается фактор, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. Существенно, что на каждом шаге получают новое значение множественного коэффициента (большее, чем на предыдущем шаге); тем самым определяется вклад каждого отобранного фактора в объясненную дисперсию Y.
Вторая схема пошаговой регрессии основана на последовательном исключении факторов с помощью t -критерия. Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьший коэффициент доверия t . После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если среди них опять окажутся незначимые, то опять исключают фактор с наименьшим значением t -критерия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы. При использовании этой схемы пошаговой регрессии следует иметь в виду те особенности применения t -критерия, о которых шла речь выше (в частности, негативные последствия мулътиколлинеарности).
Характеризуя в целом последствия мультиколлинеарности, отметим, что при ее наличии снижается точность оценок регрессионных коэффициентов (стандартные ошибки коэффициентов получаются слишком большими); становится невозможной оценка статистической значимости коэффициентов регрессии с помощью t -критерия, отсюда вероятно некорректное введение в анализ тех или иных переменных; резко возрастает чувствительность коэффициентов регрессии к особенностям исходных данных, так что добавление, например, небольшого числа наблюдений может привести к сильным сдвигам в значениях βi .
Отметим, что мультиколлинеарность может быть выявлена не только при анализе парных коэффициентов корреляции. Существуют более тонкие методы оценки существенности мультиколлинеарности и определения факторов, "ответственных" за нее.
При отсутствии мультиколлинеарности и выполнении остальных требований (они перечислены выше) модель множественной регрессии позволяет оценить значимость каждого из рассматриваемых факторов, определить степень существенности воздействия каждого фактора на результат (разные аспекты этой существенности проявляются в значениях β -коэффициентов и вкладов факторов, получаемых из пошаговой схемы), получить количественную оценку величины средних изменений результирующего признака при изменениях каждого из факторов (значения регрессионных коэффициентов Вj ). Наконец, величина коэффициента множественной корреляции R дает оценку веса учтенных факторов в объяснении вариаций результирующего признака Y (и соответственно оценку веса неучтенных факторов). Оценка неучтенных факторов представляется большим достоинством моделей множественной регрессии
Логистическая регрессия
При изучении линейной регрессии мы исследуем модели вида:
Y =a + b1*x1 + b2*x2 + …+bq * xq + e.
Здесь зависимая переменная Y является непрерывной, и мы определяем набор независимых переменных xi и коэффициенты при них bi, которые позволили бы нам предсказывать среднее значение Y с учетом наблюдаемой ее изменчивости.
Во многих ситуациях, однако, Y не является непрерывной величиной, а принимает всего два возможных значения . Обычно единицей в этом случае представляеют осуществления какого-либо события (успех), а нулем - отсутствие его реализации ( неуспех).
Среднее значение Y - обозначенное через p, есть доля случаев, в которых Y принимает значение 1. Математически это можно записать как:
p = P(Y=1) или,
p = P("Успех")
В этом случае нам хотелось бы уметь оценивать величину p и определять факторы (независимые переменные xi (непрерывные), которые влияют на переменную Y.
Вероятно, первой попыткой было бы опробование модели вида
p = a + b1 * x1. (2)
(Мы для простоты рассматриваем уравнение для одной независимой переменной).
В принципе это та же стандартная линейная регрессионная модель в которой Y - зависимая непрерывная переменная заменена на вероятность p. Однако, исследование такой модели показывает ее непригодность, поскольку p - вероятность и ее значения ограничиваются интервалом (0,1), а правая часть уравнения, напротив, может иметь значения , лежащие вне указанного выше интервала.
Можно попробовать применить модель вида
p = e a + b1 * x1
Это уравнение гарантирует, что оценки для p будут положительными. Однако, изучая модель, мы бы скоро осознали, что и эта модель не пригодна. В самом деле, правая часть уравнения может давать значения большие единицы.
Для устранения этого ограничения нам нужно применить модель вида
P = e a + b1 * x1 /(1 + e a + b1 * x1 )
Выражение, стоящее справа от знака равенства, называется логистической функцией. Она не может принимать как отрицательные значения, так и значения большие единицы, и, следовательно, ограничивает оценки для p требуемым интервалом.
Несложные математические преобразования позволяют от уравнения перейти к уравнению:
ln[ p / (1 - p)] = a + b1 * x1
По определению величина p / (1 - p) представляет собой "шансы успеха". По этой причине моделирование p с помощью логистической функции эквивалентно использованию линейной регрессионной модели, в которой непрерывная переменная Y заменена логарифмом от "шансов успеха", то есть мы полагаем, что зависимость между ln[ p / (1 - p)] и x1 линейная.
Для оценки статистической значимости всего уравнения в целом, с помощью метода правдоподобия вычисляется статистика χ2.
Анализ динамических изменений
Применение метода наименьших квадратов при исследовании
тенденции развития
Изучаемые биологией явления с течением времени часто меняют свою интенсивность; изменения эти отражаются на развитии явлений и при их изучении необходимо учитывать величину и направление изменений.
Методы статистики позволяют измерить размеры произошед-ших изменений и количественно охарактеризовать направление их развития. Количественное измерение изменений, наступающих с течением времени, можно провести при помощи следующих показателей.
Пример: Имеются данные о количестве отловленных бабочек с периода 2003 по 2005 гг.
Год |
Абсолютный уровень |
Абсолютный прирост |
Темп роста % |
Темп прироста % |
|
при постоянном основании |
при цепном основании |
||||
2003 |
30 |
- |
100 |
- |
- |
2004 |
50 |
+20 |
185 |
185 |
+85 |
2004 |
60 |
+10 |
200 |
120 |
+20 |
В качестве недостатка показателей абсолютного прироста можно указать на то, что их значения приводятся в абсолютных именованных числах, а это затрудняет сравнение разных показателей абсолютного прироста.
Показатели абсолютного прироста не могут поэтому ответить на вопрос, в каком из рассматриваемых явлений процесс развития протекает более интенсивно и где он медленнее. Для большей наглядности пользуются показателями темпа роста и темпа прироста. Они позволяют проследить процесс изменения изучаемых явлений, выраженный в относительных величинах. Так как относительные величины не именованные числа, их можно сравнивать между собой.
Довольно часто имеется необходимость в обобщающей характеристике показателей динамики изучаемых явлений. Для этой цели используется целый ряд средних величин, называемых хронологическими, так как они вычисляются из динамических хронологических рядов. Известны так называемые показатели среднего уровня, среднего прироста, среднего темпа роста и среднего темпа прироста.
Показатель среднего уровня дает сведения о среднем размере или объеме изучаемых явлений и служит типичным представителем для всех периодов, представленных в динамическом ряду.
Техника вычисления показателей среднего уровня различна в зависимости от того, из какого динамического ряда будут вычисляться эти показатели - интервального или моментного.
В интервальном статистическом ряду показатель среднего уровня - средняя арифметическая величина, полученная путем усреднения отдельных показателей абсолютного уровня (пример). Показатель среднего уровня обозначается Y (в отличие от X - символа средней величины, вычисленной из вариационного ряда). Y=SY/n. Y - средняя хронологическая.
В моментном статистическом ряду техника вычисления показателя среднего уровня следующая: сначала вычисляют абсолютный уровень изучаемого явления, относящегося к середине каждого из интервалов. Полученные величины усредняют.
Пример: Имеются данные от численности зайцев на 31 декабря каждого года. Требуется найти среднегодовое число зайцев за весь рассматриваемый период.
Год |
на 31.12 |
на 1.7 |
1990 |
100 |
- |
1991 |
90 |
95 |
1992 |
80 |
85 |
1993 |
90 |
85 |
1994 |
100 |
95 |
360 |
Для этого сначала находят средние числа зайцев для каждого календарного года. Затем вычисляют среднюю из найденных величин, являющуюся показателем среднегодового уровня. Оба эти этапа работы по вычислению среднегодового уровня могут быть представлены в виде следующей формулы:
=(100+180+160+180+100)/8=720/8=90, где Yi - показатели абсолютного уровня изучаемого явления к концу каждого из интервалов времени; n - число интервалов.
Приведенная формула для вычисления хронологических средних моментного статистического ряда относится только к равновеликим интервалам времени. В противном случае хронологическую среднюю необходимо вычислять как среднюю взвешенную, где веса - длительность отдельных интервалов.
На практике часто применяют и другой обобщающий показатель, при помощи которого можно получить представление о динамике изучаемого явления. Это показатель среднего темпа роста. При помощи показателя среднего темпа роста получают сведения о средней величине темпа, с которым проходили изменения, отмеченные за определенное время. Показатели темпа роста являются отношением абсолютного уровня текущего периода к абсолютному уровню какого-нибудь другого базисного периода. Для измерения среднего темпа роста необходимо вычислять среднюю геометрическую , где Y - усредняемые величины, показывающие темп роста в отдельные интервалы времени; n - число этих интервалов, R - произведение.
Год |
на 31.12 |
темп роста на цепном основании |
1990 |
100 |
- |
1991 |
90 |
90 |
1992 |
80 |
88 |
1993 |
90 |
115 |
1994 |
100 |
111.1 |
==103 %. Приведенный способ вычисления Y затруднителен из-за большого объема вычисли-тельной работы. Поэтому рекомендуется пользоваться логариф-мами чисел темпов роста. Для этого логарифмируют исходную формулу и получают: logYг=SlogY/n. Развитие изучаемых явлений может быть охарактеризовано изменениями, наступающими в них с течением времени. Изменения в явлениях наступают в результате комбинированного действия многих разнообразных факторов. Их можно разделить на 2 основные группы: длительно действующие и временно действующие. Длительно действующие факторы определяют тенденцию развития, а временно действующие - затушевывают ее и вносят в нее элементы случайности.
Для определения воздействия названных двух групп факторов поступают следующим образом: исходя из известных теоретических предположений о тенденции развития, изолируют влияние временно действующих случайных причин и находят так называемые теоретические величины - Yt. Это те величины изучаемого явления, которые имелись бы в каждом из рассматриваемых интервалов времени, если бы было исключено действие случайно действующих факторов. Так как на фактические величины Y оказывали влияние наряду с длительно действующими факторами и временно действующие, разность фактически наблюдаемых величин и теоретически ожидаемых (Y-Yt) указывает на размер действия временно действующих случайных факторов. Таким образом, при помощи Yt количественно определяют действие длительно действующих, а при посредстве разности (Y-Yt) - действие временно действующих факторов.
Процесс расчета теоретически ожидаемых величин Yt носит название «выравнивание динамических рядов». В целях выравнивания пользуются следующими методами:
Рассмотрим эти способы выравнивания, используя один общий пример. Имеются следующие данные о числе популяции сусликов с 1985 по 1995гг. Требуется выявить тенденцию колебания численности и количественно определить влияние длительно действующих и временно действующих факторов.
Год |
Число |
Графический метод |
Удлинение периодов |
Скользящая средняя |
|
Yt |
Y-Yt |
||||
1985 |
100 |
120 |
-20 |
||
1986 |
110 |
111 |
1 |
105 |
105 |
1987 |
105 |
107 |
2 |
105 |
|
1988 |
100 |
103 |
3 |
103 |
100 |
1989 |
95 |
95 |
0 |
91 |
|
1990 |
87 |
90 |
-3 |
91 |
87 |
1991 |
80 |
85 |
-5 |
82 |
|
1992 |
80 |
80 |
0 |
80 |
82 |
1993 |
75 |
75 |
0 |
72 |
|
1994 |
60 |
70 |
-15 |
67 |
Графический метод. Первоначально на линейной диаграмме изображают графически фактические числа количества сусликов. Получают ломаную линию, изображающую тенденцию изменения их численности. Затем от руки или при помощи линейки, лекала и т. п., следуя фактическим данным, вычерчивают прямую или кривую линию. Эта линия позволяет увидеть общую тенденцию развития. Определяя по этой линии величины соответствующих интервалов, находят теоретически ожидаемые величины Yt. Они характеризуют влияние длительно действующих факторов. Влияние временно действующих факторов можно выразить количественно разностью фактических и теоретически ожидаемых величин.
Преимущество описанного графического метода состоит в том, что его можно применять легко и быстро. Недостаток его в том, что в оценке тенденции развития сказывается некоторый субъективизм того, кто применял этот метод.
Метод удлинения периодов. В целях устранения резких отклонений в величинах динамических рядов в отдельные годы производится объединение, укрупнение периодов. Для объединенных периодов вычисляют средние хронологические величины, которые наносят на линейную диаграмму. Через них проводят линию, график которой дает возможность по ординате получить теоретически ожидаемые величины. Метод удлиненных периодов является попыткой улучшить графический метод выравнивания динамических рядов.
При использовании метода удлинения периодов возникает вопрос о количестве лет, объединяемых вместе. В рассматриваемом примере приняты двухлетние периоды. При определении того, какой должен быть укрупненный период, следует провести анализ изучаемых числовых величин и в соответствии с результатами подобрать наиболее подходящее укрупнение. Следует отметить, что при этом также сказывается субъективная оценка исследователя.
При пользовании методом удлинения периодов теряется часть сведений о теоретически ожидаемых величинах. Например при двухлетнем укрупнении теряются сведения о первом годе. При трехлетнем - о первом и двух последних и т. д.
Метод скользящей средней. При нем тенденция развития представлена последовательной серией сплетающихся средних. Эти средние представляют теоретически ожидаемые величины Yt и вычисляются следующим образом. Например, если приняты трехлетние периоды для усреднения, то первая средняя получается путем усреднения фактических чисел первого, второго и третьего годов, полученная величина будет относиться ко второму году. Вторая средняя получается путем усреднения второго, третьего и четвертого годов, полученная величина будет относиться к третьему году и т. д.
Легко заметить, что при методе скользящей средней теряется часть сведений, так же как при методе удлинения периодов. При определении числа лет для усреднения фактических чисел не малую роль играет и субъективизм исследователя.
Метод наименьших квадратов.
Этот метод преследует ту же цель, что и описанные выше три метода: устранить влияние временно действующих факторов и выявить тенденцию развития, вызванную только действием длительно действующих причин. Тенденцию развития лучше всего можно выразить линией, наиболее близкой к фактическим данным, это достигается методом наименьших квадратов, называемым так потому, что сумма возведенных в квадрат разностей фактических чисел - Y и теоретически ожидаемых - Yt - наименее велика, т.е. (Y-Yt)20. Этому условию в каждом конкретном случае отвечает только одна линия, поэтому метод наименьших квадратов можно считать наиболее объективным способом выявления тенденции развития и рекомендовать его для широкого применения.
Для того, чтобы применить способ наименьших квадратов, следует проделать следующие этапы работы.
Сначала, после соответствующей оценки характера развития и изменений изучаемых явлений, производят выбор подходящего вида и характера линий, наиболее соответствующей тенденции развития. Например, если тенденция развития прямолинейна, то точнее всего ее представить при помощи прямой линии, уравнение которой: Yt=a+bx. Если тенденция криволинейна, вначале восходящая, а затем нисходящая, то ее можно представить в виде параболы второй степени с уравнением: Yt=a+bx+cx2.
На следующем этапе для получения числовых значений параметров a, b, c, d и т.д. составляют систему уравнений. При решении системы уравнений получают конкретные числовые значения параметров. Если в уравнении линии, соответствующей по своему характеру тенденции развития, имеется два неизвестных параметра, применяется система двух уравнений. Например, для прямой Yt=a+bx применяется система двух уравнений, для параболы второй степени система трех уравнений и т.д.
В зависимости от того, сколько параметров имеет линия, выражающая основную тенденцию развития, столько уравнений требуется решить.
На третьем этапе работы после решения системы уравнений и получения конкретных числовых значений параметров, определяющих место соответствующей линии в системе координат, путем ряда последовательных подстановок в уравнения полученных величин X (условно принята нумерация периодов) получают теоретически ожидаемые величины Yt. Истолкование результатов при этом аналогично описанному при других способах выравнивания динамических рядов. Разность фактических наблюдаемых величин - Y и теоретически ожидаемых - Yt указывает количественно влияние временно действующих - случайных причин.
Давайте технику применения метода наименьших квадратов при использовании разных видов линий, выявляющих тенденцию развития, проиллюстрируем следующими примерами.
Прямолинейное выравнивание - несокращенный метод. О многих явлениях, являющихся объектом изучения науки можно сказать, что изменения в них с течением времени протекают прямолинейно, т.е. их развитие можно представить в виде прямой, уравнение которой: Yt=a+bx.
Например, рассмотренный нами пример по праву можно отнести к нисходящим прямолинейным. Это позволяет выразить тенденцию развития популяции в виде прямой. Система уравнений при помощи которых определяются параметры, следующая:
SY=Na+bSX
SXY=aSX+bSX2
где Y - фактические числовые величины изучаемого явления за каждый из периодов.
X - условная нумерация периодов. Эта нумерация обычно начинается с нуля и идет в естественном порядке чисел - 0,1,2,3,4, и т.д.
N - численность изучаемых периодов.
Используя приведенные ранее данные, получаем следующее.
Год |
Y |
X |
XY |
X2 |
Yt=a+bx |
1985 |
100 |
0 |
0 |
0 |
110 |
1986 |
110 |
1 |
110 |
1 |
105.2 |
1987 |
105 |
2 |
210 |
4 |
100.4 |
1988 |
100 |
3 |
300 |
9 |
95.6 |
1989 |
95 |
4 |
380 |
16 |
90.8 |
1990 |
87 |
5 |
435 |
25 |
86 |
1991 |
80 |
6 |
480 |
36 |
81.2 |
1992 |
80 |
7 |
560 |
49 |
76.4 |
1993 |
75 |
8 |
600 |
64 |
71.6 |
1994 |
60 |
9 |
540 |
81 |
66.8 |
892 |
45 |
3615 |
285 |
400 |
Для того, чтобы найти параметры a и b, необходимо составить систему двух уравнений.
892=10a+45b
3615=45a+285b
Решая эти уравнения получаем a=110, b=-4.8
Yt=a+bx=110-4.8x
Замещая x в этом уравнении соответствующими числовыми величинами, определяющими порядковый номер изучаемых периодов, получаем выровненные величины - Y, те, которые были бы получены, если бы на популяцию действовали только длительно действующие факторы.
Параметр b обозначает снижение или увеличение теоретически ожидаемых величин в течение одного из периодов и называется коэффициентом регрессии. Наименование это дал Гальтон, изучавший корреляцию роста родителей и их потомства. Так как Гальтон выявил нисходящую тенденцию в изменении роста высоких родителей и их потомства (коэффициент b с отрицательным знаком), то назвал он его коэффициентом регрессии. Это наименование остается за коэффициентом b и тогда, когда он имеет положительное значение.
Прямолинейное выравнивание - сокращенный способ - нечетное количество периодов. В нашем примере, иллюстрировавшим применение метода наименьших квадратов, были использованы абсолютные числа. Гораздо более познавательное значение имеют производные статистические показатели - относительные величины, средние величины и т.п. Например, если вы изучаете действие каких-то веществ на организм, то на абсолютные величины количества, допустим умерших животных, оказывает влияние количество животных, подвергнутых воздействию. Поэтому, в таких случаях удобнее пользоваться относительными величинами, выраженными в процентах.
Давайте разберем применение сокращенного способа выравнивания динамических рядов. Этот способ применяется тогда, когда ряд имеет нечетное количество периодов. Особенность его в том, что за начальный год X=0 принимается не первый год, а центральный. Нумерация остальных годов идет в естественном порядке чисел 1, 2, 3 и т.д., но номера более ранних лет до центрального имеют отрицательный знак, а после него положительный. Вследствие этого упрощается система уравнений:
SY=Na
SXY=bSX2
отсюда параметры a и b принимают значения (см. по формуле), что освобождает от необходимости решать систему уравнений.
Имеются следующие данные о заболеваемости гриппом за 1986-1994г.
Год |
Y |
X |
XY |
X2 |
Yt |
1986 |
4,7 |
-4 |
-18,8 |
16 |
8,22 |
1987 |
29,4 |
-3 |
-88,2 |
9 |
36,15 |
1988 |
61 |
-2 |
-122 |
4 |
64,08 |
1989 |
79,1 |
-1 |
-79,1 |
1 |
92,01 |
1990 |
152,1 |
0 |
0 |
0 |
119,94 |
1991 |
161,3 |
1 |
161,3 |
1 |
147,87 |
1992 |
166,5 |
2 |
333 |
4 |
175,81 |
1993 |
211,8 |
3 |
635,5 |
9 |
203,74 |
1994 |
213,6 |
4 |
854,4 |
16 |
231,68 |
1079,5 |
0 |
1676,1 |
60 |
1079,5 |
a=119.94 b=27.93
Прямолинейное выравнивание - сокращенный способ - четное число периодов. Приведенный способ наименьших квадратов при четном числе периодов встречает затруднение из-за отсутствия центрального периода, который можно было бы принять за начальный. В этом случае начальным моментом считают тот, который находится между двумя центральными, так как данные динамического ряда относятся к середине периода. Если мы имеем интервалы в годах, то для того, чтобы работать с целыми числами эти интервалы переводят в полугодовые.
Не всегда можно представить тенденцию развития явлений при помощи прямой, так как тенденция развития в ряде случаев криволинейна и прямая линия не подходит для ее характеристики. В таких случаях пользуются различными кривыми: параболами, гиперболами, экспоненциальными и т.д.
Парабола - одна из элементарных кривых. Параболой первой степени является прямая линия. Парабола второй степени имеет следующее уравнение: Yt=a+bx+cx2
а параболы третьей степени: Yt=a+bx+cx2+dx3.
Для решения этих уравнений надо найти значения a, b, c, d и т.д. Для этого надо решить соответствующую систему уравнений:
SY=Na+bSX+cSX2
SXY=aSX+bSX2+cSX3
SX2Y=aSX2+bSX3+cSX4
Техника решения подобных уравнений и построения графика принципиально ничем не отличается от разобранных ранее примеров. Аналогично можно применять сокращенные способы для четного количества периодов и нечетного количества периодов.
В случаях, когда количество интервалов велико можно прибегать к сглаживанию по трем, пяти, семи, девяти и т.д. точкам.
Например, сглаживание по 5 точкам выглядит так:
Yt=Xn-2+2Xn-1+3Xn+2Xn+1+Xn+2
по 9 точкам:
Yt=Xn-4+2Xn-3+3Xn-2+4Xn-1+5Xn+4Xn+1+3Xn+2+2Xn+3+Xn+4
Следует отметить, что данный метод можно применять не зная какие факторы оказывают длительное, а какие временное воздействие. Однако, можно заметить, что при таком способе сглаживания теряются начальные и конечные периоды.
Анализ циклических изменений
Многим явлениям свойственна цикличность. Она выражается в периодических изменениях интенсивности этих явлений, причем изменения эти обладают более или менее стабильным характером. Так, например, общеизвестны различия таких физиологических показателей, как пульс и артериальное давление крови, в различное время суток. Такого же рода суточная цикличность наблюдается и при некоторых антропометрических показателях: рост, вес.
Продолжительность цикла, в течение которого происходят соответствующие изменения, может иметь иногда длительность секунд (например пульсация сердца), а иногда и многих лет (солнечная радиация - 11 лет).
Лучше всего изучены вопросы цикличности, встречающейся наиболее часто. Это так называемая сезонная цикличность. Для примера можно сказать, что заболеваемость многими болезнями обладает характерными сезонными колебаниями.
Для того чтобы выяснить, каким образом можно количественно охарактеризовать сезонность, необходимо предва-рительно вкратце остановиться на причинах, определяющих те или иные величины изучаемых явлений. Изменения в этих явлениях могут быть охарактеризованы путем перемен, наступающих с течением времени. Эти изменения являются сложным результатом одновременного действия многих разнообразных причин, которые можно свести в три основные группы.
Первая - это причины с длительным сроком действия. Они действуют непрерывно в течение всего рассматриваемого периода и могли бы быть названы постоянно действующими причинами.
Вторая группа причин - временно действующие факторы. Временно действующие причины можно отнести к случайным. Они действуют в двух направлениях. Иногда они приводят к увеличению величины изучаемого явления, а иногда приводят к понижению. Так, например, к категории случайных причин, влияющих на величину популяции, можно отнести благоприятный или неблагоприятный климат данного календарного года или же неблагоприятное влияние в данном году какой-либо эпидемии. Временно действующие причины не определяют основную динамику показателей, но в известной степени сказываются на ее размерах.
Третья группа причин, вызывающих изменения исследуемых явлений, это сезонно действующие факторы. Они называются так потому, что действуют в зависимости от цикличной смены времен года.
Однако не следует считать, что перечисление упомянутых трех видов факторов дает полную классификацию причин, оказывающих влияние на изучаемые явления. В зависимости от специфики и характера этих явлений, от стоящей перед научным исследованием задачи к продолжительным, временным и сезонным причинам можно добавить и ряд других, например причины действующие, с разной силой в течение суток.
Все причины действующие на изучаемое явление |
= |
Длительно действующие причины |
+ |
Временно действующие причины |
+ |
Сезонно действующие причины |
Статистические методы, задачей которых является количест-венная характеристика влияния сезонных факторов, последовательно устраняют влияние на фактические данные, характеризующих изучаемое явление, случайно действующих факторов. Затем то же самое проделывают в отношении влияния продолжительно действующих причин. Под конец из полученных данных вычисляют индексы сезонного действия по отношению к общему основанию. Для этой цели подбирают общую среднюю.
Метод обычных средних
Преимуществом этого метода является то, что применение его не требуется тогда, когда не существует ясно выраженной длительной тенденции в развитии изучаемых явлений. Это можно вычислить из коэффициента b из годовых данных путем графического изображения и соответствующего анализа годовых данных или путем внимательного их рассмотрения для того, чтобы определить, существует или нет тенденция в изменении числовых данных.
После предварительного качественного анализа, если нет оснований считать, что имеется ясно выраженная тенденция в развитии изучаемого явления, применение метода обычных средних проходит через следующие этапы работы:
Метод корригирования средних
В качестве недостатка метода обычных средних указывают на то, что он дает количественную оценку сезонно влияющих факторов только тогда, когда отсутствует влияние длительно действующих факторов. Однако часто в изучаемых явлениях встречается наличие такой тенденции. В этих случаях необходимо при определении индексов сезонных колебаний учитывать влияние длительно действующих причин. Для этой цели пользуются методом корригирования средних. Для того чтобы найти индексы сезонных колебаний, поступают следующим образом.
Предварительно нужно решить вопрос, существует ли тенденция в изменении размеров изучаемого показателя и каков характер этого изменения: прямолинейный или криволинейный.
Метод корригированных средних может быть применен только в случае прямолинейной тенденции в изменении изучаемого показателя. Далее устраняют влияние временно действующих причин. Для этого сначала складывают фактические данные по месяцам, а затем делят полученные суммы на количество лет. Получают 12 средних. Далее устраняют влияние длительно действующих причин, влияющих на изучаемый фактор. Путем сложения отдельно за каждый год изучаемого периода фактических чисел получают данные за все годы. Производят выравнивание этих данных методом наименьших квадратов и получают величину b. Коэффициент b показывает годичное увеличение или снижение годовых данных. Если разделить коэффициент b на 12, получится годичное увеличение или снижение месячных данных, т. е. на сколько в среднем снижается или увеличивается в течение двух одинаковых календарных месяцев в двух смежных годах. Если разделить затем коэффициент b еще раз на 12, т. е. b:144, получится месячное увеличение или снижение данных за месяц, т. е. на сколько изменяется изучаемый параметр в двух соседних календарных месяцах одного и того же года. Следовательно, корригирующий коэффициент, при помощи которого можно устранить влияние длительно действующих причин, равен b:144. Коррекцию производят следующим образом: если развитие нисходящее (b со знаком минус), то к средней за январь прибавляют коррекцию, равняющуюся нулю, к средней за февраль прибавляют коэффициент коррекции, к средней за март - удвоенный коэффициент и т. д. до средней за декабрь, к которой добавляют коэффициент коррекции, умноженный на 11. Если развитие восходящее, то из средней каждого месяца вычитают соответствующий коэффициент коррекции.
Исправленные таким образом месячные средние усредняют путем сложения и деления суммы на 12. Получается общая средняя, в которой устранено влияние сезонно действующих факторов. Далее относят каждую из 12-месячных средних к общей средней и получают индексы сезонных колебаний. Эти индексы количественно характеризуют сезонность в каждом месяце отдельно, так как в знаменателе (принятом за базу и равняющимся 100) стоит величина общей средней, очищенной от влияния всех причин, включая и сезонно действующие, а в числителе - величина корригированных месячных средних, в которых сохранено влияние только сезонно действующих факторов.
Истолкование этих индексов сезонных колебаний следующее: если принять, что средний типичный уровень изучаемого показателя за отдельные календарные месяцы равен 100 %, то величина индексов за остальные месяцы покажет колебания.
Метод отношения фактических данных
к 12-месячным цепным средним.
Метод корригированных средних принимает во внимание и правильно учитывает влияние длительно действующих факторов только тогда, когда тенденция развития, вызванная влиянием этих факторов, прямолинейна. Однако тенденция в развитии явлений, может быть какой угодно.
По сравнению с методами обычных и корригированных средних данный метод имеет то преимущество, что позволяет учесть влияние длительно действующих факторов независимо от того, какова форма тенденции развития - прямолинейная или криволинейная.
Ход работы
1. Вычисляют 12-месячные цепные средние. Следует отметить, что при этом цепные осреднения не могут быть вычислены для первых шести месяцев первого года и за последние 5 месяцев последнего года. Усреднение на этом этапе работы проводится для устранения временно действующих и сезонно действующих причин. Следовательно в каждой из 12-месячной цепной средней осталось только влияние длительно действующих факторов.
2. Делят фактические данные каждого месяца отдельно на 12-месячные цепные средние и полученный результат умножают на 100. Это действие производится для исключения учета влияния временно действующих и сезонно действующих факторов. Следует напомнить, что фактические данные отражают на себе влияние как длительно действующих, так и временно и сезонно действующих причин, а 12-месячные цепные средние - влияние только длительно действующих причин. Следовательно принимая за основание деления 12-месячные цепные средние, исключают влияние временно и сезонно действующих причин.
3. Полученные таким образом результаты усредняют помесячно и получают 12 месячных средних. Это делается для устранения временно действующих случайных причин. Следовательно в полученных месячных средних осталось влияние только сезонно действующих причин.
4. Производят усреднение 12-месячных средних и получают общую среднюю. В этой средней устранено влияние сезонно действующих причин.
5. Находят индексы сезонных колебаний путем отношения каждой из месячных средних к общей средней, результат умножают на 100 для получения результатов в процентах.
Ошибки, допускаемые при количественной характеристике
сезонных колебаний
1. Иногда, для того чтобы выразить сезонные колебания, пользуются месячными экстенсивными показателями. Для этого годовое число принимают за 100 %, а месячные числа распре-деляют в процентах по отношению к итогу. Этот метод мало чем отличается от метода, описанного под названием “Метод обычных средних”. Однако существуют два обстоятельства, дающих основание предпочитать метод обычных средних применению метода экстенсивных показателей. Во-первых, базой для сравнения месячных средних при пользовании методом обычных средних является среднегодовой уровень равный 100 %, а при методе экстенсивных показателей 8,33=10/12. Во-вторых, при помесячных процентных показателях не учитывается различная длина месяца. В-третьих, тогда, когда в развитии изучаемого явления сказывается наличие длительно действующих факторов, следует применять иные методы количественной характеристики сезонности (метод корригированных средних, метод отношений).
2. Недооценка фактора сезонности может привести к неправильным выводам. Например, было отмечено, что такой антропометрический признак как “вес” имеет более высокие значения осенью и зимой и более низкие весной и летом.
3. Наиболее подходящим способом графического изображения сезонных колебаний является построение круговой линейной диаграммы.
Кластерный анализ
Кластерный анализ является одним из базовых методов распознавания образов без обучения. Методами кластерного анализа решается задача разбиения (классификации, кластеризации) множества объектов таким образом, чтобы все объекты, принадлежащие одному кластеру (классу, группе) были более похожи друг на друга, чем на объекты других кластеров. В отечественной литературе синонимом термина "кластерный анализ" является термин "таксономия". В иностранной литературе под таксономией традиционно понимается классификация видов животных и растений.
Все рассмотренные далее методы могут быть использованы как для классификации объектов, так и для классификации признаков
Виды используемых в кластерном анализе мер сходства и различия перекликаются с философской дилеммой: "ищите сходство" или "ищите различие". Меры сходства для кластерного анализа могут бы" следующих видов:
Мера сходства типа расстояния (функции расстояния), называемая также мерой различия. В этом случае объекты считаются тем более похожими, чем меньше расстояние между ними, поэтому некоторые авторы называют меры сходства типа расстояния мерами различия.
Мера сходства типа корреляции, называемая связью, является мерой, определяющей похожесть объектов. В этом случае объекты считаются тем более похожими, чем больше связь между ними. Меры могут быть легко приведены к предыдущему типу, как показано ниже.
Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни (как, например, в методе K средних).
Иерархическое дерево
Рассмотрим горизонтальную древовидную диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер.
В результате, связывается вместе всё большее и большее число объектов и объединяется все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе.
Меры расстояния
Объединение или метод древовидной кластеризации используется при формировании кластеров несходства или расстояния между объектами. Эти расстояния могут определяться в одномерном или многомерном пространстве.
Евклидово расстояние. Это, по-видимому, наиболее общий тип расстояния. Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:
.
Евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным. Это обычный способ его вычисления, который имеет определенные преимущества (например, расстояние между двумя объектами не изменяется при введении в анализ нового объекта, который может оказаться выбросом). Тем не менее, на расстояния могут сильно влиять различия между осями, по координатам которых вычисляются эти расстояния.
Квадрат евклидова расстояния. Иногда может возникнуть желание возвести в квадрат стандартное евклидово расстояние, чтобы придать большие веса более отдаленным друг от друга объектам. Это расстояние вычисляется следующим образом:
.
Расстояние городских кварталов (манхэттенское расстояние). Это расстояние является просто средним разностей по координатам. Для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Манхэттенское расстояние вычисляется по формуле:
.
Расстояние Чебышева. Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной координате (каким-либо одним измерением). Расстояние Чебышева вычисляется по формуле: .
Степенное расстояние. Иногда желают прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Это может быть достигнуто с использованием степенного расстояния. Степенное расстояние вычисляется по формуле:
.
где r и p - параметры, определяемые пользователем. Несколько примеров вычислений могут показать, как "работает" эта мера. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра r и p, равны двум, то это расстояние совпадает с расстоянием Евклида.
Процент несогласия. Эта мера используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется по формуле:
расстояние(x,y) = (Количество x<>yi)/ni
Правила объединения или связи
На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой.
Одиночная связь (метод ближайшего соседа). Этот метод является самым простым для понимания из иерархических агломеративных методов кластерного анализа. Метод начинает процесс классификации с поиска и объединения двух наиболее похожих объектов в матрице сходства. На следующем этапе находятся два очередных наиболее похожих объекта, и процедура повторяется до полного исчерпания матрицы сходства.
В процессе кластеризации методом ближней связи явно прослеживается образование цепочек объектов. Таким образом, для выделения кластеров после окончания процесса кластеризации требуется задаться некоторым пороговым уровнем сходства, на котором выделяется число кластеров, большее единицы. Процедура не всегда обнаруживает такое свойство, как образование одного большого кластера на последнем этапе кластеризации, и часто заканчивается явным разделением всех предъявленных объектов на кластеры. После проведения классификации рекомендуется визуализировать результаты кластеризации путем построения дендрограммы. Для большого числа объектов такая визуализация является единственным способом получить представление об общей конфигурации объектов.
Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т. е. "наиболее удаленными соседями"). Этот метод обычно работает очень хорошо, когда объекты происходят на самом деле из реально различных "рощ". Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является "цепочечным", то этот метод непригоден.
Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные "рощи", однако он работает одинаково хорошо и в случаях протяженных ("цепочного" типа) кластеров.
Взвешенное попарное среднее. Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (т. е. число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров.
Невзвешенный центроидный метод. В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести.
Взвешенный центроидный метод (медиана). Этот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т. е. числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего.
Метод Варда (Уорда). Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера.
Метод K средних
В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга.
С вычислительной точки зрения, вы можете рассматривать этот метод как дисперсионный анализ "наоборот". Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и (2) - максимизировать изменчивость между кластерами. Данный способ аналогичен методу "дисперсионный анализ наоборот" в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом K средних программа перемещает объекты (т.е. наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа (ANOVA).
Обычно, когда результаты кластерного анализа методом K средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале вы должны получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе. Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискрими-нирует кластеры.
Выбор адекватного теста для того, чтобы сравнивать показатели достаточно сложное мероприятие, поскольку Вам необходимо выбирать между двумя семействами тестов - параметрическими и непараметрическими.
Выбор между параметрическими и непараметрическими
тестами: легкая ситуация.
Выбор между параметрическими и непараметрическими тестами иногда достаточно прост: Вы должны четко выбрать параметрический тест, если Вы уверены, что Ваши данные были получены как выборка из популяции, которая соответствует нормальному распределению. Вы должны определенно выбирать непараметрический тест в следующих ситуациях:
Выбор между параметрическими и непараметрическими
тестами: сложные случаи.
Не всегда легко определить является ли выборка из Гауссовой популяции. Обратите внимание на следующие положения:
Выбор между параметрическим и непараметрическим тестом: насколько это на самом деле влияет на результат?
На самом деле надо ли задумываться о выборе параметрического или непараметрического теста? Ответ зависит от размере выборки. Есть четыре вещи о которых следует подумать:
Поэтому большие наборы данных не представляют большой проблемы. Обычно достаточно легко сказать пришли ли данные из Гауссовой популяции, хотя на самом деле это уже не столь важно, поскольку непараметрические тесты достаточно мощны, а параметрические тесты устойчивы. Небольшие наборы данных как раз и являются основной проблемой. Достаточно сложно сказать пришли ли данные из Гауссовой популяции, однако это очень важно. Непараметрические тесты при небольшом объеме данных недостаточно мощны, а параметрические тесты не являются устойчивыми.
Одно или двухсторонняя p-оценка?
Для большинства статистических тестов Вы должны выбирать хотите ли Вы рассчитать одно- или двух- стороннюю р-оценку. Различия между одно и двухсторонней р-оценкой обсуждалось ранее, а теперь давайте вспомним про эти различия в контексте t-теста. Р-оценка подсчитывается для нулевой гипотезы что две популяции имеют одинаковые значения средних и любые различия между двумя выборочными средними являются следствием случайных факторов. Если эта нулевая гипотеза справедлива односторонняя р-оценка - это вероятность того, что две выборочных средних будут различаться настолько много, насколько было обнаружено или (даже больше) в направлении, которое было указано гипотезой за счет случайных факторов, даже если среднее в популяции в целом на самом деле равное. Двухсторонняя р-оценка также включает вероятность того, что выборочные средние могут различаться таким же образом и в противоположном направлении, то есть другая группа имеет большее среднее. Двухсторонняя р-оценка таким образом выше, чем односторонняя.
Односторонняя р-оценка является адекватной когда Вы можете точно установить (и перед сбором любых данных), что здесь нет никаких различий между средними либо различия будут идти в направлении, которое Вы можете указать с самого начала (то есть Вы можете указать в какой группе будут более высокие средние значения). Если Вы не можете указать направления или любые различия, прежде чем начинать сбор данных, тогда более адекватным будет использовать двухстороннюю р-оценку. Если Вы сомневаетесь, выбирайте двухстороннюю р-оценку.
Если Вы выбираете односторонний тест, Вы должны сделать это до сбора каких бы то ни было данных и Вам необходимо установить направление Вашей экспериментальной гипотезы. Если данные пойдут в другую сторону, Вы должны будете согласиться на то, что эти различия ассоциация или корреляция является следствием действия случайных факторов вне зависимости от того, насколько серьезными получаются эти различия. Если Вы будете заинтересованы (даже немного) тем, насколько данные могут пойти в "неправильном" направлении, то тогда Вы должны использовать двухстороннюю р-оценку. По этим и другим причинам, которые обсуждались ранее, я бы рекомендовал Вам, чтобы Вы всегда анализировали только двухстороннюю р-оценку.
Парный или непарный тест?
Когда Вы сравниваете две группы, Вам необходимо решить использовать или не использовать парный тест. Когда Вы сравниваете три или более группы, термин парные уже не используется, используется термин повторные измерения.
Вы должны использовать парный тест, когда Вы сравниваете группы, в которых индивидуальные значения не связаны друг с другом и не соотнесены один с другим. Выбирайте парный тест или тесты с повторными измерениями, когда значения представляют собой повторные измерения у одного и того же субъекта (до и после вмешательства) или измерения, сделанные на специально подобранных парах наблюдений. Парные или тесты с повторными измерениями также подходят для повторных экспериментов в лаборатории, которые выполняются в разное время каждый раз со своим собственным контролем.
Вы должны подбирать парный тест, когда значение в одной группе больше коррелирует с определенными значениями в другой группе, чем со случайными значениями в другой группе. Адекватным является выбирать парный тест только в том случае, если субъекты были собраны в пары до начала сбора данных. Вы не можете создавать парный тест на данных, которые Вы собрали ранее, а сейчас анализируете.
Тест Фишера или хи-квадрат?
Когда Вы анализируете таблицы сопряженности с двумя строками и двумя столбцами, Вы можете использовать либо точный тест Фишера, либо тест хи-квадрат. Тест Фишера является более хорошим выбором, поскольку он всегда дает точное значение р-оценки. Хи-квадрат легче подсчитывать, но он дает только примерное значение р-оценки. Если компьютер делает все расчеты, Вы должны выбирать тест Фишера за исключением ситуации, когда Вы предпочитаете хи-квадрат на основе того, что он более хорошо известен. Вы должны совершенно четко избегать хи-квадрат в том случае, если количество наблюдений (любое число ниже 6). Когда значение больше р-оценки, которые получаются в результате использования теста хи-квадрат и теста Фишера будут очень похожи друг на друга.
Тест хи-квадрат рассчитывает примерные p-значения и поправка Йетса на непрерывность предназначена для того, чтобы сделать это приближение лучше. Без поправки Йетса p-значения слишком небольшие, однако если коррекция заходит слишком далеко, результирующая p-оценка оказывается слишком большой. Статистики дают различные рекомендации по отношению к поправке Йетса. Когда имеется большая выборка, то поправка Йетса не приводит к серьезным различиям. Если Вы выбираете тест Фишера, p-значение является точным и в этой ситуации поправка Йетса на непрерывность не является необходимой.
Регрессия или корреляция?
Линейная регрессия и корреляция являются очень похожими друг на друга и их легко спутать. В некоторых ситуациях имеет смысл выполнять оба типа расчета. Рассчитывайте линейную корреляцию, если Вы измеряете как Х, так и Y у каждого обследованного и хотите оценить насколько хорошо они связаны друг с другом. Выбирайте Пирсоновский (параметрический коэффициент) коэффициент корреляции если Вы предполагаете, что Х и Y были выбраны из Гауссовой популяции. В другом случае выбирайте непараметрический коэффициент корреляции Спирмена. Не рассчитывайте коэффициент корреляции или доверительный интервал если Вы сами воздействовали на значение переменной Х. Рассчитывайте линейную регрессию только в том случае, если одна из переменных Х по всей вероятности является предшественником или причиной изменения другой переменной Y. Совершенно четко выбирайте линейную регрессию, если Вы сами воздействовали на переменную Х. В линейной регрессии очень серьезные различия получаются в зависимости от того, какая переменная обозначается Х, а какая переменная обозначается Y, поскольку подсчеты при помощи линейной регрессии не симметричны по отношению к Х и Y. Если Вы поменяете местами эти две переменные, Вы можете получить другую регрессионную линию. В противоположность этому линейный коэффициент корреляции симметричный по отношению к Х и Y, и если Вы поменяете местами маркеры для Х и Y, Вы получите тот же самый корреляционный коэффициент.
Вопросы для самопроверки:
РАЗДЕЛ IV. РАБОТА С ПРОГРАММОЙ EASYSTATISTICS
Общие сведения о программе EasyStatistics
В программе 3 основных страницы: "Новый файл", "Выборка" и "Результаты".
В окне "Новый файл" проводятся основные операции с базой:
1. Создание нового файла
2. Редактирование
3. Изменение названий переменных и случаев.
4. Сохранение файла
5. Установка фильтра
Внимание: все расчеты осуществляются по окну "Выборка"
В случае если открывается уже ранее созданный файл окна "Файл данных" и "Выборка" совпадают. Это значит, что для вычисления любой статистики будут использованы все переменные и случаи. Если необходимы только часть из них, необходимо воспользоваться кнопкой "Фильтр".
Окно "Выборка" предназначено для
1. Просмотра текущих переменных и случаев, используемых в анализе
2. Сохранения части основной базы в виде отдельного файла
Окно "Результаты" предназначено для
1. Просмотра результатов
2. Печати результатов
3. Сохранения результатов в виде текстового файла или файла MS Excel
4. Копирования результатов в буфер обмена
Внимание: кнопка печать работает только в окне "Результаты"
Статистические методы:
% P-? |
Описательная статистика Частотный анализ Таблицы 2х2 Сравнение независимых выборок Сравнение связанных выборок Дисперсионный анализ Корреляционный анализ Множественная регрессия Проверка типа распределения эмпирических данных Вероятностный калькулятор |
Создание новой базы данных
Для создания новой базы данных необходимо выбрать пункт меню Файл→Новый или нажать кнопку в панели инструментов.
В появившемся окне потребуется ввести количество переменных и случаев
После нажатия кнопки "Создать" в окне "Новый файл" формируется таблица нужных размеров. По умолчанию все переменные называются VAR1, VAR2 и т.д.
Для того, чтобы изменить названия переменных и случаев надо выбрать пункт меню "Правка→Редактировать названия переменных и случаев" или кнопку
После окончания редактирования рекомендуется снова нажать кнопку или пункт меню "Правка→Завершить редактирование".
Внимание: Называть переменные можно по-русски, но если потом потребуется перевод файла в другие статистические программы, то рекомендуется ввод английскими буквами и до 8 символов (например, вместо "Возраст" можно написать "Age" или "Vozrast").
Теперь заполняются данные:
Внимание: В том случае если на какой-то объект исследования нет данных, то просто оставляется пустое место
После окончания ввода базу данных желательно сохранить "Файл → сохранить как". Поддерживаются форматы:
Внимание: Программа никак не отслеживает сохранены данные или нет. Если закрыть программу, не сохранив файл, то потеряются все набранные данные.
Работа с файлами
Для того, чтобы открыть ранее сделанную базу данных нужно выбрать пункт меню "Файл→ открыть" или нажать на кнопку .
Поддерживаются форматы:
Копирование и вставка данных
Копирование (кнопка ) возможно в любом из окон «Файл», «Выборка», «Результаты», вставка () только в окне «Файл».
Внимание: Иногда требуется перенести в программу значительные объемы данных, например, из MS Excel. В этом случае программа может зависнуть. Поэтому, в зависимости от ситуации рекомендуется выполняить копирование-вставку несколькими частями или, если есть необходимость перенести в программу целый лист, необходимо сохранить его в MS Excel в формате «текстовый формат с разделителями табуляции», а затем открыть в EasyStatistics.
Если есть необходимость копировать или вставлять названия переменных или случаев, перед началом операции необходимо выбрать пункт меню "Правка→Редактировать названия переменных и случаев" или кнопку .
Работа с фильтрами
Вся статистическая обработка выполняется для данных, находящихся в окне «Выборка». В случае если открывается уже ранее созданный файл окна "Файл данных" и "Выборка" совпадают. Это значит, что для вычисления любой статистики будут использованы все переменные и случаи. Если необходимы только часть из них, необходимо воспользоваться кнопкой или воспользоваться пунктом меню "Таблица→Фильтр".
Переменные пишутся цифрами (1 2 7-10) или выделяются мышкой.
Внимание: Для выбора переменных по-порядку (например, 1-10) используется клавиша Shift + Мышка, для выделения в разнобой (например, 1 3 5-7) используется клавиша Ctrl + Мышка.
Выбор случаев это математическое выражение, поэтому во избежание путаницы перед номером переменной используется приставка v (или V).
Окно для ввода переменных Окно для написания условия |
Примеры выражений:
(допустим, на рисунке переменная Пол закодирована следующим образом: 1 девушки, 2 юноши, переменные Ботаника и История содержат оценки по этим предметам на экзамене)
После окончания написания фильтра следует нажать кнопку «Выбрать». Программа автоматически переключится в закладку выборка и сформирует базу данных для последующей обработки.
Работа с переменными и строками
Для работы с переменными или случаями необходимо воспользоваться всплывающим меню (правая кнопка мыши на таблице с данными).
Пункт меню Переменные→Добавить.
В появившемя окне необходимо указать количество создаваемых переменных. По умолчанию новые переменные имеют названия N1, N2, N3 и т.д.
В ряде случаев, для упрощения работы необходимо заполнить новую или уже имеющуюся переменную значениями, согласно неким условиям. В этом случае выбирается пункт меню Переменные→Перекодировать. Примеры и правила написания условий см. в разделе «Работа с фильтрами»
В данном примере переменная N1 примет значение 1 если возраст ребенка менее или равен 12 годам, 2 если возраст 13 или 14 лет, 3 если ребенок старше 15 лет (включительно).
СТАТИСТИЧЕСКИЕ МЕТОДЫ
Описательные статистики
Для вычисления показателей центральной тенденции, вариации, асимметрии и эксцесса необходимо выбрать пункт меню "Статистика→Описательные статистики" или нажать кнопку .
Внимание: Кнопка «Запомнить» позволяет зафиксировать вычисляемые показатели при следующем вызове данного метода
В появившемся диалоге галочками отметить нужные статистики и нажать кнопку "Вычислить". Программа автоматически переключается в окно результатов.
Очень часто бывает нужно выполнять одинаковые вычисления для нескольких групп. Например, в вышеприведенном примере, может потребоваться посчитать необходимые статистики отдельно для каждого пола. Данную задачу можно решить двумя способами:
Кнопка "Вычислить" автоматически переключит программу в окно результатов,
где будут представлены вычисления для каждого значения независимой переменной.
Внимание: Вторым способом можно воспользоваться только при наличии четкой независимой переменной. Если переменная содержит более 15 градаций или считать нужно диапазонами (например, переменная VOZRAST имеет значения 10,11,12,13,14,15,16 лет, а требуется посчитать средние для 3-х групп 10-12, 13-14, 15-16), то рекомендуется сделать новую переменную и перекодировать ее (см. раздел «Работа с переменными и случаями»).
Частотный анализ
Для вычисления частоты проявления признака и таблиц сопряженности необходимо выбрать пункт меню "Статистика→Частотный анализ" или нажать кнопку %.
Перед началом работы выбирается форма выдачи результатов ( в процентах или в долях от единицы) и нажимается кнопка «Вычислить».
Результаты будут представлены в следующем виде:
- название переменной - числовое значение, количество наблюдений, процент - числовое значение, количество наблюдений, процент - сумма наблюдений, принимаемая за 100 процентов - название переменной - числовое значение, количество наблюдений, процент - числовое значение, количество наблюдений, процент - числовое значение, количество наблюдений, процент - числовое значение, количество наблюдений, процент - числовое значение, количество наблюдений, процент - числовое значение, количество наблюдений, процент - числовое значение, количество наблюдений, процент - сумма наблюдений, принимаемая за 100 процентов |
Внимание: Если переменная содержит более 15 градаций или считать нужно диапазонами, то рекомендуется сделать новую переменную и перекодировать ее (см. раздел «Работа с переменными и случаями»). В противном случае данная переменная будет пропущена при вычислениях.
Для сравнения долей следует воспользоваться «Таблицами сопряженности». Программа автоматически просмотрит независимую переменную и отобразит их в окне "Найденные значения".
Внимание: Если независимая переменная содержит более 15 градаций или считать нужно диапазонами, то рекомендуется сделать новую переменную и перекодировать ее (см. раздел «Работа с переменными и случаями»). В противном случае таблицы сопряженности не будут вычислены.
После нажатия кнопки «Вычислить» результаты будут представлены в следующем виде:
VOZRAST |
POL =1,00 |
POL =2,00 |
||||
10 |
9 |
8,74 |
8 |
10,13 |
1 |
4,17 |
11 |
43 |
41,75 |
33 |
41,77 |
10 |
41,67 |
12 |
13 |
12,62 |
13 |
16,46 |
0 |
0 |
13 |
22 |
21,36 |
12 |
15,19 |
10 |
41,67 |
14 |
10 |
9,71 |
8 |
10,13 |
2 |
8,33 |
15 |
1 |
0,97 |
0 |
0 |
1 |
4,17 |
16 |
5 |
4,85 |
5 |
6,33 |
0 |
0 |
103 |
100 |
79 |
100 |
24 |
100 |
|
Градации переменной возраст |
Количество наблюдений |
Проценты |
Градации переменной возраст для POL=1 |
Количество наблюдений для POL=1 |
Градации переменной возраст для POL=2 |
Количество наблюдений для POL=1 |
Сравнение долей |
1_2 |
|||||
10 |
0,49 (p=0,6232) |
|||||
11 |
-0,23 (p=1,0000) |
|||||
12 |
1,78 (p=0,0789) |
|||||
13 |
2,49 (p=0,0145) |
|||||
14 |
-0,13 (p=1,0000) |
|||||
15 |
0,63 (p=0,5271) |
|||||
16 |
0,72 (p=0,4724) |
|||||
Хи-квадрат |
X2=15,61 |
p=0,0160 |
||||
Сравнения пропорций юношей и девушек по возрастам с помощью Т-критерия и обобщающий критерий хи-квадрат. |
Таблицы 2х2
Для работы с четырехпольными таблицами необходимо выбрать пункт меню "Статистика→Таблицы 2х2" или нажать кнопку .
Кнопка «Запомнить» позволяет зафиксировать вычисляемые показатели при следующем вызове данного метода в другой сессии EasyStatistics.
После нажатия кнопки «Вычислить» результаты будут представлены в следующем виде:
Внимание: Для удобства введенные цифры и вычисляемые параметры не сбрасываются при следующем вызове метода текущей сессии программы
Внимание: В большинстве статистических программ вычисление теста Фишера невозможно при N>100. Это связано с вычислением факториалов. Реализация в данной программе дает такую возможность.
Сравнение независимых выборок
Необходимо выбрать пункт меню "Статистика→Сравнение независимых выборок или нажать кнопку
Предусмотрены следующие критерии в зависимости от характера исходных данных и типа распределения изучаемых переменных:
2 сравниваемые группы (независимая переменная имеет две градации) |
|
Количественные переменные, имеющие нормальное распределение |
Количественные переменные, не имеющие нормального распределения или порядковые переменные |
|
|
2 и более сравниваемых групп Количественные переменные, имеющие нормальное распределение |
|
1. Критерий Шеффе |
Внимание: О проверке соответствия переменной нормальному закону распределения см раздел «Проверка типа распределения эмпирических данных»
Внимание: Для номинальных переменных см раздел «Частотный анализ»
Внимание: Если изучаемых групп более чем две и требуется оценить влияние независимой переменной в целом рекомендуются варианты дисперсионного анализа (см. раздел «Дисперсионный анализ»)
Внимание: Если сравнивается более двух групп и требуется оценить влияние для каждой из градаций независимой переменной рекомендуются установить галочку «Выводить P с поправкой Бонферрони.
Если в окне «Показывать в результатах» ничего не выбрано, то в таблице результатов будут представленны только числовые значения коэффициента доверия (p) для нулевой гипотезы.
Для отображения значения выбранного критерия необходимо поставить галочку «Выводить значение критерия»
Внимание: Будет выводится значение того критерия, который указан в окне настроек за исключением U-критрия. Там для удобства выводится аппроксимированное значение нормального распределения Z-критерий. Это связано с тем, что сумма рангов (U-критрий) зависит от числа наблюдений, что неудобно при сравнении групп имеющих разные численности.
Во многих случаях бывает легче для восприятия и последующего осмысления результатов оставить только достоверные значения (-уровень обычно принимается равным 0,05 или 0,01)
Для построения графиков необходимо поставить соответствующую галочку.
Оси масштабированы следующим образом:
100% - максимальное значение переменной по всем группам
0% - минимальное значение переменной по всем группам
Графики строятся по средним значениям групп.
Внимание: В случае построения графика число градаций независимой переменной не должно превышать пяти
График можно сохранить в формате Windows BITMAP (*.bmp) или скопировать его в буфер обмена для последующей вставки в другие программы.
Внимание: Число переменных на графике не должно превышать 20-25. Иначе на графике они будут сливаться и график утратит информативность.
Внимание: Все названия переменных для графика берутся из базы данных. Поэтому рекомендуется называть переменные по-русски и одним или двумя словами
Сравнение связанных выборок
Необходимо выбрать пункт меню "Статистика→Сравнение связанных выборок" или нажать кнопку .
Предусмотрены следующие критерии в зависимости от характера исходных данных и типа распределения изучаемых переменных:
2 сравниваемые группы (независимая переменная имеет две градации) |
|
Количественные переменные, имеющие нормальное распределение |
Количественные переменные, не имеющие нормальное распределение или порядковые переменные |
T-критерий Стьюдента |
Т-критерий Вилкоксона |
Внимание: О проверке соответствия переменной нормальному закону распределения см раздел «Проверка типа распределения эмпирических данных»
Назначение настроек «Выводить значение критерия» и «Выводить только достоверные значения аналогичны настройкам для «Сравнения независимых выборок (см. выше).
Фрагмент исходной базы данных |
Выборка для проведения метода |
Внимание: Сравниваются каждая переменная с каждой, поэтому перед началом работы через установку фильтра отобрать только необходимые переменные.
Например, в данном примере нужно сравнить Вес в начале эксперимента и в конце. Необходимо оставить только эти две переменных. В противном случае ошибки не произойдет, но обрабатываться будет много излишней информации.
Обработка для всей базы |
Обработка выборки |
Сравнение переменных Вес и Вес2 присутствует в обеих таблицах результатов. Однако, как видно из примера, сравнивать переменные Возраст и Рост бессмысленно, так как они имеют разные единицы измерения.
В случае необходимости вычислений для нескольких групп выборка выглядит примерно следующим образом:
Затем переменная (в данном случае Пол) указывается как независимая.
Результаты выглядят аналогично вышеприведенным, только разнесены по градациям независимой переменной.
Дисперсионный анализ
Необходимо выбрать пункт меню "Статистика→Дисперсионный анализ" или нажать кнопку .
Предусмотрены следующие виды анализа в зависимости от характера исходных данных и типа распределения изучаемых переменных:
Количественные переменные, имеющие нормальное распределение |
Количественные переменные, не имеющие нормальное распределение или порядковые переменные |
Дисперсионный анализ Фишера |
Дисперсионный анализ Краскела-Уоллиса |
Внимание: Если число градаций независимой переменной две рекомендуется использовать группу методов из раздела «Сравнение независимых выборок».
Нажатие кнопки «Вычислить» приводит к переключению в окно результаты
Результаты дисперсионного анализа Фишера
В том случае если в окне настроек установлена галочка «Выводить только достоверные значения»
Как видно из примера, в этом случае не отображается колонка «значимо» и результаты отображаются в соответствии с выбранным уровнем значимости.
Внимание: Дисперсионный анализ показывает только влияние фактора на переменную, но не его направленность.
В вышеприведенном примере, переменная возраст, в принципе не может повлиять на пол обследуемого (это скорее связано с разными частотами юношей и девушек в разных возрастных группах), а влияние на переменную L выявлено, но не ясно в каких возрастах преобладают более высокие или более низкие значения.
Внимание: Для изучения направленности влияний рекомендуется использовать критерий Шеффе (см. раздел «Сравнение независимых выборок»
Результаты дисперсионного анализа Краскела-Уоллиса
Установлена галочка «Выводить только достоверные значения»
Внимание: Поскольку дисперсионный анализ Краскела-Уоллиса выполняется не через расчет межгрупповых и групповых дисперсий, а через суммы рангов, то галочки напротив соответствующих настроек игнорируются. Поэтому при проведении этого анализа рекомендуется их убирать.
Интерпретация результатов аналогична однофакторному дисперсионному анализу Фишера.
Корреляционный анализ
Необходимо выбрать пункт меню "Статистика→Корреляционный анализ" или нажать кнопку .
Предусмотрены следующие виды анализа в зависимости от характера исходных данных и типа распределения изучаемых переменных:
Количественные переменные, имеющие нормальное распределение |
Количественные переменные, не имеющие нормальное распределение или порядковые переменные |
Корреляционный анализ Пирсона |
Корреляционный анализ Спирмена |
Внимание: О проверке соответствия переменной нормальному закону распределения см раздел «Проверка типа распределения эмпирических данных». Если проверка не выполнялась рекомендуется использовать корреляции Спирмена.
Внимание: Для номинальных переменных см раздел «Частотный анализ»
Внимание: Настройка «Считать уравнение регрессии» работает только для корреляции Пирсона. Это связано с тем, что метод наименьших квадратов разработан для количественных переменных.
При выборе опции «Считать уравнение регрессии» вычисляются два уравнения вида: y=a+bx и x=a+by, где y это первая из пары переменных, x вторая, b угол наклона, а свободный член.
a(xy) |
b(xy) |
a(yx) |
b(yx) |
|
VOZRAST - L |
10,73 |
0,29 |
1,69 |
0,23 |
VOZRAST=10,73+0,29*L |
L=1,69+0,23*VOZRAST |
Пример уравнений регрессии и интерпретация.
Внимание: Уравнения регрессии считаются только при вычислениях коэффициентов корреляции Пирсона. При вычислении корреляций Спирмена эта опция окна настроек игнорируется.
Все корреляции |
Только достоверные |
Обозначения: N- число наблюдений R коэффициент корреляции Р доверительный уровень |
В левом верхнем углу таблицы результатов показано количество статистически значимых прямых, обратных корреляций и их общее число.
Вычисление корреляций осуществляется по принципу «каждая переменная с каждой». Результат выводится только один раз. Поэтому взаимосвязи последних переменных как бы размазаны по всей таблице. В приведенном примере корреляция POL VOZRAST есть вначале таблицы, поэтому корреляция VOZRAST POL не приводится.
Внимание: Если установлена опция выводить только достоверные корреляции, а их нет, таблица результатов будет пустой.
По результатам можно построить график взаимосвязей.
Внимание: Вне зависимости от настроек на графике будут отображены только достоверные корреляции (-уровень обычно принимается равным 0,05 или 0,01). Если -уровень не указан, он принимается равным 0,05.
На графике красным цветом и пунктиром отмечены отрицательные связи, черным цветом и прямыми линиями положительные.
График можно сохранить в формате Windows BITMAP (*.bmp) или скопировать его в буфер обмена для последующей вставки в другие программы.
Внимание: Число переменных на графике не должно превышать 30. Иначе на графике они будут сливаться и график утратит информативность.
Внимание: Все названия переменных для графика берутся из базы данных. Поэтому рекомендуется называть переменные по-русски и одним или двумя словами.
Множественная регрессия
Необходимо выбрать пункт меню "Статистика→Множественная регрессия" или нажать кнопку .
Внимание: Для анализа следует использовать только количественные переменные.
Таблица результатов выглядит следующим образом
Beta |
B |
Ошибка B |
T |
p |
|
Константа |
-0,14438 |
||||
POL |
0,477863 |
1,501299 |
0,272995 |
5,499373 |
0 |
VOZRAST |
0,230028 |
0,204517 |
0,077257 |
2,647229 |
0,009472 |
E |
-0,09659 |
-0,03945 |
0,035486 |
-1,11158 |
0,269065 |
N |
0,091918 |
0,047624 |
0,045021 |
1,057812 |
0,292768 |
NEVROZ |
0,009348 |
0,016204 |
0,150626 |
0,107581 |
0,91455 |
Бета- коэффициенты |
Коэффициенты B |
Ошибка коэффициентов B |
Т критерий |
Р |
|
Коэфф. детерминации |
0,310677 |
||||
Коэфф. корреляции |
0,557384 |
||||
Дисперсия регрессии |
11,28934 |
||||
Остаточная дисперсия |
1,291161 |
||||
F - критерий |
8,743553 |
F- критерий уравнения |
|||
p |
0,000001 |
Достигнутый уровень значимости |
|||
Ошибка регресии |
1,136293 |
Таким образом суммарное уравнение выглядит следующим образом:
L=1,501299*POL+0,204517*VOZRAST-0,03945*E+0,047624*N+0,016204*NEVROZ-0,14438
Внимание: В модель включаются все переменные, находящиеся в закладке «Выборка», за исключением независимой переменной. Поэтому для улучшения прогноза рекомендуется предварительно воспользоваться обычным корреляционным анализом и выбрать для прогноза только те переменные, которые влияют на результативный признак.
Проверка типа распределения эмпирических данных
Для правильного выбора метода статистического анализа необходимо знать тип распределения эмпирических данных, и в первую очередь, соответствует ли эмпирическое распределение теоретическому нормальному.
Для выполнения проверки необходимо выбрать пункт меню "Статистика→Проверка типа распределения" или нажать кнопку .
Значения критериев
Достигнутый уровень значимости (доверительный уровень)
Внимание: Число классов вычисляется автоматически по формуле Стерджесса 1+3,32*log10(N).
Вероятностный калькулятор
Вероятностный калькулятор позволяет переводить значение параметра распределения в уровень значимости для односторонней и, там где это возможно, для двусторонней гипотезы.
Необходимо выбрать пункт меню "Статистика→Вероятностный калькулятор.
Внимание: df1, df2 число степеней свободы. Вычисляется на основе числа наблюдений.
Задания для самостоятельной работы с программой
Используя базу данных из приложения 5, выполните следующие задания. Выбор критерия аргументируйте:
СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ
Приложение 1
Критические значения t-критерия Стъюдента
Число степеней свободы (n1+ n2 -2) |
Вероятность допустимой ошибки |
||
0,05 |
0,01 |
0,001 |
|
4 |
2,78 |
5,60 |
8,61 |
5 |
2,58 |
4,03 |
6,87 |
6 |
2,45 |
3,71 |
5,96 |
7 |
2,37 |
3,50 |
5,41 |
8 |
2,31 |
3,36 |
5,04 |
9 |
2,26 |
3,25 |
4,78 |
10 |
2,23 |
3,17 |
4,59 |
11 |
2,20 |
3,11 |
4,44 |
12 |
2,18 |
3,05 |
4,32 |
13 |
2,16 |
3,01 |
4,22 |
14 |
2,14 |
2,98 |
4,14 |
15 |
2,13 |
2,96 |
4,07 |
16 |
2,12 |
2,92 |
4,02 |
17 |
2,11 |
2,90 |
3,97 |
18 |
2,10 |
2,88 |
3,92 |
19 |
2,09 |
2,86 |
3,88 |
20 |
2,09 |
2,85 |
3,85 |
21 |
2,08 |
2,83 |
3,82 |
22 |
2,07 |
2,82 |
3,79 |
23 |
2,07 |
2,81 |
3,77 |
24 |
2,06 |
2,80 |
3,75 |
25 |
2,06 |
2,79 |
3,73 |
26 |
2,06 |
2,78 |
3,71 |
27 |
2,05 |
2,77 |
3,69 |
28 |
2,05 |
2,76 |
3,67 |
29 |
2,05 |
2,76 |
3,66 |
30 |
2,04 |
2,75 |
3,65 |
40 |
2,02 |
2,70 |
3,55 |
50 |
2,01 |
2,68 |
3,50 |
60 |
2,00 |
2,66 |
3,46 |
80 |
1,99 |
2,64 |
3,42 |
100 |
1,98 |
2,63 |
3,39 |
Приложение 2
Граничные (критические) значения 2-критерия,
соответствующие разным вероятностям допустимой ошибки
и разным степеням свободы
Число степеней свободы (m-1) |
Вероятность допустимой ошибки |
||
0,05 |
0,01 |
0,001 |
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
3,84 5,99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,68 25,00 |
6,64 9,21 11,34 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24.72 26,05 27,69 29,14 30,58 |
10,83 13,82 16,27 18,46 20,52 22,46 24,32 26,12 27.88 29,59 31,26 32,91 34,53 36,12 37,70 |
Приложение 3
Граничные значения F-критерия для вероятности допустимой ошибки 0,05 и числа степеней свободы n1 и n2
n2 n1 |
3 |
4 |
5 |
6 |
8 |
12 |
16 |
24 |
50 |
3 |
9,28 |
9,91 |
9,01 |
8,94 |
8,84 |
8,74 |
8,69 |
8,64 |
8,58 |
4 |
6,59 |
6,39 |
6,26 |
6,16 |
6,04 |
5,91 |
5,84 |
5,77 |
5,70 |
5 |
5,41 |
5,19 |
5,05 |
4,95 |
4,82 |
4,68 |
4,60 |
4,58 |
4,44 |
6 |
4,76 |
4,53 |
4,39 |
4,28 |
4,15 |
4,00 |
3,92 |
3,84 |
3,75 |
8 |
4,07 |
3,84 |
3,69 |
3,58 |
3,44 |
3,28 |
3,20 |
3,12 |
3,03 |
12 |
3,49 |
3,26 |
3,11 |
3,00 |
2,85 |
2,69 |
2,60 |
2,50 |
2,40 |
16 |
3,24 |
3,0 |
2,85 |
2,74 |
2,59 |
2,42 |
2,33 |
2,24 |
2,13 |
24 |
3,01 |
2,78 |
2,62 |
2,51 |
2,36 |
2,18 |
2,09 |
1,98 |
1,86 |
50 |
2,79 |
2,56 |
2,40 |
2,29 |
2,13 |
1,95 |
1,85 |
1,74 |
1,60 |
Приложение 4
Критические значения коэффициентов корреляции
для различных степеней свободы (n - 2) и разных вероятностей
допустимых ошибок
Число степеней свободы |
Уровень значимости |
||
0,05 |
0,01 |
0,001 |
|
2 |
0,9500 |
0,9900 |
0,9900 |
3 |
8783 |
9587 |
9911 |
4 |
8114 |
9172 |
9741 |
5 |
0,7545 |
0,8745 |
0,9509 |
6 |
7067 |
8343 |
9249 |
7 |
6664 |
7977 |
8983 |
8 |
6319 |
7646 |
8721 |
9 |
6021 |
7348 |
8471 |
10 |
0,5760 |
0,7079 |
0,8233 |
11 |
5529 |
6833 |
8010 |
12 |
5324 |
6614 |
7800 |
13 |
5139 |
6411 |
7604 |
14 |
4973 |
6226 |
7419 |
15 |
0,4821 |
0,6055 |
0,7247 |
16 |
4683 |
5897 |
7084 |
17 |
4555 |
5751 |
6932 |
18 |
4438 |
5614 |
6788 |
19 |
4329 |
5487 |
6625 |
20 |
0,4227 |
0,5368 |
0,6524 |
21 |
4132 |
5256 |
6402 |
22 |
4044 |
5151 |
6287 |
23 |
3961 |
5052 |
6177 |
24 |
3882 |
4958 |
6073 |
25 |
0,3809 |
0,4869 |
0,5974 |
30 |
0,3494 |
0,4487 |
0,5541 |
35 |
0,3246 |
0,4182 |
0,5189 |
40 |
0,3044 |
0,3932 |
0,4896 |
Приложение 5
База данных для самостоятельной работы
Возраст |
Рост |
Вес1 |
Вес2 |
Пол |
10 |
140 |
40 |
42 |
1 |
10 |
145 |
35 |
37 |
2 |
10 |
143 |
46 |
48 |
1 |
9 |
130 |
43 |
43 |
2 |
8 |
132 |
36 |
39 |
1 |
8 |
135 |
35 |
37 |
2 |
11 |
140 |
40 |
39 |
1 |
10 |
145 |
36 |
38 |
2 |
9 |
135 |
46 |
45 |
1 |
8 |
130 |
43 |
45 |
2 |
12 |
132 |
40 |
42 |
1 |
11 |
140 |
35 |
37 |
2 |
10 |
150 |
40 |
42 |
1 |
8 |
140 |
35 |
37 |
2 |
8 |
135 |
33 |
35 |
1 |
10 |
140 |
40 |
43 |
2 |
10 |
145 |
35 |
38 |
1 |
10 |
135 |
46 |
48 |
2 |
8 |
130 |
43 |
45 |
1 |
8 |
132 |
36 |
38 |
2 |
11 |
145 |
35 |
37 |
2 |
11 |
140 |
40 |
39 |
1 |
11 |
140 |
35 |
38 |
2 |
10 |
135 |
46 |
48 |
2 |
10 |
140 |
40 |
43 |
1 |
12 |
145 |
36 |
38 |
1 |
11 |
142 |
40 |
42 |
2 |
Пол:1 мальчики, 2 девочки
СОДЕРЖАНИЕ
Редактор
Подписано к печати Формат 60 * 84 1/16. Печать офсетная.
Бумага офсетная. Печ. л. 12,5 Тираж 100 экз. Заказ № _____.
ГОУ ВПО «Кемеровский государственный университет».
650043, Кемерово, ул. Красная, 6.
Отпечатано в типографии издательства "Кузбассвузиздат".
650043, Кемерово, ул. Ермака, 7.
PAGE 125