У вас вопросы?
У нас ответы:) SamZan.net

Математичні методи в психології

Работа добавлена на сайт samzan.net: 2015-07-05

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Имя

Выберите тип работы:

Принимаю Политику конфиденциальности

Скидка 25% при заказе до 2.7.2025

PAGE 41

ФАКУЛЬТЕТ ПСИХОЛОГІЇ

КАФЕДРА МЕДИЧНОЇ ПСИХОЛОГІЇ, ПСИХОДІАГНОСТИКИ ТА ПСИХОТЕРАПІЇ

СПЕЦІАЛЬНІСТЬ 6.030102 Психологія

КУРС 2

НАЗВА ДИСЦИПЛІНИ Математичні методи в психології

ПРІЗВИЩЕ ВИКЛАДАЧА Рєпіна О.Г.

ВИД МАТЕРІАЛУ

ОБСЯГ МЕТОДИЧНИХ МАТЕРІАЛІВ (уМБ)

П.І.Б. ТА ПОСАДА ОСОБИ, ЩО РОЗМІЩУЄ МАТЕРІАЛИ

ИЗМЕРЕНИЕ И ИЗМЕРИТЕЛЬНЫЕ ШКАЛЫ

2.1. Измерение. Измерением называется приписывание чисел объектам или явлениям в соответствии с определенными правилами. Измерение является опытной, или экспериментальной процедурой, результатом активного взаимодействия исследователя с объектом познания. Переход от описания объекта познания к его измерению всегда означал переход к точному знанию. Можно сказать, что измерение сделало естественные науки такими, какими они существуют сегодня, и проникновение измерительных процедур в гуманитарные области знания приблизит их к точным наукам. Измерение позволяет перевести различия между объектами в известные, понятные любому взрослому человеку категории, называемые числами, и любая измерительная процедура, в конечном счете, обязательно должна закончиться числом. Однако, число, приписанное объекту, еще ни о чем не говорит, если не известны правила, по которым происходило это приписывание. Число приобретает смысл только в том случае, если известна шкала, в которой происходило измерение.

2.2. Измерительные шкалы. Всего существует четыре типа шкал: шкала наименований (номинальная шкала), шкала порядка (порядковая или ординальная шкала), шкала интервалов и шкала отношений (абсолютная или пропорциональная шкала). Числа в этих шкалах обладают разными свойствами: они могут говорить о степени выраженности измеряемого признака, о количественных различиях между объектами и т.д. В зависимости от типа шкалы к числам могут быть применимы, а могут быть и неприменимы те или иные математические операции.

2.3. Шкала наименований. В этой шкале числа присвоенные объектам говорят только лишь о том, что эти объекты различаются. По сути, это классификационная шкала. Так, например, исследователь может приписать женщинам ноль, а мужчинам единицу, или наоборот, и это будет говорить только о том, что это два разных класса объектов. Чисел в шкале наименований может быть столько, сколько существует классов объектов подлежащих измерению, но ни сумма этих чисел, ни их разность, ни произведение не будут иметь никакого смысла, т.к. в шкале наименований не осуществима ни одна арифметическая операция. Числа в шкале наименований могут быть любыми, хотя, как правило, отрицательные не используются. Наиболее часто в психологических исследованиях используется дихотомическая шкала наименований, которая задается двумя числами – нулем и единицей. Наиболее распространенные примеры таких шкал в психологии это: пол (мужчина – женщина), успешность выполнения задания (справился – не справился), соответствие норме (норма – патология), психологический тип (экстраверт – интроверт).

2.4. Шкала порядка. Числа, присвоенные объектам в этой шкале будут говорить о степени выраженности измеряемого свойства у этих объектов, но, при этом, равные разности чисел не будут означать равных разностей в количествах измеряемых свойств. В зависимости от желания исследователя большее число может означать большую степень выраженности измеряемого свойства (как в шкале твердости минералов) или меньшую (как в таблице результатов спортивных соревнований), но в любом случае, между числами и соответствующими им объектами сохраняется отношение порядка. Шкала порядка задается положительными числами, и чисел в этой шкале может быть столько, сколько существует измеряемых объектов. Примеры шкал порядка в психологии: рейтинг испытуемых по какому-либо признаку, результаты экспертной оценки испытуемых и т.д.

2.5. Шкала интервалов. В отличии от двух предыдущих шкал в этой шкале существует единица измерения, либо реальная (физическая), либо условная, при помощи которой можно установить количественные различия между объектами в отношении измеряемого свойства. Равные разности чисел в этой шкале будут означать равные различия в количествах измеряемого свойства у разных объектов, или у одного и того же объекта в разные моменты времени. Однако, то, что одно число оказывается в несколько раз больше другого не обязательно говорит о таких же отношениях в количествах измеряемых свойств. В шкале интервалов может быть задействована вся числовая ось, но при этом ноль не указывает на отсутствие измеряемого свойства, т.к. нулевая точка часто является произвольной, как в шкале температуры по Цельсию, либо вообще отсутствует, как в некоторых шкалах психологических тестов. Благодаря таким свойствам, шкала интервалов получила широкое распространение в психологии, на ней основано большинство психодиагностических шкал: интеллекта, самооценки, а также стандартизированных шкал (стенов, станайнов).

2.6. Шкала отношений. В шкале отношений также существует единица измерения, при помощи которой объекты можно упорядочить в отношении измеряемого свойства и установить количественные различия между ними. Особенностью шкалы отношений является то, что к числам в этой шкале применимы все математические операции, а это значит, что отношения между числами соответствуют, или пропорциональны отношениям между количествами измеряемых свойств у разных объектов. В этой шкале обязательно, по, крайней мере теоретически, присутствует ноль, который говорит об абсолютном отсутствии измеряемого свойства. Большинство ныне существующих физических шкал (длины, массы, времени, температуры по Кельвину и т.д.) являются яркими примерами шкал отношений. В психологии из шкал отношений наиболее часто используются шкала вероятностей и шкала ''сырых'' баллов (количество решенных заданий, количество ошибок, количество положительных ответов и т.д.).

Между самими шкалами тоже существуют отношения порядка. Каждая из перечисленных шкал является шкалой более высокого порядка по отношению к предыдущей шкале. Так, например, измерения произведенные в шкале отношений можно перевести в шкалу интервалов, из шкалы интервалов – в шкалу порядка и т.д., но обратная процедура будет невозможна, т.к. при переходе к шкалам более низкого порядка часть информации (о единицах измерения, количествах свойств) теряется.

Тем не менее, это не всегда означает, что шкалы более высокого порядка предпочтительней по отношению к шкалам более низкого порядка, а в ряде случаев – даже, наоборот. Например, количество правильно выполненных заданий в тесте интеллекта (шкала отношений) гораздо выгодней представить в стандартизированной шкале IQ (шкала интервалов), а множество разнообразных поведенческих реакций в виде типа личности (шкала наименований). Наконец, существуют такие признаки объектов, которые можно измерить в любой шкале, как возраст, и такие, к измерению которых подходит только одна шкала, как, например, пол. На выбор измерительной шкалы, таким образом, могут оказывать влияние многие факторы, как достоинства самой шкалы, так и специфика самого объекта измерения.

3. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ ВАЖНЫЕ ДЛЯ ПСИХОЛОГИИ

3.1. Случайные события. Для понимания особенностей применения математической статистики к анализу данных психологических исследований важно понимание особенностей возникновения и проявления самих психических явлений. Подавляющее большинство из них (если не все) могут рассматриваться как случайное событие. Сложно назвать такое психическое явления, которое наступало бы всегда. Один и тот же испытуемый может показать разное время реакции в одних и тех же экспериментальных условиях, испытуемые одного пола и возраста покажут совершенно разные результаты выполнения одного и того же теста интеллекта или личностного опросника. В отличии от неслучайных событий, всегда наступающих, или никогда не наступающих при определенном комплексе условий, случайное событие может как наступать, так и не наступать. К неслучайным достоверным событиям может быть отнесено множество физических явлений, поскольку известны законы, благодаря которым эти явления наступают, а к неслучайным невозможным событиям – многие фантастические явления и события, как противоречащие законам природы.

В отличии от достоверных и невозможных событий, в отношении случайного события никогда невозможно точно предсказать, произойдет оно или не произойдет, так как законы которым оно подчиняется скорее всего неизвестны, а количество факторов, влияющих на исход события, может быть огромным и не поддаваться анализу.

3.2. Случайные величины и случайные переменные. С понятием случайного события тесно связано понятие случайной величины. Величиной называется любое событие, которое можно измерить, т.е. выразить совокупностью чисел. Величины могут быть константами (постоянными) и переменными. Константами называются величины, которые принимают только одно числовое значение. Константы играют очень важную роль в физике, т.к. входят во многие физические формулы, как например, постоянная тяготения, постоянная Планка и т.д. Переменными называются величины, которые могут принимать множество значений. Если переменная принимает значения, заранее неизвестно какие, то она называется случайной переменной или случайной величиной.

3.3. Непрерывные и дискретные случайные величины. Случайные величины делят на два вида: непрерывные и дискретные. Непрерывной случайной величиной называется величина, которая может принимать любые числовые значения и, теоретически, на сколь угодно малом интервале возможных значений количество этих значений может быть бесконечным. Например, возраст человека можно измерить с точностью до года, месяца, дня, часа, минуты, секунды, десятых и сотых долей секунды и т.д. Точность такого измерения может зависеть от желания исследователя и от точности измерительного прибора, однако, очень часто, слишком большая точность измерения оказывается помехой группирования объектов со сходными характеристиками. При социологических опросах маловероятно, даже на очень большой выборке, встретить двух человек родившихся в один день, т.е. имеющих один возраст, поэтому лучше разделить всех респондентов по возрасту на несколько групп с интервалом от двух до нескольких лет, тем более, что различие между респондентами в один-два года может оказаться несущественным. В таком случае исследователь будет иметь дело с квантованной случайной величиной, определяемой конечным числом обычно равных интервалов, внутри которых случайная величина остается непрерывной. Квантование непрерывной случайной величины позволяет свести бесконечное множество возможных значений случайной величины к конечному множеству интервалов, что значительно облегчает обработку экспериментальных данных.

Дискретная случайная величина может принимать только целочисленные неотрицательные значения и на заданном интервале возможных значений количество этих значений будет ограничено. Различие между дискретной и непрерывной случайной величиной заключается в том, что для дискретной случайной величины понятие ''часть'' не имеет смысла, как бессмысленно выражение ''полтора человека'', а для непрерывной – не только имеет смысл, но и означает большую точность измерения.

3.4. Распределение случайной величины. Распределением случайной величины называется совокупность числовых значений, которые приняла случайная величина в результате измерения. Иногда в отношении числовых значений используется термин наблюдение, и тогда распределение случайной величины называют совокупностью наблюдений. Совокупность значений случайной величины обычно обозначают X, а отдельные значения - xi, где подстрочный индекс i означает “каждый” или “отдельный”. Если исследователь хочет установить, кого больше окажется на избирательном участке – мужчин или женщин, и он решил обозначить их единицами и нолями в зависимости от пола, то совокупность единиц и нолей, полученных в результате такого измерения, будет называться распределением случайной величины (пола) измеренной в шкале наименований. Если же исследователь хочет установить, сколько времени требуется ученикам на решение арифметической задачи, то проведя множество измерений времени решения задачи каждым учеником он получит распределение случайной величины (времени решения задачи) в шкале отношений.

3.5. Генеральная совокупность и выборка. Распределение случайной величины, являющейся психологической переменной, может быть получено при исследовании одного человека, например, динамики функционального состояния человека-оператора в течении рабочего дня, а может, и при исследовании многих людей, например, распределение функционального состояния тех же операторов в начале или в конце смены. Распределение случайной величины, таким образом, может быть получено как результат воздействия множества стимулов на одного человека и одного стимула на множество людей. Во втором случае исследователь будет иметь дело с данными многих испытуемых, по которым, он будет судить об особенностях психического отражения и поведения не только участников эксперимента, но и человека в целом, что столкнет его с проблемой достоверности полученных выводов. Гипотетически, самым идеальным психологическим экспериментом мог бы быть только такой, при котором была бы реализована возможность исследования каждого человека живущего на Земле, т.е. всей генеральной совокупности людей, но практически, такая возможность неосуществима, поэтому в реальных экспериментах исследователь имеет дело прежде всего с выборкой, представляющей часть генеральной совокупности, результаты исследования которой он и будет распространять на всю генеральную совокупность. Примером генеральной совокупности может быть: все люди, живущие на Земле, все граждане СНГ, все мужчины или женщины, все жители города N и т.д. В довольно редких случаях экспериментатор имеет возможность получить данные всей генеральной совокупности, да и то, если эта совокупность не является слишком большой, как например: все студенты-психологи II курса университета, все сотрудники какой-либо фирмы или организации. Но в таком случае результаты исследования одной генеральной совокупности не могут быть распространены на другую, большую по объему генеральную совокупность.

Математические методы обработки данных экспериментальных психологических исследований – это прежде всего методы изучения эмпирических распределений случайных величин, сравнения результатов исследования разных выборок, сходства и различия людей в отношении исследуемых переменных, а также связей самих переменных друг с другом, что позволяет строить целостную картину психической жизни человека.

4. МЕРЫ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ

И КВАНТИЛИ РАСПРЕДЕЛЕНИЯ

Меры центральной тенденции являются наиболее часто используемыми мерами при описании совокупностей данных. Наиболее распространенными среди них являются: среднее арифметическое(), медиана(Me или Md) и мода(Mo).

4.1. Среднее арифметическое. Средним арифметическим является мера, представляющая собой отношение суммы значений случайной величины к количеству значений случайной величины в ее распределении:

Нахождение среднего арифметического является, по сути, заменой индивидуальных варьирующих значений случайной величины на некоторую уравненную величину, которая должна сохранять основные свойства всех остальных значений. Это правило является справедливым для тех случаев, когда распределение случайной величины является равномерным, или, когда значения близкие к среднему встречаются часто, а удаленные от среднего – редко. Среднее арифметическое обладает одним очень важным свойством: сумма разностей среднего арифметического с каждым значением случайной величины в точности равна нулю, т.е. среднее – как бы уравновешивает все значения. Однако, иногда оказывается, что среднее арифметическое не отражает основные свойства совокупности данных и может даже вводить в заблуждение исследователя. Это происходит в том случае, если существует большой разброс значений случайной величины, или в совокупности наблюдений есть такие значения, которые резко отличаются от всех остальных. Например, если в некоторой фирме работают десять сотрудников с заработной платой 100$ в месяц и директор с з/п 1200$/мес., то средняя заработная плата будет составлять 200$/мес., хотя в действительности, десять сотрудников получают в два раза меньше, а один – в шесть раз больше среднего заработка. При определении среднего арифметического в таких совокупностях данных рекомендуется отбрасывать крайнее минимальное и крайнее максимальное значения, либо воспользоваться другой мерой центральной тенденции, называемой медианой.

4.2. Медиана. Это мера, которая делит упорядоченное распределение случайной величины пополам, так, что одна половина оказывается меньше медианы, а другая – больше. В рассмотренном выше примере с заработной платой, медиана будет равна 100$/мес. и более точно отражает свойства совокупности данных, так как показывает какие значения случайная величина принимает чаще, и какие являются наиболее вероятными.

Определение медианы зависит от того, какое количество значений случайная величина принимает в распределении. Если количество значений оказывается нечетным, то медиана является значением, стоящим точно посередине упорядоченного ряда чисел. Если же количество значений четное, то медиана вычисляется как среднее арифметическое двух значений, находящихся в середине распределения.

4.3. Мода. Модой называется такое значение случайной величины, которое встречается наиболее часто. Мода является, возможно самой простой из мер центральной тенденции. Для ее вычисления необходимо просто подсчитать, сколько раз встречается каждое значение случайной величины, и наиболее частое и будет являться модой.

4.4. Соотношение среднего арифметического, медианы и моды и выбор мер центральной тенденции. В рассмотренном выше примере с заработной платой медиана и мода равны между собой, и в два раза меньше среднего арифметического. Эти меры могут оказаться как равными друг другу, так и принимать совершенно разные значения. На выбор мер центральной тенденции оказывает влияние не только желание экспериментатора, многое зависит от характера распределения случайной величины. Необходимо упомянуть о некоторых особенностях всех трех мер:

Среднее арифметическое может принять такое значение, которое вообще не встречается в распределении, как в нашем примере, либо оказаться дробным для дискретной случайной величины (например, среднее количество детей в семье в нашей стране будет выражаться дробным числом, хотя ни в одной семье оно не встречается). Тем не менее, среднее арифметическое остается очень удобной мерой, по крайней мере, для непрерывных случайных величин, поскольку показывает куда ''тяготеют'' все остальные значения.
Медиана очень удобная мера для тех случаев, когда существует очень большой разброс значений случайной величины. Кроме того, медиана – это всегда реальное значение, если количество этих значений нечетное. В то же время, медиана может оказаться не самой удачной мерой, если какое-то одно значение встречается очень часто, и оно расположено либо в начале упорядоченного ряда, либо в конце. В таких случаях лучше воспользоваться модой.
Мода удобна для переменных измеренных в шкале наименований, и в этом случае она является единственной из возможных мер центральной тенденции. Например, если необходимо описать политическую ориентацию депутатов парламента, то эту переменную можно измерить только в шкале наименований, и наиболее часто встречаемая ориентация и будет являться модой, и в то же время единственной возможной и понятной всем мерой центральной тенденции. Мода может оказаться удобной мерой для дискретных случайных величин, особенно если какие-либо значения встречаются очень часто, и особенно, в том случае, когда их частота приближается к частоте всех остальных значений вместе взятых. Если такое значение одно, то говорят об унимодальном распределении, если два – о бимодальном, а если более двух – о полимодальном распределении. Таким образом, в отличии от среднего арифметического и медианы, мода в распределении может оказаться и не одна. Однако, в распределении непрерывной случайной величины моды может и вовсе не оказаться, так как ни одно из значений может не встретиться больше одного раза, и даже в том случае, если таких значений окажется два, для описания совокупности данных лучше использовать среднее арифметическое и медиану.

4.5. Квантили распределения. Квантиль (от лат. quantum – сколько) – это точка на числовой шкале, которая делит совокупность наблюдений на две части с известными пропорциями в каждой из них. Наиболее известный из квантилей – медиана, делящая распределение пополам. Помимо медианы существует еще несколько видов квантилей: квартили(Qi), квинтили (Ki), децили (Di) и процентили (Pi). Квартили делят совокупность наблюдений на четыре части, при этом четвертая часть наблюдений лежит ниже первого квартиля, половина – ниже второго, а три четверти – ниже третьего. Таким образом, три квартиля делят всю совокупность наблюдений на четыре части, четыре квинтиля – на пять частей, девять децилей – на десять частей, а девяносто девять процентилей – на 100 частей. Для определения квантилей, как и для определения медианы, совокупность наблюдений должна быть упорядочена либо по возрастанию значений случайной величины, либо по ее убыванию, в зависимости от исследуемой переменной.

Квантили являются одним из эффективных способов описания совокупности наблюдений. Например, если необходимо установить проходной балл для поступления в университет при конкурсе в три человека на место, то необходимо найти значение 67-го процентиля, который, как раз, и покажет ту границу, отделяющую одну треть высоких значений от двух третей низких.

Пример расчета мер центральной тенденции и квантилей распределения приведен в гл. 5.

5. МЕРЫ РАССЕИВАНИЯ

В отличии от мер центральной тенденции меры рассеивания показывают насколько данные неоднородны, изменчивы или различны. По этой причине меры рассеивания иногда называют мерами изменчивости и вместе с мерами центральной тенденции их называют параметрами распределения. Они являются не только параметрами описания распределения случайной величины, но и входят как составляющие во многие другие статистические меры.

5.1. Размах. Самой простой из таких мер является размах (d)– разность между минимальным и максимальным значением случайной величины в данном распределении. Совершенно очевидно, что два распределения, имеющие одинаковые средние арифметические, медиану и моду могут различаться по размаху, т.к. меры центральной тенденции не показывают насколько данные разбросаны на числовой оси.

Размах показывает насколько широк диапазон значений случайной величины, но в ряде случаев важно знать где находится основная часть наблюдений, и тогда можно воспользоваться другой мерой рассеивания – полумеждуквартильным размахом (полуинтерквартильное отклонение). Полумеждуквартильный размах – это половина разности между первым и третьим квартилем, который показывает, в каких пределах находится около 50% наблюдений.

Недостатком этих мер является то, что при их подсчете не учитываются все значения случайной величины, поэтому распределения, имеющие равные меры центральной тенденции и размах не обязательно будут одинаковы. Более показательны при описании неоднородности данных другие меры рассеивания: среднее отклонение (MD), дисперсия(), стандартное (среднеквадратическое) отклонение(),. В расчетах этих мер используется центральное отклонение – разность каждого значения случайной величины со средним арифметическим данного распределения.

5.2. Среднее отклонение. Представляет собой отношение суммы модулей центральных отклонений к числу наблюдений и вычисляется по формуле:

Очевидно, что для двух разных распределений, характеризующихся одинаковыми ранее описанными параметрами, среднее отклонение будет больше в том случае, если в распределении чаще встречаются удаленные от среднего значения.

5.3. Дисперсия. Среднее отклонение является полезной мерой рассеивания, однако используется реже, чем дисперсия – отношение суммы квадратов центральных отклонений к числу наблюдений. (''Байесовский'' метод для вычисления дисперсии генеральной совокупности). В том случае, если исследователь имеет дело не с генеральной совокупностью, а с выборкой, формула дисперсии будет немного иная – отношение суммы квадратов центральных отклонений не к n, а к n–1 (т.н. ''несмещенная'' оценка дисперсии):

Дисперсия входит как параметр распределения в ряд важных статистических критериев, но для описания данных психологических экспериментов используется значительно реже, чем стандартное отклонение.

5.4. Стандартное отклонение. Стандартное отклонение представляет собой корень из дисперсии:

Стандартное отклонение, пожалуй, одна из наиболее часто используемых мер рассеивания, благодаря тем свойствам, которые оно имеет для нормального распределения. В описании психологических переменных, стандартное отклонение часто используется как показатель границ большинства значений или условной нормы, что является особенно важным в психологии личности, исследованиях интеллекта и т.д. В настоящее время практически все важные стандартизированные психодиагностические шкалы (шкала Т-баллов, шкала стенов, шкала IQ и т.д.) созданы с учетом стандартного отклонения.

5.5. Стандартная оценка или нормированное отклонение. В отличии от физики и других естественных наук психологические переменные часто не имеют собственных единиц измерения. Если время реакции испытуемого можно измерить в секундах, и сравнить результаты исследования двух человек между собой, а также с известными из научной литературы данными, то показатель в 28 баллов по вновь созданному тесту тревожности, вряд ли кому-либо будет о чем-либо говорить. Можно будет сказать, что этот результат на 14 баллов меньше, чем 42 балла, полученных другим испытуемым, но и в этом случае невозможно сравнить эти данные с результатами этих же испытуемых по другим тестам тревожности и сказать, насколько велика эта разность.

Для решения этой проблемы существуют т.н. стандартные оценки(z). Стандартная оценка не является мерой рассеивания всего распределения, т.к. существует для оценки отклонения каждого значения от среднего в нормализованной шкале, где среднее арифметическое равно нулю, а стандартное отклонение – единице. Такая шкала может быть получена путем перевода каждого значения случайной величины в значение, представляющее собой отношение разности данного значения со средним (центрального отклонения) к стандартному отклонению распределения:

В таком случае, среднее арифметическое будет равняться нулю, а основная масса значений окажется в пределах от –1 до +1. Стандартные оценки редко бывают больше +2 и меньше –2, поэтому в отношении каждого значения можно сказать – редкое оно в данном распределении или частое, и в какую сторону от среднего находится – в большую, или в меньшую. Если в рассмотренном выше примере окажется, что баллу первого испытуемого соответствует стандартная оценка –0.254, а второму +1.23, то становится ясно, что первый результат в выборке испытуемых более частый, несколько ниже среднего и соответствует границам условной нормы, а второй – встречается реже и достаточно высокий, и кроме того, разность в 14 баллов оказалась больше одного стандартного отклонения.

5.6. Асимметрия. Это мера ''косости'' или ''скошенности'' распределения. Распределения, отличающиеся одинаковыми средними и отклонениями могут быть, тем не менее разными, поскольку ни модуль, ни квадрат разности не показывают, с какой стороны от среднего находилось отдельное значение случайной величины. В тех случаях, когда количество значений больших среднего превышает количество значений меньших, чем среднее, говорят о положительной асимметрии, в противном случае – об отрицательной. Асимметрия вычисляется как отношение среднего кубов центральных отклонений к кубу стандартного отклонения:

В симметричном распределении асимметрия точно равна нулю, но в зависимости от того, как изменяются разности значений со средним, знак асимметрии меняется на положительный или отрицательный (т.к. при возведении в куб знак сохраняется).

5.7. Эксцесс. Эта мера ''выпуклости'' или ''крутости'' распределения. При всех одинаковых других параметрах, два распределения могут различаться тем, что полигон частот будет островершинным или плоским, т.е. мода может оказаться равной, но встречаться с разной частотой. Эксцесс служит для того, чтобы определить крутизну кривой, описывающей распределение, в окрестностях единственной моды, т.к. предназначен только для унимодальных распределений. Эксцесс рассчитывается по формуле:

Особенностью всех мер рассеивания является то, что линейное преобразование значений случайной величины никак не сказывается на значениях этих мер, т.е. если к каждому значению случайной величины прибавляется или отнимается какое-либо число, то все отклонения, дисперсия, асимметрия и эксцесс останутся прежними.

Таблица 5.1. Пример расчета мер центральной тенденции, квартилей и мер рассеивания.

n	X
1	21	-7	7	49	-343	2401
2	23	-5	5	25	-125	625
3	24	-4	4	16	-64	256
4	34	6	6	36	216	1296
5	21	-7	7	49	-343	2401
6	31	3	3	9	27	81
7	33	5	5	25	125	625
8	35	7	7	49	343	2401
9	41	13	13	169	2197	28561
10	10	-18	18	324	-5832	104976
11	39	11	11	121	1331	14641
12	37	9	9	81	729	6561
13	24	-4	4	16	-64	256
14	25	-3	3	9	-27	81
15	36	8	8	64	512	4096
16	21	-7	7	49	-343	2401
17	21	-7	7	49	-343	2401
18	45	17	17	289	4913	83521
19	22	-6	6	36	-216	1296
20	17	-11	11	121	-1331	14641
Суммы	560	0	158	1586	1362	273518

Расчет мер центральной тенденции и квартилей распределения:

Md = 24.5 Mo = 21 Q1 = 21 Q2 = 24.5 Q3 = 35.5

Расчет мер рассеивания:

Относительно данного распределения можно сказать, что:

Распределение унимодальное;
Основная масса значений находится в пределах (одного стандартного отклонения) от 19 до 37, а 50% наблюдений – от 21 до 35.5;
Оно характеризуется положительной асимметрией, что означает, что более выражены отклонения в большую от среднего арифметического сторону;
Распределение “пологое” (отрицательный эксцесс), т.е. значения случайной величины распределены по числовой шкале достаточно равномерно.

Необходимо сказать, что рассчитанные в этом примере меры могут оказаться полезными при сравнении между собой двух распределений одной и той же случайной величины, полученных в разных условиях, и тогда можно будет заключить, в каком из двух распределений большее среднее, где рассеивание значений больше (или меньше), какие значения встречаются чаще и т.д.

6. МЕРЫ СВЯЗИ ДВУХ СЛУЧАЙНЫХ ВЕЛИЧИН

6.1. Виды связей двух случайных величин. Существуют два вида связей между двумя переменными: функциональные и статистические. При функциональных связях каждому значению одной переменной соответствует только одно значение другой переменной, что особенно характерно для точных наук. Особенностью статистических связей является то, что каждому значению одной переменной может соответствовать множество значений другой переменной. Например, одному и тому же росту разных людей может соответствовать различный их вес, и наоборот. Такие связи имеют еще одно название – корреляционные, а мера таких связей – коэффициент корреляции.

6.2. Особенности коэффициента корреляции. Коэффициент корреляции показывает сразу два параметра статистической связи – ее направление и тесноту. Направление связи может быть положительным, когда большему значению одной переменной соответствует большее значение другой переменной и отрицательным, когда большему одной переменной соответствует меньшее значение другой переменной. Коэффициент корреляции всегда находится в пределах от – 1 до +1. При этом, если он оказывается положительным, то говорят о положительной корреляции между двумя переменными, а если отрицательным – то, соответственно об отрицательной. Абсолютное значение коэффициента корреляции показывает тесноту или степень выраженности такой связи. При коэффициенте корреляции равном нулю признается отсутствие связи, но даже тогда, когда он оказывается больше нуля, еще не следует делать вывод о наличии корреляционной связи. О связи между двумя переменными можно говорить лишь в том случае, если значение коэффициента корреляции оказывается выше критического для соответствующего числа наблюдений, если речь идет о положительной связи, и ниже критического, если – об отрицательной.

Необходимо подчеркнуть, что коэффициент корреляции предназначен лишь для измерения линейных связей между переменными. По этой причине в реальных условиях почти невозможно получить коэффициент корреляции равный единице. Например, если расчитать коэффициент корреляции между расстоянием планет Солнечной системы от Солнца и их периодом обращения, то коэффициент корреляции окажется равным 0.998, несмотря на то, что связь здесь прямая: чем дальше планета удалена от Солнца, тем больше ее период обращения. Причина этого заключается в том, что связь между расстоянием от Солнца и периодом обращения для планет Солнечной системы на графике отображается не прямой, а слегка изогнутой линией, следуя известным законам небесной механики И. Кеплера.

Что касается психологических измерений, то здесь коэффициент корреляции равный 0.8 – 0.9 признается достаточно высоким, а связь статистически значимой (достоверной) даже для небольшого числа наблюдений. Например, если при первичном и повторном тестировании большая часть испытуемых показала один и тот же результат по тесту X, и коэффициент корреляции оказался в указанных пределах, то тест может быть признан надежным несмотря на то, что у части испытуемых результат повторного тестирования отличался от первичного. В реальных экспериментальных условиях наличие небольшого разброса данных может свидетельствовать не об отсутствии связи, а о некоторой ошибке измерения, или влиянии неучтеного фактора на исход эксперимента.

6.3. Виды коэффициентов корреляции. Наиболее известным и часто применяемым в психологических исследованиях является коэффициент корреляции rxy - К.Пирсона для двух переменных, измеренных в шкалах интервалов или отношений:

, или

Вторым часто используемым в психологии коэффициентом корреляции является коэффициент ранговой корреляции Ч.Спирмена, который обозначается греческой буквой ''r'' (ро):

где - квадрат разности между соответствующими парами рангов.

Он предназначен для определения связи между двумя переменными, измеренными в шкалах порядка. Достоинством r-Спирмена является то, что он нетруден в вычислениях и применим для первичной оценки связи, так как множество переменных легко поддается ранжированию. Однако, оценка такой связи будет более грубая, чем при применении r-Пирсона, так как при переходе от шкалы более высокого порядка к шкале более низкого порядка информативность данных снижается.

Кроме коэффициентов корреляции Пирсона и Спирмена существуют и другие меры связи, которые применяются в зависимости от того, в каких шкалах были измерены переменные: коэффициент ассоциации Пирсона, четырехпольный (тетрахорический) коэффициент ассоциации, рангово-бисериальный и точечно-бисериальный коэффициенты корреляции, t-Кендалла. В таблице 6.1 приведены все варианты соотношений измерительных шкал и соответствующих им коэффициентов корреляции (расчеты см. в п.6.6.).

Типы Шкал	Наименований	Порядка	Интервалов	Отношений
Наименований	Коэфф.ассо-циации, 4-х- польный к.а.	Рангово-бисе-риальный к.к.	Точечно-бисе-риальный к.к.	Точечно-бисе-риальный к.к.
Порядка	Рангово-бисе-риальный к.к.	r-Спирмена t-Кендалла	r-Пирсона с учетом знака	r-Пирсона с учетом знака
Интервалов	Точечно-бисе-риальный к.к.	r-Пирсона с учетом знака	r-Пирсона	r-Пирсона
Отношений	Точечно-бисе-риальный к.к.	r-Пирсона с учетом знака	r-Пирсона	r-Пирсона

Таблица 6.1. Соотношения типов шкал и соответствующих им коэффициентов корреляции

Особенным случаем является тот, когда одна переменная измерена в шкале порядка, а другая в шкале интервалов или отношений. Для измерения связи между ними можно воспользоваться коэффициентом корреляции Пирсона, но необходимо учитывать, что в шкале порядка большее числовое значение ранга соответствует меньшей степени выраженности признака, а в шкалах интервалов и отношений, как правило, наоборот. Поэтому положительная связь между переменными будет выражаться отрицательным коэффициентом корреляции, а отрицательная – положительным. Это обстоятельство необходимо учитывать при интерпретации полученного значения r-Пирсона. В другом случае можно проранжировать значения переменной, измеренной в шкале интервалов или отношений и воспользоваться коэффициентом ранговой корреляции.

6.4. Особенности интерпретации коэффициента корреляции. В отношении коэффициента корреляции рядом авторов часто употребляется понятие зависимости между переменными. В действительности, говоря о корреляции можно говорить лишь о статистической связи. Например, если обнаруживается положительная корреляция между успехами учеников по математике и английскому языку, то из этого не следует, что оценки по одному предмету зависят от оценок по другому, так как они выставляются независимо друг от друга. Скорее всего, за всеми этими оценками стоят факторы интеллекта и мотивации, проявлениями которых и являются успехи по учебным предметам. Также неправомерно, в таких случаях, говорить о причинной связи между двумя переменными, если коэффициент корреляции оказывается высоким. Связь между уровнем дохода в семье и величиной IQ у детей вполне может оказаться достоверной, так как дети из обеспеченных семей имеют больше шансов на получение хорошего образования, но из этого не следует, что количество денег положительно влияет на умственные способности. Статистические методы не могут заменить собой логику и здравый смысл, и констатация причинной связи или зависимости на основе вычислений коэффициента корреляции лежит исключительно на совести исследователя.

При интерпретации нулевого значения коэффициента корреляции необходимо учитывать, что ноль не всегда означает отсутствие связи. Если связь между переменными носит нелинейный характер и на графике отображается кривой, то коэффициент корреляции получится близким или равным нулю несмотря на очевидный характер связи. Действительное отсутствие связи на графике будет отображаться множеством рассеянных точек.

6.5. Сфера применения коэффициента корреляции. Использование коэффициентов корреляции в психологических исследованиях насчитывает уже почти столетнюю историю, и в основном они применяются в следующих случаях:

Для проверки гипотезы о связи различных явлений и переменных: социальных и социально-психологических, социально-психологических и психологических, психических и психофизиологических, психофизиологических и физиологических. Результаты таких исследований помогают составить системную картину психических явлений и явлений окружающего мира.
В психодиагностике для определения надежности и валидности теста, при создании и адаптации психологических методик.
В методе репертуарных решеток Келли для определения связей между конструктами индивидуального сознания.
В факторном анализе – методе исследования латентной структуры сложных психологических явлений и переменных, таких как интеллект, личность и т.д.

6.6. Примеры расчетов коэффициентов корреляции

6.6.1. Обе переменные измерены в шкале интервалов (отношений). Мера связи – коэффициент корреляции Пирсона.

n	X	Y	xiyi
1	38	5	190	1444	25
2	44	8	352	1936	64
3	54	8	432	2916	64
4	31	5	155	961	25
5	44	6	264	1936	36
6	62	6	372	3844	36
7	40	6	240	1600	36
8	34	7	238	1156	49
9	31	8	248	961	64
10	35	6	210	1225	36
Суммы	413	65	2701	17979	435
Квадраты Сумм	170569	4225

Вывод: статистическая связь недостоверна, т.к.

6.6.2. Обе переменные измерены в шкале порядка. Мера связи – коэффициент корреляции Спирмена.

n	Rx	Ry
1	4	4	0	0
2	3	2	1	1
3	7	8	-1	1
4	5	1	4	16
5	2	3	-1	1
6	1	5	-4	16
7	8	9	-1	1
8	9	6	3	9
9	10	10	0	0
10	6	7	-1	1
Сумма				46

Вывод: достоверна положительная статистическая связь т.к.

6.6.3. Обе переменные измерены в шкале наименований. Мера связи – коэффициент ассоциации Пирсона или четырехпольный коэффициент ассоциации Пирсона.

6.6.3.1. Расчет коэффицента ассоциации Пирсона

n	X	Y	Совпадения
1	0	0	0
2	1	1	1
3	1	1	1
4	0	0	0
5	1	0	0
6	1	0	0
7	0	1	0
8	1	1	1
9	0	0	0
10	1	0	0
P	0.6	0.4	0.3
Q	0.4	0.6

Вывод: статистическая связь недостоверна, т.к.

6.6.3.2. Расчет четырехпольного коэффициента ассоциации

		Переменная X
		Да	Нет	Суммы
Переменная	Да	3	1	4
Y	Нет	3	3	6
	Суммы	6	4	10

В этом примере использованы те же данные, что и в случае с коэффициентом ассоциации, и видно, что оба коэффициента дают одинаковую оценку связи.

6.6.4. Одна переменная измерена в шкале наименований, а другая – в шкале порядка. Мера связи – рангово-бисериальный коэффициент корреляции.

Сущность этого коэффициента корреляции заключается в том, что после сведения в одну таблицу результатов эксперимента необходимо отдельно выписать ранги ранжированной переменной имеющие единицу по другой переменной, а также ранги имеющие ноль, и после подсчета средних арифметических этих рангов подставить их в формулу рангово-бисериального коэффициента корреляции.

n	X	Y	РангиY1	РангиY0
1	0	6		6
2	1	10	10
3	0	4		4
4	1	9	9
5	0	3		3
6	0	2		2
7	1	8	8
8	1	7	7
9	1	5	5
10	0	1		1
Суммы			7.8	3.2

Вывод: здесь можно констатировать значимую отрицательную связь между наличием признака X и порядком проявления признака Y, однако в отличии от других коэффициентов корреляции, рангово-бисериальный имеет неоднозначную интерпретацию. Так в некоторых пособиях приводится другая его формула:

В таком случае можно констатировать значимую положительную связь между отсутствием признака X и порядком проявления признака Y.

6.6.5. Одна переменная измерена в шкале наименований, а другая – в шкале интервалов (или отношений). Мера связи – точечно-бисериальный коэффициент корреляции.

Сущность этого коэффициента корреляции, также как и рангово-бисериального, заключается в том, что после сведения в одну таблицу результатов эксперимента необходимо отдельно выписать значения переменной измеренной по шкале интервалов, имеющие единицу по другой переменной, а также значения имеющие ноль, и после подсчета средних арифметических этих значений подставить их в формулу точечно-бисериального коэффициента корреляции.

Необходимо учитывать, что как и , этот коэффициент корреляции имеет неоднозначную интерпретацию.

n	X	Y	Значения Y1	Значения Y0
1	0	51		51
2	1	52	52
3	0	38		38
4	1	35	35
5	0	44		44
6	0	42		42
7	1	50	50
8	1	46	46
9	1	47	47
10	0	53		53
Суммы			46	45,6
		6,07

Вывод: в данном случае не обнаружено значимой статистической связи между величиной признака Y и наличием признака X, или, наличие признака X не говорит статистически достоверно том, что значения Y окажутся больше.

7. СТАТИСТИЧЕКАЯ ПРОВЕРКА ГИПОТЕЗ

Научная гипотеза – это обоснованное и развитое содержательное предположение о неочевидных явлениях и событиях. Этими явлениями и событиями могут быть факты и феномены объекта или предмета исследования, связи между исследуемыми переменными, отличие одних объектов от других по каким-либо параметрам и т.д. Научная гипотеза обычно формулируется как теорема и предполагает практическую проверку ее хотя бы в будущем, если в данный момент это неосуществимо. Среди научных гипотез отдельно выделяются статистические гипотезы, но в отличии от большинства научных гипотез, они являются формальным утверждением относительно различий между двумя или несколькими распределениями и предполагают реальную проверку их при помощи существующих методов математической статистики.

7.1. Статистические гипотезы. Статистические гипотезы разделяются на два вида: нулевые и альтернативные. Нулевая гипотеза (H0) утверждает об отсутствии различий между двумя распределениями (различия равны нулю), альтернативная (H1) – о существовании или значимости различий. Нулевая и альтернативная гипотезы являются взаимоисключающими, и в этом плане, одна из них должна будет оказаться истинной, а другая – ложной. Для проверки статистических гипотез служат статистические критерии. Статистические гипотезы могут быть направленные и ненаправленные. Если гипотеза просто утверждает отсутствие или значимость различий, то она является ненаправленной, т.к. в ее формулировку не входит направление различий. Если гипотеза помимо отсутствия или значимости различий утверждает и то, что параметры одного распределения должны оказаться больше или меньше, чем параметры другого, то она является направленной.

7.2. Статистические критерии. Статистический критерий – это решающее правило, обеспечивающее надежное принятие истинной гипотезы и отклонение ложной с высокой вероятностью, а также метод расчета числа, говорящего о значимости различий между распределениями случайной величины и само это число.

Статистические критерии служат тем пробным камнем, на котором проверяются гипотезы научные, и, до тех пор, пока научная гипотеза не пройдет такой проверки, она не может быть признана научным фактом. Статистические критерии, однако, сами по себе, не являются средством решения научных проблем, так как статистические методы не заменяют собой мышления ученого. Результат, полученный при помощи применения статистических критериев всегда носит вероятностный характер, т.к. исследователь в большинстве случаев имеет дело не только со случайной величиной, но и со случайной выборкой, и поэтому, выводы его также обладают определенной степенью достоверности или значимости, или, по другому говоря, допускают некоторую вероятность ошибки.

7.3. Уровни значимости статистических критериев. Уровень значимости (a) – это вероятность того, что исследователь счел различия существенными, а они на самом деле случайны.

В психологии обычно используется три уровня значимости: 5-процентный, 1-процентный и 0.1- процентный (хотя последний намного реже). Если указывают, что различия достоверны на 5%-ом уровне значимости (p < 0.05), то имеют ввиду, что вероятность ошибочного вывода составляет 0.05, если на 1%-ом – 0.01 (p < 0.05) и т.д. При этом, 5%-й уровень считается низшим, а 0.1%-й – высшим уровнем значимости.

7.4. Число степеней свободы. Степенью свободы называется характеристика распределения, используемая при проверке статистических гипотез (обозначается df или n). Число степеней свободы равно числу классов вариационного ряда минус число условий, при которых он был сформирован.

Предположим, что выборка из 100 человек была разбита на три класса в зависимости от степени выраженности какого-либо признака. В первый класс могут попасть те, у кого признак выражен максимально, во второй те, у кого он выражен в средней степени, но в третий могут попасть только оставшиеся, вне зависимости от того минимально выражен у них признак, или вовсе отсутствует. Можно, конечно, допустить и другое разбиение, но число степеней свободы в данном случае будет равно df = 3-1= 2. Если исследователь имеет дело с классификацией из 100 классов, то df будет равно 99 и т.д. Для двух распределений df = c – 2 (c – число классов), а при представлении переменных в таблице размером a x b, df = (a – 1)(b – 1), где a – число столбцов, а b – число строк.

7.5. Правила принятия и отклонения нулевой и альтернативной гипотез. Поскольку уже говорилось, что статистический критерий – не только метод расчета числа, говорящего о различиях между распределениями, но и само это число, в задачи исследователя входит и правильная интерпретация полученного значения статистического критерия. Для того, чтобы определить, какая из двух гипотез верна, необходимо обратиться к таблицам значимости статистических критериев. В этих таблицах даются критические значения статистического критерия для соответствующего числа степеней свободы и уровня значимости. Например, если применялся t-критерий Стьюдента, а число степеней свободы было равно 20-ти, то необходимо найти значения t-критерия на 5%-ом и 1%-ом уровне значимости (2.09 и 2.85 соответственно). Если полученное эмпирическое значение окажется меньше, либо равняется критическому (табличному) значению на 5%-ом уровне, то необходимо признать верной нулевую гипотезу, если же выше, чем на 1%-ом уровне – альтернативную. В том случае, когда эмпирическое значение оказывается между двух критических, ни нулевую, ни альтернативную гипотезу принять нельзя, необходимо либо увеличить объем выборки, чтобы различия стали достоверны, либо воспользоваться другим критерием. Так обстоит дело с большинством критериев – чем выше число, тем достоверней различия между распределениями, и лишь в отношении некоторых критериев картина обратная (см. описания критериев).

7.6. Мощность критерия и ошибки I и II рода. Мощность критерия (1–b) – это его способность выявлять различия, если они есть, т.е. его способность отклонить нулевую гипотезу об отсутствии различий, если она неверна.

Мощность критерия определяется эмпирическим путем. Для проверки одной и той же гипотезы можно использовать разные критерии, но при этом обнаруживается, что одни критерии выявляют различия, а другие – нет. Те критерии, которые обнаруживают различия, особенно на малых выборках, в то время как другие неспособны это сделать признаются более мощными, и это снижает, хотя это и не устраняет вероятности ошибочного вывода.

Статистический вывод связан с так называемыми ошибками I и II рода. Ошибка, состоящая в том, что была отклонена нулевая гипотеза, в то время, как она верна, называется ошибкой I рода. Ошибка, состоящая в том, что была принята нулевая гипотеза, в то время как она неверна, является ошибкой II рода. Иначе говоря, это ошибки отвержения истинной гипотезы и принятия ложной. Ниже представлено распределение истинных решений и возможных ошибок статистического вывода.

H0 верна

H1 неверна

H0 неверна

H1 верна

Отклонить H0

Принять H1

Ошибка I рода

Истинное решение

1-b

Принять H0

Отклонить H1

Истинное решение

1-a

Ошибка II рода

Таблица 7.1. Распределение ошибок и истинных решений в зависимости от верности гипотез и решений исследователя.

7.7. Параметрические и непараметрические критерии. Критерии принято делить на параметрические и непараметрические. Параметрическими критериями являются те, в формулу расчета которых входят параметры распределения – средние или дисперсии. Непараметрические критерии в отличии от параметрических основаны на использовании в их формулах частот, долей или рангов. Непараметрические критерии применимы к переменным выраженным в любых шкалах, а параметрические – только лишь к тем переменным, которые выраженны в шкалах интервалов или отношений.

И те, и другие критерии имеют свои преимущества и недостатки. В тех случаях, когда переменная измерена в шкале интервалов и ее распределение близко к нормальному, лучше пользоваться параметрическими критериями, т.к. они оказываются более мощными, чем непараметрические. Но в том случае, если эти условия не выполняются, более эффективными окажутся непараметрические критерии, так как им ''все равно'' в каких шкалах измерены переменные и соответствует распределение нормальному или нет. В ряде случаев непараметрическим критериям нет замены, особенно если признак определялся не количественно, а качественно.

7.8. Классификация задач и методов их решения. До настоящего времени созданы десятки статистических критериев, которые существуют для решения довольно ограниченного круга задач. Создание статических критериев не является самоцелью, каждый из таких методов проверки гипотез имеет свои преимущества и недостатки, и в некоторых случаях может, а в некоторых – не может быть заменен другими критериями. Основанием для выбора критерия является не только его мощность, но и другие характеристики: простота вычисления, применимость к неравным по объему выборкам, применимость к нескольким выборкам сразу, возможность использования его для переменных, измеренных в разных шкалах, универсальность (возможность применения его к решению самых различных задач).

Все многообразие задач, с которыми приходится сталкиваться экспериментатору при проверке гипотез можно свести к нескольким группам:

Выявление различий в распределении переменной в разных группах испытуемых;
Проверка совпадения эмпирических результатов с ожидаемыми теоретическими;
Обнаружение влияния фактора на распределение переменной;
Обнаружение интересующего исследователя эффекта в одной или разных выборках испытуемых.

7.9. Выявление различий в распределении переменной в разных группах испытуемых. Эта задача выявления различий между мужчинами и женщинами, здоровыми и больными, представителями разных социальных групп, людьми разного возраста и т.д. в отношении их психологических особенностей.

7.9.1. U-критерий Манна-Уитни. Для того, чтобы его вычислить, необходимо проранжировать данные обеих выборок так, как будто это одно распределение, затем подсчитать отдельно суммы рангов значений случайной величины в каждой выборке, а после этого полученные результаты подставить в формулы:

Особенности этого критерия заключаются в следующем:

Критерий позволяет оценить средние тенденции, например, ответить на вопрос, чаще в одной выборке встречаются более высокие значения, чем в другой;
Этот критерий является двусторонним, т.е. он имеет два значения, которые должны, либо оба попасть в интервал критических значений, либо оказаться за пределами этого интервала;
Чем меньше полученные значения, тем более вероятно, что различия достоверны;
Переменные должны быть измерены в шкале порядка, или переведены в эту шкалу;
В каждой выборке должно быть не менее 3-х наблюдений и не более 60-ти.

Пример расчета U-критерия (переменной являлось время в мин. и сек. выполнения двумя группами испытуемых одного и того же задания)

Группа 1 (n=11)	2'19''	1'05''	1'23''	3'01''	2'54''	2'12''	1'25''	3'14''	1'35''	2'29''	3'30''
Группа 2 (n=10)	1'33''	1'45''	2'01''	0'55''	1'05''	0'45''	1'10''	1'12''	3'15''	5'44''
Ранг 1	14	3,5	7	17	16	13	8	18	10	15	20
Ранг 2	9	11	12	2	3,5	1	5	6	19	21

, Umin(0.05) = 26

, Umax(0.05) = 84

Вывод: два распределения не отличаются статистически значимо друг от друга, т.к. U1 > Umin , а U2 < Umax , т.е. оба полученных значения попадают в границы интервала, образованного критическими значениями U0.05 .

7.9.2. t-критерий Стьюдента. Это один из наиболее известных параметрических критериев, применяемый для определения того, относятся две выборки к одной генеральной совокупности или нет, или, по-другому, для установления того, насколько сильно различаются средние и дисперсии двух распределений:

Особенности его следующие:

Может быть использован для установления различий между двумя выборками в уровне исследуемого признака, поскольку в его формулу обязательно входит разность средних арифметических двух выборок;
Чем больше разность между средними арифметическими двух выборок, тем больше будет эмпирическое значение t-критерия и тем более вероятно обнаружение различий;
Критерий позволяет сформулировать направленные гипотезы;
Переменные должны быть измерены в шкалах интервалов или отношений и, по крайней мере, теоретически, подвержены норальному распределению;
Выборки могут быть сколь угодно большими.

X	Y
97	99	25	1
103	98	1	0
92	98	100	0
101	97	1	1
105	100	9	4
106	95	16	9
99	99	9	1
94	98	64	0
93	98	81	0
109		49
110		64
115		169
Суммы		588	16

, t0.05 = 2.09, t0.01 = 2.86

Вывод: распределения X и Y статистически не различаются (или, по-другому, выборки относятся к одной генеральной совокупности), т.к. tэмп < t0.05 .

7.9.3. F-критерий Фишера. Параметрический критерий, позволяющий оценить различия в распределении признака в двух выборках, имеющих одинаковые средние значения, (т.е. в тех случаях, когда t-критерий Стьюдента неприменим):

при этом в числителе всегда должна быть большая дисперсия, а в знаменателе меньшая.

Как достоинства, так и недостатки у него те же, что и у t-критерия Стьюдента, но он оказывается неприменим для случаев, когда средние двух выборок различны, т.к. полученный вывод будет представлять собой артефакт.

	X	Y
	100	99	0	-1	0	1
	101	102	1	2	1	4
	103	110	3	10	9	100
	98	96	-2	-4	4	16
	97	97	-3	-3	9	9
	98	101	-2	1	4	1
	102	100	2	0	4	0
	101	96	1	-4	1	16
	99	99	-1	-1	1	1
	101		1		1
Средние	100	100
Суммы					34	148

, F0.05 = 3.23, F0.01 = 5.47

Вывод: различия между двумя распределениями статистически достоверны на 5-% уровне значимости, т.к. Fэмп > F0.05, но недостоверны на 1-% уровне, т.к. Fэмп < F0.01

7.10. Проверка совпадения эмпирических результатов с ожидаемыми теоретическими. Это задача является довольно традиционной при создании и адаптации психологических тестов, когда необходимо проверить насколько совпадает эмпирическое распределение тестового балла с нормальным распределением. Близкой, по сути, является и задача сопоставления двух эмпирических распределений, например, если необходимо сравнить распределения того же тестового балла в разных группах испытуемых. Можно аналогичным образом сравнивать распределение реакций одного испытуемого в разных условиях, и все это будет сравнением двух распределений: теоретического с эмпирическим или эмпирического с эмпирическим.

7.10.1. -критерий Пирсона. Вычисляется по формуле:

где fxj – эмпирическая частота, fyj – теоретическая частота.

Особенности этого критерия:

Отвечает на вопрос, с одинаковой частотой или нет, встречаются разные значения признака в эмпирическом и теоретическом распределении;
В независимости от шкалы измерения признака, все результаты должны быть разбиты на несколько разрядов или классов;
В каждом классе должно быть не менее 5 наблюдений;
Выборки должны быть достаточно большими (n > 30), причем точность критерия повышается при больших n.
Чем выше оказывается полученное значение, тем более вероятно обнаружение различий между двумя распределениями.

№ класса	Эмп.f	Теор.f	f-f*	(f-f*)	(f-f)/f
1	23	18.43	4.571	20.9	1.134
2	12	18.43	-6.43	41.33	2.243
3	9	18.43	-9.43	88.9	4.824
4	27	18.43	8.571	73.47	3.987
5	24	18.43	5.571	31.04	1.684
6	18	18.43	-0.43	0.184	0.01
7	16	18.43	-2.43	5.898	0.32
Суммы	129	129			14.2

, = 12.59, = 16.81

Вывод: различия между двумя распределениями статистически достоверны на 5-% уровне значимости, т.к. >, но недостоверны на 1-% уровне, т.к. <.

7.11. Обнаружение влияния фактора на распределение переменной. Это задача представляет собой попытку доказательства влияния на психологическую переменную других, чаще всего непсихологических переменных. Например, влияния обучения на уровень знаний, умений или навыков, условий работы – на производительность труда, условий эксперимента – на распределение результатов и т.д.

7.11.1. G-критерий знаков (Мак-Немара). Один из наиболее легких и простых статистических критериев, который равняется количеству сдвигов значений случайной величины в сторону увеличения или уменьшения значений под влиянием фактора.

Достоинства и недостатки этого критерия:

Устанавливает общее направление сдвига исследуемого признака, либо в сторону улучшения, либо в сторону ухудшения результатов, и, таким образом, позволяет проверять направленные гипотезы;
Применим к любым сдвигам, и тем, которые определяются количественно, и к тем, которые определяются качественно;
Применим лишь по отношению к одной и той же выборке, которая подвергалась воздействию фактора X;
Количество наблюдений должно быть не менее 5 и не более 300;
В том случае, если сдвиги варьируют в довольно широком диапазоне лучше использовать T-критерий Вилкоксона.

N	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
до влияния фактора	12	13	6	13	14	12	10	17	14	15	13	12	16	14	12
после влияния фактора	16	18	17	20	15	15	17	17	16	14	10	10	23	20	11
Результат	+	+	+	+	+	+	+	=	+	–	–	–	+	+	–

Количество сдвигов со знаком ''+'' = 10

Вывод: влияние фактора недостоверно, т.к. Gэмп < G0.05 (G0.05 = 11)

7.11.2. T-критерий Вилкоксона. Этот критерий применяется для решения тех же задач, что и критерий знаков, но он позволяет оценить не только направление сдвига, но и его интенсивность, особенно, если вариации признака ярко выражены. Он основан на подсчете суммы рангов значений сдвигов случайной величины с более редким (или менее ожидаемым) знаком:

при этом – чем меньше полученное значение T-критерия, тем более вероятно влияние фактора

N	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
до влияния фактора	12	13	6	13	14	12	10	17	14	15	13	12	16	14	12
после влияния фактора	16	18	17	20	15	15	17	17	16	14	10	10	23	20	11
Разность	4	5	11	7	1	3	7	0	2	-1	-3	-2	7	6	-1
Абсолютная разность	4	5	11	7	1	3	7	0	2	1	3	2	7	6	1
ранг абс.разности	9	10	15	13	3	7,5	13	1	5,5	3	7,5	5,5	13	11	3

T = 3 + 3 + 5.5 + 7.5 = 19

Вывод: влияние фактора достоверно, т.к. Тэмп < Т0.01 (Т0.01 = 19)

Примечание: в этом примере использованы те же данные, что и в случае с критерием знаков, однако выводы получены прямо противоположные. Такую ситуацию можно объяснить следующим образом: влияние фактора не является достоверным, если говорить об общей тенденции, но оно в то же время достоверно в отношении части испытуемых, если говорить об интенсивности влияния, хотя, конечно, гораздо более точный вывод можно сделать, если критерии подтверждают друг друга, чем вступают в противоречие.

7.11.3. Дисперсионный анализ. Это вид статистического анализа, предназначенный для исследования влияния одного, двух и более факторов на распределение признака на одной выборке или на нескольких независимых выборках в разных условиях. Он представляет собой отдельную главу в истории математической статистики, и в силу значительного объема изложения рассматривается в гл. 8.

7.12. Обнаружение интересующего исследователя эффекта в одной или разных выборках испытуемых.

7.12.1. Биномиальный критерий m. Это самый простой из всех статистических критериев, который позволяет оценить, насколько эмпирическая частота какого-либо признака в одной выборке (от 5 до 300 наблюдений) отличается от заданной теоретической, среднестатистической и т.д. Эмпирическая частота и является эмпирическим значением биномиального критерия m, которое сравнивается с табличным для соответствующего числа наблюдений при заданной вероятности проявления интресующего исследователя эффекта.

Например, если в некотором эксперименте испытуемые решают анаграммы слов с двумя равновероятными исходами (типа ''борза'' – анаграмма слов ''образ'' и ''забор''), но, при этом, один вариант решения встречается гораздо чаще и его частота статистически отличается от теоретической, то можно предположить, что здесь проявляется эффект связанный с влиянием некоторого фактора (например, дефицита времени или опыта решения предыдущих задач).

7.12.2. -критерий Фишера с угловым преобразованием. Данный критерий является многофункциональным критерием, т.е. он применим по отношению к самым разнообразным задачам и самым различным типам данных. Он вычисляется по формуле:

где – угол, соответствующей большей процентной доле, выраженный в радианах

– угол, соответствующей меньшей процентной доле, выраженный в радианах

n1 – количество наблюдений в выборке 1

n2 – количество наблюдений в выборке 2

Он имеет следующие особенности:

Позволяет сравнивать две выборки или одну и ту же выборку в разных условиях по степени выраженности интересующего исследователя эффекта;
Позволяет определить сдвиг значений признака под влиянием фактора;
Позволяет сопоставить выборки как по качественному, так и по количественно определяемому признаку.
Минимальный объем одной из выборок может быть равен 2, но максимальный – не ограничен, хотя в тех случаях когда выборки очень малы, достоверные различия обнаружить скорее всего не удастся.

	Есть эффект	Нет эффекта
Группы	Количество испытуемых	Процентная д доля	Количество испытуемых	Процентная д доля

1 группа	13	54.2 %	11	45.8 %
2 группа	9	75.0 %	3	25.0 %

, n1= 12

, n2= 24

=1.242, = 1.64

Вывод: группы испытуемых не различаются достоверно по проявлению эффекта, т.к. <

Перечисленные выше статистические критерии предназначены только для сопоставления двух распределений, вне зависимости от решаемой исследователем задачи. Помимо этих критериев существует еще и те, которые позволяют сопоставлять три, четыре и большее количество распределений, а также решать более сложные задачи. Многие ответы на вопросы могут быть получены и при комбинированном применении статистических критериев, а также в совокупности с другими методами математической статистики, что, как правило, рассматривается в специальных руководствах.

7.13. Единицы измерения статистических мер. При описании результатов своих исследований любому специалисту важно понимать не только в какой шкале и в каких единицах измерялся признак, но и в каких единицах измеряются статистические меры, чтобы перевести полученные результаты с языка математической статистики на язык своей науки. Ниже приводится таблица единиц измерения описанных в пособии статистических мер.

Статистические меры	Единицы измерения
Среднее арифметическое	Единицы признака
Медиана	Единицы признака
Мода	Единицы признака
Квантили распределения	Единицы признака
Размах	Единицы признака
Среднее отклонение	Единицы признака
Дисперсия	Квадрат единицы признака
Стандартное отклонение	Единицы признака
Стандартная оценка	Условные единицы
Асимметрия	Условные единицы
Эксцесс	Условные единицы
Коэффициенты корреляции	Все в условных единицах
Коэффициент регрессии	Условные единицы
Статистические критерии	Все в условных единицах

Таблица 7.2. Единицы измерения статистических мер.

8. ДИСПЕРСИОННЫЙ АНАЛИЗ

8.1. Общие сведения. Дисперсионный анализ был разработан английским биологом и математиком Рональдом Фишером (1890-1962). Дисперсионный анализ (далее - ДА) – это статистический метод изучения влияния отдельных контролируемых факторов на изменчивость изучаемого признака. Необходимость в применении ДА возникает тогда, когда производится серия измерений какой-либо одной переменной в разных условиях, причем число условий должно быть больше двух (в противном случае данную задачу можно решить иными методами). Например, это могут быть несколько экспериментальных групп, различающихся по каким-либо признакам (возрасту, уровню образования, социальному положению и т.д.) участвующих в качестве испытуемых в одних и тех же условиях эксперимента. Это может быть одна и та же экспериментальная группа принимающая участие в эксперименте в разных экспериментальных условиях, например, простых, усложненных и очень сложных. Наконец, это могут быть несколько эксперименальных групп, принимающих участие в эксперименте с разными экспериментальными условиями, но при этом экспериментатор должен придерживаться гипотезы, что интериндивидуальные различия не оказывают влияния на вариативность результатов, которые, в свою очередь, могут зависеть только от условий эксперимента.

8.2. Виды переменных в ДА. Все переменные в ДА принято делить на два вида – независимые и зависимые переменные. Независимой переменной (фактором) называется контролируемая экспериментатором переменная. Независимыми переменными могут быть пол испытуемых, возраст, национальность, принадлежность к какой-либо социальной группе и т.д., поскольку именно по каким-либо различиям между испытуемыми будут сформированы экспериментальные группы. В качестве независимых переменных могут выступать и психологические переменные, такие как уровень развития интеллекта, свойства темперамента или характера, особенности эмоциональной сферы и т.д. Независимой переменной могут быть действия других людей, которым подвергаются испытуемые или условия проведения эксперимента. Независимую переменную принято делить на уровни. Уровни независимой переменной могут различаться как количественно, так и качественно. Уровнями независимой переменной может быть, например, уровень мотивации испытуемых (высокий, средний, низкий), уровень шума и его влияние на результативность деятельности и т.д, которые различаются лишь количественно. Уровни независимой переменной могут представлять собой не только градации какого-либо фактора. Уровнями независимой переменной могут быть, например, цвет стимулов, виды заболеваний, виды рекламы и т.д., которые различаются прежде всего качественно. В таком случае их правильнее будет называть условиями действия фактора или условиями эксперимента.

Зависимой переменной называется переменная, которая при ее измерении во время эксперимента подвергается влиянию независимой. Например, возраст испытуемых может влиять на уровень цветовой чувствительности (зависимая переменная), уровень интеллекта на скорость решения творческих задач, социальное положение на ценностные ориентации и т.д.

8.3. Виды ДА. Дисперсионный анализ принято делить на несколько видов согласно количеству независимых переменных: однофакторный ДА (одна независимая переменная), двухфакторный ДА (две независимых переменных), трехфакторный ДА (три независимых переменных) и мультифакторный ДА (больше трех независимых переменных). Обычно исследования ограничиваются применением только двух первых видов ДА, поскольку уже в трехфакторном ДА вычисления являются довольно громоздкими и часто требуют большого эмпирического материала. Но во всех видах ДА зависимая переменная остается только одна.

8.4. Структура данных в однофакторном и двухфакторном ДА. Обычная структура данных в однофакторном ДА может быть представлена в виде таблицы с J-количеством столбцов (см. рис.8.1) и n-количеством наблюдений в каждом столбце (причем их количество может быть разным), где столбцами являются условия эксперимента или уровни независимой переменной (в данном случае их четыре), а зависимая переменная представляет собой результаты измерения признака, где каждое отдельное значение обозначается как xi,j.

Независимая переменная (фактор)
1 уровень	2 уровень	3 уровень	4 уровень
X1,1	X1,2	X1,3	X1,4
X,2,1	X,2,2	X,2,3	X,2,4
X3,1	X3,2	X3,3	X3,4
X4,1	X4,2	X4,3	X4,4
X5,1	X5,2	X5,3	X5,4
.	.	.	.
.	.	.	.
.	.	.	.
.	.	.	.
Xn,1	Xn,2	Xn,3	Xn,4

Рис.8.1. Структура данных в однофакторном дисперсионном анализе

Структура данных в двухфакторном ДА отличается тем, что добавляется вторая независимая переменная со своими уровнями, которых также должно быть не менее двух. На рис.8.2. представлена таблица данных для двухфакторного дисперсионного анализа с I-количеством уровней фактора А (в данном случае их три), J-количеством уровней фактора Б (в данном случае их два) и k-наблюдениями в каждой ячейке, образованном сочетанием уровней переменных А и Б, причем количество наблюдений в каждой ячейке может быть различным.

			ФАКТОР ''Б’’
			1 УРОВЕНЬ	2 УРОВЕНЬ
			X1,1,1	.	X1,2,1	.
			X1,1,2	.	X1,2,2	.
	1 УРОВЕНЬ	X1,1,3	.	X1,2,3	.
Ф			X1,1,4	.	X1,2,4	.
А			X1,1,5	X1,1,k	X1,2,5	X1,2,k
К			X2,1,1	.	X2,2,1	.
Т			X2,1,2	.	X2,2,2	.
О	2 УРОВЕНЬ	X2,1,3	.	X2,2,3	.
Р			X2,1,4	.	X2,2,4	.
			X2,1,5	X2,1,k	X2,2,5	X2,2,k
''А''			X3,1,1	.	X3,2,1	.
			X3,1,2	.	X3,2,2	.
	3 УРОВЕНЬ	X3,1,3	.	X3,2,3	.
			X3,1,4	.	X3,2,4	.
			X3,1,5	X3,1,k	X3,2,5	X3,2,k

Рис.8.2. Структура данных в двухфакторном дисперсионном анализе

8.5. Задачи ДА. Главной задачей в однофакторном ДА является определение отношения вариативности (дисперсии), обусловленной действием независимой переменной (фактора) к случайной вариативности, обусловленной влиянием всех неизвестных факторов (т.н. F-отношение или F-критерий). Если это отношение превышает критическое значение, то тогда признается достоверным влияние независимой переменной на зависимую.

В двухфакторном ДА экспериментатор решает уже три задачи:

Определение отношение вариативности обусловленной действием переменной А к случайной вариативности (Fэмп А);
Определение отношение вариативности обусловленной действием переменной Б к случайной вариативности (Fэмп Б);
Определение отношение вариативности обусловленной действием переменных А и Б к случайной вариативности (Fэмп АБ).

При этом может оказаться что:

На вариативность результатов влияет только одна независимая переменная (т.е. либо Fэмп А, либо Fэмп Б превышает критическое значение, но Fэмп АБ не превышает);
На вариативность результатов влияют обе независимые переменные, но взаимодействие переменных влияния не оказывает (т.е. они как бы ''нейтрализуют'' друг друга и следовательно: Fэмп А и Fэмп Б превышают критические значения, но Fэмп АБ не превышает);
На вариативность результатов независимые переменные по отдельности не влияют, но их взаимодействие оказывает влияние (т.е. они как бы ''катализируют'' друг друга и следовательно: Fэмп А и Fэмп Б не превышают, а Fэмп АБ превышает критическое значение);
На вариативность результатов влияет одна из переменных, и кроме того, обнаруживается влияние взаимодействия обеих переменных (либо Fэмп А, либо Fэмп Б превышает критическое значение, и Fэмп АБ также превышает);
На вариативность результатов влияют как обе переменные, так и их взаимодействие (все три F-критерия превышают критическое значение);
На вариативность результатов не влияет ни одна из переменных, и их взаимодействие также не оказывает никакого влияния (ни один из трех F-критериев не превышает критического значения).

8.6. Ограничения применения ДА. ДА можно применять только в том случае, когда переменная измерена в шкале интервалов или отношений, т.е. когда можно вычислить основные параметры распределения (средние и дисперсии). Кроме того, должно быть либо известно, либо доказано, что зависимая переменная подвержена нормальному распределению (в противном случае полученные выводы могут оказаться ложными). В двухфакторном ДА помимо перечисленнных требований обязательным условием является то, что факторы должны быть независимы друг от друга и количество их градаций также должно быть не меньше двух.

8.7. Модель для данных в ДА. Обычная линейная модель для данных в однофакторном ДА выглядит следующим образом:

, где

x – конкретное значение переменной,

– (греч. “мю”) генеральное среднее

A – доля отклонения переменной, обусловленная влиянием фактора А

e – ошибка наблюдения (случайное отклонение).

Для двухфакторного ДА эта модель будет:

, где

x – конкретное значение переменной,

– (греч. “мю”) генеральное среднее

A – доля отклонения переменной, обусловленная влиянием фактора А

B – доля отклонения переменной, обусловленная влиянием фактора B

AB – доля отклонения переменной, обусловленная взаимодействием факторов А и B

e – ошибка наблюдения (случайное отклонение)

8.8. Гипотезы в ДА. Нулевая гипотеза в однофакторном ДА будет утверждать, что средние значения исследуемого признака на всех уровнях независимой переменной одинаковы. Иначе говоря, независимая переменная не оказывает никакого влияния на зависимую и, следовательно, средние значения признака от уровня к уровню независимой переменной не меняются. Альтернативная гипотеза будет утверждать, что средние значения признака от уровня к уровню независимой переменной меняются (увеличиваются или уменьшаются), т.е. независимая переменная влияет на зависимую. Что касается двухфакторного дисперсионного анализа, то таких гипотез будет уже три: относительно влияния фактора А, фактора Б и взаимодействия факторов А и Б на зависимую переменную.

8.9. Порядок расчетов в однофакторном ДА. В однофакторном ДА необходимо найти F-критерий, который определяется по формуле:

, где

MSфакт – дисперсия, обусловленная влиянием фактора (“сумма квадратов между группами” (см. ниже) деленная на число степеней свободы между группами)

MSслуч – случайная дисперсия (“сумма квадратов внутри групп” деленная на число степеней свободы внутри групп)

, где

SSфакт – сумма квадратов отклонений случайной величины от общей средней (“сумма квадратов между группами”)

SSслуч – остаточная сумма квадратов (“сумма квадратов внутри групп”)

dfфакт – число степеней свободы между группами

dfслуч – число степеней свободы внутри групп

Из изложенного выше видно, что сумма квадратов между группами и сумма квадратов внутри групп составляют общую или полную сумму квадратов, которая определяется по формуле:

, т.е.

Однофакторный ДА, таким образом, представляет собой разложение общей суммы квадратов на две составляющие: обусловленную влиянием фактора и обусловленную случайными влияниями.

Пример вычисления F-критерия в однофакторном ДА:

Независимая переменная (фактор)
1 уровень	2 уровень	3 уровень	4 уровень
3	2	4	7
3	4	4	7
4	4	5	7
4	4	5	7
4	7	8	8
5	7	8	8
6	7	9	9
6	7		9
	9		9
			9

Вывод: Fэмп > Fкрит : влияние фактора достоверно

8.10. Порядок расчетов в двухфакторном ДА. В двухфакторном ДА необходимо подсчитать три F-критерия:

, , , где

MSA – дисперсия, обусловленная влиянием фактора A,

MSB – дисперсия, обусловленная влиянием фактора B,

MSAB – дисперсия, обусловленная влиянием взаимодействия факторов AB,

MSслуч – случайная дисперсия,

которые расчитываются следующим образом:

, , и , где:

SSA – сумма квадратов отклонений обусловленная фактором A,

SSB – сумма квадратов отклонений обусловленная фактором B,

SSAB – сумма квадратов отклонений обусловленная взаимодействием факторов A и B,

SSслуч – остаточная сумма квадратов.

Суммы квадратов вычисляются по следующим формулам:

Степени свободы подсчитываются по формулам:

, , ,

Пример вычисления F-критериев в двухфакторном ДА:

			ФАКТОР ''Б’’
			1 УРОВЕНЬ	2 УРОВЕНЬ
			3		3
			4		4
	1 УРОВЕНЬ	4		4
Ф			4		5
А
К			4	5	4	5
Т			4		4
О	2 УРОВЕНЬ	4		4
Р			4		5
			5		5
''А''			3		5
			3		5
	3 УРОВЕНЬ	4		5
			5		5

Суммы по строкам

Суммы по столбцам

Критические значения:

Вывод: Поскольку из всех F-критериев только FB превышает критическое значение, то, следовательно, на вариативность результатов достоверно влияние только фактора ''Б''.

9. РЕГРЕССИОННЫЙ АНАЛИЗ

9.1. Общие сведения. Регрессионный анализ (далее - РА) - это статистический метод изучения изменения значений одной переменной от изменения значений другой переменной на единицу измерения. В широком смысле РА изучает связь между переменными, зависимость одной переменной от другой и влияние одной переменной на другую. Однако, в отличии от коэффициента корреляции и дисперсионного анализа РА дает ответ на один очень важный вопрос: как изменится значение одной переменной, если значение другой переменной изменилось на некоторое количество единиц ее измерения. Такого рода задача может возникнуть в том случае, если необходимо знать какой тестовый балл окажется у испытуемого по тесту А, если нам известен его тестовый балл по тесту Б и насколько возрастет (уменьшится) тестовый балл данного испытуемого по одному тесту, если изменится тестовый балл по другому. В качестве еще одного примера применения РА можно привести следующие задачи:

Как изменится мотивация персонала фирмы, если зарплата будет увеличена на определенное количество денежных единиц.
Насколько изменится спрос на товар, если общее время показа рекламы по телевидению увеличится на определенное количество минут.
Насколько точно можно оценить успеваемость по интеллекту.
Как изменится самооценка подростка, если его социометрический статус возрастет.
Как зависит оценка студента на экзамене от успеваемости в течение семестра.

Правда, нужно отметить, что для решения такого рода задач необходима предварительная статистика, т.е. исследователь должен располагать данными измерений двух случайных величин, зависимость одной из которых от другой он исследует.

9.2. Задачи и вычислительные процедуры РА. Основные задачи РА - решение уравнений регрессии и построение линии регрессии. Основное уравнение линейной регрессии выглядит следующим образом:

, где:

Y - изучаемый признак, переменная, которая испытывает на себе влияние другой переменной;

X - переменная, оказывающая влияние на переменную Y;

a - коэффициент регрессии, определяющий наклон линии регрессии по отношению к осям X иY;

b - константа, определяющая высоту линии регрессии над осью X.

По сути - это уравнение прямой в декартовой системе координат и решение уравнения регрессии сводится к нахождению коэффицента регрессии и свободного члена в уравнении регрессии, которые определяются по формулам:

;

Аналогичным образом можно построить уравнение зависимости не только Y от X, но и X от Y, что требует замены переменных местами. Однако, статистика не может заменить собой логики, и поэтому математически такая перестановка осуществима, но логически может быть совершенно не оправдана. Можно, например, изучать зависимость успеваемости от интеллекта у школьников первого класса, но вряд ли целесообразно будет изучение зависимости интеллекта от успеваемости у тех же школьников, если интеллект у них формировался задолго до того, как появилась успеваемость. Вопрос о причинно-следственных связях в таких случаях всегда остается на совести исследователя.

Следующей задачей РА является построение линии регрессии, которая отражает изменение значения одной переменной от изменения значения другой. Здесь необходимо сказать, что линия регрессии показывает не действительные, а только наиболее вероятные значения Y, что нисколько не умаляет достоинств РА. Во-первых, дело в том, что эмпирические данные при одном значении X могут содержать некоторый разброс значений Y, что естественно для случайных величин. РА покажет, в таком случае, как раз те значения, которые следует ожидать при увеличении количества наблюдений. Во-вторых, по уравнению регрессии можно определить наиболее вероятные значения Y по гипотетическим значениям X, т.е. тем, которые не встречаются в эмпирических данных, поэтому довольно часто в статистике линию регрессии называют еще линией предсказания.

9.3. Эмпирическая задача. Необходимо установить зависимость между успеваемостью студентов факультета психологии ДГУ по математическим методам в психологии в течении семестра, определенной по 18-бальной рейтинговой системе (min=0; max=18) и итоговой оценкой на экзамене (по привычной 5-бальной системе). Исходные данные и расчеты представлены в таблице 1. Достаточно беглого вгляда, чтобы заметить, что между двумя случайными величинами существует достоверная связь. Однако коэффициента корреляции (rx,y = 0.825) недостаточно, чтобы определить какую оценку студента на экзамене можно прогнозировать при 6-ти или 13-ти баллах, т.е. при тех значениях X, которые отсутствуют в эмпирических данных.

Таблица 9.1. Данные для регрессионного анализа

№	Испытуемые	Семестр (X)	Экзамен (Y)	XY	X*X
1	И.М.	3	2	6	9
2	А.С.	5	2	10	25
3	С.О.	5	3	15	25
4	М.В.	7	3	21	49
5	Ф.О.	7	3	21	49
6	М.Б.	8	4	32	64
7	О.С.	8	4	32	64
8	П.Г.	8	3	24	64
9	Ч.А.	8	4	32	64
10	Б.Б.	9	3	27	81
11	Б.А.	9	4	36	81
12	Н.О.	9	3	27	81
13	Х.С.	9	3	27	81
14	Г.Е.	10	4	40	100
15	Г.Ж.	10	3	30	100
16	Р.Г.	10	3	30	100
17	Д.О.	11	4	44	121
18	З.В.	11	5	55	121
19	В.Л.	12	5	60	144
20	Ф.А.	12	4	48	144
21	К.Е.	14	5	70	196
22	Л.А.	14	5	70	196
23	М.Л.	14	4	56	196
24	П.О.	14	4	56	196
25	Е.Д.	15	4	60	225
26	К.Д.	15	5	75	225
27	Л.Е.	15	4	60	225
28	Б.Е.	16	5	80	256
29	М.М.	16	4	64	256
30	О.М.	16	5	80	256
31	Р.С.	16	5	80	256
32	Д.Е.	17	5	85	289
33	З.И.	17	5	85	289
34	Х.И.	17	5	85	289
35	Ч.Е.	18	5	90	324
	Суммы	405	139	1713	5241
	Средние	11,57	3,97

Уравнение регрессии:

Сейчас по полученному уравнению можно рассчитать наиболее вероятные значения оценки на экзамене, зная оценку в течении семестра. Так при 6-ти баллах в семестре оценка студента на экзамене будет равна 2.92 (т.е. не выше тройки), при 13-ти баллах – 4.24 (достаточно твердая четверка), а для получения отличной оценки вполне достаточно 17-ти баллов, т.к. .

9.4. Построение линии регрессии. На рис 9.1. видна построенная по эмпирическим данным (точки) и результатам вычислений линия регрессии. Линия регрессии проходит через точки, которые соответствуют наиболее вероятным значениям одной переменной при соответствующих значениях другой и, при этом, она всегда проходит через точку с координатами, соответствующим средним арифметическим двух переменных.

Рис. 9.1. Диаграмма рассеивания X (полученные в семестре баллы) и Y (оценка на экзамене) с построенной эмпирической линией регрессии.

Построенная таким образом линия в общем виде определяет зависимость одной переменной от другой и при интерпретации результатов регрессионного анализа необходимо учитывать, что в них не отражены отдельные случаи, как например, очень низкое значение одной переменной при высоком значении другой, хотя если и появится такой случай, то он обязательно повлияет как на уравнение, так и на линию регрессии.

9.5. Достоверность линии регрессии и уравнения регрессии. После того, как вычислен коэффициент регрессии, его достоверность может быть определена по формуле:

, где

В нашем примере tэмп = 8.39. Полученное значение сравнивается с критическими значениями t-критерия Стьюдента с n-2 числом степеней свободы. Если tэмп превышает t0.01, то коэффициент регрессии и линия регрессии могут быть признаны достоверными. Что касается данного примера, то t0.01 = 2.75, и, следовательно, коэффициент регрессии и линия регрессии достоверны.

9.6. Ограничения в применении РА. РА применим только по отношению к переменным, которые выражены в шкале интервалов или отношений. И, хотя в приведенном выше примере использовалась шкала оценки на экзамене, которая не является шкалой равных интервалов, тем не менее в ней можно подсчитать средние и дисперсию, что является обязательным требованием к шкалам используемым в РА. Вторым ограничением в применении РА является то, что обе переменные должны находится по отношению друг к другу либо в функциональной, либо в статистической зависимости. Если одна из случайных величин является константой, то РА теряет смысл: коэффициент регрессии окажется равен нулю, а на графике линия регрессии будет выражаться прямой, параллельной оси X.

10. ФАКТОРНЫЙ АНАЛИЗ

10.1. Общие сведения. Факторный анализ (далее - ФА) - комплекс аналитических методов, позволяющих выявить скрытые (латентные) признаки какого-либо явления или события, его внутреннюю (чаще всего скрытую) структуру. Возникновение ФА было связано с одной стороны с осознанием того, что множество явлений психологического или социального характера имеет сложную природу, а с другой стороны, с внедрением статистических методов в общественные науки. ФА представляет особую гордость психологов, поскольку его появление и развитие связано с именами Чарльза Спирмена (1863-1945) и Лайонела Терстоуна (1887-1955), которые были известными учеными-психологами. Немалая заслуга внедрения ФА в психологию принадлежит Р.Б.Кеттелу и Г.Ю.Айзенку, создавшим на основе применения этого метода факторные теории личности.

10.2. Задачи факторного анализа. ФА предназначен для исследования явлений, событий или объектов имеющих сложную структуру со множеством внутренних связей. Большинство психических явлений, особенно интеллект, личность, мотивация и т.д. можно рассматривать именно так. Поскольку такие явления могут быть измерены сразу по многим переменным, ФА позволяет совершить переход от множества непосредственно измеренных признаков изучаемого явления к комплексным обобщенным факторам, за которыми стоят комбинации исходных признаков. Например, об уровне интеллекта ученика могут свидетельствовать оценки по учебным предметам, результаты исследования внимания, памяти, мышления и т.д., однако множество измерений отдельных переменных, информация по которым может оказаться избыточной, можно свести к сравнительно небольшому набору факторов, которые будут также хорошо описывать интеллект, как и исходные переменные, и при этом, что очень важно, информативность такого описания будет не ниже, чем при использовании полного набора исходных переменных.

Главной задачей ФА, таким образом, является уменьшение объема статистического описания какого-либо явления без потери информативности такого описания. Из всего многообразия статистических методов ФА, пожалуй, более, чем какой-либо другой, учитывая системность изучаемых явлений, отвечает предмету психологии.

10.3. Процедура факторного анализа.

10.3.1. Исходными данными для ФА является таблица результатов измерения множества индивидов (объектов) по множеству переменных (шкал, тестов и т.д.). Например, это может быть исследование множества учеников по множеству тестов умственных способностей, или исследование случайных испытуемых по множеству шкал, отражающих личностные характеристики. Предполагается, что результаты измерения отражают общую структуру исследуемого явления, а результаты отдельного испытуемого представляют собой частный случай реализации общей структуры. С другой стороны, каждая отдельная шкала по которой были измерены множество индивидов также вносит свой вклад в общую структуру исследуемого явления. Уменьшение числа испытуемых может приводить к меньшей точности ФА, а уменьшение числа исходных шкал - к обеднению структуры исследуемого явления. Поэтому, ФА предполагает обработку достаточно большого объема информации, и его развитие оказалось тесно связано с появлением электронно-вычислительных машин. В общем виде таблица результатов эксперимента, которые впоследствии подвергаются ФА имеет следующий вид:

	1 тест	2 тест	3 тест	.	k-й тест
1 индивид	X1,1	X1,2	X1,3	.	X1,k
2 индивид	X,2,1	X,2,2	X,2,3	.	X,2,k
3 индивид	X3,1	X3,2	X3,3	.	X3,k
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
n-й индивид	Xn,1	Xn,2	Xn,3	.	Xn,k

Рис. 10.1 Таблица результатов эксперимента для ФА.

10.3.2. Второй этап ФА - подсчет коэффициентов корреляции между всеми исходными переменными (т.е. каждой переменной с каждой), в результате чего получается матрица корреляций между переменными, или, по-другому, матрица интеркорреляций.

	1 тест	2 тест	3 тест	.	k-й тест
1 тест	r1,1	r1,2	r1,3	.	r1,k
2 тест	r2,1	r2,2	r2,3	.	r2,k
3 тест	r3,1	r3,2	r3,3	.	r3,k
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
k-й тест	rk,1	rk,2	rk,3	.	rk,k

Рис 10.2. Общий вид матрицы интеркорреляций

При этом интеркорреляционная матрица всегда имеет одинаковое количество строк и столбцов, симметрична относительно главной диагонали (где расположены элементы с одинаковыми подстрочными индексами) и элементами главной диагонали всегда являются единицы (коэффициент корреляции переменной с самой собой всегда равен «1.00»).

10.3.3. Третий этап ФА - получение редуцированной корреляционной матрицы. Она отличается от матрицы попарных корреляций тем, что по ее диагонали находятся не единицы, а т.н. ''общности'' или ''запасы общей изменчивости'' - наибольшие значения коэффициента корреляции (по модулю) в столбце (строке) соответствующей данной переменной.

10.3.4. На четвертом этапе подсчитывается сумма коэффициентов корреляции в каждом столбце и общая сумма всех элементов матрицы интрекорреляций. В том случае, если хотя бы одна из сумм оказывается отрицательной, необходимо изменить знак всех коэффициентов корреляции в данном столбце (строке) на противоположный. Такая процедура равносильна повороту шкалы измерения данной переменной на 180 градусов, т.е там где был плюс становится минус и наоборот.

10.3.5. На пятом этапе необходимо определить факторные нагрузки каждой переменной на первый фактор. Для этого каждую сумму делят на корень квадратный из общей суммы всех коэффициентов корреляции в матрице:

Поскольку количество факторных нагрузок каждой переменной на первый фактор равно количеству исходных переменных, то в результате вычислений получается матрица факторных нагрузок размерностью 1X n (где n – число исходных переменных) иначе называемая вектор-строка.

10.3.6. Полученную матрицу факторных нагрузок необходимо умножить на транспонированную матрицу факторных нагрузок, представляющую собой вектор-столбец(размерностью n X 1). Результатом таких вычислений является матрица попарных произведений факторных нагрузок размерностью n X n.

10.3.7. На следующем этапе необходимо из редуцированной корреляционной матрицы вычесть матрицу попарных произведений факторных нагрузок, что означает вычитание из каждого элемента первой матрицы каждого соответствующего элемента второй. Результатом этого этапа является остаточная матрица.

10.3.8. На последнем этапе остаточная матрица проверяется на соответствие матрице погрешностей, что означает установление необходимости дальнейшей факторизации. Для этой процедуры обычно используется критерий Сондерса или уравнения Терстоуна (см. Г.В.Суходольский “Основы математической статистики для психологов”). Если обнаруживается, что остаточная матрица не соответствует матрице погрешностей, то весь алгоритм ФА повторяется сначала, но уже с остаточной матрицей, в результате чего получается матрица факторных нагрузок переменных на второй фактор, затем на третий и т.д. Вся процедура ФА может повторяться, таким образом, до тех пор, пока остаточная матрица не станет соответствовать матрице погрешностей, но при этом, количество полученных в ФА факторов в любом случае будет меньше, чем количество исходных переменных.

10.4. Результаты ФА. Завершающий этап ФА - получение факторной матрицы (матрицы факторных нагрузок каждой переменной на каждый фактор), подсчет процента дисперсии, приходящейся на каждый фактор, а далее - построение факторной диаграммы. При этом считается что:

Факторы определены через исходные переменные;
Система факторов образует пространство, в котором через факторные нагрузки определены исходные переменные;
Факторы ранжированы в порядке убывания их значимости для объяснения эмпирических результатов;
Количество факторов существенно меньше, чем исходных переменных;
Факторам придается смысл скрытых источников, порождающих эмпирические результаты;
Все факторы независимы друг от друга.

10.5. Построение факторных диаграмм. Исходным предположением для построения факторной диаграммы является то, что факторы не коррелируют между собой и представляют оси многомерного факторного пространства, где переменные можно представить в виде векторов или точек с координатами, соответствующими факторным нагрузкам каждой переменной на каждый из полученных факторов. Как правило, при построении факторной диаграммы ограничиваются двумя первыми факторами, поскольку на плоскости трудно изобразить пространство большей размерности.

Факторные нагрузки, при этом, - не что иное, как координаты точек исходных переменных в пространстве полученных факторов.

10.6. Эмпирический пример ФА. В качестве эмпирического примера ФА взяты результаты исследования эмоциональной устойчивости 38 испытуемых, проведенные при помощи 9 тестов, дающих 10 исходных переменных. Это были бланковые тесты-опросники (первые 8 переменных) и компьютерный мнемический тест (КМТ), в котором создавался стресс неуспеха, дающий две переменные – количество правильных ответов и время реакции или время воспроизведения правильных ответов (см. рис.10.3).

Испытуемые	Пластичность ЦНС	Эмоциональная чувствительность	Ситуативная тревожность	Личностная тревожность	Нейротизм	Мотивация достижения	Нетерпимость неопределенности	Стратегия выхода из крит. ситуаций	Кол-во правильных ответов в КМТ	Время реакции в КМТ
Г.И.	8	9	1,80	1,95	17	142	360	0,75	14	6,07
В.В.	5	11	2,25	3,45	19	116	313	0,60	10	5,30
Б.Я.	11	0	1,95	1,95	11	129	269	0,60	11	4,83
Е.Б.	10	9	1,90	2,15	10	118	343	0,52	10	8,06
К.В.	12	1	2,65	1,70	10	199	288	0,77	11	3,86
О.А.	8	10	2,20	3,15	20	111	351	0,56	6	6,36
Е.В.	4	11	2,00	2,45	16	127	382	0,56	10	7,90
Е.А.	6	11	1,90	2,75	19	137	375	0,49	10	6,01
В.Б.	8	5	2,00	2,50	13	130	309	0,60	12	5,56
В.В.	5	10	3,00	2,90	19	107	331	0,48	8	4,68
О.М.	4	12	2,90	3,55	19	105	322	0,43	5	4,61
Н.П.	2	6	1,75	2,25	18	118	336	0,60	8	6,02
Т.В.	12	12	2,70	3,00	21	125	324	0,67	10	5,13
О.В.	5	7	2,05	2,35	16	114	363	0,59	8	7,15
З.Л.	0	11	3,45	3,10	21	95	341	0,56	7	4,97
Л.В.	12	8	3,60	2,50	17	132	313	0,68	7	4,72
Е.В.	5	10	2,05	2,25	18	118	379	0,74	14	6,64
Н.А.	6	7	2,10	2,15	14	141	339	0,55	11	6,07
Л.А.	6	11	2,45	2,80	15	154	283	0,59	6	6,12
Н.В.	2	6	3,00	3,00	16	132	375	0,63	9	7,13
А.Ю.	11	0	1,75	1,70	5	155	279	0,82	12	4,60
В.Н.	4	12	3,05	2,40	18	115	301	0,57	10	4,58
Е.В.	4	2	1,90	2,60	21	127	342	0,57	8	5,98
Л.В.	11	1	1,25	1,70	6	134	309	0,65	9	5,75
С.В.	4	12	2,95	3,25	22	90	364	0,51	2	4,01
Б.В.	9	2	1,55	2,10	11	126	279	0,61	12	5,17
А.Л.	5	9	1,85	2,15	19	124	318	0,56	12	4,51
Ж.И.	10	5	2,25	2,80	13	121	243	0,54	6	5,87
А.В.	4	12	3,10	3,35	18	124	242	0,47	11	4,51
Ю.В.	10	4	1,70	2,05	13	167	314	0,64	13	3,79
Б.Г.	8	5	2,05	2,35	18	125	339	0,58	5	5,05
А.П.	2	6	1,45	2,60	13	113	357	0,60	15	2,61
Н.А.	7	0	1,85	1,90	9	123	255	0,63	16	3,37
Д.Е.	11	10	2,35	2,20	17	129	333	0,57	13	4,05
А.И.	0	11	1,60	2,50	19	120	301	0,53	15	4,24
О.А.	3	6	1,75	1,90	11	105	343	0,63	11	6,20
И.П.	12	1	1,55	1,80	12	141	272	0,85	7	5,62
М.В.	10	1	1,35	1,40	3	176	210	1,06	11	5,84

Рис. 10.3. Таблица результатов эксперимента

Здесь необходимо отметить, что эмоциональная устойчивость имеет сложную, многофакторную природу, что и предопределило выбор исходных переменных. В действительности, в этом эксперименте было 23 исходных переменных, т.к. компьютерный мнемический тест состоял из трех серий, результаты которых тоже содержали несколько переменных времени реакции и количества ответов, однако, в качестве учебного примера их количество было сокращено (были взяты только средние арифметические времени реакции и количества правильных ответов).

После подсчета коэффициентов корреляции была получена матрица интеркорреляций:

Переменные	Пластичность ЦНС	Эмоциональная чувствительность	Ситуативная тревожность	Личностная тревожность	Нейротизм	Мотивация достижения	Нетерпимость неопределенности	Стратегия выхода из крит. ситуаций	Кол-во правильных ответов в КМТ	Время реакции в КМТ
Пласт. ЦНС	1,000	-0,475	-0,173	-0,474	-0,508	0,561	-0,417	0,472	0,027	-0,042	-1,029
Эмоцион. чувств.	-0,475	1,000	0,538	0,716	0,762	-0,509	0,461	-0,558	-0,207	0,117	0,846
Ситуативн. тревожность	-0,173	0,538	1,000	0,633	0,539	-0,272	0,111	-0,349	-0,464	-0,125	0,438
Личностная тревожность	-0,474	0,716	0,633	1,000	0,751	-0,578	0,282	-0,658	-0,467	-0,020	0,183
Нейротизм	-0,508	0,762	0,539	0,751	1,000	-0,562	0,542	-0,597	-0,346	-0,012	0,568
Мотивация достижения	0,561	-0,509	-0,272	-0,578	-0,562	1,000	-0,410	0,631	0,300	-0,054	-0,893
Нетерпим. неопредел.	-0,417	0,461	0,111	0,282	0,542	-0,410	1,000	-0,369	-0,101	0,347	0,447
Стратегия вых. из КС	0,472	-0,558	-0,349	-0,658	-0,597	0,631	-0,369	1,000	0,230	0,029	-1,168
К-во ответов в КМТ	0,027	-0,207	-0,464	-0,467	-0,346	0,300	-0,101	0,230	1,000	-0,223	-1,253
Время реакц. в КМТ	-0,042	0,117	-0,125	-0,020	-0,012	-0,054	0,347	0,029	-0,223	1,000	0,018
Суммы	-1,029	0,846	0,438	0,183	0,568	-0,893	0,447	-1,168	-1,153	0,018	-1,842

Рис. 10.4. Матрица интеркорреляций

В данном случае хорошо видно, что общая сумма всех коэффициентов корреляции в матрице равна ''-1,842'', а по условию ФА она должна быть больше нуля (иначе невозможно подсчитать факторные нагрузки) и поэтому необходима инверсия тех шкал, у которых сумма коэффициентов корреляции отрицательна. Инверсия шкалы ''Стратегия выхода из критических ситуаций'' привела к тому, что общая сумма стала положительной, и в матрицу коэффициентов корреляции были включены ''запасы общей изменчивости'':

Переменные	Пластичность ЦНС	Эмоциональная чувствительность	Ситуативная тревожность	Личностная тревожность	Нейротизм	Мотивация достижения	Нетерпимость неопределенности	Стратегия выхода из крит. ситуаций	Кол-во правильных ответов в КМТ	Время реакции в КМТ
Пласт. ЦНС	0,561	-0,475	-0,173	-0,474	-0,508	0,561	-0,417	-0,472	0,027	-0,042	-1,412
Эмоцион. чувств.	-0,475	0,762	0,538	0,716	0,762	-0,509	0,461	0,558	-0,207	0,117	2,723
Ситуативн. тревожность	-0,173	0,538	0,633	0,633	0,539	-0,272	0,111	0,349	-0,464	-0,125	1,768
Личностная тревожность	-0,474	0,716	0,633	0,751	0,751	-0,578	0,282	0,658	-0,467	-0,020	2,251
Нейротизм	-0,508	0,762	0,539	0,751	0,762	-0,562	0,542	0,597	-0,346	-0,012	2,524
Мотивация достижения	0,561	-0,509	-0,272	-0,578	-0,562	-0,631	-0,410	-0,631	0,300	-0,054	-2,786
Нетерпим. неопредел.	-0,417	0,461	0,111	0,282	0,542	-0,410	0,542	0,369	-0,101	0,347	1,726
Стратегия вых. из КС	-0,472	0,558	0,349	0,658	0,597	-0,631	0,369	0,658	-0,230	-0,029	1,826
К-во ответов в КМТ	0,027	-0,207	-0,464	-0,467	-0,346	0,300	-0,101	-0,230	-0,467	-0,223	-2,180
Время реакц. в КМТ	-0,042	0,117	-0,125	-0,020	-0,012	-0,054	0,347	-0,029	-0,223	0,347	0,307
Суммы	-1,412	2,723	1,768	2,251	2,524	-2,786	1,726	1,826	-2,180	0,307	6,747

Рис. 10.5. Редуцированная матрица интеркорреляций

Затем по формуле в п.10.3.5. были вычислены факторные нагрузки:

Переменные

Пластичность

ЦНС

Эмоциональная чувствительность

Ситуативная тревожность

Личностная тревожность

Нейротизм

Мотивация достижения

Нетерпимость неопределенности

Стратегия выхода из крит. ситуаций

Кол-во правильных ответов в КМТ

Время реакции в КМТ

Факторные нагрузки

-0,543

1,048

0,681

0,867

0,972

-1,073

0,664

0,703

-0,839

0,118

Рис. 10.6. Матрица факторных нагрузок переменных на 1-й фактор

При умножении матрицы факторных нагрузок на свою транспозицию, где Ai,1 – факторная нагрузка i-ой переменной на 1-й фактор, получена матрица попарных произведений факторных нагрузок:

	A1,1	A2,1	A3,1	A4,1	A5,1	A6,1	A7,1	A8,1	A9,1	A10,1
A1,1	0,295	-0,570	-0,370	-0,471	-0,528	0,583	-0,361	-0,382	0,456	-0,064
A2,1	-0,570	1,099	0,713	0,908	1,019	-1,124	0,696	0,737	-0,880	0,124
A3,1	-0,370	0,713	0,463	0,590	0,661	-0,730	0,452	0,478	-0,571	0,080
A4,1	-0,471	0,908	0,590	0,751	0,842	-0,929	0,576	0,609	-0,727	0,102
A5,1	-0,528	1,019	0,661	0,842	0,944	-1,042	0,646	0,683	-0,815	0,115
A6,1	0,583	-1,124	-0,730	-0,929	-1,042	1,150	-0,712	-0,754	0,900	-0,127
A7,1	-0,361	0,696	0,452	0,576	0,646	-0,712	0,441	0,467	-0,557	0,078
A8,1	-0,382	0,737	0,478	0,609	0,683	-0,754	0,467	0,494	-0,590	0,083
A9,1	0,456	-0,880	-0,571	-0,727	-0,815	0,900	-0,557	-0,590	0,704	-0,099
A10,1	-0,064	0,124	0,080	0,102	0,115	-0,127	0,078	0,083	-0,099	0,014

Рис. 10.7. Матрица попарных произведений факторных нагрузок

При вычитании которой из редуцированной корреляционной матрицы получается остаточная матрица:

Переменные	Пластичность ЦНС	Эмоциональная чувствительность	Ситуативная тревожность	Личностная тревожность	Нейротизм	Мотивация достижения	Нетерпимость неопределенности	Стратегия выхода из крит. ситуаций	Кол-во правильных ответов в КМТ	Время реакции в КМТ
Пласт. ЦНС	0,266	0,095	0,196	-0,003	0,020	-0,022	-0,056	-0,090	-0,430	0,023
Эмоцион. чувств.	0,095	-0,337	-0,175	-0,193	-0,257	0,616	-0,236	-0,180	0,673	-0,007
Ситуативн. тревожность	0,196	-0,175	0,169	0,043	-0,122	0,458	-0,341	-0,130	0,107	-0,205
Личностная тревожность	-0,003	-0,193	0,043	0,000	-0,091	0,351	-0,293	0,049	0,260	-0,123
Нейротизм	0,020	-0,257	-0,122	-0,091	-0,182	0,480	-0,104	-0,086	0,469	-0,127
Мотивация достижения	-0,022	0,616	0,458	0,351	0,480	-1,781	0,303	0,123	-0,600	0,073
Нетерпим. неопредел.	-0,056	-0,236	-0,341	-0,293	-0,104	0,303	0,100	-0,099	0,456	0,269
Стратегия вых. из КС	-0,090	-0,180	-0,130	0,049	-0,086	0,123	-0,099	0,164	0,360	-0,112
К-во ответов в КМТ	-0,430	0,673	0,107	0,260	0,469	-0,600	0,456	0,360	-1,171	-0,124
Время реакц. в КМТ	0,023	-0,007	-0,205	-0,123	-0,127	0,073	0,269	-0,112	-0,124	0,334

Рис. 10.8. Остаточная матрица после извлечения 1-го фактора

В этом заключается основная процедура ФА. Однако, она не может быть закончена, если остаточная матрица не соответствует матрице погрешностей. Согласно критерию Сондерса в матрице содержится еще некоторое количество факторов и поэтому процесс факторизации может быть продолжен, но уже с остаточной матрицей.

Ниже (см.рис.10.9.) приведен пример факторной диаграммы расположения переменных в пространстве двух факторов, полученной при факторном анализе полного набора из 23 переменных. На рисунке видно, что одна из точек имеет максимальную факторную нагрузку по F1 и нулевую по F2 . Ее координаты (0.595;0). Эта точка соответствует переменной времени реакции в серии компьютерного мнемического теста, где создавался стресс неуспеха, поэтому и 1-й фактор может быть интерпретирован, как “фактор времени реакции”. Другая точка имеет максимальную факторную нагрузку по F2 и низкую по F1 . Эта точка с координатами (0.056;0.309) соответствует переменной количества ответов в КМТ в той серии, где создавался стресс неуспеха, поэтому 2-й фактор может быть назван “фактором продуктивности деятельности в критических условиях”.

Рис. 10.9. Факторная диаграмма полученная по центроидному методу

Интерпретируя факторную диаграмму можно сказать, что основными факторами эмоциональной устойчивости являются два параметра: скорость и точность действий в критических ситуациях. Если учитывать, что оба параметра измеряются при помощи одной методики КМТ, то можно получить и еще один вывод: наилучшим методом исследования эмоциональной устойчивости является компьютерный тест моделирующий стресс неуспеха, а не бланковые тест-опросники.

10.7. Метод факторного анализа Баннистера. Это наиболее простой из методов мультифакторного анализа. Он заключается в том, что матрицу корреляций возводят в квадрат (что означает возведение каждого элемента матрицы в квадрат) и умножают на 100, однако, если знак коэффициента корреляции являлся отрицательным, то его при этом сохраняют. Полученная в результате таких преобразований матрица называется матрицей коэффициентов Баннистера. Затем необходимо подсчитать сумму коэффициентов Баннистера по столбцам (строкам) без учета диагональных элементов (которые всегда равны 100), и та переменная, которая набрала наибольшую из сумм, и будет являться первым фактором.

	1 тест	2 тест	3 тест	.	k-й тест
1 тест	100	К1,2	К1,3	.	К1,k
2 тест	К2,1	100	К2,3	.	К2,k
3 тест	К3,1	К3,2	100	.	К3,k
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
k-й тест	Кk,1	Кk,2	Кk,3	.	100

Рис. 10.10. Общий вид матрицы коэффициентов Баннистера

где K- коэффициент Баннистера, вычисляемый по формуле (значок * указывает на то, что при возведении в квадрат должен быть оставлен исходный знак коэффициента корреляции)

Интерпретация первого фактора довольно проста. Это исходная переменная, которая аккумулирует наибольшее количество связей с другими переменными. В качестве второго фактора берут переменную набравшую вторую по величине сумму, но только в том случае, если она не имеет значимого коэффициента корреляции с первым фактором. Полученные факторы, таким образом, являются самими исходными переменными, но это не говорит о том, что они не являлись до этого скрытыми, поскольку предсказать заранее, какая именно из переменных окажется наиболее весомым фактором, в большинстве случаев невозможно.

Данный вариант ФА позволяет построить косоугольное факторное пространство, поскольку коэффициент корреляции между факторами в большинстве случаев не является нулевым. Факторы, полученные таким образом, называются облическими.

На рис. 10.11. приведена факторная диаграмма, полученная на основе применения ФА по Баннистеру к тем же данным, к которым был применен ФА по Терстоуну. Интересно то, что первый фактор остался тем же самым – ''время реакции'', а вот вторым фактором оказалась эмоциональная чувствительность (по опроснику).

Рис. 10.11. Факторная диаграмма по Баннистеру

Интерпретация полученных данных будет отличаться от ФА по Терстоуну. В данном случае выявлено, что основными факторами эмоциональной устойчивости являются быстрота действий в критической ситуации и уровень эмоциональной чувствительности, однако, какой именно из методов ФА является более предпочтительным, в каждом отдельном случае исследователь решает самостоятельно.

10.8. Некоторые замечания о методе ФА. Как правило исследователь начинает с заранее избыточного количества дублирующих друг друга переменных, чтобы впоследствии свести их с помощью ФА к небольшому количеству уже независимых факторов, поскольку практически невозможно знать заранее, какие характеристики окажутся и существенными и независимыми друг от друга. Примерно такие предпосылки заставили Р.Б.Кеттела проанализировать около 4500 слов английского языка описывающих личность и поведение человека, чтобы затем с помощью семантического анализа свести их в 171 синонимичную группу, которая была подвергнута факторному анализу. Результатом факторного анализа понятий языка, описывающих личность и поведение человека, явилась факторная теория личности Р.Б.Кеттела и созданный на ее основе 16-факторный личностный опросник. Многочисленные кросскультурные исследования, проведенные во многих странах, показали удивительно высокую устойчивость факторной структуры личности, поэтому ФА является как разведочным методом, позволяющим выдвинуть гипотезы, так и методом проверки гипотез. Кроме того, обнаружили, что различные методы ФА дают сходные результаты, что говорит о том, что если исследователь имеет дело не со случайным набором переменных, а с действительно сложным, но устойчивым явлением, то разные варианты ФА приведут к одним и тем же выводам.

Необходимо коснуться вопроса об уровне используемых для измерения шкал. Как правило, измерение переменных должно быть проведено в шкале интервалов или отношений, что на практике, к сожалению, не всегда оказывается возможным, поскольку некоторые из переменных (например, пол, социальное положение, политическую ориентацию и т.д.) нельзя измерить в этих шкалах.

Приложение ''Статистические показатели, их обозначения и формулы''

X – обозначение переменной (случайной величины)
xi – отдельное значение случайной величины
i – подстрочный индекс означающий ''каждый''
R – ранжированная случайная величина
n – количество значений в распределении случайной величины, количество наблюдений в выборке
N – количество наблюдений в генеральной совокупности или в объединенной выборке
- знак суммы (сигма большая).

Подстрочный и надстрочный индексы означают ''от первого до последнего значения переменной (иногда могут быть опущены)

Среднее арифметическое

Md - Медиана - значение случайной величины, находящееся в середине упорядоченного распределения
Mo - Мода - наиболее частое значение случайной величины в распределении
Qi, Ki, Di, Pi – обозначения квартиля, квинтиля, дециля и процентиля
Размах

Среднее отклонение

Дисперсия

Стандартное (среднеквадратическое) отклонение

Асимметрия

Эксцесс

Стандартная оценка

Коэффициент корреляции Пирсона

, или

Коэффициент ранговой корреляции Спирмена

Коэффициент ассоциации Пирсона

где pxy – доля людей имеющих признаки X и Y, px – доля людей имеющих только признак X, py – доля людей имеющих только признак Y, qx – доля людей не имеющих признак X, qy – доля людей не имеющих признак Y

22. Четырехпольный коэффициент ассоциации ,

где a,b,c,d – значения, стоящие в четырехклеточной таблице сопряженности признаков

Точечно-бисериальный коэффициент корреляции

где - среднее по X c единицей, - среднее по X c нулем

Рангово-бисериальный коэффициент корреляции

U – критерий Манна-Уитни

t – критерий Стьюдента

F – критерий Фишера

– критерий Пирсона

где fxj – эмпирическая частота, fyj – теоретическая частота

G – критерий знаков – количество сдвигов значений случайной величины в сторону увеличения или уменьшения значений под влиянием фактора
T – критерий Вилкоксона

где Rr – ранговые значения сдвигов с более редким знаком

Биномиальный критерий m – эмпирическая частота какого-либо признака в выборке
– критерий Фишера с угловым преобразованием

где – угол, соответствующей большей процентной доле, выраженный в радианах

– угол, соответствующей меньшей процентной доле, выраженный в радианах

n1 – количество наблюдений в выборке 1

n2 – количество наблюдений в выборке 2

33. Формулы и обозначения по дисперсионному, регрессионному и факторному анализу даны в соответствующих разделах методического пособия

Статистические гипотезы разделяются на два вида: нулевые и альтернативные. Нулевая гипотеза (H0) утверждает об отсутствии различий между двумя распределениями (различия равны нулю), альтернативная (H1) – о существовании или значимости различий. Нулевая и альтернативная гипотезы являются взаимоисключающими, и в этом плане, одна из них должна будет оказаться истинной, а другая – ложной. Для проверки статистических гипотез служат статистические критерии. Статистические гипотезы могут быть направленные и ненаправленные. Если гипотеза просто утверждает отсутствие или значимость различий, то она является ненаправленной, т.к. в ее формулировку не входит направление различий. Если гипотеза помимо отсутствия или значимости различий утверждает и то, что параметры одного распределения должны оказаться больше или меньше, чем параметры другого, то она является направленной.

Статистический критерий – это решающее правило, обеспечивающее надежное принятие истинной гипотезы и отклонение ложной с высокой вероятностью, а также метод расчета числа, говорящего о значимости различий между распределениями случайной величины и само это число.

Уровень значимости статистических критериев () – это вероятность того, что исследователь счел различия существенными, а они на самом деле случайны.

В психологии обычно используется три уровня значимости: 5-процентный (0,95), 1-процентный (0, 99) и 0.1- процентный (0, 999) (хотя последний намного реже). Если указывают, что различия достоверны на 5%-ом уровне значимости (p < 0.05), то имеют ввиду, что вероятность ошибочного вывода составляет 0.05, если на 1%-ом – 0.01 (p < 0.01) и т.д. При этом, 5%-й уровень считается низшим, а 0.1%-й – высшим уровнем значимости.

Число степеней свободы. - это характеристика распределения, используемая при проверке статистических гипотез (обозначается df или ). Число степеней свободы равно числу классов вариационного ряда минус число условий, при которых он был сформирован.

Предположим, что выборка из 100 человек была разбита на три класса в зависимости от степени выраженности какого-либо признака. В первый класс могут попасть те, у кого признак выражен максимально, во второй те, у кого он выражен в средней степени, но в третий могут попасть только оставшиеся, вне зависимости от того минимально выражен у них признак, или вовсе отсутствует. Можно, конечно, допустить и другое разбиение, но число степеней свободы в данном случае будет равно df = 31= 2. Если исследователь имеет дело с классификацией из 100 классов, то df будет равно 99 и т.д. Для двух распределений df = c – 2 (c – число классов), а при представлении переменных в таблице размером a x b, df = (a – 1)(b – 1), где a – число столбцов, а b – число строк.

Для того, чтобы принять или отклонить статистические гипотезы существуют определенные правила принятия и отклонения нулевой и альтернативной гипотез. Поскольку статистический критерий – не только метод расчета числа, говорящего о различиях между распределениями, но и само это число, в задачи исследователя входит и правильная интерпретация полученного значения статистического критерия. Для того, чтобы определить, какая из двух гипотез верна, необходимо обратиться к таблицам значимости статистических критериев. В этих таблицах даются критические значения статистического критерия для соответствующего числа степеней свободы и уровня значимости. Например, если применялся t-критерий Стьюдента, а число степеней свободы было равно 20-ти, то необходимо найти значения t-критерия на 5%-ом и 1%-ом уровне значимости (2.09 и 2.85 соответственно). Если полученное эмпирическое значение окажется меньше, либо равняется критическому (табличному) значению на 5%-ом уровне, то необходимо признать верной нулевую гипотезу, если же выше, чем на 1%-ом уровне – альтернативную. В том случае, когда эмпирическое значение оказывается между двух критических, ни нулевую, ни альтернативную гипотезу принять нельзя, необходимо либо увеличить объем выборки, чтобы различия стали достоверны, либо воспользоваться другим критерием. Так обстоит дело с большинством критериев – чем выше число, тем достоверней различия между распределениями, и лишь в отношении некоторых критериев картина обратная (см. описания критериев).

Мощность критерия (1–) – это его способность выявлять различия, если они есть, т.е. его способность отклонить нулевую гипотезу об отсутствии различий, если она неверна.

Статистический вывод связан с так называемыми ошибками I и II рода.

Ошибка, состоящая в том, что была отклонена нулевая гипотеза, в то время, как она верна, называется ошибкой I рода.

Ошибка, состоящая в том, что была принята нулевая гипотеза, в то время как она неверна, является ошибкой II рода.

Иначе говоря, это ошибки отвержения истинной гипотезы и принятия ложной.

Ниже представлено распределение истинных решений и возможных ошибок статистического вывода.

H0 верна

H1 неверна

H0 неверна

H1 верна

Отклонить H0

Принять H1

Ошибка I рода



Истинное решение



Принять H0

Отклонить H1

Истинное решение



Ошибка II рода



Распределение ошибок и истинных решений в зависимости от верности гипотез и решений исследователя.

Критерии принято делить на параметрические и непараметрические. Параметрическими критериями являются те, в формулу расчета которых входят параметры распределения – средние или дисперсии. Непараметрические критерии, в отличии от параметрических, основаны на использовании в их формулах частот, долей или рангов. Непараметрические критерии применимы к переменным выраженным в любых шкалах, а параметрические – только лишь к тем переменным, которые выраженны в шкалах интервалов или отношений.

До настоящего времени созданы десятки статистических критериев, которые существуют для решения довольно ограниченного круга задач. Создание статических критериев не является самоцелью, каждый из таких методов проверки гипотез имеет свои преимущества и недостатки, и в некоторых случаях может, а в некоторых – не может быть заменен другими критериями. Основанием для выбора критерия является не только его мощность, но и другие характеристики: простота вычисления, применимость к неравным по объему выборкам, применимость к нескольким выборкам сразу, возможность использования его для переменных, измеренных в разных шкалах, универсальность (возможность применения его к решению самых различных задач).

Выявление различий в распределении переменной в разных группах испытуемых;
Проверка совпадения эмпирических результатов с ожидаемыми теоретическими;
Обнаружение влияния фактора на распределение переменной;
Обнаружение интересующего исследователя эффекта в одной или разных выборках испытуемых.

t-критерий Стьюдента Это один из наиболее известных параметрических критериев, применяемый для определения того, относятся две выборки к одной генеральной совокупности или нет, или, по-другому, для установления того, насколько сильно различаются средние и дисперсии двух распределений:

Особенности его следующие:

Может быть использован для установления различий между двумя выборками в уровне исследуемого признака, поскольку в его формулу обязательно входит разность средних арифметических двух выборок;
Чем больше разность между средними арифметическими двух выборок, тем больше будет эмпирическое значение t-критерия и тем более вероятно обнаружение различий;
Критерий позволяет сформулировать направленные гипотезы;
Переменные должны быть измерены в шкалах интервалов или отношений и, по крайней мере, теоретически, подвержены норальному распределению;
Выборки могут быть сколь угодно большими.

X	Y
97	99	25	1
103	98	1	0
92	98	100	0
101	97	1	1
105	100	9	4
106	95	16	9
99	99	9	1
94	98	64	0
93	98	81	0
109		49
110		64
115		169
Суммы		588	16

, t0.05 = 2.09, t0.01 = 2.86

Проверка совпадения эмпирических результатов с ожидаемыми теоретическими - это стандартная психологическая задача, которая часто лежит в основе всех экспериментальнальных исследований. Например, эта задача является довольно традиционной при создании и адаптации психологических тестов, когда необходимо проверить насколько совпадает эмпирическое распределение тестового балла с нормальным распределением. Близкой, по сути, является и задача сопоставления двух эмпирических распределений, например, если необходимо сравнить распределения того же тестового балла в разных группах испытуемых. Можно аналогичным образом сравнивать распределение реакций одного испытуемого в разных условиях, и все это будет сравнением двух распределений: теоретического с эмпирическим или эмпирического с эмпирическим.

t-критерий Стьюдента предназначен только для сопоставления двух распределений, вне зависимости от решаемой исследователем задачи. Помимо этого критерия существуют еще и те, которые позволяют сопоставлять три, четыре и большее количество распределений, а также решать более сложные задачи. Многие ответы на вопросы могут быть получены и при комбинированном применении статистических критериев, а также в совокупности с другими методами математической статистики, что, как правило, рассматривается в специальных руководствах.

Единицы измерения статистических мер применяются при описании результатов исследований. Специалисту-психологу важно понимать не только в какой шкале и в каких единицах измерялся признак, но и в каких единицах измеряются статистические меры, чтобы перевести полученные результаты с языка математической статистики на язык своей науки. Ниже приводится таблица единиц измерения описанных в пособии статистических мер.

Единицы измерения статистических мер.

Статистические меры	Единицы измерения
Среднее арифметическое	Единицы признака
Медиана	Единицы признака
Мода	Единицы признака
Квантили распределения	Единицы признака
Размах	Единицы признака
Среднее отклонение	Единицы признака
Дисперсия	Квадрат единицы признака
Стандартное отклонение	Единицы признака
Стандартная оценка	Условные единицы
Асимметрия	Условные единицы
Эксцесс	Условные единицы
Коэффициенты корреляции	Все в условных единицах
Коэффициент регрессии	Условные единицы
Статистические критерии	Все в условных единицах

Список литературы

1. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. – К., 1989.

2. Глас Дж., Стенли Дж. Статистичні методи в педагогиці та психології. − М.: Прогрес, 1976.

3. Рокицкий П.Ф. Биологическая статистика. Изд. 2-е, испр. − Минск: Высшая школа, 1967.

4. Сидоренко Е.В. Методы статистической обработки экспериментальных психологических даннях. − Л.: Соціально-психологический центр, 1996.

5. Скворцов С.Ю. Основи курса „Мат. методы в психологии”, ч.1. − Киров: ВСЭИ, 1998.

6. Суходольский Г.В. Основы математической статистики для психологов. − Л.: ЛГУ, 1989.

7. Шошин П.Б. Психологические измерения. Ч.1. под ред. М.Б. Михайлевской. − М.: МГУ, 1989.

ПРИЛОЖЕНИЕ 1

Критические значения коэффициента Стьюдента (t-критерия) для различной доверительной вероятности p и числа степеней свободы f:

f	p
	0.80	0.90	0.95	0.98	0.99	0.995	0.998	0.999
1	3.0770	6.3130	12.7060	31.820	63.656	127.656	318.306	636.619
2	1.8850	2.9200	4.3020	6.964	9.924	14.089	22.327	31.599
3	1.6377	2.35340	3.182	4.540	5.840	7.458	10.214	12.924
4	1.5332	2.13180	2.776	3.746	4.604	5.597	7.173	8.610
5	1.4759	2.01500	2.570	3.649	4.0321	4.773	5.893	6.863
6	1.4390	1.943	2.4460	3.1420	3.7070	4.316	5.2070	5.958
7	1.4149	1.8946	2.3646	2.998	3.4995	4.2293	4.785	5.4079
8	1.3968	1.8596	2.3060	2.8965	3.3554	3.832	4.5008	5.0413
9	1.3830	1.8331	2.2622	2.8214	3.2498	3.6897	4.2968	4.780
10	1.3720	1.8125	2.2281	2.7638	3.1693	3.5814	4.1437	4.5869
11	1.363	1.795	2.201	2.718	3.105	3.496	4.024	4.437
12	1.3562	1.7823	2.1788	2.6810	3.0845	3.4284	3.929	4.178
13	1.3502	1.7709	2.1604	2.6503	3.1123	3.3725	3.852	4.220
14	1.3450	1.7613	2.1448	2.6245	2.976	3.3257	3.787	4.140
15	1.3406	1.7530	2.1314	2.6025	2.9467	3.2860	3.732	4.072
16	1.3360	1.7450	2.1190	2.5830	2.9200	3.2520	3.6860	4.0150
17	1.3334	1.7396	2.1098	2.5668	2.8982	3.2224	3.6458	3.965
18	1.3304	1.7341	2.1009	2.5514	2.8784	3.1966	3.6105	3.9216
19	1.3277	1.7291	2.0930	2.5395	2.8609	3.1737	3.5794	3.8834
20	1.3253	1.7247	2.08600	2.5280	2.8453	3.1534	3.5518	3.8495
21	1.3230	1.7200	2.2.0790	2.5170	2.8310	3.1350	3.5270	3.8190
22	1.3212	1.7117	2.0739	2.5083	2.8188	3.1188	3.5050	3.7921
23	1.3195	1.7139	2.0687	2.4999	2.8073	3.1040	3.4850	3.7676
24	1.1378	1.7109	2.0639	2.4922	2.7969	3.0905	3.4668	3.7454
25	1.3163	1.7081	2.0595	2.4851	2.7874	3.0782	3.4502	3.7251
26	1.315	1.705	2.059	2.478	2.778	3.0660	3.4360	3.7060
27	1.3137	1.7033	2.0518	2.4727	2.7707	3.0565	3.4210	3.6896
28	1.3125	1.7011	2.0484	2.4671	2.7633	3.0469	3.4082	3.6739
29	1.3114	1.6991	2.0452	2.4620	2.7564	3.0360	3.3962	3.8494
30	1.3104	1.6973	2.0423	2.4573	2.7500	3.0298	3.3852	3.6460

Понятие о непараметрических критериях

Непараметрическими критериями называют те приемы обработки экспериментальных данных, которые не рассматривают анализируемое статистическое распределение как функцию, их применение не предполагает предварительного вычисления параметров распределения. Эти критерии сопоставляют не сами по себе полученные величины, а порядок их расположения, их соотношение по типу больше – меньше.

В большинстве психолого-педагогических исследованиях для оценки существенных различий используют параметрический t - критерий Стьюдента, который основан на предположении, что сравниваемые выборки принадлежат нормальным распределениям совокупностей. Между тем, в психологических исследованиях распределения могут значительно отличаться от нормального. В этих случаях и даже тогда, когда просто неизвестно, являются ли распределения нормальными, применение t – критерия является необоснованным и может привести к ошибочным заключениям. Именно поэтому все большее распространение получают непараметрические критерии различий, не зависящие от формы распределений. Их название связано с тем, что эти критерии не требуют вычисления параметров известных распределений.

Назовем основные преимущества непараметрических критериев:

- при распределениях, близких к нормальному, они дают хороший результат;

- при распределениях, далеких от нормального, позволяют обнаружить существенные различия, когда t-критерий их не выявляет;

- не все психологические признаки распределяются нормально;

- применимость к порядковым, а не строго к количественным показателям;

- рассмотрение качественных признаков, которые выражаются порядковыми номерами или индексами;

- небольшая трудоемкость исследования и относительная простота математического аппарата.

Данные. Для исследования нужны однородные объекты, разделенные на две группы. Взаимные влияния и взаимодействия должны быть исключены. Для каждого объекта регистрируется некоторая его числовая характеристика. Возникающие при этом две группы чисел можно рассматривать как две независимые выборки.

Постановка задачи. Какие задачи наиболее часто рассматриваются при сравнении двух выборок? Обычно две выборки получаются как результаты применения различных условий эксперимента к двум группам испытуемых, однородных по своему составу. Изменение условий эксперимента обычно сказывается на изменении положения распределения измеряемой числовой характеристики на числовой прямой. Масштаб и форма распределения при малых изменениях условий эксперимента обычно остаются практически неизменными. При больших изменениях наряду с изменением положения распределения изменяется и его дисперсия. Крайне редко происходит изменение самой формы распределения, поэтому при исследовании различий в двух выборках обычно предполагают, что законы распределения двух анализируемых выборок отличаются только сдвигом и относятся к сдвиговому семейству распределений. Исследователю приходится иметь дело не только с количественными, но и с качественными признаками, многие из которых выражаются порядковыми номерами, индексами и другими условными знаками. В таких случаях необходимо использовать непараметрические критерии.

G – КРИТЕРИЙ ЗНАКОВ

Назначение

G-критерий знаков применяется при выяснении направления сдвига при переходе от первого измерения ко второму на одной и той же выборке испытуемых.

Ограничения

Количество измерений в каждом из двух замеров не менее 5 и не более 300, т.е. 5 ≤ n1 ≤ 300 и 5 ≤ n2 ≤ 300.

Алгоритм использования

1. проверить выполнение ограничений;

2. занести данные измерений в таблицу:

Испытуемые	1	2	3	… n
Значения «до воздействия»	.	.	.	… .
Значения «после воздействия»	.	.	.	… .
Сдвиг («после» - «до»)	.	.	.	….

Сдвиг количественно не подсчитывается, ставится просто, знак разности (« + » или « - »), когда из значения «после воздействия» вычитается значение «до воздействия». Если разность эта равна нулю, то в таблице пишут нуль.

3. подсчитать количество нулевых реакций n0 и вычесть их из объема выборки п. Новый объем выборки найти по формуле: n = n - n0;

4. определить, каких сдвигов больше: положительных или отрицательных. Считать «типичными» те сдвиги, которых больше. А «нетипичными» - те, которых меньше;

5. сформулировать гипотезы:

Но: Сдвиг в типичную сторону является случайным;

H1: Сдвиг в типичную сторону является неслучайным.

6. подсчитать количество «нетипичных» сдвигов и найти эмпирическое значение G-критерия: G эмп. равно количеству «нетипичных» сдвигов;

7. по таблице 1 приложения по значению n найти G кр. (p ≤ 0,05) и G кр. (p ≤ 0,01), изобразить все полученные значения на оси значимости.

зона значимости зона неопределенности зона не значимости

G кр. (p ≤ 0,01) G кр. (p ≤ 0,05)

Если G эмп. ≤ G кр. на некотором уровне значимости, то H0 отвергается, а H1 принимается на этом уровне значимости.

Если G эмп. › G кр. на некотором уровне значимости, то H0 принимается на том же уровне значимости. Чем меньше G эмп., тем более вероятно, что сдвиг в типичном направлении статистически достоверен.

Замечание

На практике всегда желательно брать группу испытуемых больше пяти человек.

Пример 1

На одной и той же группе испытуемых произведены два замера некоторого признака - «до обучения» и «после обучения». Можно ли считать обучение эффективным, если результаты таковы:

Испытуемые	1	2	3	4	5	6	7	8	9	10
Значения «до»	8	6	3	2	5	5	7	8	10	12
Значения «после»	12	8	3	5	10	4	9	8	9	15

Решение

Оценки испытуемых в общей массе после воздействия возросли, то есть без исследования можно было бы сделать вывод об эффективности обучения.

Так как речь идет об одной группе испытуемых, то следует применить G - критерий знаков, действуя по алгоритму:

1. Проверим ограничения. Так как n = 10 и 5 < 10 < 300, то критерий применим.

2. Заполним таблицу вида:

Испытуемые	1	2	3	4	5	6	7	8	9	10
Значения «до»	8	6	3	2	5	5	7	8	10	12
Значения «после»	12	8	3	5	10	4	9	8	9	15
Сдвиг («после» - «до)	+	+	0	+	+	-	+	0	-	+

3. подсчитаем количество нулевых реакций и найдем новый объем выборки. Количество n0 = 2, значит n = 10 - 2 = 8 - новый объем выборки;

4. подсчитаем количество положительных и отрицательных сдвигов: сдвигов «+» - 6, сдвигов «-» - 2. Значит, «+» сдвиги - «типичные», а « - » сдвиги - «нетипичные»;

5. сформулируем гипотезы:

H0: Сдвиг показателей в типичную сторону является случайным;

H1: Сдвиг показателей в типичную сторону является неслучайным.

6. найдем G эмп., равное количеству «нетипичных сдвигов» - 2;

7. по таблице 1 для критерия знаков приложения для n = 8 найдем

G кр. (p ≤ 0,05) = 1 и G кр. (p ≤ 0,01) = 0.

Изобразим ось значимости:

зона значимости зона неопределенности зона не значимости

G кр. (p ≤ 0,01) G кр. (p ≤ 0,05) G эмп.

Так как G эмп. > Gкp. (p ≤ 0,05), то Но принимается, т. е. различия случайны.

Ответ

Обучение нельзя считать эффективным.

Пример 2

В эксперименте по непроизвольному запоминанию слов 12 испытуемых (А, Б, В ... ) запомнили по разному слова, обозначающие профессии (слесарь, химик, электрик, физик, биолог, геолог, юрист, анатом, токарь, оператор) и обозначающие научные абстракции (гипотеза, суждение, аналогия, теорема, знание, вывод, закон, анализ, аксиома, синтез).

Значимы ли различия в эффективности запоминания этих категорий слов в данной группе испытуемых?

Объем запоминания	испытуемые
	А	Б	В	Г	Д	Е	Ж	З	И	К	Л	М
Профессии	4	3	3	3	1	3	5	1	4	5	4	2
Научные абстракции	1	4	2	2	2	4	1	4	2	2	0	1

1. проверим ограничения. Так как n = 12 и 5 < 12 < 300, то критерий применим;

2. составим таблицу:

Испытуемые	А	Б	В	Г	Д	Е	Ж	З	И	К	Л	М
Профессии	4	3	3	3	1	3	5	1	4	5	4	2
Научные абстракции	1	4	2	2	2	4	1	4	2	2	0	1
Знак разности	+	-	+	+	-	-	+	-	+	+	+	+

3. подсчитаем количество нулевых реакций: n0 = О, значит n = 12 - О = 12;

4. подсчитаем количество «+» и (-) сдвигов: сдвигов «+ » - 8, сдвигов «-» - 4. Значит, «+» сдвиги - «типичные», а «-), - «нетипичные»;

5. сформулируем гипотезы:

Н0: Сдвиг показателей в типичную сторону является случайным.

H1: Сдвиг показателей в типичную сторону является неслучайным.

6. найдем G эмп., равное количеству «нетипичных» сдвигов – 4;

7. по таблице 1 приложения для n = 12 найдем С кр. (p ≤ 0,05) = 3; т. к. G кр. (p ≤ 0,05) < G эмп., то Но принимается, т.е. различия случайны.

Ответ

Преобладание эффективности запоминания профессий по сравнению с эффективностью запоминания научных абстракций не является статистически значимым.

Т – критерий Вилкоксона

Назначение

Т-критерий Вилкоксона применяется для сопоставления показателей, измеренных на одной и той же выборке, и позволяет оценить не только направленность сдвигов, но и их интенсивность.

Ограничение

Объем выборки должен быть 5 ≤ n ≤ 50.

Алгоритм использования:

1. проверить выполнение ограничений;

2. поместить данные в таблицу, записав в первый столбец испытуемых в каком-то определенном порядке (или их коды), во второй - результаты первого замера, а в третий - результаты второго замера:

№ испытуемого	Замер 1	Замер 2	di = «после» - «до»	\| di \|	Ранг \| di \|	Ранг «не типичные»
1	Х1	Y1	.	.	.	.
2	Х2	Y2	.	.	.	.
3	Х3	Y3	.	.	.	.
…	…	…	…	…	…	…
n	Xi	Yi	.	.	.	.
Суммы	-	-	-	-	Ri=?	∑Rнетип.=?

3. вычислить разность между значениями di = «после» - «до» - «после» для каждого испытуемого и занести в четвертый столбец. Нулевые сдвиги, если они получились, далее не рассматривать, уменьшить объем выборки на количество нулевых сдвигов n0. Новый объем выборки n = n – n0.

В пятый столбец записать модули разностей: |di|, затем проранжировать их, приписывая меньшему значению меньший ранг, а равным значениям - равные ранги. Результаты ранжирования записать в шестой столбец таблицы. Проверить совпадение суммы рангов с расчетной суммой по формуле:

∑ Ri = (n + 1) : 2;

4. определить «типичные» и «нетипичные» сдвиги («типичные» - те, которых больше, «нетипичные» - те, которых меньше). Выписать ранги «нетипичных» сдвигов R нетипичн. в седьмой столбец таблицы и просуммировать их;

5. сформулировать гипотезы.

H0: Интенсивность сдвигов в типичном направлении не превышает интенсивность сдвигов в нетипичном направлении.

Н1: Интенсивность сдвигов в типичном направлении превышает интенсивность сдвигов в нетипичном направлении.

6. подсчитать эмпирическое значение критерия по формуле:

Т эмпир. = ∑ R нетип.

7. по n и таблице 2 приложения найти T кр. (p ≤ 0,05) и T (p ≤ 0,01). Построить ось значимости:

зона значимости зона неопределенности зона не значимости

T кр. (p ≤ 0,01) T кр. (p ≤ 0,05)

Если Т эмп. ≤ Т кр. на некотором уровне значимости, то Но отвергается и принимается Н1 на этом уровне значимости.

Если Т эмп. › Т кр. (p ≤ 0,05), то принимается Но.

Чем меньше Т эмп., тем более вероятно, что сдвиг в типичном направлении статистически достоверен.

Пример 1

На одной и той же группе испытуемых произведены два замера некоторого признака - «до обучения» и «после обучения». Можно ли считать обучение эффективным, если его результаты таковы:

Испытуемые	1	2	3	4	5	6	7	8	9	10
Значения «до»	8	6	3	2	5	5	7	8	9	15
Значения «после»	12	8	3	5	10	4	9	8	9	15

Решение

Используем для решения примера алгоритм Т-критерия:

1. проверим выполнимость ограничений: 5 ≤ 10 ≤ 50;

2. запишем данные в таблицу и сделаем необходимые вычисления:

№ испыт.	Замер 1	Замер 2	di = «после» - «до»	\|di\|	Ранг \|di\|	Ранг «нетип.»
1	8	12	4	4	7	-
2	6	8	2	2	3,5	-
3	3	3	0	0	-	-
4	2	5	3	3	5,5	-
5	5	10	5	5	8	-
6	5	4	-1	1	1,5	1,5
7	7	9	2	2	3,5	-
8	8	8	0	0	-	-
9	10	9	-1	1	1,5	1,5
10	12	15	3	3	5,5	-
Суммы	-	-	-	-	36	3

В пятом столбце получились числа 4; 2; 0; 3; 5; 1; 2; 0; 1; 3. Исключим нулевые сдвиги и подсчитаем новый объем выборки: n.= 10 - 2 = 8;

3. запишем модули сдвигов в ряд по возрастанию и укажем их места в этом ряду, а затем припишем соответствующие ранги:

\|di\|	1	1	2	2	3	3	4	5
Место	1	2	3	4	5	6	7	8
Ранг	1,5	1,5	3,5	3,5	5,5	5,5	7	8

Проверим совпадение ранговой суммы с контрольной:

∑ Ri = 1,5 + 1,5 + 3,5 + 3,5 + 5,5 + 5,5 + 7 + 8 = 36;

n * (n + 1) : 2 = 8 * (8 + 1) : 2 = 36;

4. определим, какие сдвиги являются «типичными», а какие - «нетипичными». Положительных сдвигов больше, их шесть, значит, они «типичные». Отрицательных - меньше, их всего два, значит, они «нетипичные»;

5. сформулируем гипотезы:

Н 0: интенсивность сдвига в типичном направлении не превосходит интенсивность сдвига в нетипичном направлении;

Н 1: интенсивность сдвига в типичном направлении превосходит интенсивность сдвига в нетипичном направлении.

6. подсчитаем Т эмп. = ∑ R нетип. = 1,5 + 1,5 = 3;

6. по числу n и таблице 2 приложения найдем Т кр. (p ≤ 0,05) = 5 и Т кр. (p ≤ 0,0 1) = 1. Построим ось значимости и отметим на ней все найденные значения:

зона значимости зона неопределенности зона не значимости

1 3 2

T кр. (p ≤ 0,01) Т эмп. T кр. (p ≤ 0,05)

Так как Т эмп. < Т кр. (p ≤ 0,05), то Н 0 отвергается и принимается Н 1, на уровне значимости p ≤ 0,05, то есть сдвиг в типичном направлении более интенсивен, чем сдвиг в нетипичном направлении, что мы можем утверждать с вероятностью, большей 95 %.

Ответ

Обучение можно считать эффективным (с вероятностью, большей 95 %).

С помощью Т - критерия мы выявили неслучайный сдвиг в положительном направлении при воздействии, то есть можно с вероятностью, большей 95 %, сказать, что обучение эффективно, но с вероятностью, большей 99 %, этого утверждать нельзя, так как Т эмп. › Т кр. (p ≤ 0,0 1).

Пример 2

В эксперименте по непроизвольному запоминанию слов 12 испытуемых (А, Б, В ... ) запомнили по-разному слова, обозначающие профессии (слесарь, химик, электрик, физик, геолог, биолог, юрист, анатом, токарь, оператор) и обозначающие научные абстракции (гипотеза, суждение, аналогия, теорема, знание, вывод, закон, анализ, аксиома, синтез).

Объем запоминания	А	Б	В	Г	Д	Е	Ж	З	И	К	Л	М
Профессии	4	3	3	5	1	3	5	1	4	5	4	2
Научные абстракции	1	4	2	2	2	4	1	4	2	2	0	1

Значимы ли различия в эффективности запоминания этих категорий слов в данной группе испытуемых?

Решение

1. проверим выполнимость ограничений: 5 ≤ 12 ≤ 50;

2. запишем данные в таблицу и сделаем необходимые вычисления:

Профессии	4	3	3	5	1	3	5	1	4	5	4	2
Научные абстракции	1	4	2	2	2	4	1	4	2	2	0	1
Разность	+3	-1	+1	+3	-1	-1	+4	-3	+2	+3	+4	+1
Ранг разности по абсолютной величине	8,5	3	3	8,5	3	3	11,5	8,5	6	8,5	11,5	3

3. поясним, как записывается нижняя строка. Наименьшее значение разности (- 1), таких значений 5 (независимо от знака), суммируем их номера (1, 2, 3, 4, 5), находим среднее арифметическое (- 3), проставляем всем единицам один и тот же ранг З. Следующий ранг - 6 получает значение разности 2. На ранги 7, 8, 9, 10 претендуют четыре значения 3, их помечаем рангом 8,5.

(7 + 8 + 9 + 10): 4 = 8,5

4. определим, какие сдвиги являются «типичными», а какие «нетипичными». Положительных - больше, их 8, значит они – «типичные». Отрицательных - меньше, их всего 4, значит, они - «нетипичные»;

5. сформулируем гипотезы:

Н 1: интенсивность сдвига в типичном направлении превосходит интенсивность сдвига в нетипичном направлении.

6. подсчитаем Т эмп. = ∑R нетип. = 3 + 3 + 3 + 8,5 = 17,5;

7. по таблице 2 приложения и n = 12 находим Т кр. (p ≤ 0,05) = 17, Т кр. (p ≤ 0,01) = 9;

Так как Т эмп. › Т кр. (p ≤ 0,01) и тем более Т эмп. › Т кр. (p ≤ 0,05), следовательно, различия в величинах объема запоминания разных качеств слов не являются в данной группе испытуемых статистически значимыми.

Угловой ф – критерий Фишера

Назначение

Угловой φ - критерий Фишера предназначен для сопоставления двух выборок по частоте встречаемости некоторого эффекта, заинтересовавшего исследователя. Особенно удобно его использовать при проверке «отсутствия - наличия эффекта» при сравнении контрольной и экспериментальной групп.

Ограничения

1. если n A и n B - объемы выборок, то n A ≥ 5, n B ≥ 5. Допускаются также случаи:

n A = 2, n B ≥ 30;

n A = 3, n B ≥ 7;

n A = 4, n B ≥ 5.

2. ни одна из сопоставляемых долей в каждой выборке не должна быть равна нулю.

Алгоритм использования

1. проверить выполнимость ограничений для n A и n B;

2. определить значения признака, которые будут делить испытуемых на тех, у которых «есть эффект». И на тех, у которых «нет эффекта». Подсчитать количество таких испытуемых в группах А и В. Занести данные в таблицу:

	«Есть эффект»	«Нет эффекта»	Сумма
Группа А	А	B	A + B
Группа В	С	D	C + D
	А + С	B + D	A + B + C + D

Проверить совпадение контрольной суммы A + B + C + D = n A + n B;

3. подсчитать процентные доли испытуемых, у которых «есть эффект», и тех, у кого «нет эффекта», в обеих выборках и занести в четырех клеточную таблицу:

	«Есть эффект» (%)	«Нет эффекта» (%)
Группа А	M (%)	K (%)
Группа В	P (%)	Q (%)

Проверить, не равны ли некоторые процентные доли нулю. Если одна из долей равна нулю, то можно сдвинуть точку деления признака на две группы;

4. сформулировать гипотезы:

Н 0: доля испытуемых, у которых «есть эффект» в группе А, не выше доли испытуемых в группе В;

Н 1: доля испытуемых, у которых «есть эффект» в группе А, выше доли испытуемых в группе В.

5. по таблице 3.1 приложения найти величины углов φ 1 и φ 2 для процентной доли тех, у кого «есть эффект», в каждой выборке;

6. подсчитать эмпирическое значение критерия по формуле

φ эмп. = (φ 1 – φ 2) √ n 1 n 2 / n 1 + n 2;

7. по таблице 3.2 приложения определить р – уровень значимости различий для полученных процентных долей. Для контроля сравнить φ эмп. с φ кр. (p ≤ 0,05 ) = 1,64 и φ кр. (p ≤ 0,01) = 2,31.

Изобразить найденные значения на оси значимости:

зона значимости зона неопределенности зона не значимости

φ кр. (p ≤ 0,01) φ кр. (p ≤ 0,01)

Если φ эмп. ≥ φ кр. на некотором уровне значимости, то Н0 отвергается на этом уровне значимости. Если φ эмп. ≤ φ кр. (p ≤ 0,05), то принимается Н0.

Пример 1

Имеются две группы детей из параллельных средних групп детского сада, одна из них экспериментальная, другая - контрольная. В экспериментальной группе проводилась работа по развитию пространственных представлений по новой методике, в контрольной группе по обычной методике. После этого в обеих группах давалась задача на прохождение лабиринта. В экспериментальной группе из 20 человек с заданием справились 12, а в контрольной группе из 25 человек с заданием справились 10. Достоверно ли различаются результаты в этих группах?

Решение

1. проверим выполнимость ограничений:

(n 1 = 20 > 5 и n 2 = 25 > 5);

2. разделим группы детей на части с помощью признака «справился с заданием» и «не справился с заданием». Заполним таблицу:

	«Есть эффект»	«Нет эффекта»	Сумма
Экспериментальная группа	12	8	20
Контрольная группа	10	15	25
	22	23	45

Контрольные суммы совпадают:

а + b + с + d = 12 + 8 + 10 + 15 = 20 + 25 = n1 + n2;

3. подсчитываем процентные доли количества детей, «справившихся с заданием» в экспериментальной и контрольной группах. В экспериментальной группе всего 20 человек, которые составляют 100 %, из них справились с заданием 12 человек, они составляют х %. Тогда

20 / 12 = 100 / х;

Х = 12 * 100 % / 20 = 60 %;

Значит, не справились с заданием в экспериментальной группе 100 % -60 % =40 %.

Аналогично, в контрольной группе 25 человек, которые составляют 100 %, из них справились с заданием 10 человек, которые составляют y %. Значит,

25 / 10 = 100 / y;

Y = 10 * 100% / 25 = 40%;

Тогда доля, не справившихся с заданием в контрольной группе равна 60 %.

Заполним четырехклеточную таблицу:

	«Есть эффект»	«Нет эффекта»
Экспериментальная группа	60 %	40 %
Контрольная группа	40 %	60 %

Отсюда видно, что ни одна из процентных долей не равна нулю.

4. Сформулируем гипотезы:

Н 0: доля испытуемых в экспериментальной группе, у которых «есть эффект», не превосходит доли таких же испытуемых в контрольной группе;

Н 1: доля испытуемых в экспериментальной группе, у которых «есть эффект», превосходит долю таких же испытуемых в контрольной группе.

5. по таблице 3.1 приложения найти значения φ 1 и φ 2 по процентному содержанию тех испытуемых, у которых «есть эффект»:

φ 1 (60%) = 1,772;

φ 2 (40%) = 1,369.

6. подсчитаем

φ эмп. = (φ1 – φ2) √ n 1* n 2 = (1,772 – 1,369) √ 20 * 25 = 1,34;

n1 + n2 20 + 25

7. по таблице 3.2 приложения найдем уровень значимости различия процентных долей: φ эмп. = 1,34 соответствует уровню значимости p = 0,09.

Для практики этот уровень мал, поэтому следует сравнить φ эмп. с φ кр. (p ≤ 0,05) = 1,64 и φ кр. (p ≤ 0,01) = 2,31 (их тоже найти по таблице 3.2 приложения).

Ось значимости имеет следующий вид:

зона значимости зона неопределенности зона не значимости

1,34 1,64 2,31

φ эмп. φ кр. (p ≤ 0,05) φ кр. (p = 0,01)

Так как φ эмп. < φ кр. (p ≤ 0,05), а тем более φ эмп. < φ кр. (p ≤ 0,01), то принимается Н 0 с вероятностью ≥ 99 %.

Доля детей в экспериментальной группе, которые справились с заданием, не выше, чем доля таких детей в контрольной группе. Статистически такой процент различий недостаточен (хотя, на первый взгляд, разница в показателях у них большая - 20 %).

Ответ

Различия в результатах групп статистически незначительны.

Пример 2

В эксперименте по исследованию интермодального переноса получено, что в одной группе испытуемых более эффективным оказалось тактильное ознакомление с последующим зрительным узнаванием (8 человек из 14), тогда как во второй группе (nb = 10 чел.) только для трех испытуемых этот вид переноса был эффективнее, чем перенос в направлении зрение-осязание. Значимы ли различия этих двух групп испытуемых в части эффективности переноса осязание-зрение?

Решение

1. проверим выполнимость ограничений

(n А = 14 > 5 и n B =10 > 5);

	«Есть эффект»	«Нет эффекта»	Сумма
Группа А	8	6	14
Группа В	3	7	10
	11	13	24

Контрольные суммы совпадают:

a + b + c + d = 8 + 6 + 3 + 7 = 14 + 10 = n A + n B;

3. подсчитаем процентные доли количества детей, «справившихся с заданием» и «не справившихся с заданием) в группе А и группе В. В группе А всего 14 человек, которые составляют 100 %, из них справились с заданием 8 человек, они составляют х %. Тогда:

14 / 3 = 100 / x;

Х = 8 * 100 % / 14 = 57 %.

Значит, не справились с заданием в экспериментальной группе 100% - 57 % = 43 %.

Аналогично, во второй группе 10 человек, которые составляют 100%, из них справились с заданием 3 человека, которые составляют у %. Значит:

10 / 3 = 100 / y;

Y = 3 * 100 % / 10 = 30 %.

Тогда доля, не справившихся с заданием в контрольной группе равна 100 % - 30 % = 70 %. Заполним таблицу:

	«Есть эффект»	«Нет эффекта»
Группа А	57 %	43 %
Группа В	30 %	70 %

Ни одна из процентных долей не равна нулю.

4. Сформулируем гипотезы:

Н 0: доля испытуемых в группе А, у которых «есть эффект», превосходит доли таких же испытуемых в группе В;

Н 1: доля испытуемых в группе А, у которых «есть эффект», не превосходит долю таких же испытуемых в группе В;

5. по таблице 3.1 приложения найдем значения φ 1 и φ 2 по процентному содержанию тех испытуемых, у которых «есть эффект»:

φ 1 (57 %) = 1,711;

φ 2 (30%) = 1,159.

6. Подсчитаем

φ эмп. = (φ1 – φ2) √ n 1* n 2 = (1,711 – 1,159) √ 14 * 10 = 1,33;

n1 + n2 14 + 10

7. по таблице 3.2 приложения для уровня статистической значимости разных значений φ - критерия найдем уровень значимости различия процентных долей: φ эмп. = 1,33, соответствует уровню значимости p = 0,092.

Сравним φ эмп. с φ кр. (p ≤ 0,05) = 1,64 и φ кр. (p ≤ 0,01) = 2,31.

Ось значимости имеет следующий вид:

зона значимости зона неопределенности зона не значимости

1,33 1,64 2,31

φ эмп. φ кр. (p ≤ 0,05) φ кр. (p = 0,01)

Так как φ эмп. < φ кр. (p ≤ 0,05) и тем более φ эмп. < φ кр. (p ≤ 0,0 1), то принимается Н 0...

Ответ

Различия в результатах групп статистически незначимы.

Q – критерий Розенбаума

Назначение

Q-критерий Розенбаума применяется для оценки различий между двумя независимыми выборками по уровню какого-либо признака или свойства, измеренного количественно.

Ограничения

В каждой выборке должно быть не менее 11 наблюдений, т.е. n 1 ≥ 11, n 2 ≥ 11, n 1 ≈ n 2.

При этом:

если n 1 ≤ 50, n 2 ≤ 50, то (n 1 – n2) ≤ 10;

если 51 ≤ n 1 ≤ 100, то (n l – n 2) ≤ 20;

если n 1 ≥ 100, n 2 ≥ 100, то n 1 : n 2 ≤ 1,5, где n 1 ≥ n 2.

Алгоритм использования

1. проверить выполнение ограничений критерия:

(n 1 ≥ 11, n 2 ≥ 11, n 1 ≈ n 2)

2. упорядочить значения признака в каждой выборке по убыванию. Определить в каждой выборке максимальное и минимальное значения исследуемого параметра. Считать первой ту выборку, в которой максимальное значение параметра больше, а второй - ту, в которой максимальное значение меньше.

3. сформулировать гипотезы:

Н 0: уровень признака в выборке 1 не превышает уровня признака в выборке 2;

Н 1: уровень признака в выборке 1 превышает уровень признака в выборке 2;

4. подсчитать количество значений (S 1) в выборке 1, которые больше максимального значения в выборке 2, и количество значений (S 2) в выборке 2, которые меньше минимального значения в выборке 1;

5. найти эмпирическое значение Q-критерия Розенбаума по формуле:

Q эмп. = S 1 + S 2;

6. по таблице 4 приложения для данных n 1 и n 2 определить критические значения критерия с уровнями значимости p ≤ 0,05 и p ≤ 0,01. Сравнить Q эмп. и Q кр..

Если Q кр. ≥ Q кр. на некотором уровне значимости, то Н 0 отклоняется на том уровне значимости, на котором вычислено критическое значение, а принимается Н 1. Если Q эмп. < Q кр. (p ≤ 0,05), то принимается Н 0.

Чем больше значения Q эмп., тем более достоверны различия.

Построить ось значимости:

зона значимости зона неопределенности зона не значимости

Q кр. (p ≤ 0,05) Q кр. (p ≤ 0,01)

Замечание

Q - критерий нежелательно применять тогда, когда максимальное и минимальное значения признака принадлежит одной группе. В этом случае погрешность очень велика.

Пример 1

У двух групп испытуемых (группа А и группа В) измерен по одной и той же методике уровень вербального интеллекта. Можно ли утверждать, что в первой группе оценки выше, чем во второй?

Оценки таковы:

группа А: 121; 104; 115; 116; 115; 109; 115; 109; 108; 112; 112;109.

группа В: 121; 113; 123; 124; 121; 121; 120; 121; 111; 116; 118; 125; 125; 125; 126.

Решение

Так как даны две независимые выборки испытуемых, у которых измерен один и тот же признак, то можно попытаться применить Q-критерий Розенбаума.

1. проверим выполнимость ограничений:

n A = 12; n B = 15; (n A – n B) = (12 -15) == 3 < 10.

Ограничения выполнены.

2. упорядочим значения признака по убыванию в каждой выборке и найдем максимальное и минимальное значения признака:

группа А: 121; 116; 115; 115; 115; 112; 112; 109; 109; 109; 108; 104;

группа В: 126; 125; 125; 125; 124; 123; 121; 121; 121;121; 120; 118; 116; 113; 111;

x max (А) = 121; x min (A) = 104; x max (В) = 126; x min (B) = 111;

Назовем выборкой 1 группу В, выборкой 2 - группу А;

3. сформулируем гипотезы:

Н 0: уровень вербального интеллекта в выборке 1 не выше уровня вербального интеллекта в выборке 2;

H 1: уровень вербального интеллекта в выборке 1 выше уровня вербального интеллекта в выборке 2;

4. подсчитаем S 1 - количество значений в выборке 1, которые больше max значения в выборке 2, S 1 = 6, так как шесть значений в выборке 1 больше x max (2) = 121, а именно: 126, 125, 125, 125, 124, 123.

Так же для S 1 - количество значений в выборке 2, которые меньше минимального значения в выборке 1. S 2 = 5, так как в выборке 2 пять значений (109, 109, 109, 108 и 104), меньших х min (1) = 111;

5. найдем эмпирическое значение Q-критерия Розенбаума

Q эмп. = S 1 + S 2 = 6 + 5 = 11;

6. по таблице 4 приложения найдем для n 1 = 15 и n 2 = 12 Q кр. (p ≤ 0,05) = 7 и Q кр. (p ≤ 0,01) = 9.

Изобразим ось значимости:

зона значимости зона неопределенности зона не значимости

7 9 11

Q кр. (p ≤ 0,05) Q кр. (p ≤ 0,01) Q эмп.

Так как Q эмп. > Q кр. (p ≤ 0,01) (и больше Q кр. (p ≤ 0,05)), то Н 0 отвергается, Н l принимается с уровнем значимости p ≤ 0,01, т.е. различия статистически значимы.

Ответ

Уровень вербального интеллекта испытуемых группы В выше уровня вербального интеллекта испытуемых группы А, причем различия статистически значимы, достоверность получаемых различий более 99 %.

Пример 2

У двух групп испытуемых (группа А и группа В) измерен показатель концентрации внимания к:

группа А: 56,40,93,89,87,93,94,88,87, 71, 91, 58, 79, 69.

группа В: 74, 61, 74, 99, 75, 61, 74, 79, 70, 96, 45.

Можно ли утверждать, что в одной группе показатель выше, чем в другой?

Решение

Так как даны две независимые выборки испытуемых, у которых измерен один и тот же признак, то можно применить Q-критерий Розенбаума.

1. проверим выполнимость ограничений:

n 1 = 14; n 2 = 11; (n 1 – n 2) = (14 -11) =3 < 10.

Ограничения выполнены.

группа А: 94, 93, 93, 91, 89, 88, 87, 87, 79, 71, 69, 58, 56, 40;

группа В: 99, 96, 79, 75, 74, 74, 74, 70, 61, 61, 45;

x max (А) = 94; x min (А)= 40; x max (В) = 99; x min (B) = 45.

Назовем выборкой 1 группу В, выборкой 2 - группу А.

3. Сформулируем гипотезы:

Н 0: показатель концентрации внимания в выборке 1 не выше показателя концентрации внимания в выборке 2;

Н 1: показатель концентрации внимания в выборке 1 выше показателя концентрации внимания в выборке 2;

4. подсчитаем S 1 - количество значений в выборке 1, которые больше max значения в выборке 2 : S1 = 2 (96 › 94 и 99 > 94). Аналогично подсчитаем S 2 - количество значений в выборке 2, которые меньше минимального значения в выборке 1 : S 2 = 1 (40 < 45).

5. найдем эмпирическое значение Q-критерий Розенбаума:

Q эмп. = S 1 + S 2 = 2 + 1 = 3;

6. по таблице 4 приложения для n 1 = 14 и n 2 = 11 найдем Q кр. (p ≤ 0,05) = 7 и Q кр. (p ≤ 0,01) = 9.

Изобразим ось значимости:

зона значимости зона неопределенности зона не значимости

3 7 9

Q эмп. Q кр. (p ≤ 0,05) Q кр. (p ≤ 0,01)

Так как Q эмп. < Q кр. (p ≤ 0,05) и Q эмп. < Q кр. (p ≤ 0;01), то H 1 отвергается и принимается Н 0, т.е. различия статистически незначимы.

Ответ

Показатель концентрации внимания испытуемых группы В не выше показателя концентрации внимания в группе А.

U – критерий Манна-Уитни

-Уитни

Назначение

Предназначен для оценки различия величин членов двух выборок. Этот критерий основан на подсчете числа инверсий U (перестановок) членов в их общем упорядоченном ряду.

Ограничения

Объемы выборок должны удовлетворять условиям:

1. n 1 ≥ 3, n 2 ≥ 3, но допускается случай n 1 = 2, n 2 ≥ 5;

2. n 1 ≤ 60, n 2 ≤ 60, но на практике, если n 1 ≥ 20 и n 2 ≥ 20, то применение критерия затруднительно.

При больших объемах выборок лучше использовать другие критерии.

Алгоритм использования

1. проверить ограничения критерия;

2. объединить выборки А и В в одну общую выборку A U B, пометив принадлежность каждого индивидуального значения к данной группе (цветом, буквой, шифром). Упорядочить значения признака в объединенной выборке по возрастанию и проранжировать все значения, приписывая меньшему значению меньший ранг, а равным значениям - равный ранг;

3. разделить выборку на две прежние выборки А и В, ориентируясь на пометки. Подсчитать суммы рангов отдельно для каждой из выборок, обозначить их за Т а и Т в. Считать первой ту выборку, в которой значение по предварительной оценке выше, а второй - ту, в которой значения ниже. Пусть n А - объем выборки А, а n B - объем выборки В. Если ранжирование и подсчет произведены верно, то должно выполняться контрольное равенство:

Т а + Т в = (n А + n B) * (n А + n B + 1) : 2.

Результаты занести в таблицу:

Значения A U B	х 1	х 2	х 3	…	х n	Суммы
Место	1	2	3		N	…
Ранг	r 1	r 2	r 3	…	r n	…
Выборка				…		…
Ранги А				…		Т а = ?
Ранги В				…		Т в = ?

Здесь N = n А + n B - объем объединенной выборки.

4. cформулировать гипотезы:

Н 0: уровень признака в выборке 1 не выше уровня признака в выборке 2;

Н 1: уровень признака в выборке 1 выше уровня признака в выборке 2;

5. вычислить значения U – критерия для каждой из выборок:

U a = n A * n B + n A (n A + 1) – T a

U в = n A * n B + n B (n B + 1) – T в

Найти U эмп., равное наименьшему из величин U а и U в:

U эмп. = min (U a; U b);

6 по таблице 5 приложения по данным n 1 и n 2 найти U кр. (p ≤ 0,05) и U кр (p ≤ 0,01). Изобразить на оси значимости все найденные значения критерия.

если U эмп. ≤ U кр. на некотором уровне значимости, то H 0 отвергается, а H 1 принимается на этом уровне значимости;

если U эмп. › U кр. на некотором уровне значимости, то Н 0 принимается на том же уровне значимости;

чем меньше U эмпирический, тем более вероятно, что сдвиг в типичном направлении статистически достоверен.

Пример 1

Даны результаты тестирования двух групп испытуемых А и В по некоторому признаку или свойству:

группа А: 25; 14; 18; 16; 23; 22; 18; 19;

группа В: 28; 15; 26; 13; 15; 11; 20; 19; 10; 12;

Можно ли считать, что результаты тестирования в группе В выше, чем в группе А?

Решение

1. проверим ограничения критерия n А = 8, 8 > 3 и n B = 10, 10> 3;

2. объединим значения признака в одну общую выборку, приписывая меньшему значению меньший ранг и равным значениям - равные ранги;

3. полученные данные занесем в таблицу (3 - значение, М - место, В - выборка):

З	10	11	12	13	14	15	15	16	18	18	19	19	20	22	23	25	26	28
М	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18
r n	1	2	3	4	5	6,5	6,5	8	9,5	9,5	11,5	11,5	13	14	15	16	17	18
B	В	В	В	В	А	В	В	А	А	А	А	В	В	А	А	А	В	В
T a	-	-	-	-	5	-	-	8	9,5	9,5	11,5	-	-	14	15	16	-	-
T в	1	2	3	4	-	6,5	6,5	-	-	-	-	11,5	13	-	-	-	17	18

Подсчитаем сумму рангов в выборке А и в выборке В: T a = 88, T в = 82,5.

Проверим общую расчетную сумму:

(n А + n B) * (n А + n B + 1) : 2 = (8 + 1 0) * (8 + 10 + 1) : 2 = 171;

Т а + Т в = 88,5 + 82,5 = 171.

Будем считать выборкой 1 группу В, а выборкой 2 - группу А;

4. сформулируем гипотезы:

Н 0: результаты тестирования в выборке 1 не выше результатов в выборке 2;

Н 1: результаты тестирования в выборке 1 выше результатов в выборке 2;

5. вычислим значения U a и U в:

U a = n A * n B + n A (n A + 1) – T a = 8 * 10 + 8 * (8 + 1) : 2 – 88,5 = 27,5

U в = n A * n B + n B (n B + 1) – T в = 8 * 10 + 10 * (10 + 1) : 2 – 82,5 = 52,5

Найдем U эмп. = min (U a; U b) = 27,5;

6. по таблице 5 приложения по данным n 1 = 10 и n 2 = 8 найдем U кр (p ≤ 0,05) и U кр. (p ≤ 0,01).

Изобразим на оси значимости все найденные значения критерия.

зона значимости зона неопределенности зона не значимости

13 20 27,5

U кр. (p ≤ 0,01) U кр. (p ≤ 0,05) U эмп.

Так как U эмп. > U кр. (p ≤ 0,05) и U эмп. > U кр. (p ≤ 0,01), то H 0 принимается с уровнем значимости p ≤ 0,01, а H 1 отвергается.

Значит, результаты тестирования в выборке 1 не выше, чем в выборке 2.

Различия между результатами в выборках статистически не достоверны, то есть случайны.

Ответ

Между результатами групп А и В существенных различий нет. Если даны три и более выборок, на которых измерен один и тот же признак, то можно сравнить результаты попарно, пользуясь вышеизложенными критериями, или использовать специальные критерии (Крускала Уоллиса или Джонкира).

Пример 2

При измерении пространственных порогов тактильной чувствительности (ощущение прикосновения, давления и вибрации) получены следующие величины порогов для женщин и мужчин:

группа А (женщины) - 32, 30, 28, 30, 33, 37, 28, 27 (n А = 8);

группа В (мужчины) - 39, 36, 31, 35, 29, 34, 38 (n B = 7).

Отличаются ли между собой по величине пороги женщин и мужчин?

Решение

1. проверим ограничения критерия n А= 8, 8 > 3 и n B = 7, 7 > 3 ;

2. объединим значения признака в одну общую выборку, упорядочив ее по возрастанию, получим:

27, 28, 28, 29, 30, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39 (n = 15);

3. проранжируем объединенную выборку, приписывая меньшему значению меньший ранг и равным значениям - равные ранги. Полученные данные занесем в таблицу (3 - значение, М - место, В - выборка):

З	27	28	28	29	30	30	31	32	33	34	35	36	37	38	39
М	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
r n	1	2,5	2,5	4	5,5	5,5	7	8	9	10	11	12	13	14	15
B	А	А	А	В	А	А	В	А	А	В	В	В	А	В	В
T a	1	2,5	2,5	-	5,5	5,5	-	8	9	-	-	-	13	-	-
Tв	-	-	-	4	-	-	7	-	-	10	11	12	-	14	15

Подсчитаем сумму рангов в выборке А и в выборке В:

Т а = 47, Т в = 73.

Проверим общую расчетную сумму:

(n А + n B) * (n А + n B + 1) : 2 = (8 + 7) * (8 + 7 + 1) : 2 = 120;

Т а + Т в = 120.

Будем считать выборкой 1 группу В, а выборкой 2 - группу А;

4. сформулируем гипотезы:

Н 0: результаты измерения в выборке 1 не выше результатов в выборке 2;

Н 1: результаты измерения в выборке 1 выше результатов в выборке 2.

5. вычислим значения U a и U в:

U a = n A * n B + n A (n A + 1) – T a = 8 * 7 + 8 * (8 + 1) : 2 – 47 = 56 + 72 : 2 – 47 = 45;

U в = n A * n B + n B (n B + 1) – T в = 8 * 7 + 7 * (7 + 1) : 2 – 73 = 56 + 56 : 2 – 73 = 11;

6. по таблице 5 приложения по n 1 = 8 и n 2 = 7 найдем U кр. (p ≤ 0,05) = 13 и U кр. (p ≤ 0,01) = 7.

Изобразим на оси значимости все найденные значения критерия.

зона значимости зона неопределенности зона не значимости

7 11 13

U кр. (p ≤ 0,01) U эмп. U кр. (p ≤ 0,05)

Ответ

Так как U кр. (p ≤ 0,05) >U эмп. > U кр. (p ≤ 0,01), то можно считать различия величин порогов мужчин и женщин статистически значимыми (p = 0,05).

X² – критерий Фридмена

Назначение

χ² - используется для сравнения частот двух распределений: двух эмпирических или эмпирического и теоретического.

Ограничения

Объем сопоставляемых распределений не менее 20-30 вариантов, а минимальная их частота не менее 5.

Алгоритм использования

1. проверить выполнение ограничений;

2. полученные результаты занести в таблицу:

Объем воспроизведения χ²	-	-	-
Количество испытуемых из 1 – гр. fi	-	-	-	N =
Количество испытуемых из 2 – гр. fi	-	-	-	N =

3. cформулировать гипотезы:

Н 0: различия между частотами двух групп незначимы;

Н 1: различия между частотами двух групп значимы.

4. вычисления χ² провести в таблице:

χ²

ƒi ΄

ƒi ΄΄

ƒi ΄- ƒi ΄΄

(ƒi΄ - ƒi΄΄) ²

ƒi ΄ + ƒi ΄΄

(ƒi΄ - ƒi΄΄) ²

ƒi ΄ + ƒi ΄΄

5. по таблице 5 для χ² найти χ² (p ≤ 0,05).

Если χ² < χ² (p ≤ 0,05), то принимается гипотеза Н 0, если χ² > χ² (p ≤ 0,05), то принимается Н 1.

Пример

Результаты воспроизведения заученных двухзначных чисел (53, 27, 84, 36, 47, 91, 72, 69, 15, 34) в двух группах испытуемых приведены в таблице:

Объем воспроизведения χ²	2	3	4	5	6
Количество испытуемых из 1 – гр. fi	5	6	8	10	6	N = 35
Количество испытуемых из 2 – гр. fi	4	9	10	6	6	N = 35

В первой группе 35 человек и во второй группе 35 человек. Значимо ли различие частот в этих группах?

Решение

1. проверим выполнение ограничений: количество испытуемых в обеих группах - 35 человек (35 > 20);

2. результаты занесены в таблицу. Число составляемых разрядов ƒ = 5;

3. сформулируем гипотезы:

Н 0: различия между частотами двух групп не значимы;

Н 1: различия между частотами двух групп значимы.

4. вычисления χ² проведем в таблице

χ²	ƒi ΄	ƒi ΄΄	ƒi ΄- ƒi ΄΄	(ƒi΄ - ƒi΄΄) ²	ƒi ΄ + ƒi ΄΄	(ƒi΄ - ƒi΄΄) ² ƒi ΄ + ƒi ΄΄
2	5	4	1	1	9	0,11
3	6	9	-3	9	15	0,6
4	8	10	-2	4	18	0,22
5	10	6	4	16	16	1
6	6	6	0	0	12	0
						∑ = 1,93 χ² = 1,93

5. по таблице 6 приложения найдем для к = 4 (к = ƒ - = 5 – 1 = 4) значение χ² (p ≤ 0,05) = 9,49.

Так как 1,93 < 9,49, то принимается гипотеза но: различия между частотами двух групп испытуемых не значимы. Обе эмпирические совокупности можно считать выборками из одной генеральной совокупности.

Н – критерий Крускала-Уоллиса

Назначение критерия «Н»

Критерий предназначен для оценки одновременно между тремя, четырьмя и так далее выборками по уровню какого-либо признака.

Он позволяет установить, что уровень признака изменяется при переходе от группы к группе, но не указывает на направление этих изменений.

Описание критерия «Н»

Критерий «Н» иногда рассматривается как непараметрический аналог метода дисперсионного однофакторного анализа для несвязных выборок (Тюрин Ю. Н., 1978 г.). Иногда его называют критерием «суммы рангов» (Нoceнкo И.А., 1981 г.).

Данный критерий является продолжением критерия «U» на большее, чем 2, количество сопоставляемых выборок. Все индивидуальные значения ранжируются так, как если бы это была одна большая выборка. Затем все индивидуальные значения возвращаются в свои первоначальные выборки, и мы подсчитываем суммы полученных ими рангов отдельно по каждой выборке. Если различия между выборками случайны, суммы рангов не будут различаться сколько-нибудь существенно, так как высокие и низкие ранги равномерно распределятся между выборками. Но если в одной из выборок будут преобладать низкие значения рангов, в другой - высокие, а в третьей - средние, то критерий «Н» позволит установить эти различия.

Алгоритм использования

Гипотезы

Н 0: между выборками 1, 2, 3 и т. д. существуют лишь случайные различия по уровню исследуемого признака;

Н 1: между выборками 1, 2, 3 и т. д. существуют неслучайные различия по уровню исследуемого признака.

Графическое представление критерия «Н»

Критерий «Н» оценивает общую сумму перекрещивающихся зон при сопоставлении всех обследованных выборок. Если суммарная область наложения мала (Рис. 1 А), то различия достоверны; если она достигает определенной критической величины и превосходит ее (Рис. 1 Б), то различия между выборками оказываются недостоверными.

1 ряд

2 ряд 1 ряд

2 ряд

3 ряд

Рис. А Рис. Б

Рис.1. Два возможных варианта соотношения рядов значений в трех выборках; отмечены зоны наложения.

Ограничения критерия Н

1. при сопоставлении 3-x выборок допускается, чтобы в одной из них n=3, а двух других n=2. Но при таких численных составах выборок мы сможем установить различия лишь на низшем уровне значимости (p≤0,05). Для того, чтобы оказалось возможным диагностировать различия на более высоком уровнем значимости (p≤0,01), необходимо, чтобы в каждой выборке было не менее 3 наблюдений, или чтобы по крайней мере в одной из них было 4 наблюдения, а в двух других - по 2; при этом неважно, в какой именно выборке сколько испытуемых, а важно соотношение 4:2:2;

2. критические значения критерия Н и соответствующие им уровни значимости приведены в таблице. Таблица предусмотрена только для трех выборок и {n 1, n 2, n 3} ≤ 5. При большем количестве выборок и испытуемых в каждой выборке необходимо пользоваться таблицей критических значении критерия χ², поскольку критерий Крускала-Уоллиса асимптотически приближается к распределению χ ² (Носенко И.А., 1981). Количество степеней свободы при этом определяется по формуле: v=c-1, где с - количество сопоставляемых выборок;

3. при множественном сопоставлении выборок достоверные различия между какой-либо конкретной парой (или парами) их могут оказаться стертыми. Это ограничение можно преодолеть, если провести все возможные попарные сопоставления, число которых будет равняться ½ * [с * (с-1) ], где с – количество выборок, для таких попарных сопоставлений используется, естественно, критерий для двух выборок, например U или φ.

Пример

В эксперименте по исследованию интеллектуальной настойчивости (Е. В. Сидоренко, 1984) 22 испытуемым предъявлялись сначала разрешимые четырехбуквенные, пятибуквенные и шестибуквенные анаграммы, а затем неразрешимые анаграммы, время работы над которыми не ограничивалось. Эксперимент проводился индивидуально с каждым испытуемым. Использовалось 4 комплекта анаграмм. У исследователя возникло впечатление, что над некоторыми неразрешимыми анаграммами испытуемые продолжали работать дольше, чем над другими, и, возможно, необходимо будет делать поправку на то, какая именно неразрешимая анаграмма предъявлялась тому или иному испытуемому. Показатели длительности попыток в решении неразрешимых анаграмм представлены в табл. 2.5. Все испытуемые были юношами-студентами технического вуза в возрасте от 20 до 22 лет.

Можно ли утверждать, что длительность попыток решения каждой из 4 неразрешимых анаграмм примерно одинакова?

Таблица 1. Показатели длительности попыток решения 4 неразрешимых анаграмм в секундах (N=22)

	Группа 1: анаграмма ФОЛИТОН (ni=4)	Группа 2: анаграмма КАМУСТО (n2=8)	Группа 3: анаграмма СНЕРАКО (n3=6)	Группа 4: анаграмма ГРУТОСИЛ (n4=4)
1	145	145	128	60
2	194	210	283	2361
3	731	236	469	2416
4	1200	385	482	3600
5		720	1678
6		848	2081
7		905
8		1080
Суммы	2270	4549	5121	8437
Средние	568	566	854	2109

Сформулируем гипотезы:

Н 0 - 4 группы испытуемых, получившие разные неразрешимые анаграммы, не различаются по длительности попыток их решения;

Н 1- 4 группы испытуемых, получившие разные неразрешимые анаграммы, различаются по длительности попыток их решения.

Подсчет критерия «Н»

1. перенести все показатели испытуемых на индивидуальные карточки;

2. пометить карточки испытуемых группы 1 определенным цветом, например красным, карточки испытуемых группы 2 - синим, карточки испытуемых групп 3 и 4 - соответственно, зеленым и желтым цветом и т. д. (можно использовать, естественно, и любые другие обозначения);

3. разложить все карточки в единый ряд по степени нарастания признака, не считаясь с тем, к какой группе относятся карточки, как если бы мы работали с одной объединенной выборкой;

4. проранжировать значения на карточках, приписывая меньшему значению меньший ранг. Надписать на каждой карточке ее ранг. Общее количество рангов будет равняться количеству испытуемых в объединенной выборке;

5. вновь разложить карточки по группам, ориентируясь на цветные или другие принятые обозначения;

6. подсчитать суммы рангов отдельно по каждой группе. Проверить совпадение общей суммы рангов с расчетной;

7. подсчитать значение критерия «Н» по формуле:

Н = ( (12 / N (N + 1)) * ( ∑ * Tj² / n)) - 3 (N+1)

Где:

N - общее количество испытуемых в объединенной выборке;

n - количество испытуемых в каждой группе;

Т - суммы рангов по каждой группе.

8. а. при количестве групп с = 3, n 1, n 2, n 3 ≤ 5, определить критические значения и соответствующий им уровень значимости. Если «Н эмп» равен или превышает критическое значение Н 0,05, НО отвергается.

8. б. при количестве групп с › 3 или количестве испытуемых n 1, n 2, n 3 › 5, определить критические значения . Если «Н эмп» равен или превышает критическое значение, НО отвергается.

G - критерий знаков

Назначение критерия «G»

Критерий знаков* «G» предназначен для установления общего направления сдвига исследуемого признака. Он позволяет установить, в какую сторону в выборке в целом изменяются значения признака при переходе от первого измерения ко второму: изменяются ли показатели в сторону улучшения, повышения или усиления или, наоборот, в сторону ухудшения, понижения или ослабления.

* Критерий знаков с математической точки зрения является частным случаем биномиального критерия для двух равновероятных альтернатив. При вероятности каждой из альтернатив P=Q=O,50 критерий знаков является зеркальным отражением биномиального критерия). В некоторых руководствах критерий знаков называют критерием Мак-Немара (МсСall R, 1970; Рунион Р., 1982).

Критерий знаков применим и к тем сдвигам, которые можно определить лишь качественно (например, изменение отрицательного отношения к чему-либо на положительное).

Критические значения критерия знаков G для уровней статистической значимости p ≤ 0,05 и p ≤ 0,01.

Преобладание «типичного» сдвига является достоверным, если G эмпирический ниже или равен G 0,05, и тем более достоверным, если G эмпирический ниже или равен G 0,01.

n	p =0,05	p =0,01	n	p =0,05	p =0,01	n	p =0,05	p =0,01	n	p =0,05	p =0,01
5	0	-	27	8	7	49	18	15	92	37	34
6	0	-	28	8	7	50	18	16	94	38	35
7	0	0	29	9	7	52	19	17	96	39	36
8	1	0	30	10	8	54	20	18	98	40	37
9	1	0	31	10	8	56	21	18	100	41	37
10	1	0	32	10	8	58	22	19	110	45	42
11	2	1	33	11	9	60	23	20	120	50	46
12	2	1	34	11	9	62	24	21	130	55	51
13	3	1	35	12	10	64	24	22	140	59	55
14	3	2	36	12	10	66	25	23	150	64	60
15	3	2	37	13	10	68	26	23	160	69	64
16	4	2	38	13	11	70	27	24	170	73	69
17	4	3	39	13	11	72	28	25	180	78	73
18	5	3	40	14	12	74	29	26	190	83	78
19	5	4	41	14	12	76	30	27	200	87	83
20	5	4	42	15	13	78	31	28	220	97	92
21	6	4	43	15	13	80	32	29	240	106	101
22	6	5	44	16	13	82	33	30	260	116	110
23	7	5	45	16	14	84	33	30	280	125	120
24	7	5	46	16	14	86	34	31	300	135	129
25	7	6	47	17	15	88	35	32
26	8	6	48	17	15	90	36	33

Критерий χ²r Фридмена

Алгоритм

1. проранжировать индивидуальные значения первого испытуемого, полученные им в 1-м, 2-м, 3-м и так далее замерах;

2. проделать то же самое по отношению ко всем другим испытуемым;

3. проссумировать ранги по условиям, в которых осуществлялись замеры. Проверить совпадение общей суммы рангов с расчетной суммой;

4. определить эмпирическое значение χ²r по формуле:

χ²r = [ ____12_______ * ∑ (Ti²) ] – 3 * n * (c+1),

n*c* (c+1)

где с – количество условий,

n – количество испытуемых,

Tj – суммы рангов по каждому из условий.

5. определить уровни статистической значимости для χ²r эмп.:

при с=3, n≤9 – по табл. VII-А приложения 1;

при с=4, n≤4 – по табл. VII-Б приложения 1.

6. при большем количестве условий и/или испытуемых – определить количество степеней свободы v по формуле:

v=c-1,

где с – количество условий (замеров).

. Если χ²r эмпирический равен критическому значению χ² или превышает его, различия достоверны.

L – критерий тенденций Пейджа

Описание критерия дается с использованием руководства J. Green, M. D’Olivera (1989).

Назначение L – критерия тенденций

Критерий L Пейджа применяется для сопоставления показателей, измеренных в трех и более условиях на одной и той же выборке испытуемых.

Критерий позволяет выявить тенденции в измерении величин признака при переходе от условия к условию. Его можно рассматривать как продолжение теста Фридмена, поскольку он не только констатирует различия, но и указывает на направление изменений.

Описание критерия тенденций L

Критерий позволяет проверить наши предположения об определенной возрастной или ситуативно обусловленной динамике тех или иных признаков. Он позволяет объединить несколько произведенных замеров единой гипотезой о тенденции изменения значений признака при переходе от замера к замеру. Если бы не его ограничения, критерий был бы незаменим в "продольных" или лонгитюдинальных исследованиях.

К сожалению, имеющиеся таблицы критических значений рассчитаны только на небольшую выборку (n≤12) и ограниченное количество сопоставляемых замеров (c≤6).

В случае, если эти ограничения не выполняются, приходится использовать критерий χ²r Фридмана, рассмотренный в предыдущем параграфе.

В критерии L применяется такое же ранжирование условий по каждому испытуемому, как и в критерии х2r. Если испытуемый в первом опыте допустил 17 ошибок, во втором - 12, а в третьем - 5, то 1-й ранг получает третье условие, 2-й ранг - второе, а 3-й ранг - первое условие. После того, как значения всех испытуемых будут проранжированы, подсчитываются суммы рангов по каждому условию. Затем все условия располагаются в порядке возрастания ранговых сумм: на первом месте слева окажется условие с меньшей ранговой суммой, за ним условие со следующей по величине ранговой суммой, и т. д., пока справа не окажется условие с самой большой ранговой суммой. Далее мы с помощью специальной формулы подсчета L проверяем, действительно ли значения возрастают слева направо. Эмпирическое значение критерия L отражает степень различия между ранговыми суммами, поэтому чем выше значение L, тем более существенны различия.

Гипотезы

Но: Увеличение индивидуальных показателей при переходе от первого условия ко второму, а затем к третьему и далее, случайно.

Н1: Увеличение индивидуальных показателей при переходе от первого условия ко второму, а затем к третьему и далее, неслучайно.

При формулировке гипотез мы имеем в виду новую нумерацию условий, соответствующую предполагаемым тенденциям.

Графическое представление критерия «L»

Пример: Используем для иллюстрации пример с предъявлением анаграмм предположительно возрастающей сложности. Замысел экспериментатора состоял в том, чтобы каждая последующая задача требовала от испытуемых все более длительных раздумий.

Судя по графику на, Рис. 3.6, у большинства испытуемых анаграмма 1 стоит на первом ранговом месте, то есть решается быстрее двух других, анаграмма 3 на 2-м ранговом месте, а анаграмма 2 - на 3-м. По-видимому, их следовало бы предъявлять в иной последовательности: 1, 3, 2. График, отражающий такую гипотетическую последовательность задач, представлен на Рис. 3.7.

t, сек.

Анаграмма 1: Анаграмма 3: Анаграмма 2:

КРУА ИНААМШ АЛСТЬ

Рис.2. Графики изменения показателей времени (сек.) анаграмм пятью испытуемыми в новой (гипотетической) последовательности их предъявления.

Символом достоверной, отчетливой тенденции в изменении показателей при переходе от условия к условию будет достаточно "собранная" ломаная кривая, устремленная кверху или, наоборот, книзу. Если на Рис. 3.6 характерной чертой всех индивидуальных кривых был крутой излом в одной и той же точке графика, то в данном случае на некоторых отрезках повышение кривой характеризуется большей крутизной, а на других - меньшей крутизной. Очевидно, достоверность тенденций будет обеспечиваться именно отрезками более крутого восхождения, но тест тенденций снисходительно распространит этот эффект и на более пологие отрезки.

На Рис. 3.8 графики представлены уже для ранжированных показателей. Здесь уже все различия в крутизне сглажены. L - Tecт построен на сопоставлении сумм рангов, а ранжирование неизбежно несколько огрубляет полученные показатели. Опыт показывает, однако, что L-тест является достаточно мощным критерием, хотя и ограниченным по сфере применения из-за отсутствия таблиц критических значений для больших п.

ранг

Анаграмма 1: Анаграмма 3: Анаграмма 2:

КРУА ИНААМШ АЛСТЬ

Рис.3. Графики изменения ранжированных показателей времени решения анаграмм пятью испытуемыми в новой (гипотетической) последовательности их предъявления.

Ограничения критерия Пейджа

1. нижний порог - 2 испытуемых, каждый из которых прошел не менее 3-х замеров в разных условиях. Верхний порог - 12 испытуемых и 6 условий (n≤12, c≤6). Критические значения критерия L даны по руководству J. Greene, М. D'Olivera (1989). Они предусматривают три уровня статистической значимости: p≤0,05; p≤0,01; p≤0,001;

2. необходимым условием применения теста является упорядоченность столбцов данных: слева должен располагаться столбец с наименьшей ранговой суммой показателей, справа – с наибольшей. Можно просто пронумеровать заново все столбцы, а потом вести расчеты не слева направо, а по номерам, но так легче запутаться.

Пример

Продолжим рассмотрение примера с анаграммами. В таблице показатели времени решения анаграмм и их ранги представлены уже в упорядоченной последовательности: анаграмма 1, анаграмма 3, анаграмма 2. Действительно ли время решения увеличивается при такой последовательности предъявления анаграмм?

Код имени испытуемого	Условие 1: Анаграмма 1	Условие 2: Анаграмма 3	Условие 3: Анаграмма 2
	Время (сек.)	Ранг	Время (сек.)	Ранг	Время (сек.)	Ранг
1	Л-В	5	1	7	2	235	3
2	П-О	7	1	20	2	604	3
3	К-В	2	1	5	2	93	3
4	Ю-Ч	2	1	8	2	171	3
5	Р-О	35	2	7	1	141	3
Суммы	51	6	47	9	1244	15
Средние	10,2		9,4		289

Таблица. Показатели времени решения анаграмм 1, 2, 3 и их ранги (n=5)

Сумма рангов составляет: 6+9+5=30. Расчетная сумма:

3*(3+1)

∑Ri =5* ____________ = 30

Реально полученная и расчетная суммы совпадают, мы можем двигаться дальше.

Как видно из табл. 3.7, среднее время решения анаграммы 3 даже меньше, чем анаграммы 1. Однако мы исследуем не среднегрупповые тенденции, а степень совпадения индивидуальных тенденций. Нам важен именно порядок, а не абсолютные показатели времени. Поэтому и формулируемые нами гипотезы - это гипотезы о тенденциях изменения индивидуальных показателей.

Сформулируем гипотезы.

Но: Тенденция увеличения индивидуальных показателей от первого условия к третьему является случайной.

Н1: Тенденция увеличения индивидуальных показателей от первого условия к третьему не является случайной.

Эмпирическое значение L определяется по формуле:

L=∑(Tij),

где Ti - сумма рангов по каждому условию;

j - порядковый номер, приписанный каждому условию в новой последовательности .

Lэмп.=(6*1)+(9*2)+(15*3)=69

По табл. VIII приложения 1 определяем критические значения L для данного количества испытуемых: n=5, и данного количества условий: с=3.

66 (p≤0,05)

Lкр. 68 (p≤0,01)

70 (p≤0,001)

Построим «Ось значимости»:

L0,05 L 0,01

… ? !

Lэмп. L 0,001

66 68 69 70

Lэмп. ›L кр.

Ответ: Но отклоняется. Принимается Н1. Тенденция увеличения индивидуальных показателей от первого условия к третьему не является случайной (р<О,О1). Последовательность анаграмм: 1(КРУ А), 3(ИНААМШ), 2(АЛСТЬ), - будет в большей степени отвечать замыслу экспериментатора о постепенном возрастании сложности задач, чем первоначально применявшаяся последовательность.

Алгоритм использования

Подсчет критерия тенденций L Пейджа

1. проранжировать индивидуальные значения первого испытуемого, полученные им в 1-м, 2-м, 3-м и т. д. замерах. При этом первым может быть любой испытуемый, например первый по алфавиту имен;

2. проделать то же самое по отношению ко всем другим испытуемым;

3. просуммировать ранги по условиям, в которых осуществлялись замеры. Проверить совпадение общей суммы рангов с расчетной суммой.

4. расположить все условия в порядке возрастания их ранговых сумм в таблице;

5. определить эмпирическое значение L по формуле:

L=∑(Ti*j)

Где Ti - сумма рангов по данному условию;

j - порядковый номер, приписанный данному условию в упорядоченной последовательности условий.

6. по табл. VIII приложения 1 определить критические значения L для данного количества испытуемых n и данного количества условий с. Если Lэмп. равен критическому значению, или превышает его, тенденция достоверна.

Применение непараметрических критериев:

классификация сдвигов и критериев оценки их статистической достоверности

Виды сдвигов	Объект сопоставлений	Условия	Критерии оценки достоверности сдвига
		Количество замеров	Количество групп
1. Временные, ситуационные, умозрительные, измерительные	Одни и те же показатели, измеренные у одних и тех же испытуемых в разное время, в разных ситуациях, в разных представляемых условиях или разными способами	2	1	G – критерий знаков; Т – критерий Вилкоксона.
		3 и более	1	L - критерий тенденций Пейджа; χ²r – критерий Фридмена.
2. Сдвиги под влиянием экспериментальных воздействий	Одни и те же показатели, измеренные у одних и тех же испытуемых до и после воздействия: а). при отсутствии контрольной группы;	2	1	G – критерий знаков; Т – критерий Вилкоксона.
		3 и более	1	L - критерий тенденций Пейджа; χ²r – критерий Фридмена.
	б). при наличии контрольной группы	2	2	Вариант 1 – сопоставление значений «до» и «после» отдельно по экспериментальной и контрольной группам: G – критерий знаков; Т – критерий Вилкоксона. Вариант 2 – сопоставление сдвигов в двух группах: Q – критерий; U – критерий Манна-Уитни; φ – критерий Фишера.
		3 и более	2	Сопоставление значений отдельно по экспериментальной и контрольной группам: L - критерий тенденций Пейджа; χ²r – критерий Фридмена.
3. Структурные сдвиги	Разные показатели одних и тех же испытуемых	2	1	G – критерий знаков; Т – критерий Вилкоксона.
		3 и более	1	L - критерий тенденций Пейджа; χ²r – критерий Фридмена.

Как следует из таблицы, при сопоставлении двух замеров, произведенных на одной и той же (экспериментальной) выборке, применяются критерии знаков G и критерий Т Вилкоксона. При сопоставлении трех и более замеров, произведенных на одной и той же выборке, применяются критерий тенденций L Пейджа, а если он неприменим из-за большого объема выборок - критерий х2r Фридмана.

В тех случаях, когда мы хотим оценить различия в интенсивности сдвига в двух группах испытуемых (контрольной и экспериментальной или двух экспериментальных), мы можем использовать различные варианты сопоставлений:

1) производить сопоставления отдельно в двух группах, используя критерии L и χ²r;

2) сопоставлять показатели сдвига* в двух группах.

* Сдвиг - это разность между вторым и первым замерами. Сначала вычисляются разности отдельно для каждой из групп, а уж затем проводятся сопocтавления двух рядов разностей (сдвигов), полученных 13 разных группах.

Поскольку группы независимы, значения сдвигов также независимы, и мы можем применять по отношению к ним уже известные нам критерии Q Розенбаума, U Манна-Уитни и φ* угловое преобразование Фишера.

Литература:

1. Лонгвиненко А.Д. Измерения в психологии. Математические основы. М., 1993 г.;

2. Сидоренко Е.В. Методы математической обработки в психологии. С-Пб., 1996 г.;

3. Сосновский Б. А. Лабораторный практикум по общей психологии. М.: Просвещение, 1979 г.;

4. Холлендер М., Вульф Д. А. Непараметрические методы статистики. М., 1983 г.

EMBED Excel.Sheet.8

1. тема понятий ~ аксиома
2. На тему Финансовый рынок его сущность структура и особенности формирования и развития в Украине Выполни
3. Корь коревая краснуха
4. Лікувальна справа Дисципліни хірургічного профілю 135 У разі отруєння барбітуратами внутрішньовенно
5. Контрольная работа Руководитель в системе стратегического управления
6. Закономерность исторических явлений обратно пропорциональна их духовности
7. Амортизация основных фондов
8. 2013 г. Кондратович И.html
9. С развитием общества социальные экономические политические и психологические противоречия криминогенног
10. Децентрализованная система автоблокировки с плохим сопротивлением балласта АБТ- ПСБ

Материалы собраны группой SamZan и находятся в свободном доступе

З	27	28	28	29	30	30	31	32	33	34	35	36	37	38	39
М	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
r n	1	2,5	2,5	4	5,5	5,5	7	8	9	10	11	12	13	14	15
B	А	А	А	В	А	А	В	А	А	В	В	В	А	В	В
T a	1	2,5	2,5	-	5,5	5,5	-	8	9	-	-	-	13	-	-
Tв	-	-	-	4	-	-	7	-	-	10	11	12	-	14	15

З	27	28	28	29	30	30	31	32	33	34	35	36	37	38	39
М	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
r n	1	2,5	2,5	4	5,5	5,5	7	8	9	10	11	12	13	14	15
B	А	А	А	В	А	А	В	А	А	В	В	В	А	В	В
T a	1	2,5	2,5	-	5,5	5,5	-	8	9	-	-	-	13	-	-
Tв	-	-	-	4	-	-	7	-	-	10	11	12	-	14	15

З	27	28	28	29	30	30	31	32	33	34	35	36	37	38	39
М	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
r n	1	2,5	2,5	4	5,5	5,5	7	8	9	10	11	12	13	14	15
B	А	А	А	В	А	А	В	А	А	В	В	В	А	В	В
T a	1	2,5	2,5	-	5,5	5,5	-	8	9	-	-	-	13	-	-
Tв	-	-	-	4	-	-	7	-	-	10	11	12	-	14	15