Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
7. Методи аналізу взаємозвязків
7.1. Види взаємозвязків
Усі явища навколишнього світу, соціально-економічні зокрема, взаємозвязані й взаємозумовлені. У складному переплетенні всеохоплюючого взаємозвязку будь-яке явище є наслідком дії певної множини причин і водночас причиною інших явищ. Причини та наслідки повязані неперервними ланцюгами прямо або опосередковано, що схематично ілюструє рис. 7.1. Так, незалежне в межах зображеного графа звязку явище є причиною явищ х2, х3, х5. Із них явище х3, у свою чергу, впливає на х4, а х4 на х5.
Поряд із причинними існують звязки паралельних явищ, на які впливає спільна причина. На рис. 7.1 це звязок між х2 і х3, які мають спільну причину х1.
Рис. 7.1. Граф взаємозвязків
Визначальна мета вимірювання взаємозвязків виявити і дати кількісну характеристику причинних звязків. Суть причинного звязку полягає в тому, що за певних умов одне явище спричинює інше. Причина сама по собі не визначає наслідку, останній залежить також від умов, в яких діє причина. Вивчаючи закономірності звязку, причини та умови обєднують в одне поняття «фактор». Відповідно ознаки, які характеризують фактори, називаються факторними, а ті, що характеризують наслідки, результативними.
Аналіз характеру взаємозвязків та оцінювання сили впливу факторів на результат є передумовою розробки науково обґрунтованих управлінських рішень, прогнозування й регулювання складних соціально-економічних явищ і процесів.
Розрізняють два типи звязків функціональні та стохастичні. У разі функціонального звязку кожному значенню фактора х відповідає одне або кілька чітко визначених значень у. Такою, наприклад, є залежність довжини ртутного стовпчика від температури навколишнього середовища. Знаючи х, можна в кожному окремому випадку точно визначити результат у. Скажімо, при проведенні валютних операцій для переведення суми в національній валюті С в еквівалентну їй суму в іноземній валюті S використовують валютний курс L:
У соціально-економічних науках до функціонального типу належать звязки між показниками адитивні (a + b + c) або мультиплікативні (a = bc, c = a/b), а також залежність середніх величин від структури сукупності (див. підрозд. 9.59.6).
На відміну від функціональних, стохастичні звязки неоднозначні. Наприклад, залежність захворюваності населення від екологічного стану довкілля. На забруднених радіонуклідами територіях, як і на інших, стан здоровя мешканців коливається від «тяжко хворого» до «практично здорового». Проте в середньому в таких регіонах порівняно з екологічно чистими захворюваність значно вища.
Стохастичні звязки виявляються як узгодженість варіації двох чи більше ознак. У ланці звязку «х у» кожному значенню ознаки х відповідає певна множина значень ознаки у, які утворюють так званий умовний розподіл. Стохастичний звязок, відбиваючи множинність причин і наслідків, виявляється в зміні умовних розподілів, що схематично ілюструє табл. 7.1.
Якщо умовні розподіли замінюються одним параметром середньою , то такий звязок називають кореляційним. Отже, кореляційний звязок є різновидом стохастичного і виявляється зміною середніх умовних розподілів.
Таблиця 7.1
Факторна ознака хі |
Результативна ознака у за наявності звязку |
||
функціонального |
стохастичного |
кореляційного |
|
х1 |
у1 |
у1 у2 |
|
х2 |
у2 |
у1 у2 у3 |
|
х3 |
у3 |
у2 у3 у4 |
|
... |
... |
... |
... |
хm |
уm |
уm 1 уm |
Наявність стохастичного звязку можна виявити, скориставшись комбінаційним розподілом елементів сукупності. Такий розподіл наведено в табл. 7.2. Сукупність шахт регіону поділено на групи за двома ознаками: х глибиною розробки вугільних пластів і у фондомісткістю видобутку вугілля. Кожна група за глибиною розробки пласта характеризується своїм особливим розподілом шахт за фондомісткістю видобутку вугілля. Це умовні розподіли. Порівняння умовних розподілів указує на тенденцію підвищення фондомісткості зі зростанням глибини розробки пластів. Звичайно, для кожної окремої шахти така залежність може не виявитись через вплив інших факторів. Певні межі варіації фондомісткості характерні для кожної групи. Так, на шахтах, де глибина розробки пластів 500 700 м, фондомісткість коливається в межах від 18 до 26 грн. за тонну. Проте середній рівень фондомісткості в цій групі вищий порівняно з попередньою групою (300 500 м) і нижчий порівняно з наступною (700 і більше):
;
;
;
.
Середні рівні фондомісткості видобутку вугілля наведено в останній графі таблиці. Зростання групових середніх від групи до групи свідчить про наявність кореляційного звязку між глибиною розробки пласта і фондомісткістю вугілля. Отже, кореляційний звязок, як і стохастичний, це властивість сукупності в цілому, а не окремих її елементів.
Таблиця 7.2
КОМБІНАЦІЙНИЙ РОЗПОДІЛ ШАХТ ЗА ГЛИБИНОЮ
РОЗРОБКИ ПЛАСТІВ ТА ФОНДОМІСТКІСТЮ ВУГІЛЛЯ
Глибина розробки пласта, м |
Кількість шахт з рівнем фондомісткості, грн. / т |
Середній рівень фондомісткості, грн. / т |
|||||
До 20 |
2022 |
2224 |
2426 |
26 і більше |
Разом |
||
До 300 |
9 |
7 |
1 |
17 |
20,0 |
||
300500 |
8 |
27 |
5 |
40 |
22,9 |
||
500700 |
6 |
15 |
4 |
25 |
24,8 |
||
700 і більше |
8 |
10 |
18 |
26,1 |
|||
По сукупності в цілому |
9 |
15 |
34 |
28 |
14 |
100 |
23,5 |
Отже, можна не лише стверджувати, що існує кореляційний звязок між факторною х і результативною у ознаками, а й визначати, як у середньому змінюється у зі зміною х на одиницю. Ефекти впливу х на у визначаються відношенням приростів середніх групових цих величин Наприклад, у другій групі порівняно з першою глибина розробки вугільного пласта більша на 200 м, а фондомісткість видобутку вугілля на 22,9 20,0 = 2,9 грн. / т. Звідси
.
Тобто, зі зростанням глибини розробки пласта на 100 м фондомісткість зростає в середньому на 1,45 грн. / т.
Аналогічно розраховані ефекти впливу глибини розробки пласта на фондомісткість вугілля у третій групі становлять 0,95, у четвертій 0,65 грн. на тонну вугілля.
7.2. Регресійний аналіз
Важливою характеристикою кореляційного звязку є лінія регресії емпірична в моделі аналітичного групування і теоретична в моделі регресійного аналізу. Емпірична лінія регресії представлена груповими середніми результативної ознаки , кожна з яких належить до відповідного інтервалу значень групувального фактора хj. Теоретична лінія регресії описується певною функцією яку називають рівнянням регресії, а Y теоретичним рівнем результативної ознаки.
На відміну від емпіричної, теоретична лінія регресії неперервна. Так, уважають, що маса дорослої людини в кілограмах має бути на 100 одиниць менша за її зріст у сантиметрах. Співвідношення між масою і зростом можна записати у вигляді рівняння: , де у маса; х зріст.
Безперечно, така форма звязку між масою та зростом людини надто спрощена. Насправді збільшення маси не жорстко пропорційне до збільшення зросту. Люди одного зросту мають різну масу, проте в середньому зі збільшенням зросту маса зростає. Для точнішого відображення звязку між цими ознаками в рівняння слід увести другий параметр, який був би коефіцієнтом пропорційності при х, тобто Y = 100 + bx.
Рівняння регресії в такому вигляді описує числове співвідношення варіації ознак х і у в середньому. Коефіцієнт пропорційності при цьому відіграє визначальну роль. Він показує, на скільки одиниць у середньому змінюється у зі зміною х на одиницю. У разі прямого звязку b величина додатна, у разі оберненого відємна.
Подаючи у як функцію х, тим самим абстрагуються від множинності причин, штучно спрощуючи механізм формування варіації у. Аналіз причинних комплексів здійснюється за допомогою множинної регресії.
Різні явища по-різному реагують на зміну факторів. Для того щоб відобразити характерні особливості звязку конкретних явищ, статистика використовує різні за функціональним видом регресійні рівняння. Якщо зі зміною фактора х результат у змінюється більш-менш рівномірно, такий звязок описується лінійною функцією Y = a + bx. Коли йдеться про нерівномірне співвідношення варіацій взаємозвязаних ознак (наприклад, коли прирости значень у зі зміною х прискорені чи сповільнені або напрям звязку змінюється), застосовують нелінійні регресії, зокрема:
степеневу ;
гіперболічну ;
параболічну тощо.
Вибір та обґрунтування функціонального виду регресії ґрунтується на теоретичному аналізі суті звязку. Нехай вивчається звязок між урожайністю та кількістю опадів. Надто мала і надто велика кількість опадів спричинюють зниження врожайності, максимальний її рівень можливий за умови оптимальної кількості опадів, тобто зі збільшенням факторної ознаки (опади) урожайність спершу зростає, а потім зменшується. Залежність такого роду описується параболою Y = a + bx + cx2.
Вивчаючи звязок між собівартістю у та обсягом продукції х, використовують рівняння гіперболи , де а пропорційні витрати на одиницю продукції, b постійні витрати на весь випуск.
Зауважимо, що теоретичний аналіз суті звязку, хоча й дуже важливий, лише окреслює особливості форми регресії і не може точно визначити її функціонального виду. До того ж у конкретних умовах простору і часу межі варіації взаємозвязаних ознак х і у значно вужчі за теоретично можливі. І якщо кривина регресії невелика, то в межах фактичної варіації ознак звязок між ними досить точно описується лінійною функцією. Цим значною мірою пояснюється широке застосування лінійних рівнянь регресії:
.
Параметр b (коефіцієнт регресії) величина іменована, має розмірність результативної ознаки і розглядається як ефект впливу x на y. Параметр a вільний член рівняння регресії, це значення y при x = 0. Якщо межі варіації x не містять нуля, то цей параметр має лише розрахункове значення.
Параметри рівняння регресії визначаються методом найменших квадратів, основна умова якого мінімізація суми квадратів відхилень емпіричних значень y від теоретичних Y:
.
Математично доведено, що значення параметрів a та b, при яких мінімізується сума квадратів відхилень, визначаються із системи нормальних рівнянь:
,
.
Розвязавши цю систему, знаходимо такі значення параметрів:
,
.
Розглянемо порядок обчислення параметрів лінійної регресії на прикладі звязку між урожайністю зернових і кількістю внесених добрив (у центнерах діючої поживної речовини д. р.). Значення взаємозвязаних ознак та необхідні для розрахунку параметрів величини наведено в табл. 7.3.
= 12; = 224; = 342,8; = 18,68;
= 12 : 8 = 1,5; = 224 : 8 = 28.
Таблиця 7.3
ДО РОЗРАХУНКУ ПАРАМЕТРІВ ЛІНІЙНОЇ РЕГРЕСІЇ,
ТЕОРЕТИЧНИХ РІВНІВ І ЗАЛИШКОВИХ ВЕЛИЧИН
Номер господар- |
Кількість внесених добрив х, д. р |
Урожайність зернових у, ц/га |
ху |
х2 |
Y |
y Y |
(y Y)2 |
1 |
1,1 |
23 |
25,3 |
1,21 |
24 |
1 |
1 |
2 |
1,4 |
25 |
35,0 |
1,96 |
27 |
2 |
4 |
3 |
1,2 |
26 |
31,2 |
1,44 |
25 |
1 |
1 |
4 |
2,0 |
33 |
66,0 |
4,00 |
33 |
0 |
0 |
5 |
1,5 |
27 |
40,5 |
2,25 |
28 |
1 |
1 |
6 |
1,3 |
2,8 |
36,4 |
1,69 |
26 |
2 |
4 |
7 |
1,8 |
30 |
54,0 |
3,24 |
31 |
1 |
1 |
8 |
1,7 |
32 |
54,4 |
2,89 |
30 |
2 |
4 |
Разом |
12,0 |
224 |
342,8 |
18,68 |
224 |
|
16 |
Користуючись цими величинами, визначаємо:
(ц/га);
.
Отже, рівняння регресії має вигляд
,
тобто кожний центнер внесених добрив (у перерахунку на діючу поживну речовину) дає приріст урожайності в середньому 10 ц/га. Якщо добрива зовсім не вносити (х = 0), то урожайність зернових не перевищить 13,0 ц/га.
Рівняння регресії відбиває закон звязку між х і у не для окремих елементів сукупності, а для сукупності в цілому; закон, який абстрагує вплив інших факторів, виходить з принципу «за інших однакових умов». За цих умов очікувана врожайність зернових при внесенні добрив у обсязі 1,1 ц д. р. на 1 га становить Y = 13 + 10 1,1 = 24 (ц/га). Для інших значень факторної ознаки х теоретичні рівні врожайності наведено в табл. 7.3. Вплив інших окрім х факторів зумовлює відхилення емпіричних значень у від теоретичних у той чи інший бік. Відхилення (y Y) називають залишками і позначають символом е. Залишки, як правило, менші за відхилення від середньої, тобто .
У нашому прикладі
, .
Відповідно загальна дисперсія врожайності
,
залишкова дисперсія
.
У невеликих за обсягом сукупностях коефіцієнт регресії схильний до випадкових коливань. Тому слід перевірити його істотність. Коли звязок лінійний, істотність коефіцієнта регресії перевіряють за допомогою t-критерію (Стьюдента), статистична характеристика якого для гіпотези визначається відношенням коефіцієнта регресії b до власної стандартної похибки тобто .
Стандартна похибка коефіцієнта регресії залежить від варіації факторної ознаки залишкової дисперсії і числа ступенів свободи , де m кількість параметрів рівняння регресії:
.
Для лінійної функції m = 2. За даними табл. 7.3 маємо:
.
Звідси (ц/га), а , що перевищує критичне значення двостороннього t-критерію (табл. 6.3). Гіпотеза про випадковий характер коефіцієнта регресії відхиляється, а отже, з імовірністю 0,95 вплив кількості внесених добрив на врожайність зернових визнається істотним.
Для коефіцієнта регресії, як і для будь-якої іншої випадкової величини, визначаються довірчі межі . У нашому прикладі довірчі межі коефіцієнта регресії з імовірністю 0,95 (t = 2,45) становлять .
Важливою характеристикою регресійної моделі є відносний ефект впливу фактора х на результат у коефіцієнт еластичності:
.
Він показує, на скільки процентів у середньому змінюється результат у зі зміною фактора х на 1%. У нашому прикладі тобто збільшення кількості внесених добрив на 1% спричинює приріст урожайності зернових у середньому на 0,8%.
Оцінити відносний ефект впливу фактора х на результат у можна безпосередньо на основі степеневої функції Y = axb, параметр b якої є коефіцієнтом еластичності. Степенева функція зводиться до лінійного виду логарифмуванням lg Y = lg a + b lg x. До класу степеневих належать функції споживання, виробничі функції тощо.
7.3. Оцінка щільності та перевірка
істотності кореляційного звязку
Поряд із визначенням характеру звязку та ефектів впливу факторів х на результат у важливе значення має оцінка щільності звязку, тобто оцінка узгодженості варіації взаємозвязаних ознак. Якщо вплив факторної ознаки х на результативну у значний, це виявиться в закономірній зміні значень у зі зміною значень х, тобто фактор х своїм впливом формує варіацію у . За відсутності звязку варіація у не залежить від варіації х.
Для оцінювання щільності звязку статистика використовує низку коефіцієнтів з такими спільними властивостями:
Серед мір щільності звязку найпоширенішим є коефі-
цієнт кореляції Пірсона. Позначається цей коефіцієнт сим-
волом r. Оскільки сфера його використання обмежується лінійною залежністю, то і в назві фігурує слово «лінійний». Обчислення лінійного коефіцієнта кореляції r ґрунтується
на відхиленнях значень взаємозвязаних ознак x і у від се-
редніх.
За наявності прямого кореляційного звязку будь-якому значенню хі > відповідає значення , а відповідає . Узгодженість варіації х і у схематично показано на рис. 7.2 у вигляді кореляційного поля зі зміщеною системою координат.
Рис. 7.2. Узгодженість варіації взаємозвязаних ознак
Точка, координатами якої є середні і , поділяє кореляційне поле на чотири квадранти, в яких по-різному поєднуються знаки відхилень від середніх:
Квадрант |
(х ) |
(у ) |
I |
+ |
+ |
II |
|
+ |
III |
|
|
IV |
+ |
|
Для точок, розміщених у І та ІІІ квадрантах, добуток додатний, а для точок з квадрантів ІІ і ІV відємний. Чим щільніший звязок між ознаками х і у, тим більша алгебраїчна сума добутків відхилень . Гранична сума цих добутків дорівнює .
Коефіцієнт кореляції визначається відношенням зазначе-
них сум:
.
Очевидно, що в разі функціонального звязку фактична сума відхилень дорівнює граничній, а коефіцієнт кореляції r = ±1; при кореляційному звязку абсолютне його значення буде тим більшим, чим щільніший звязок.
На практиці застосовують різні модифікації наведеної формули коефіцієнта кореляції. Для оцінювання щільності звязку між кількістю внесених добрив та врожайністю зернових скористаємося однією з модифікацій зазначеної формули:
.
За даними табл. 7.3
Згідно з цими значеннями коефіцієнт кореляції становить 0,900, що свідчить про вагомий вплив кількості внесених добрив на врожайність зернових:
.
Коефіцієнт кореляції, оцінюючи щільність звязку, указує також на його напрям: коли звязок прямий, r величина додатна, а коли він зворотний відємна. Знаки коефіцієнтів кореляції і регресії однакові, величини їх взаємозвязані функціонально:
; .
Завдяки цьому один коефіцієнт можна обчислити, знаючи інший. Наприклад:
.
Вимірювання щільності нелінійного звязку ґрунтується на співвідношенніваріацій теоретичних та емпіричних (фактичних) значень результативної ознаки у. Як зазначалося в підрозд. 5.6, відхилення індивідуального значення ознаки у від середньої можна розкласти на дві складові. У регресійному аналізі це відхилення від лінії регресії (у Y) та відхилення лінії регресії від середньої .
Відхилення є наслідком дії фактора х, відхилення наслідком дії інших факторів. Взаємозвязок факторної та залишкової варіацій описується правилом декомпозиції варіації:
,
де загальна дисперсія ознаки y; факторна дисперсія; залишкова дисперсія.
Очевидно, значення факторної дисперсії буде тим більшим, чим сильніший вплив фактора х на y. Відношення факторної дисперсії до загальної розглядається як міра щільності кореляційного звязку і називається коефіцієнтом детермінації:
.
Якщо за даними табл. 7.3 , , то .
Аналогічний результат дають такі обчислення:
.
Коефіцієнт детермінації становить ,
тобто 81% варіації врожайності зернових залежить від варіації кількості внесених добрив, а 19% припадає на інші фактори.
Корінь квадратний з коефіцієнта детермінації називають індексом кореляції R. Коли звязок лінійний, , що підтверджують обчислення: Тому за відомим лінійним коефіцієнтом кореляції r можна визначати внесок ознаки x у варіацію ознаки y. Так, при r = 0,6 можна сказати, що 36% варіації y залежить від варіації x.
На таких самих засадах ґрунтується оцінювання щільності звязку за даними аналітичного групування. Мірою щільності звязку є кореляційне відношення
,
де 2 міжгрупова дисперсія, яка вимірює варіацію ознаки у під впливом фактора х, а 2 загальна дисперсія.
Застосуємо кореляційне відношення для оцінювання щільності звязку між глибиною розробки вугільних пластів і фондомісткістю видобутку вугілля (див. табл. 7.2). Розрахунки загальної та факторної дисперсій подано в табл. 7.4 та 7.5. Згідно з розрахунками загальна дисперсія становить 5,19, факторна 3,86:
;
.
Кореляційне відношення
,
тобто 74,5% варіації фондомісткості вугілля на шахтах регіону пояснюється варіацією глибини розробки пластів.
Таблиця 7.4
ДО РОЗРАХУНКУ ЗАГАЛЬНОЇ ДИСПЕРСІЇ
ФОНДОМІСТКОСТІ ВУГІЛЛЯ ()
Фондомісткість, грн. / т |
1820 |
022 |
2224 |
2426 |
2628 |
Разом |
Кількість шахт |
9 |
15 |
34 |
28 |
14 |
100 |
19 |
21 |
23 |
25 |
27 |
|
|
4,5 |
2,5 |
0,5 |
1,5 |
3,5 |
|
|
182,25 |
93,75 |
8,5 |
63,0 |
171,5 |
519 |
Таблиця 7.5
ДО РОЗРАХУНКУ ФАКТОРНОЇ ДИСПЕРСІЇ
ФОНДОМІСТКОСТІ ВУГІЛЛЯ ()
Глибина розробки пластів, м |
||||
До 300 |
17 |
20,0 |
3,5 |
208,25 |
300 500 |
40 |
22,9 |
0,6 |
14,40 |
500 700 |
25 |
24,8 |
1,3 |
42,25 |
700 і більше |
18 |
26,1 |
2,6 |
121,68 |
У цілому |
100 |
23,5 |
|
386,58 |
Обчислення та інтерпретація коефіцієнта детермінації R2 і кореляційного відношення 2 показують: ці характеристики щільності звязку за змістом ідентичні, вони характеризують внесок фактора x у загальну варіацію результату y.
Перевірка істотності кореляційного звязку ґрунтується на порівнянні фактичних значень R2 і 2 з критичними, які могли б виникнути за відсутності звязку. Якщо фактичне значення чи 2 перевищує критичне, то звязок між ознаками не випадковий. Гіпотеза, що перевіряється, формулюється як нульова:
або .
Критичні значення характеристик щільності звязку для рівня істотності = 0,05 і відповідного числа ступенів свободи для факторної дисперсії k1 і залишкової k2 наведено в табл. 7.6. Ступені свободи залежать від обсягу сукупності n та числа груп або параметрів функції m, тобто k1 = m 1, k2 = n m.
Таблиця 7.6
КРИТИЧНІ ЗНАЧЕННЯ КОЕФІЦІЄНТА ДЕТЕРМІНАЦІЇ R2
І КОРЕЛЯЦІЙНОГО ВІДНОШЕННЯ 2 ДЛЯ РІВНЯ ІСТОТНОСТІ = 0,05
1 |
2 |
3 |
4 |
5 |
|
5 |
0,569 |
699 |
764 |
806 |
835 |
6 |
500 |
632 |
704 |
751 |
785 |
7 |
444 |
575 |
651 |
702 |
739 |
8 |
399 |
527 |
604 |
657 |
697 |
9 |
362 |
488 |
563 |
618 |
659 |
10 |
332 |
451 |
527 |
582 |
624 |
12 |
283 |
394 |
466 |
521 |
564 |
14 |
247 |
348 |
417 |
471 |
514 |
16 |
219 |
312 |
378 |
429 |
477 |
18 |
197 |
283 |
345 |
394 |
435 |
20 |
179 |
259 |
318 |
364 |
404 |
24 |
151 |
221 |
273 |
316 |
353 |
28 |
130 |
193 |
240 |
279 |
314 |
32 |
115 |
171 |
214 |
250 |
282 |
36 |
102 |
153 |
192 |
226 |
256 |
40 |
093 |
139 |
176 |
207 |
234 |
50 |
075 |
113 |
143 |
170 |
194 |
60 |
063 |
095 |
121 |
144 |
165 |
80 |
047 |
072 |
093 |
110 |
127 |
100 |
038 |
058 |
075 |
090 |
103 |
120 |
032 |
049 |
063 |
075 |
087 |
200 |
019 |
030 |
038 |
046 |
053 |
Так, критичне значення коефіцієнта детермінації для k1 = 2 1 = 1 і k2 = 8 2 = 6 становить . Обчислений за даними табл. 7.3 коефіцієнт детермінації R2 = 0,81 перевищує критичне значення, що з імовірністю 0,95 підтверджує істотність звязку між кількістю внесених добрив і врожайністю зернових.
Аналогічно визначимо критичне значення кореляційного відношення для k1 = 4 1 = 3 та k2 = 100 4 = 96. Оскільки значення k2 = 96 у табл. 7.6 відсутнє, можна використати найближче до нього число k2 = 100. Критичне значення .
Розраховане за даними табл. 7.2 кореляційне відношення 2 = 0,745 значно перевищує критичне, а отже, гіпотеза про випадковий характер відхилень групових середніх відхиляється. Звязок між глибиною розробки вугільних пластів і фондомісткістю видобутку вугілля з імовірністю 0,95 визнається істотним.
Розглянута процедура перевірки істотності звязку є складовою дисперсійного аналізу, розробленого Р. Фішером. Характеристика критерію Фішера дисперсійне відношення F функціонально повязана з кореляційним відношенням , а тому результати перевірки будуть ідентичні.
7.4. Рангова кореляція
Взаємозвязок між ознаками, які можна зранжувати, передусім на основі бальних оцінок, вимірюється методами рангової кореляції. Рангами називають числа натурального ряду, які згідно зі значеннями ознаки надаються елементам сукупності і певним чином упорядковують її. Ранжування проводиться за кожною ознакою окремо: перший ранг надається найменшому значенню ознаки, останній найбільшому або навпаки. Кількість рангів дорівнює обсягу сукупності. Очевидно, зі збільшенням обсягу сукупності ступінь «розпізнаваності» елементів зменшується. З огляду на те, що рангова кореляція не потребує додержання будь-яких математичних передумов щодо розподілу ознак, зокрема вимоги нормальності розподілу, рангові оцінки щільності звязку доцільно використовувати для сукупностей невеликого обсягу.
Ранги, надані елементам сукупності за ознаками х і у, позначають відповідно Rxj та Ryj. Залежно від ступеня звязку між ознаками певним чином співвідносяться й ранги. При прямому функціональному звязку Rxj = Ryj, тобто відхилення між рангами dj = Rxj Ryj = 0, отже, і сума квадратів відхилень . При зворотному функціональному звязку де n
число рангів. Якщо звязок між ознаками відсутній, являє собою середню арифметичну цих крайніх значень:
,
а отже,
.
Спираючись на зазначену математичну тотожність, К. Спірмен запропонував формулу для коефіцієнта рангової кореляції:
.
Цей коефіцієнт має такі самі властивості, як і лінійний коефіцієнт кореляції: змінюється в межах від 1 до + 1, водночас оцінює щільність звязку та вказує на його напрям.
Визначимо коефіцієнт рангової кореляції за даними експертних оцінок ефективності економіки та ступеня політичного ризику для семи країн з перехідною економікою (табл. 7.7). Оскільки експертні оцінки представлені балами, необхідно провести ранжування країн. За оцінками ефективності економіки країні з найбільшим балом надається ранг 1, з найменшим ранг n = 7. За оцінками ступеня політичного ризику, навпаки, ранг 1 надається країні з найменшим ризиком, а ранг 7 країні з найбільшим ризиком.
Таблиця 7.7
ДО РОЗРАХУНКУ КОЕФІЦІЄНТА РАНГОВОЇ КОРЕЛЯЦІЇ
№ |
Експертні оцінки, балів |
Ранги |
dj = Rxj Ryj |
|||
Ефективність економіки (mах = 10) |
Ступінь політичного ризику (mах = 100) |
Rxj |
Ryj |
|||
1 |
6,6 |
64,5 |
1 |
7 |
6 |
36 |
2 |
5,8 |
57,8 |
2 |
6 |
4 |
16 |
3 |
2,9 |
23,6 |
6 |
1 |
5 |
25 |
4 |
3,4 |
36,2 |
5 |
4 |
1 |
1 |
5 |
4,5 |
45,3 |
3 |
5 |
2 |
4 |
6 |
2,7 |
28,4 |
7 |
2 |
5 |
25 |
7 |
4,2 |
32,7 |
4 |
3 |
1 |
1 |
Разом |
|
|
|
|
|
108 |
Сума квадратів відхилень рангів , а коефіцієнт рангової кореляції
.
Значення коефіцієнта рангової кореляції свідчить про наявність зворотного і досить високого рівня звязку між ефективністю економіки і ступенем політичного ризику. Критичне значення коефіцієнта рангової кореляції (табл. 7.8) для рівня істотності = 0,05 і n = 7 Отже, з імовірністю 0,95 істотність звязку доведено.
Таблиця 7.8
КРИТИЧНІ ЗНАЧЕННЯ КОЕФІЦІЄНТА
РАНГОВОЇ КОРЕЛЯЦІЇ СПІРМЕНА ПРИ = 0,05
Обсяг вибірки n |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
0,90 |
0,83 |
0,71 |
0,64 |
0,60 |
0,56 |
0,53 |
0,50 |
Якщо два і більше елементів сукупності мають однакові значення ознаки, їм надається середній ранг. Нехай, наприклад, друге за розміром значення ознаки мають три елементи сукупності (№ 2, 3, 4), тоді всім їм надається ранг а щільність звязку можна оцінити за формулою лінійного коефіцієнта кореляції.
7.5. Оцінка узгодженості
варіації атрибутивних ознак
Взаємозвязки між атрибутивними ознаками аналізуються на підставі таблиць взаємної спряженості (співзалежності). Як приклад розглянемо табл. 7.9, в якій наведено результати соціологічного опитування населення щодо намірів прилучитися до ринку цінних паперів. Тих, хто не боїться ризикувати, класифікували як ризикованих інвесторів, тих, хто не уявляє ризику без гарантій, обережними, а хто ризику уникає взагалі, неризикованими.
Частоти комбінаційного розподілу респондентів за віком і схильністю до ризику концентруються навколо діагоналі з верхнього лівого кута в нижній правий. Серед молодих більшість готова ризикувати на ринку цінних паперів, у середній віковій групі готовий ризикувати один з пяти, а половина не уявляє ризику без гарантій, у третій віковій групі на одного обережного припадають два неризиковані.
Таблиця 7.9
РОЗПОДІЛ РЕСПОНДЕНТІВ ЗА ВІКОМ І СХИЛЬНІСТЮ ДО РИЗИКУ
Вік х, років |
Тип інвестора у |
Разом fi0 |
||
Ризикований |
Обережний |
Неризикований |
||
1630 |
24 |
12 |
4 |
40 |
3150 |
20 |
50 |
30 |
100 |
51 і більше |
6 |
18 |
36 |
60 |
Разом f0j |
50 |
80 |
70 |
200 |
Характер розподілу частот, концентрація їх уздовж головної діагоналі свідчать про наявність стохастичного звязку між віком і схильністю до ризику.
Оцінка щільності стохастичного звязку ґрунтується на відхиленнях частот (часток) умовного та безумовного розподілів, тобто на відхиленнях фактичних частот fij від теоретичних Fij, пропорційних до підсумкових:
,
де fi0 підсумкові частоти за ознакою x; f0j підсумкові частоти за ознакою ; обсяг сукупності .
Якби схильність до ризику не залежала від віку, то кількість ризикованих серед молоді становила б
,
обережних у другій віковій групі
,
неризикованих у третій віковій групі
.
Абсолютну величину відхилень фактичних частот fij від пропорційних Fij характеризує квадратична спряженість 2 Пірсона:
.
За відсутності стохастичного звязку 2 = 0. На основі розподілу ймовірностей 2 перевіряється істотність звязку. Критичні значення 2 для = 0,05 і числа ступенів свободи k = (mx 1)
(my 1) наведено в табл. 7.10. Так, для k = (3 1) (3 1) = 4 критичне значення Фактичне значення
що значно перевищує критичне, а отже, з імовірністю 0,95 істотність звязку між віком і схильністю до ризику доведено.
Відносною мірою щільності стохастичного звязку слугує коефіцієнт взаємної спряженості (співзалежності). За умови, що mx = my використовують формулу Чупрова:
,
де mx число груп за ознакою x; my число груп за ознакою y. Оскільки за відсутності звязку між ознаками 2 = 0, то і С = 0. При функціональному звязку C 1. У разі, коли mx mx, віддають перевагу коефіцієнту спряженості Крамера:
,
де mmin мінімальне число груп (mx або my).
У нашому прикладі mx = my = 3, а тому наведені формули коефіцієнта взаємної спряженості тотожні:
,
що свідчить про наявність звязку.
Таблиця 7.10
КРИТИЧНІ ЗНАЧЕННЯ
k |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
3,84 |
5,99 |
7,81 |
9,49 |
11,07 |
12,59 |
14,07 |
15,51 |
Якщо обидві взаємозвязані ознаки альтернативні, тобто кількість груп mx = my = 2, то за відсутності звязку добутки діагональних частот однакові: f11 f22 = f12 f21. Саме на відхиленнях добутків частот ґрунтуються характеристики звязку:
,
.
У літературі зі статистики коефіцієнт для 4-клітинкової таблиці називається коефіцієнтом контингенції або асоціації. Очевидно, що за змістом він ідентичний коефіцієнту взаємної спряженості, а з 2 повязаний функціонально: 2 = nC2.
За допомогою коефіцієнта контингенції оцінимо щільність звязку між шкідливою звичкою палити і хворобами легенів (табл. 7.11).
Таблиця 7.11
РОЗПОДІЛ ПАЦІЄНТІВ КЛІНІКИ ЗА РЕЗУЛЬТАТАМИ ЛЕГЕНЕВИХ ПРОБ
Наявність звички палити |
Результати легеневих проб |
Разом |
|
Аномальні |
Нормальні |
||
Палить |
20 |
5 |
25 |
Не палить |
10 |
15 |
25 |
Разом |
30 |
20 |
50 |
.
Значення перевищує критичне . Істотність звязку доведено з імовірністю 0,95.
Корисною мірою при аналізі 4-клітинкових таблиць взаємної спряженості є відношення перехресних добутків або відношення шансів
Відношення шансів характеризує міру відносного ризику.
У нашому прикладі
.
Отже, імовірність легеневих хвороб у тих, хто палить, у 6 разів вища порівняно з тими, хто не палить.
Зауважимо, що методи аналізу таблиць взаємної спряженості можна використати і для кількісних ознак. Будь-які технічні перешкоди відсутні. Проте слід памятати, що коефіцієнт спряженості оцінює лише узгодженість фактичного розподілу з пропорційним. При переставлянні рядків чи стовпців значення коефіцієнта С не зміниться. Міри щільності кореляційного звязку коефіцієнт детермінації R2 і кореляційне відношення 2 оцінюють не лише узгодженість частот, а й порядок, послідовність, в якій поєднуються різні значення ознак. Отже, ці характеристики звязку більш потужні. А загалом вибір методу вимірювання звязку і характеристик його щільності має ґрунтуватись на попередньому теоретичному аналізі суті явищ, характеру взаємозвязків, наявній інформації.
завдання для самоконтролю
1. Зазначте, які з наведених залежностей соціально-економічних явищ є функціональними, а які стохастичними:
2. У наведених парах ознак визначіть факторні і результативні:
а) розмір податку; розмір прибутку;
б) сукупний дохід сімї; заощадження.
3. Як виявляється кореляційний звязок? Поясніть його співвідношення зі стохастичним звязком.
4. Як визначити ефекти впливу фактора на результат за даними аналітичного групування?
5. Аналітичне групування 36 комерційних банків характеризує звязок між розміром капіталу та рівнем його прибутковості. Загальна дисперсія прибутковості капіталу 25, міжгрупова 16, кількість груп 4.
Визначте кореляційне відношення. Поясніть його економічний зміст, перевірте істотність звязку з імовірністю 0,95, зробіть висновки.
6. Які функції в аналізі взаємозвязків виконує рівняння регресії?
7. Звязок між процентною ставкою на міжбанківський кредит, %, та терміном надання кредиту, днів, описується рівнянням регресії Y = 18 + 0,5х. Поясніть зміст параметрів рівняння. Визначіть процентну ставку на 30-денний кредит.
8. Що характеризує коефіцієнт регресії? Чим відрізняється коефіцієнт еластичності від коефіцієнта регресії?
9. Звязок між потужністю вугільного пласта, см, і видобутком вугілля на одного робітника очисного вибою за зміну, т, описується рівнянням регресії Y = 3,6 + 0,15х. Залишкова дисперсія видобутку вугілля становить 1,2, загальна 5,4.
Визначіть коефіцієнт детермінації, поясніть його зміст. Перевірте істотність звязку з імовірністю 0,95.
10. Лінійний коефіцієнт кореляції між рівнем механізації виробничих процесів і продуктивністю праці становить 0,7. Яка частка варіації продуктивності праці залежить від варіації рівня механізації виробничих процесів?
11. Як оцінити щільність нелінійного звязку? Чи можна вважати коефіцієнт детермінації універсальною мірою щільності кореляційного звязку? Будь-яку відповідь обґрунтуйте.
12. За допомогою коефіцієнта рангової кореляції оцініть ступінь узгодженості оцінок двох груп експертів на конкурсі професійної майстерності модельєрів. Висновок зробіть з імовірністю 0,95.
Модельєр |
Ранг, наданий експертами |
|
художниками |
промисловцями |
|
А |
5 |
4 |
В |
1 |
3 |
С |
6 |
5 |
D |
3 |
2 |
F |
2 |
1 |
K |
4 |
6 |
N |
7 |
7 |
13. Результати вибіркового опитування споживачів щодо сприйняття ними реклами товарів такі:
Враження |
Кількість опитаних, що |
Разом |
|
придбали товар |
не придбали товар |
||
Запамятали |
10 |
30 |
40 |
Не запамятали |
2 |
28 |
30 |
Разом |
12 |
58 |
70 |
Оцініть результативність реклами за допомогою відношення шансів, поясніть його економічний зміст.
14. Усі характеристики щільності звязку мають спільні риси. Поясність, які саме.
15. Чим зумовлена необхідність перевірки істотності звязку? Як формулюється нульова гіпотеза? За яких умов вона приймається, а за яких відхиляється?
16. За результатами психодіагностичного тестування дітей частина з них за емоційним станом потребує уваги психологів.
Сімейний стан |
Емоційний стан дитини |
Разом |
|
у нормі |
відхилення від норми |
||
Повна сімя |
90 |
10 |
100 |
Неповна сімя |
60 |
20 |
80 |
Разом |
150 |
30 |
180 |
За допомогою коефіцієнта контингенції визначіть ступінь залежності емоційних відхилень у дітей від сімейного стану. Висновок зробіть з імовірністю 0,95.
118