Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Задачі кореляційного аналізу
Кореляційний аналіз це статистичне дослідження (стохастичної) залежності між випадковими величинами (англ. correlation взаємозвязок). У найпростішому випадку досліджують дві вибірки (набори даних), у загальному багатовимірні комплекси (групи) геологічних параметрів або обєктів.
Часто звязок між різними властивостями геологічних обєктів узагалі не піддається поясненню з генетичного чи причинно-наслідкового поглядів, оскільки спостережувані взаємозалежності можуть бути повязані не з досліджуваними геологічними процесами, а, наприклад, з методикою вимірювання або іншими причинами. З іншого боку, вивчення взаємозвязків між значеннями властивостей (параметрів вимірювання) геологічних обєктів сприяє виявленню та глибшому розумінню суті явищ, зясуванню важливих факторів, що впливають на досліджуваний процес. Оскільки в переважній кількості випадків функціональні залежності між досліджуваними параметрами невідомі, дуже складні та недостатньо вивчені, то статистичні методи (кореляційний аналіз) є важливими для опису та моделювання (прогнозування) багатьох геологічних процесів.
Мірою залежності між експериментальними наборами даних є числа коефіцієнти звязку.
Для кожного з різновидів геологічної інформації (якісної, порядкової чи кількісної) є свої особливості оцінки кореляції даних. Відповідно, є коефіцієнти кореляції якісних (дихотомних) даних або порядкових даних (наприклад, ранговий коефіцієнт кореляції Спірмена). Найбільш інформативною є кількісна інформація, отримана на інтервальній або відносній шкалі.
Найчастіше використовують парні коефіцієнти кореляції, що слугують для виявлення лінійного звязку між двома наборами даних. Є й інші міри звязку (коефіцієнти кореляції), які використовують у кореляційному аналізі. Вони описані в спеціальній літературі [4].
Головні завдання кореляційного аналізу:
1) оцінка за вибірковими даними коефіцієнтів кореляції;
2) перевірка значущості вибіркових коефіцієнтів кореляції або кореляційного відношення;
3) оцінка близькості виявленого звязку до лінійного;
4) побудова довірчого інтервалу для коефіцієнтів кореляції.
Найпростіша для дослідження парна кореляція, решту побудована на її основі. Парний коефіцієнт кореляції стосується лінійної моделі звязку між даними, у складніших випадках досліджують нелінійну кореляцію, а мірою нелінійного звязку є кореляційне відношення. Якщо існує лінійний звязок, то він буде виявлений і як нелінійна кореляція. Навпаки, існування звязку взагалі не є підставою стверджувати про наявність лінійного звязку. Отже, нелінійна кореляція сильніша властивість, а лінійна кореляція є частковим випадком нелінійної кореляції (або кореляції в загальному випадку).
Нехай задано дві вибірки (обовязково з однаковою кількістю даних), що відображають дві випадкові величини :
;
.
Коефіцієнт парної кореляції визначають як коваріацію, нормовану за стандартними відхиленнями випадкових величин
. (3.1)
Інші еквівалентні формули використовують математичні сподівання та дисперсії
. (3.2)
1. Коефіцієнт кореляції є в межах від -1 до +1.
. (3.3)
Якщо (x, y) > 0, то кореляція пряма, а якщо (x, y) < 0 зворотна. Пряма кореляція: більшим значенням випадкової змінної x відповідають більші значення y; зворотна кореляція: більшим значенням x відповідають менші y і навпаки, більшим y менші x.
2. Симетрія
(x, y) = (y, x) . (3.4)
3. Якщо x та y повязані лінійним функціональним звязком y(x) = a + bx, a і b сталі, то , і навпаки .
4. Якщо випадкові змінні лінійно незалежні, то (x, y) = 0, і навпаки.
Останні дві властивості можна сформулювати як необхідну й достатню умови, причому критерієм залежності випадкових величин x і y є відмінність коефіцієнта кореляції від нуля: .
Розрізняють істинний коефіцієнт кореляції (x, y) та його оцінку за вибіркою r(x, y) < 0, що є випадковим числом. Вибірковий коефіцієнт кореляції знаходять за формулою
. (3.5)
Для малого обсягу даних значення r буде заниженим порівняно з істинним коефіцієнтом кореляції . Тому для n < 10 рекомендують використовувати уточнену оцінку
. (3.6)
Графічно дані для кореляційного аналізу зображають у вигляді кореляційного поля, тобто точок на площині, кожна з яких має координати (рис. 3.1).
а б
Рис. 3.1. Візуальна оцінка характеру кореляційного звязку за кореляційним полем: а пряма кореляція, r > 0; б зворотна кореляція, r < 0.
Для прямої кореляції характерною тенденцією є збільшення одного з параметрів, якщо збільшується інший, а для оберненої, навпаки: збільшення одного супроводжується, як звичайно, зменшенням іншого. Причиною фіктивної кореляції (тобто такої, що спостережена, але не властива природним обєктам) може бути неоднорідність сукупності даних, які відображають два різні обєкти (рис. 3.2). Іноді методика дослідження впливає на створення видимості звязку там, де його немає. Наприклад, якщо вимірювати довжину і ширину без урахування орієнтації зразків, то всі точки кореляційного поля лежатимуть у секторі від 0 до 45° (замість сектора 090°), що помилково можна сприйняти як наявність деякого звязку (рис. 3.3).
Рис. 3.2. Некорельовані дані, r = 0 і фіктивна кореляція (неоднорідні дані).
Рис. 3.3. Несправжня (наведена) кореляція:
1 істинні вимірювання; 2 перетворені дані.
Перевірка гіпотези про значущість коефіцієнта кореляції
Згідно зі схемою статистичного доведення виконуємо таке.
1. Нульова гіпотеза: лінійного звязку немає, тоді істинний коефіцієнт кореляції дорівнює нулю:
: (3.7)
за двосторонньої альтернативи
: . (3.8)
2. Вибираємо , наприклад, .
3. Обчислюємо вибірковий коефіцієнт кореляції r і будуємо статистику
. (3.9)
4. Ця статистика має розподіл Стьюдента з ступенями вільності, а для n > 60 можна використовувати й стандартний закон розподілу.
5. Знаходимо критичні значення статистики, тобто квантилі розподілу Стьюдента (чи стандартного для великих вибірок) для заданого рівня значущості . Для маємо
, (3.10)
а для n > 60 наближену формулу
, (3.11)
де обернена функція стандартного закону розподілу.
6. Перевіряємо критерій: якщо , то нульову гіпотезу відхиляємо, тобто існує суттєвий лінійний звязок між даними (дані корелюють).
На практиці зручнішою є формула, яка дає критичне значення самого коефіцієнта кореляції. З рівняння статистики можна визначити
|
. |
(3.12) |
Ця формула дає змогу один раз відшукати критичне значення коефіцієнта кореляції (для фіксованого і n) і використовувати його в наступній серії порівнянь парних коефіцієнтів кореляції з критичним, наприклад, для перевірки на значущість коефіцієнтів кореляційної матриці.
Зауваження. Для перевірки значущості коефіцієнта кореляції можна використовувати й інші статистики. Наприклад,
|
або |
|
(3.13) |
в умовах нульової гіпотези мають F-розподіл (Фішера) зі ступенями вільності (1, n 2) для першої або (n 2, n 2) для другої функції (3.13), відповідно.
Кореляційна матриця
Нехай маємо групу з випадкових змінних (досліджуваних параметрів), що представлені вибірками обсягу кожна. Для усіх можливих різних пар індексів можна обчислити парні коефіцієнти кореляції . Для , тобто для двох ідентичних наборів, можна прийняти , що відповідає лінійній функціональній залежності (тотожності) для всіх пар значень у вибірках. Коефіцієнти кореляції запишемо у вигляді підсумкової симетричної матриці :
|
. |
(3.14) |
Після перевірки кожного з коефіцієнтів на значущість (достатньо це зробити для елементів матриці над головною діагоналлю) і заміни коефіцієнтів, що менше , нулем, “очищена” кореляційна матриця відображає “справжні” статистично значимі звязки між змінними.
Аналіз структури кореляційної матриці є дуже важливим методом для виявлення, наприклад, парагенетичних асоціацій у геохімічних дослідженнях [5], а також основою інших методів аналізу (наприклад, факторного). З огляду на це часто виникає завдання порівняти різні коефіцієнти кореляції. Оскільки істинні коефіцієнти кореляції та невідомі, то рішення ухвалюють, користуючись їхніми вибірковими оцінками та на підставі статистичного доведення.
1. Формулюємо нульову гіпотезу про рівність коефіцієнтів кореляції
: (3.15)
та альтернативну їй
: . (3.16)
2. Вибираємо рівень значущості .
3. Оскільки розподіл коефіцієнтів кореляції за умови має значну асиметрію, то використовуємо перетворені величини
|
|
(3.17) |
і будуємо статистику
|
, . |
(3.18) |
4. В умовах гіпотези статистика має асимптотично нормальний розподіл з нульовим середнім та дисперсією, що дорівнює 1.
5. Знаходимо критичні значення статистики, тобто квантилі стандартного нормального розподілу, наприклад, для маємо .
6. Якщо
|
, |
(3.19) |
то гіпотеза про рівність коефіцієнтів не суперечить вибірковим даним (для заданого ).