У вас вопросы?
У нас ответы:) SamZan.net

наслідкового поглядів оскільки спостережувані взаємозалежності можуть бути пов~язані не з досліджуваними

Работа добавлена на сайт samzan.net: 2016-03-30

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Имя

Выберите тип работы:

Принимаю Политику конфиденциальности

Скидка 25% при заказе до 6.7.2025

Задачі кореляційного аналізу

Кореляційний аналіз – це статистичне дослідження (стохастичної) залежності між випадковими величинами (англ. correlation – взаємозв’язок). У найпростішому випадку досліджують дві вибірки (набори даних), у загальному – багатовимірні комплекси (групи) геологічних параметрів або об’єктів.

Часто зв’язок між різними властивостями геологічних об’єктів узагалі не піддається поясненню з генетичного чи причинно-наслідкового поглядів, оскільки спостережувані взаємозалежності можуть бути пов’язані не з досліджуваними геологічними процесами, а, наприклад, з методикою вимірювання або іншими причинами. З іншого боку, вивчення взаємозв’язків між значеннями властивостей (параметрів вимірювання) геологічних об’єктів сприяє виявленню та глибшому розумінню суті явищ, з’ясуванню важливих факторів, що впливають на досліджуваний процес. Оскільки в переважній кількості випадків функціональні залежності між досліджуваними параметрами невідомі, дуже складні та недостатньо вивчені, то статистичні методи (кореляційний аналіз) є важливими для опису та моделювання (прогнозування) багатьох геологічних процесів.

Мірою залежності між експериментальними наборами даних є числа – коефіцієнти зв’язку.

Для кожного з різновидів геологічної інформації (якісної, порядкової чи кількісної) є свої особливості оцінки кореляції даних. Відповідно, є коефіцієнти кореляції якісних (дихотомних) даних або порядкових даних (наприклад, ранговий коефіцієнт кореляції Спірмена). Найбільш інформативною є кількісна інформація, отримана на інтервальній або відносній шкалі.

Найчастіше використовують парні коефіцієнти кореляції, що слугують для виявлення лінійного зв’язку між двома наборами даних. Є й інші міри зв’язку (коефіцієнти кореляції), які використовують у кореляційному аналізі. Вони описані в спеціальній літературі [4].

Головні завдання кореляційного аналізу:

1) оцінка за вибірковими даними коефіцієнтів кореляції;

2) перевірка значущості вибіркових коефіцієнтів кореляції або кореляційного відношення;

3) оцінка близькості виявленого зв’язку до лінійного;

4) побудова довірчого інтервалу для коефіцієнтів кореляції.

Парна кореляція

Найпростіша для дослідження парна кореляція, решту побудована на її основі. Парний коефіцієнт кореляції стосується лінійної моделі зв’язку між даними, у складніших випадках досліджують нелінійну кореляцію, а мірою нелінійного зв’язку є кореляційне відношення. Якщо існує лінійний зв’язок, то він буде виявлений і як нелінійна кореляція. Навпаки, існування зв’язку взагалі не є підставою стверджувати про наявність лінійного зв’язку. Отже, нелінійна кореляція – сильніша властивість, а лінійна кореляція є частковим випадком нелінійної кореляції (або кореляції в загальному випадку).

Нехай задано дві вибірки (обов’язково з однаковою кількістю даних), що відображають дві випадкові величини :

;
.

Коефіцієнт парної кореляції визначають як коваріацію, нормовану за стандартними відхиленнями випадкових величин

. (3.1)

Інші еквівалентні формули використовують математичні сподівання та дисперсії

. (3.2)

Властивості коефіцієнта кореляції

1. Коефіцієнт кореляції є в межах від -1 до +1.

. (3.3)

Якщо (x, y) > 0, то кореляція пряма, а якщо (x, y) < 0 – зворотна. Пряма кореляція: більшим значенням випадкової змінної x відповідають більші значення y; зворотна кореляція: більшим значенням x відповідають менші y і навпаки, більшим y – менші x.

2. Симетрія

(x, y) = (y, x) . (3.4)

3. Якщо x та y пов’язані лінійним функціональним зв’язком y(x) = a + bx, a і b – сталі, то , і навпаки .

4. Якщо випадкові змінні лінійно незалежні, то (x, y) = 0, і навпаки.

Останні дві властивості можна сформулювати як необхідну й достатню умови, причому критерієм залежності випадкових величин x і y є відмінність коефіцієнта кореляції від нуля: .

Вибірковий коефіцієнт кореляції

Розрізняють істинний коефіцієнт кореляції (x, y) та його оцінку за вибіркою r(x, y) < 0, що є випадковим числом. Вибірковий коефіцієнт кореляції знаходять за формулою

. (3.5)

Для малого обсягу даних значення r буде заниженим порівняно з істинним коефіцієнтом кореляції . Тому для n < 10 рекомендують використовувати уточнену оцінку

. (3.6)

Кореляційне поле

Графічно дані для кореляційного аналізу зображають у вигляді кореляційного поля, тобто точок на площині, кожна з яких має координати (рис. 3.1).

а б

Рис. 3.1. Візуальна оцінка характеру кореляційного зв’язку за кореляційним полем: а – пряма кореляція, r > 0; б – зворотна кореляція, r < 0.

Для прямої кореляції характерною тенденцією є збільшення одного з параметрів, якщо збільшується інший, а для оберненої, навпаки: збільшення одного супроводжується, як звичайно, зменшенням іншого. Причиною фіктивної кореляції (тобто такої, що спостережена, але не властива природним об’єктам) може бути неоднорідність сукупності даних, які відображають два різні об’єкти (рис. 3.2). Іноді методика дослідження впливає на створення видимості зв’язку там, де його немає. Наприклад, якщо вимірювати довжину і ширину без урахування орієнтації зразків, то всі точки кореляційного поля лежатимуть у секторі від 0 до 45° (замість сектора 0–90°), що помилково можна сприйняти як наявність деякого зв’язку (рис. 3.3).

Рис. 3.2. Некорельовані дані, r = 0 і фіктивна кореляція (неоднорідні дані).

Рис. 3.3. Несправжня (наведена) кореляція:

1 – істинні вимірювання; 2 – перетворені дані.

Перевірка гіпотези про значущість коефіцієнта кореляції

Згідно зі схемою статистичного доведення виконуємо таке.

1. Нульова гіпотеза: лінійного зв’язку немає, тоді істинний коефіцієнт кореляції дорівнює нулю:

: (3.7)

за двосторонньої альтернативи

: . (3.8)

2. Вибираємо , наприклад, .

3. Обчислюємо вибірковий коефіцієнт кореляції r і будуємо статистику

. (3.9)

4. Ця статистика має розподіл Стьюдента з ступенями вільності, а для n > 60 можна використовувати й стандартний закон розподілу.

5. Знаходимо критичні значення статистики, тобто квантилі розподілу Стьюдента (чи стандартного для великих вибірок) для заданого рівня значущості . Для маємо

, (3.10)

а для n > 60 – наближену формулу

, (3.11)

де – обернена функція стандартного закону розподілу.

6. Перевіряємо критерій: якщо , то нульову гіпотезу відхиляємо, тобто існує суттєвий лінійний зв’язок між даними (дані корелюють).

На практиці зручнішою є формула, яка дає критичне значення самого коефіцієнта кореляції. З рівняння статистики можна визначити

(3.12)

Ця формула дає змогу один раз відшукати критичне значення коефіцієнта кореляції (для фіксованого і n) і використовувати його в наступній серії порівнянь парних коефіцієнтів кореляції з критичним, наприклад, для перевірки на значущість коефіцієнтів кореляційної матриці.

Зауваження. Для перевірки значущості коефіцієнта кореляції можна використовувати й інші статистики. Наприклад,

або

(3.13)

в умовах нульової гіпотези мають F-розподіл (Фішера) зі ступенями вільності (1, n – 2) для першої або (n – 2, n – 2) для другої функції (3.13), відповідно.

Кореляційна матриця

Нехай маємо групу з випадкових змінних (досліджуваних параметрів), що представлені вибірками обсягу кожна. Для усіх можливих різних пар індексів можна обчислити парні коефіцієнти кореляції . Для , тобто для двох ідентичних наборів, можна прийняти , що відповідає лінійній функціональній залежності (тотожності) для всіх пар значень у вибірках. Коефіцієнти кореляції запишемо у вигляді підсумкової симетричної матриці :

(3.14)

Після перевірки кожного з коефіцієнтів на значущість (достатньо це зробити для елементів матриці над головною діагоналлю) і заміни коефіцієнтів, що менше , нулем, “очищена” кореляційна матриця відображає “справжні” статистично значимі зв’язки між змінними.

Аналіз структури кореляційної матриці є дуже важливим методом для виявлення, наприклад, парагенетичних асоціацій у геохімічних дослідженнях [5], а також основою інших методів аналізу (наприклад, факторного). З огляду на це часто виникає завдання порівняти різні коефіцієнти кореляції. Оскільки істинні коефіцієнти кореляції та невідомі, то рішення ухвалюють, користуючись їхніми вибірковими оцінками та на підставі статистичного доведення.

1. Формулюємо нульову гіпотезу про рівність коефіцієнтів кореляції

: (3.15)

та альтернативну їй

: . (3.16)

2. Вибираємо рівень значущості .

3. Оскільки розподіл коефіцієнтів кореляції за умови має значну асиметрію, то використовуємо перетворені величини

(3.17)

і будуємо статистику

, .

(3.18)

4. В умовах гіпотези статистика має асимптотично нормальний розподіл з нульовим середнім та дисперсією, що дорівнює 1.

5. Знаходимо критичні значення статистики, тобто квантилі стандартного нормального розподілу, наприклад, для маємо .

6. Якщо

(3.19)

то гіпотеза про рівність коефіцієнтів не суперечить вибірковим даним (для заданого ).

1. действия техносферы носит во многом правовой характер
2. Греция
3. а I nevS электронная теория проводимости R ~ ; ~ ~0 1 ~ t I
4. вариант общественной и государственной организации который позволяет навести порядок в обществе вышедшем
5. начале науки Основные этапы исторического развития науки
6. Подготовка населения в области защиты населения от ЧС
7. Нестор Махно легенды и действительность
8. История развития музыкальных вкусов молодежи 60-70г
9. лейтенант служби цивільного захисту М
10. Вплив самоточних захворювань на психіку людини.html

Материалы собраны группой SamZan и находятся в свободном доступе