Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Заняття № 6 Порівняння двох обєктів.
Два обєкти (дві вибірки даних) найчастіше порівнюють за середнім значенням, дисперсією та характером частотного розподілу. Для центрів розподілу (середніх значень) використовують параметричний критерій Велча або непараметричний критерій Вілкоксона. Аналогіно дисперсії (характер розсіяння) порівнюють з допомогою критеріїв Фішера (параметричний) або Сіджела-Тюкі (непараметричний). Параметричні критерії працюють з точковими оцінками математичного сподівання та дисперсії, а непараметричні з рангами. Тому критерії Велча і Фішера легко реалізувати з допомогою стандартних функції електронних таблиць, а для критеріїв Вілкоксона та Сіджела-Тюкі потрібно написати спеціальні функції (користувача), оскільки стандартна функція EXCEL для обчислення рангів працює некоректно (а саме, для кількох однакових чисел у вибірці ранг кожного буде дорівнювати рангу одиночно взятого елемента, а не усередненому значенню для всіх рівних елементів.
Для виконання лабораторної роботи, згідно з вказаним варіантом, вибираємо дві вибірки (див. ЗАНЯТТЯ №1). У нас, наприклад, це вміст Ni у першій та другій зонах. Тобто порівнюватимемо вміст цього хімічного елемента у ґрунті на двох територіях. Як правило, ці 2 вибірки мають різну (подекуди значно) кількість елементів. Зручно проформатувати клітинки з даними рівзних вибірок різними кольорами, а тоді побудувати обєднану вибірку (третій стовпець) методом копіювання та вставки. Четвертий стовпчик міститиме мітки вибірок (наприклад, "A" (англ.) для першої вибірки, та "B" (англ.) для другої), які легко отримати методом розмноження ("розтягування" клітинки за правий нижній кут тонкий хрест вниз). Обєднана вибірка і мітки використовуватимуться для непараметричних критеріїв.
На підготовчому етапі зручно також визначити головні статистичні характеристики двох обєктів: кількість, середнє, стандартне відхилення, дисперсію та медіану, рис. 1 (див. також ЗАНЯТТЯ №2).
Наступний крок це перевірка гіпотези про рівність середніх за критерієм Велча, див. рис. 1, ЗАДАЧА 1. Обчислюємо статистику (у клітинці L14)
=ABS(K8-L8)/КОРЕНЬ(K11/K7+L11/L7),
де K8,L8 середні значення Ni у двох зонах, а
K11, L11 незміщені оцінки дисперсії для двох вибірок обємом K7 і L7.
У клітинку, що містить значення рівня значущості, введемо 0,05 (5%-й допуск для помилки першого роду) та порахуємо ступені вільності обєднаної вибірки:
=K7+L7-2 .
Нарешті, знаходимо критичне значення розподілу Стюдента для заданого рівня значущості L15 та ступенів вільності L16
=СТЬЮДРАСПОБР(L15;L16)
Перевірку критерію завершуємо функцією порівняння значення статистики L14 та критичного значення L17:
=ЕСЛИ(L14<=L17;"вірна";"хибна")
Одне з слів "вірна" або "хибна" програмно завершує фразу про істинність гіпотези, що перевіряємо: "Гіпотеза: середнє1=середнє2 ?".
Цю ж задачу можна розглянути в рамках непараметричного критерію Вілкоксона. Попередньо ознайомимося з функцією (користувача)
=ClassicRanges(C2:C152) .
Це формула масиву, яку вводимо в діапазон клітинок, де потрібно отримати значення рангів у класичному значенні (з усередненням для однакових елементів). Аргументом цієї функції є обєднана вибірка у стовпці C. Для порівняння скористаємося також стандартною EXCEL-функцією РАНГ, щоб порахувати ранг першого елемента C2 у діапазоні $C$2:$C$152 (третій параметр 1 вказує на впорядкування за зростанням):
=РАНГ(C2;$C$2:$C$152;1) ,
а решту значень рангів отримаємо методом розтягнення (тому в діапазоні треба вказувати перед номерами рядків знак "$").
Оформимо табличку з результатами розвязання ЗАДАЧІ №2. З допомогою функції ЕСЛИ визначимо обєм меншою m та більшої n з вибірок відповідно (як інакше можна виконати цей пункт?):
=ЕСЛИ(K7<=L7;K7;L7) ,
=ЕСЛИ(K7>=L7;K7;L7) .
Виберемо мітку меншої за обємом вибірки (у нас, це "A"):
=ЕСЛИ(K7<=L7;D2;D53) .
Тепер з допомогою умовного сумування (функція СУММЕСЛИ має 3 аргументи: діапазон міток, мітку елементів, які враховано в сумі, та сам діапазон сумування) знаходимо статистику Вілкоксона, тобто суму рангів меншої з вибірок
=СУММЕСЛИ(D2:D152;L23;E2:E152) .
Відмітимо, що функція користувача ClassicRanges дає суттєву корекцію результату з використанням стандартної функції РАНГ (у нас, 3697 проти 3145). Зауважимо також, що оскільки елементи вибірок "A" і "B" в обєднаній вибірці не перемежовувалися, то замість функції СУММЕСЛИ той же результат можна отримати й функцією СУММ з вказаним діапазоном даних вибірки (у нас, "A") для сумування.
Залишилося знайти критичні значення статистики Вілкоксона. Задаємо рівень значущості 0,05 (клітинка L25), обрахуємо вираз m*(m+n-1), m<n (клітинка L26)
=L21*(L21+L22-1) .
та обраховуємо праве симетричне значення нормального закону розподілу для заданого рівня значущості
=НОРМСТОБР(1-L25/2)
З використанням цього значення знаходимо ліве W1 (клітинка L28) і праве W2 (клітинка L29) критичні значення розподілу Вілкоксона
=0,5*L26-L27*КОРЕНЬ(L22*L26/12)
=L26-L28
Критерієм прийняття гіпотези про рівність середніх є знаходнення статистики Вілкоксона в інтервалі критичних значень
=ЕСЛИ(И($L28<=M24;M24<=$L29);"вірна";"хибна") .
Тут для подвійної нерівності використано логічну функцію И, тобто одночасне виконання двох умов: W1<=W і W<=W2.
Подальший розвиток методу розвязування цієї задачі зводиться до використання функції користувача
=Wilk2(A2:A52;B2:B101) ,
де аргументами є окремо перша і друга вибірки. Тобто всі попередні обчислення автоматизовано, і бачимо всі переваги розробки окремих нестандартних функцій на мові VBA (Visual Basic for Application).
ЗАДАЧА №3 полягає в перевірці гіпотези про однаковий характер розсіяння даних за критерієм Фішера. Статистика Фішера F дорівнює відношення незміщених оцінок дисперсій двох вибірок, причому в чисельнику стоїть більша з них, а тому завжди F>=1. Маємо формулу
=МАКС(K9;L9)/МИН(K9;L9)
Критичне значення розподілу Фішера (клітинка L39)
=FРАСПОБР(L36;L37;L38)
знаходимо для заданого рівня значущості 0,05 (клітинка L36) та ступенів вільності чисельника (клітинка L37)
=ЕСЛИ(K11>=L11;K7;L7)-1
й знаменника (клітинка L38) відповідно
=ЕСЛИ(K11>=L11;L7;K7)-1 .
Тут в останніх трьох формулах, реалізовано програмний вибір більшої з дисперсій для чисельника та відповідних їй ступенів вільності. маючи критичне значення, перевіряємо гіпотезу про рівність дисперсій
=ЕСЛИ(L35<=L39;"вірна";"хибна") .
Другий варіант (ЗАДАЧА №3.2) теж перевіряє критерій Фішера, але для безрозмірних величин коефіцієнтів варіації. Змінюються лише оцінки для чисельника й знаменника статистики Фішера, виражені через коефіцієнти варіації:
=K10^2/(K10^2+1)*K7/(K7+1)
для першої вибірки (коефіцієнт варіації знаходиться у клітинці K10, обєм вибірки у клітинці K7), а також
=L10^2/(L10^2+1)*L7/(L7+1)
для другої вибірки (коефіцієнт варіації і обєм вибірки знаходяться у клітинках L10, у клітинці L7). Далі розвязування задачі повторює алгоритм попередньої ЗАДАЧІ №3.1.
ЗАДАЧА №4 цієї лабораторної роботи полягає в обчисленні критерію Сіджела-Тюкі. Підготовчий етап полягає у побудові відхилень від медіанних значень елементів першої та другої вибірок (центрування вибірок), стовпець G, а тоді вже обчисленні рангів з використанням формули масиву
=ClassicRanges(G2:G152;1;1) .
На відміну від критерію Вілкоксона, тут потрібно явно вказати другий та третій аргументи цієї функції, що дорівнюють 1 (TRUE). "1" у другій позиції вказує на необхідність усереднення рангів для однакових значень, а у третій позиції на доцентровому переборі вибірки (тільки для критерію Сіджела-Тюкі). Ці параметри мають значення за замовчуванням, рівні 1 і 0 відповідно, що й використовувалися в критерії Вілкоксона у варіанті функції з одним, першим параметром. Далі алгоритм повторює кроки для розвязування ЗАДАЧІ №2.
Нарешті, перевіримо гіпотезу про однаковий характер частотного розподілу для двох вибірок. За винятком необхідності обчислення частот як першої, так і другої вибірок, алгоритм розвязування цієї ЗАДАЧІ №5 аналогічний до ЗАДАЧІ про перевірку узгодженості даних вибірки заданому теоретичному розподілу з допомогою критерії хі-квадрат (див. ЗАНЯТТЯ № 5). Замість теоретичних значень частот використовуємо частоти другої вибірки. Тому пропонується виконати задачу самостійно за наведеним зразком (EXCEL-файл додається, Лист "2 obj").