Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

Подписываем
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Предоплата всего
Подписываем
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
ОДЕСЬКИЙ ДЕРЖАВНИЙ ЕКОНОМІЧНИЙ УНІВЕРСИТЕТ
В.М.МАЦКУЛ
ТЕОРІЯ ЙМОВІРНОСТЕЙ ТА МАТЕМАТИЧНА СТАТИСТИКА.
НАВЧАЛЬНИЙ ПОСІБНИК
для студентів ОДЕУ денної форми навчання усіх спеціальностей
Одеса 2010
УДК 519.2
ББК 22.17я73
М 36
Рецензенти:
С.В.Левинський кандидат фізико-математичних наук, доцент кафедри математичних методів аналізу економіки ОДЕУ;
Є.В.Орлов кандидат фізико-математичних наук, доцент кафедри математичних методів аналізу економіки ОДЕУ;
О.В.Проценко кандидат фізико-математичних наук, доцент кафедри математичних методів аналізу економіки ОДЕУ.
Автор: В.М.Мацкул - кандидат фізико-математичних наук, доцент
Теорія ймовірностей та математична статистика: навчальний посібник для стедентів ОДЕУ денної форми навчання усіх спеціальностей.- Одеса: ОДЕУ, 2010.- 150 с.
Затверджено на засіданні
кафедри ММАЕ. Протокол №1
30.08.2010р.
Навчальний посібник містить теоретичний матеріал курсу «Теорія ймовірностей та математична статистика», що викладається студентам ОДЕУ (у вигляді опорного конспекта лекцій), варіанти індивідуальних завдань, а також набір прикладів для проведення практичних занять.
Зміст
ТеМА №1: Вступ. Елементи комбінаторики. Класифікація подій. Класичне означення імовірності. Статистичне означення імовірності. Геометричне означення імовірності........................................................... |
5 |
ТеМА №2: Події залежні та незалежні. Умовна імовірність. Теорема добутку та наслідки з неї. Теорема додавання та наслідки з неї. Формула повної імовірності. Імовірність гіпотез. Формули Байєса.......... |
15 |
ТЕМА №3: Дискретні випадкові величини (ДВВ). Закон розподілу ДВВ. Операції над незалежними ДВВ. Математичне сподівання ДВВ та його властивості. Дисперсія ДВВ та її властивості. Середнє квадратичне відхилення. Початкові та центральні моменти розподілу та повязані з ними числові характеристики ДВВ............................................................ |
23 |
ТЕМА №4: Незалежні повторні випробування (НПВ). Формула Бернуллі. Біноміальний закон розподілу (закон Бернуллі). Числові характеристики біноміально розподілених ВВ. Найімовірніша частота (мода). Локальна теорема Лапласа. Закон рідкісних подій (закон Пуассона). Проста (Пуассонівська) течія подій. Геометричний та гіпергеометричний розподіли.................................................................... |
35 |
ТЕМА №5: Інтегральна функція розподілу та її властивості. Диференціальна функція розподілу та її властивості. Числові характеристики неперервних випадкових величин (НВВ). Закон рівномірного розподілу. Показниковий розподіл. Нормальний закон розподілу. Деякі розподіли, повязані з нормальним................................. |
43 |
ТЕМА №6: Закон великих чисел. Нерівності Маркова та Чебишова. Частинні випадки нерівності Чебишова. Збіжність за імовірністю. Теорема Бернуллі. Теорема Чебишова. Центральна гранична теорема. Інтегральна теорема Муавра-Лапласа та її частинні випадки...................................................................................................... |
57 |
ТЕМА №7: Система випадкових величин. Закон розподілу двохвимірної ДВВ. Функції розподілу двохвимірної ВВ. Залежність та незалежність ВВ. Числові характеристики двохвимірної ВВ. Функції ВВ та їх характеристики................................................................................................................................ |
64 |
ТЕМА №8: Предмет математичної статистики. Статистичні сукупності (генеральна та вибіркова). Способи відбору. Проста випадкова вибірка. Впорядкування даних та їх розподіл. Числові характеристики статистичних розподілів. Точкові та інтервальні оцінки параметрів статистичних розподілів, вимоги до цих оцінок......................................... |
74 |
ТЕМА №9: Статистичні гіпотези та їх різновиди. Похибки перевірки гіпотез. Критерії узгодження для перевірки гіпотез. Критична область та її знаходження. Критерій узгодження Пірсона «хі-квадрат»( ).... |
95 |
ТЕМА №10: Функціональна, статистична та кореляційна (регресійна) залежності. Проста лінійна регресія. Основні положення. Оцінка щільності звязку між змінними. Коефіцієнт кореляції. Адекватність моделі. Прогнозування................................................................................ |
99 |
ТЕМА №11: Множинний регресійний аналіз. Багатофакторна лінійна регресія. Кореляційна матриця та її вибіркова оцінка. Оцінка взаємозвязку змінних. Перевірка значущості рівняння множинної регресії (адекватності моделі)................................................................... |
111 |
Практичні заняття....................................................................................... |
116 |
Література.................................................................................................. |
137 |
Додатки......................................................................................................... |
138 |
ТеМА №1
Задача будь-якої науки полягає у зясуванні та дослідженні закономірностей, яким підкоряються реальні процеси. Виявлення та дослідження закономірностей економічних процесів мають як теоретичне, пізнавальне значення так і широке застосування у плануванні, управлінні та прогнозуванні. Зазвичай на економічні та соціально-економічні процеси впливають різноманітні фактори. У переважній більшості випадків закономірності можуть бути виявлені при цілеспрямованому статистичному дослідженні масових явищ, яке полягає у збиранні даних, їх систематизації і упорядкуванні. Оскільки спостережуваний процес або явище підлягають впливу множини факторів, то їх індивідуальні прояви будуть різнитися. Тільки у масових сукупностях обєктів спостережень проявляються загальні закономірності, у формування яких кожна одиниця сукупності вносить свій «вклад».
Теорія імовірностей це розділ математики, який вивчає закономірності масових випадкових явищ. Її предметом є дослідження взаємозвязків між випадковими подіями, характеристик величин, числові значення яких змінюються в залежності від випадка, закономірностей поведінки масивів таких випадкових величин. Основним методом теорії імовірностей є побудова ймовірносних моделей, які є частинними випадками математичних моделей.
Предметом математичної статистики є засоби та прийоми наукового аналізу даних, що відносяться до масових явищ, з метою визначення деяких узагальнюючих ці дані характеристик і виявлення статистичних закономірностей. Основним методом є вибірковий метод.
Елементи комбінаторики.
Уявимо собі деяку сукупність елементів певної природи множину. Досить поширеними є задачі складання із елементів скінченних множин комбінацій (або груп) за певними правилами відбору елементів у ці комбінації.
Задачі визначення кількості комбінацій та пошуку алгоритмів для побудови таких комбінацій відносяться до основних задач розділу математики, що називається комбінаторним аналізом або комбінаторикою.
Основними правилами комбінаторики є:
Правило добутку. Нехай потрібно виконати одна за одною деякі дій. Якщо кожну із цих дій можна виконати способами, то усі дій разом можуть бути виконані способами.
Для скінченних множин: якщо маємо дві множини . Тоді множина усіх можливих пар містить елементів.
Правило суми. Якщо дві дії взаємно виключають одна одну, причому одну із них можна виконати способами, а іншу - способами. Тоді виконати хоча б одну із цих дій можна способами.
Для скінченних множин: якщо для двох множин і (див.вище) , то множина містить елементів.
Приклади: а) із міста А у місто В вантаж можна доставляти 6 шляхами, а з міста В до міста С 4 шляхами (див. рис.а) ). Скількома маршрутами можна доставити вантаж з міста А до міста С?
б) додамо до попередніх умов місто Г (див.рис.б) ). Скількома маршрутами можна доставити вантаж з міста А до міста С?
в) банк пропонує наступні кредити: 5 піврічних під 20% річних, 3 річних під 25% річних та 4 півторарічних під 30% річних. Скількома способами можна взяти два різних кредити?
Рис. а)
Рис. б)
Розвязування:
а) вибравши один із 6 шляхів з А до В, далі можемо доставляти вантаж одним із 4 шляхів із В до С. За правилом добутку дістанемо різних маршрутів доставки вантажу із А до С.
б) можливі випадки: маршрут доставки проходить через місто В або через місто Г. Для кожного із цих випадків за правилом добутку відповідна кількість маршрутів дорівнює 24 та 6. За правилом суми загальна кількість можливих маршрутів доставки вантажу із А до С становить .
в) можливі три варіанти: перший взяти піврічний і річний кредити, другий піврічний і півторарічний, третій річний та півторарічний. Для кожного із цих варіантів за правилом добутку неважко підрахувати кількості можливостей: 15, 20 та 12. За правилом суми остаточно дістаємо загальну кількість способів: 15+20+12=47.
Переставлення (перестановки).
Нехай потрібно підрахувати число способів, за якими можна розмістити в ряд елементів множини, тобто кожне розміщення є скінченною множиною, елементи якої записано у певному порядку.
Скінченні множини, для яких істотним є порядок елементів, називають впорядкованими. Вказати порядок розміщення елементів у скінченій множині означає нумерацію елементів множини. Дві впорядковані множини рівні, якщо вони складаються із однакових елементів і однаково впорядковані. Наприклад, множини (а,в) і (в,а) різні впорядковані множини, елементами яких є елементи невпорядкованої множини {а,в}.
Означення. Будь-яка впорядкована множина, що складається із елементів називається перестановкою із елементів.
Перестановки складаються з одних і тих самих елементів, а відрізняються лише порядком елементів.
Число перестановок у множині із елементів позначається і обчислюється за формулою: .
Для числа перестановок справедлива наступна рекурентна формула:
.
Зауважимо, що число перестановок можна підраховувати в Excel за допомогою функції «ФАКТР».
Приклад 1.1. Скільки різних трьохзначних чисел можна скласти, використовуючи у числах цифри 1,2,3 не більше одного разу? Вкажіть ці числа.
Розвязування.
Приклад 1.2. Скількома способами можна посадити за парту 4 студентів?
Розвязування.
Розміщення.
Нехай маємо множину із різних елементів.
Означення. Розміщенням із елементів по називають підмножини, що складаються із елементів, вибраних із даних елементів і розміщених у певному порядку (іншими словами всі впорядковані підмножини даної множини).
Розміщення можуть відрізнятись одне від одного або самими елементами, або їх порядком.
Кількість розміщень із елементів по позначають і обчислюють за формулою: .
Для кількості розміщень справедлива наступна рекурентна формула:
.
Зауважимо, що число розміщень можна підраховувати в Excel за допомогою функції «ПЕРЕСТР».
Приклад 1.3. Скільки різних чисел можна скласти, використовуючи у числах цифри 1,2,3 не більше одного разу? Вкажіть ці числа.
Розвязування.
Приклад 1.4. Скількома способами можна вибрати старосту, профорга та їх заступника в групі із 10 студентів?
Розвязування.
Сполучення (комбінації).
Означення. Будь-яка підмножина із елементів даної множини, яка містить елементів, називається комбінацією із елементів по .
Комбінації різняться складом елементів.
Число комбінацій позначають і обчислюють за формулою:
.
Зауважимо, що число комбінацій можна підраховувати в Excel за допомогою функції «ЧИСЛКОМБ».
Для кількості комбінацій справедливі наступні формули:
а) ( наслідок біноміальної формули Ньютона).
б) ( властивість симетрії).
в) , де ( рекурентне співвідношення або правило Паскаля ).
Між кількостями розміщень, переставлень та комбінацій існує очевидний звязок: .
Приклад 1.5. Скільки способів взяття будь-яких двох кредитів (див.умову в) попереднього приклада)? Вкажіть ці кредити.
Розвязування.
Приклад 1.6. Скількома способами можна вибрати трьох делегатів на конференцію з групи із 10 студентів?
Розвязування.
Події. Класифікація подій.
Під випробуванням (дослідом, експериментом) розуміють відтворення (реалізацію) певного комплекса умов, які можна повторювати необмежену кількість разів.
Під подією розуміють можливий наслідок (результат) випробування. Події, як правило, позначають великими літерами.
Означення. Випадковою подією називається подія, яка може настати (зявитись) або не настати у даному випробуванні. Всюди надалі для скорочення слово випадкова опускатимемо.
Означення. Достовірною подією називається подія, яка обовязково настає у даному випробуванні. Достовірну подію позначатимемо .
Означення. Неможливою подією називається подія, яка не може настати у даному випробуванні. Неможливу подію позначатимемо .
Означення. Попарно несумісними подіями (несумісними у сукупності) називаються події , якщо у даному випробуванні ніякі дві з них не можуть настати разом (поява однієї із подій виключає появу будь-якої іншої). У супротивному випадку події називають сумісними.
Означення. Єдино можливими подіями називаються події , якщо у даному випробуванні обовязково настане хоча б одна із цих подій.
Означення. Події утворюють повну групу, якщо вони єдино можливі та попарно несумісні.
Означення. Дві події і , які утворюють повну групу, називаються взаємно протилежними.
Означення. Події називаються рівноможливими, якщо вони мають однакові шанси до появи у даному випробуванні.
Означення. Кажуть, що подія сприяє події , якщо у даному випробуванні в результаті появи події обовязково зявиться (настане) подія .
Означення. Простір елементарних подій - усі єдино можливі, рівноможливі та несумісні події, які неможливо поділити на більш прості події.
Приклад 1.7. Кидається гральний кубик. Розглянемо наступні події: …
Алгебра подій.
Означення. Добутком (перетином) двох подій і (позначається або ) називається подія, яка полягає у одночасній появі подій і у даному випробуванні. Означення легко розповсюджується на випадок скінченної кількості співмножників подій.
Означення. Сумою (обєднанням) двох подій і (позначається або ) називається подія, яка полягає у появі хоча б однієї із цих подій (події або події , або одночасно і разом) у даному випробуванні. Означення нелегко розповсюджується на випадок скінченної кількості доданків подій.
Означення. Різницею двох подій і (позначається або ) називається подія, яка полягає в тому, що настане подія , а подія не настане у даному випробуванні.
Для наглядності при зображенні різноманітних подій та дій над ними користуються так званими діаграмами Венна (Ейлера). При цьому прямокутник зображає так звану універсальну подію - простір елементарних подій.
Приклади.
Класичне означення імовірності.
Означення. Імовірність події дорівнює:
,
де - число (кількість) подій у просторі елементарних подій,
а - число наслідків (із простору елементарних подій), які сприяють появі події .
Приклади.
Властивості:
Приклади.
Геометричне означення імовірності.
Означення. Імовірність події дорівнює:
,
де - геометрична міра простору елементарних подій,
а - геометрична міра частини простору елементарних подій, яка сприяє появі події .
Приклади.
Статистичне означення імовірності.
Означення. Нехай проводиться випробувань (які можна повторювати при незмінних умовах необмежено). Частотою називається кількість випробувань (із ) , в яких зявилась подія . Частістю (відносною частотою або часткою) називається відношення частоти появи події до загальної кількості випробувань.
Означення. Статистичною імовірністю події називають число, що характеризує можливості появи події і яке дорівнює:
.
Приклади.
ТеМА №2
Означення. Події і називаються незалежними, якщо поява або непоява однієї з них не впливає на імовірність настання іншої. У супротивному випадку події називаються залежними.
Приклад 2.1. В урні знаходяться 3 білих і 3 чорних кулі. Із урни навмання дістають одну кулю і розглядають подію - куля біла. Потім цю кулю повертають до урни (схема «повернених куль») і дістають навмання одну із куль. Розглядається подія - куля чорна. Очевидно, що у цьому випадку імовірність появи події : і не залежить від появи чи непояви події , оскільки події незалежні.
Приклад 2.2. В урні знаходяться 3 білих і 3 чорних кулі. Із урни навмання дістають одну кулю і розглядають подію - куля біла. Першу витягнуту кулю не повертають до урни (схема «неповернених куль») і дістають навмання наступну кулю. Розглядається подія - куля чорна. Очевидно, що у цьому випадку імовірність появи події буде залежати від того, якого кольору була перша куля, тобто необхідно розглядати умовні імовірності:
а) імовірність події при умові, що настала подія : ;
б) імовірність події при умові, що не настала подія (тобто, настала подія ): ;
Отже у другому прикладі події залежні.
Означення. Події називаються незалежними у сукупності (або просто незалежними), якщо імовірність появи кожної з них не залежить від того, відбулись чи ні будь-які інші події. У супротивному випадку події називаються залежними.
Теорема добутку.
Теорема (добутку імовірностей). Імовірність добутку двох подій і дорівнює добутку імовірності однієї з них на умовну імовірність іншої, при умові, що настала перша подія:
.
Доведення. Нехай - кількість подій (елементарних наслідків) у просторі елементарних подій, з яких подій сприяють появі , - сприяють появі , а - сприяють появі (див.схему).
За класичним означенням імовірності:
.
Аналогічно доводиться, що .
Теорема легко розповсюджується на випадок фіксованої кількості співмножників-подій. Наприклад, для трьох подій:
.
Наслідок 1 (формули визначення умовних імовірностей). Якщо імовірності подій відмінні від нуля, то
.
Зауважимо, що теорема добутку справедлива навіть у випадку нульових імовірностей подій.
Наслідок 2. Якщо подія не залежить від події , то і навпаки, подія не залежить від події , тобто вони взаємно незалежні.
Доведення.
Наслідок 3. Із незалежності подій і випливає незалежність пар подій : і , і , і .
Наслідок 4. Імовірність добутку двох незалежних подій дорівнює добутку їх імовірностей:
.
Наслідок легко розповсюджується на випадок фіксованої кількості співмножників-подій.
Приклад 2.3.
Теорема додавання.
Теорема. Імовірність суми двох подій і дорівнює сумі імовірностей цих подій без імовірності їх добутку. Іншими словами, імовірність появи хоча б однієї із двох подій дорівнює сумі їх імовірностей без імовірності їх сумісної появи:
.
Доведення. Для доведення скористуємось діаграмою теореми добутку (див.вище). За класичним означенням :
.
Зауважимо, що теорема досить важко розповсюджується на випадок скінченної кількості доданків-подій. Так, наприклад, для трьох подій:
.
Наслідок 1. Імовірність суми двох несумісних подій дорівнює сумі їх імовірностей:
.
Наслідок легко розповсюджується на випадок фіксованої кількості несумісних подій-доданків.
Наслідок 2. Сума імовірностей подій , що утворюють повну групу, дорівнює одиниці:
.
Доведення.
Наслідок 3. Для взаємно протилежних подій і :
.
Доведення випливає із попереднього наслідка 2.
Наслідок 4 . Імовірність появи хоча б однієї із подій дорівнює:
.
Зокрема, якщо події незалежні в сукупності, то:
.
Доведення.
Приклад 2.4.
Дерево імовірностей. Дерево рішень.
Дерево імовірностей.
Обчислювати імовірності складних подій за класичним означенням буває досить складно, а іноді взагалі неможливо. Тому доводиться використовувати теореми додавання та добутку. При цьому важливо ураховувати всі можливі наслідки, для чого складається так зване «дерево імовірностей» , на якому випробування позначають кругами, а можливі наслідки-події лініями-«гілками».
Приклад 2.5. При прийомі хворих в лікарні встановлено, що 80% пацієнтів відправляють додому після обстеження та надання необхідної допомоги. Інші 20% розміщують наступним чином: 60% попадають до корпусу А і 40% - до корпусу В. Щоденно лікар Синиця оглядає 70% пацієнтів корпусу А і тільки 10% пацієнтів корпусу В. Лікар Руденко оглядає усіх інших пацієнтів. Які імовірності того, що пацієнт, який надійшов до лікарні, буде під наглядом того чи іншого лікаря?
Розвязування. Зобразимо дану ситуацію, скористувавшись деревом імовірностей:
Дерево рішень.
Дерево рішень це графічне зображення ситуації, яка має декілька альтернативних рішень. Його складовими частинами є «рішення» (зображаються прямокутниками) та «ймовірністні події» (круги). Дерево рішень дозволяє уявити конкретну проблему та встановити імовірності настання подій та їх очікуванних значень. Такі діаграми призводять до побудови більш простих дерев імовірностей, що повязані з послідовностями наслідків. Дерево рішень ілюструє результати з точки зору критичних факторів (таких, як прогнозні доходи та витрати тощо).
Приклад 2.6. Дехто володіє акціями вартістю 1000 у.о. Він повинен прийняти рішення відносно того, чи тримати йому акції, або продати їх усі, або придбати ще акції на суму 500 у.о. Ймовірність 20% росту курсової вартості акцій становить 0,6 , а ймовірність зниження курсової вартості на 20% - 0,4. Яке рішення необхідно прийняти, щоб максимізувати очікуваний прибуток?
Розвязування. ОПР (особі, що приймає рішення) потрібно обрати один із трьох варіантів: продати усі акції, тримати їх або купити ще. Зобразимо ці варіанти за допомогою діаграми - дерева рішень і підрахуємо для кожного із варіантів очікувані значення прибутків:
Формула повної ймовірності.
Теорема. Нехай подія може настати лише сумісно з хоча б однією із подій-гіпотез , які утворюють повну групу. Тоді імовірність (повна імовірність) події дорівнює:
,
тобто сумі добутків імовірностей гіпотез на умовні ймовірності події, при умові, що настала відповідна гіпотеза.
Доведення.
Приклад 2.7. Кожна із двох урн містить по 3 білих та 5 чорних куль. Із першої урни до другої переклали дві кулі. Знайти імовірність того, що навмання взята із другої урни куля буде біла.
Розвязування.
Приклад 2.8. Статистика запитів на отримання кредитів у банку наступна: 20% - державні органи, 30% - інші банки, інші фізичні особи. Дослідженнями встановлено, що імовірності неповернення кредитів відповідно дорівнюють 0,01 ; 0,05 ; 0,2 . Знайти імовірність неповернення чергового кредита.
Розвязування.
Формули Байєса.
Теорема. Нехай подія може настати лише сумісно з хоча б однією із подій-гіпотез , які утворюють повну групу. Якщо подія настала, то умовні (уточнені) імовірності гіпотез дорівнюють:
,
де повна імовірність .
Доведення. Зазначимо, що виконуються усі умови теореми формули повної ймовірності. Розглянемо одну із подій і скористуємось теоремою добутку:
.
Звідси:
,
де - повна імовірність.
Зауваження. Доведені формули називають формулами переоцінки гіпотез. В них приймають участь апріорні (до випробування) імовірності гіпотез та їх апостеріорні (після випробування) ймовірності , тобто формули дають можливість переоцінити ймовірності гіпотез після настання події.
Приклад 2.9. За умовами попереднього приклада до банку надійшло повідомлення про неповернення чергового кредита, але у факсовому повідомленні атрибути клієнта погано відпечатались. Визначити, до якої категорії клієнтів (державні органи, інші банки, фізичні особи) імовірніше за все належить “неповерненик”.
Розвязування.
ТеМА №3
Поняття випадкової величини (ВВ) є одним із фундаментальних в теорії ймовірностей. ВВ на відміну від події (яка характеризує результат випробування), є кількісною характеристикою випадкового результату випробування.
Означення. Випадковою величиною (ВВ) називається величина, яка в результаті випробування в залежності від випадкових обставин може набувати деякого (але тільки одного) значення.
Приклад 3.1. а) число попадань в мішень із 10 пострілів ВВ, яка може набувати значень 0,1,2,…,10;
б) число пострілів у мішень до першого попадання ВВ, яка може приймати значення 1,2,3,… ;
в) відстань від центра круглої (радіуса R) мішені до точки попадання в неї ВВ, яка може приймати будь-яке (але тільки одне) значення з проміжка [0;R].
ВВ позначають великими літерами, а їх значення відповідними малими з певними індексами. Приклад показує, що є дискретні ( а) і б) ) та неперервні ( в) ) ВВ.
Означення. Дискретною випадковою величиною (ДВВ) називається ВВ, яка може приймати окремі ізольовані значення з певними ймовірностями (причому кількість можливих значень або скінченна, або нескінченна, але злічена). На відміну від ДВВ, значення неперервних ВВ повністю заповнюють деякий проміжок (скінченний або нескінченний).
ВВ вважається заданою, якщо задано її закон розподілу.
Означення. Законом розподілу ДВВ називається відповідність між множиною її можливих значень та відповідними імовірностями (тобто, імовірностями, з якими можуть набуватись ці значення).
Основними способами задання законів розподілу ДВВ є табличний, графічний та аналітичний.
ДВВ задано таблицею:
. . . |
||||
. . . |
де можливі (різні) значення ВВ , а відповідні ймовірності, причому, + + … + , оскільки події утворюють повну групу. Останню умову часто називають основною властивістю розподілу або умовою нормування ДВВ.
Зауважимо, що у випадку зліченої множини значень ДВВ:
... |
… |
||||
... |
… |
умовою нормування буде збіжність до одиниці ряду відповідних імовірностей: .
Наочною формою задання ДВВ є графічний спосіб, при якому в системі координат відкладають точки і зєднують їх відрізками:
Отриману фігуру називають полігоном розподілу ймовірностей або многокутником розподілу. Зауважимо, що на проміжках ВВ не набуває значень, тому імовірності появи її можливих значень дорівнююь нулю, а зєднання точок відрізками робиться для наочності.
При аналітичному способі задання закону розподілу ДВВ вказують формулу (функцію), за якою знаходяться відповідні ймовірності , або задають так звані функції розподілу.
Приклад 3.2. Імовірності попадання в мішень для першого стрілка 0,8 , а для другого 0,9. Обидва стрілки роблять по одному пострілу. Скласти закон розподілу ВВ кількості попадань в мішень, побудувати полігон розподілу.
Розвязування.
ОПЕРАЦІЇ НАД ДВВ.
Дві ВВ називаються незалежними, якщо закон розподілу однієї із них не залежить від того, які можливі значення прийняла інша ВВ.
Нехай незалежні ДВВ та задані таблицями розподілу:
. . . |
||||
. . . |
. . . |
||||
. . . |
Добутком ВВ на сталий множник називається ВВ , яка набуває можливих значень з тими ж імовірностями , що і ВВ .
-им степенем () ВВ називається ВВ , яка приймає значення з тими ж імовірностями , що і ВВ .
Сумою (різницею або добутком) двох незалежних ВВ та називається ВВ ( або ), яка приймає всі можливі значення ( або ) з імовірностями , що знаходяться за теоремою добутку: .
Приклад 3.3. ДВВ задані таблицями розподілу
Знайти закони розподілу ВВ .
Розвязування.
ЧИСЛОВІ ХАРАКТЕРИСТИКИ ДВВ.
У багатьох практичних задачах немає необхідності мати закон розподілу ВВ, а достатньо знати лише деякі її числові характеристики: математичне сподівання, дисперсію, середнє квадратичне відхилення, початкові та центральні моменти.
Нехай ДВВ задана таблицею:
. . . |
||||
. . . |
Означення. Математичним сподіванням (середнім значенням або центром розподілу) ДВВ називається сума добутків всіх її значень на відповідні ймовірності, тобто
.
Зауваження. Для будь-якої ДВВ із скінченною множиною значень математичне сподівання існує (і є невипадковим, сталим числом) і має таку саму розмірність, що й сама ДВВ. У випадку нескінченної зліченої множини значень ДВВ її математичне сподівання (МС) визначається як сума ряда, який може розбігатись, і тому МС може не існувати.
Приклад 3.4. Згідно статистичним даним, імовірність смерті 25-річної людини протягом року дорівнює 0,008. Страхова компанія пропонує застрахувати життя на 5000грн. Якою повинна бути величина річного внеску, щоб ця страховка була для компанії незбитковою?
Розвязування.
Приклад 3.5. (дохідність портфеля цінних паперів). Дохідність портфеля характеризується середньозваженою дохідністю його складових. Наприклад, середня очікувана дохідність портфеля із двох активів і розраховується як середньо-зважена його складових:
,
де - питомі вагові коефіцієнти активів ( ), а - їх середні очікувані дохідності.
Приклад 3.6 (середня дохідність фінансової операції). Перший варіант фінансової операції передбачає початкові витрати інвестиції розміром 10000грн та отримання прибутку в 3000грн з імовірністю 0,9. Другий варіант при витратах 20000грн дає прибуток в 10000грн з імовірністю 0,1. Якою буде середня очікувана дохідність всієї фінансової операції?
Розвязування. У детермінованому фінансовому аналізі дохідність операції визначається як , де - грошова оцінка початку операції (початкові витрати, інвестиції) , - грошова оцінка кінця операції (дохід, нарощений капітал), а - прибуток від операції.
ВЛАСТИВОСТІ МАТЕМАТИЧНОГО СПОДІВАННЯ.
1. МС сталої ВВ дорівнює самій цій сталій: .
Доведення.
2. Сталий множник виноситься за знак МС: .
Доведення.
3. МС суми ВВ дорівнює сумі їх МС: .
Доведення. Для спрощення розглянемо ДВВ, задані таблицями:
Наслідок. МС різниці ВВ дорівнює різниці їх МС: .
4. МС добутку (незалежних) ВВ дорівнює добутку їх МС: .
Доведення.
Властивості 3,4 та наслідок легко розповсюдити на випадок фіксованої кількості доданків (співмножників), зокрема, неважко довести, що МС середнього арифметичного ВВ дорівнює середньому арифметичному їх МС.
5. МС центрованої ВВ дорівнює нулю: .
Доведення.
ДИСПЕРСІЯ ДВВ ТА ЇЇ ВЛАСТИВОСТІ. СЕРЕДНЄ КВАДРАТИЧНЕ ВІДХИЛЕННЯ.
Означення. Дисперсією ДВВ називається МС квадрата відхилення ВВ від свого МС, тобто:
.
Дисперсія (якщо вона існує) має розмірність квадрата ВВ, є невипадковою сталою невідємною величиною, що характеризує розсіювання значень ВВ від центру розподілу МС.
Для того, щоб мати аналогічну характеристику такої ж розмірності як сама ВВ, розглядають середнє квадратичне відхилення (стандарт): .
ВЛАСТИВОСТІ ДИСПЕРСІЇ.
1. Дисперсію можна знаходити за формулою: .
Доведення.
2. Дисперсія сталої дорівнює нулю: .
Доведення.
3. Сталий множник виноситься за знак дисперсії в квадраті: .
Доведення.
4. Дисперсія суми незалежних ВВ дорівнює сумі їх дисперсій: .
Доведення.
Наслідок. Дисперсія різниці незалежних ВВ дорівнює сумі їх дисперсій: .
Наслідок. Дисперсія центрованої ВВ співпадає із дисперсією самої ВВ , а дисперсія стандартизованої ВВ дорівнює одиниці.
5. Якщо ВВ та залежні, то: , де - коваріація між ВВ та .
Доведення.
6. Дисперсія добутку незалежних ВВ дорівнює: .
Доведення.
7. Дисперсія середнього арифметичного незалежних ВВ дорівнює:
.
Доведення.
Важливий висновок.
СПРОЩЕНИЙ МЕТОД ДЛЯ ОБЧИСЛЕННЯ ЧИСЛОВИХ ХАРАКТЕРИСТИК .
Нехай значення ДВВ задані з рівномірним кроком . Вибираючи так званий “умовний нуль” (близький до середнього арифметичного), розглянемо допоміжну ВВ , яка прийматиме цілі значення . Числові характеристики вихідної та допоміжної ВВ повязані між собою наступними формулами :
,
,
.
Доведення.
МОМЕНТИ РОЗПОДІЛУ ТА ПОВЯЗАНІ З НИМИ ЧИСЛОВІ ХАРАКТЕРИСТИКИ ВВ.
Означення. Початковим моментом порядку ВВ називають МС ВВ і позначають
.
Означення. Центральним моментом порядку ВВ називають МС ВВ і позначають
.
Моменти мають властивість: якщо існує момент порядку ВВ , то існують її моменти усіх порядків .
Відмітимо, що
;
.
Початковий момент першого порядку дорівнює математичному сподіванню ВВ і характеризує «центр розподілу». Центральні моменти використовують для характеристики розсіювання значень ВВ відносно її центра розподілу МС (напр., дисперсія ).
Центральний момент третього порядку застосовують для оцінювання асиметрії (скісності) закону розподілу відносно прямої, що паралельна осі ординат і проходить через МС. Для цього використовують безрозмірну величину коефіцієнт асиметрії:
.
Якщо розподіл ВВ симетричний відносно МС, то його . Якщо , то у розподілі «довга частина» полігона розташована праворуч МС скісність вправо, а у випадку спостерігається скісність розподілу вліво.
Центральний момент четвертого порядку використовують для оцінювання крутості (гостровершинності або плосковершинності) розподілу за допомогою коефіцієнта ексцесу:
.
Число 3 віднімається від частки, оскільки для нормального розподілу (розглядатиметься далі), який зустрічається найчастіше, тому .
Зазначимо, що використовуються також абсолютні початкові та центральні моменти порядку ВВ , які визначаються як МС випадкових величин та .
Модою ДВВ називається таке можливе її значення , якому відповідає найбільша імовірність, тобто: ( для неперервних ВВ мода визначається як точка локального максимума щільності розподілу ). Якщо розподіл імовірностей (або щільність) має один максимум, то він називається унімодальним. Бувають також бімодальні та мультимодальні розподіли, а також такі, що не мають моди антимодальні. Для унімодального розподілу мода є, у певному розумінні найімовірнішим значенням.
Медіаною ВВ називається таке значення , яке «ділить» розподіл навпіл, тобто:
.
Відмітимо, що математичне сподівання ВВ може не існувати, а медіана існує завжди і має властивість: , тобто сума абсолютних величин відхилень значень ДВВ від медіани менша, ніж від будь-якої іншої величини. Ця властивість медіани часто використовується на практиці.
Для описування ВВ застосовуються також інші її числові характеристики квантилі рівня (або -квантилі), тобто такі можливі значення ВВ , для яких .
Деякі квантилі отримали особливі назви. Так, напр., та називають відповідно нижнім та верхнім квартилями. Використовують децилі та перцентилі (десяті та соті), а також процентні точки ( точка це квантиль , тобто можливе значення ВВ , при якому ).
ТЕМА №4
1. Незалежні повторні випробування (НПВ).
2. Формула Бернуллі.
3. Біноміальний закон розподілу (закон Бернуллі).
4. Числові характеристики біноміально розподілених ВВ. Найімовірніша частота (мода). Локальна теорема Лапласа.
5. Закон рідкісних подій (закон Пуассона). Проста (Пуассонівська) течія подій.
6. Геометричний та гіпергеометричний розподіли.
У багатьох практичних задачах доводиться мати справу із серіями випробувань, які проводяться за так званою схемою Бернуллі або схемою незалежних повторних випробувань (НПВ).
Означення. Якщо серію випробувань проводити в однакових умовах і імовірність появи події в кожному окремому випробуванні однакова та не залежить від появи або непояви події в інших випробуваннях, то таку послідовність НПВ називають схемою Бернуллі.
Прикладами НПВ є: кидки монети ( подія - випадіння цифри), діставання кулі за схемою «повернених куль» із урни з різнокольоровими кулями ( подія - діставання кулі певного кольору), контроль якості серії виготовлених автоматом деталей (подія - бракована деталь) тощо.
Теорема. Нехай проводиться НПВ за схемою Бернуллі і ймовірність появи події в кожному із випробувань незмінна (ймовірність непояви події в кожному із випробувань ). Тоді імовірність того, що подія зявиться разів у НПВ знаходиться за формулою Бернуллі:
.
Доведення.
Зауваження. При великій кількості НПВ імовірності появи події разів зручно обчислювати за допомогою функції «БИНОМРАСП» Excel.
Приклад 4.1. Знайти імовірність того, що при 5 кидках монети герб випаде 3 рази.
Розвязування. Опишемо стандартну схему НПВ:
- кількість НПВ (кидки монети);
- поява герба (подія, що розглядається у кожному окремому випробуванні);
- імовірність появи події ;
- імовірність непояви події ;
- частота (скільки разів) появи події у НПВ.
Знайти .
Означення. Біноміальным законом розподілу ДВВ називають ДВВ - частоту появи події у НПВ, таблиця розподілу якої має наступний вигляд:
… |
||||
… |
Відзначимо, що . Це випливає із формули бінома Ньютона та очевидної рівності :
Знайдемо числові характеристики біноміально розподіленої ДВВ . Розглянемо випадкові величини - частоту появи події у -тому випробуванні. Закони розподілу усіх цих ВВ однакові і мають вигляд:
Неважко переконатись, що числові характеристики цих ВВ:
, а . Враховуючи, що , за властивостями математичного сподівання та дисперсії дістанемо: , а
, звідки .
Приклад 4.2. Статистика стверджує, що 20% пакетів акцій на аукціонах продаються за початково заявленими цінами. Скласти закон розподілу ВВ - частоти проданих за початково заявленими цінами пакетів акцій серед 7 заявлених до торгів. Знайти її числові характеристики.
Розвязування. Опишемо стандартну схему НПВ:
Приклад показує, що серед значень частоти є таке (в нашому випадку ), якому відповідає найбільше значення імовірності.
Означення. Найімовірнішою частотою (або модою) появи події у НПВ називають частоту, для якої .
За означенням із системи умов
неважко дістати подвійну нерівність для визначення найімовірнішої частоти:
.
Довжина проміжка, якому належить найімовірніша частота дорівнює , тому (як ціле число) може приймати або одне значення (якщо кінці проміжка дробові числа), або два значення (якщо кінці проміжка - цілі числа).
У процесі доведення нерівності використовувалось співвідношення , з якого випливає так звана рекурентна формула Бернуллі:
.
Пропонуємо самостійно переконатись, що ВВ - частість (частка, відносна частота) появи події у НПВ також підкоряється біноміальному закону розподілу з числовими характеристиками .
Відзначимо, що при достатньо великій кількості випробувань найімовірніша частота приблизно дорівнює , а найімовірніша частість приблизно дорівнює імовірності появи події у кожному окремому випробуванні. Зауважимо також, що біноміальний розподіл при збільшенні кількості НПВ досить швидко наближається до нормального.
Обчислення імовірностей за точною формулою Бернуллі при великій кількості НПВ стає досить громіздким , тому на практиці часто використовують так звані асимптотичні формули.
Теорема (локальна формула Муавра-Лапласа). Якщо у схемі Бернуллі із НПВ імовірність появи події дорівнює ( ), а кількість НПВ досить велика, то імовірність появи події разів у НПВ наближено дорівнює (тим точніше, чим більше ):
,
де - функція Гауса, а .
Відзначимо деякі властивості функції Гауса (локальної функції Лапласа):
Значення цієї функції табульовані для невідємних значень . Графік функції називають кривою Гауса або нормальною кривою :
Зауваження. Локальна формула Лапласа дає наближені результати тим ближчі до точних, чим більше значення ( при ). Це наближення відбувається досить швидко (на практиці формулу застосовують вже навіть при ).
Приклад 4.3. Монету кидають 25 разів. Знайти найімовірніше число появи герба та його ймовірність.
Розвязування.
Локальна формула Лапласа при малих значеннях дає досить великі похибки, тому в цих випадках застосовують формулу Пуассона.
Теорема Пуассона. Якщо імовірність появи події в кожному із випробувань при необмеженому зростанні кількості НПВ (), причому добуток прямує до постійного числа ( ), то імовірність того, що подія зявиться разів у НПВ задовольняє граничну рівність:
.
На практиці, якщо імовірність постійна і мала, кількість випробувань - досить велика і число - невелике (при ), то користуються наближеною формулою Пуассона:
.
Формулу називають асимптотичною формулою Пуассона.
Означення. При виконанні умов теореми Пуассона ВВ ( яка приймає нескінченну злічену множину значень , а відповідні імовірності знаходяться за формулою , де ) називають розподіленою за законом Пуассона ( закон рідкісних подій).
Зауваження. Імовірності зручно знаходити за допомогою функції «ПУАССОН» Excel.
Неважко показати, що для пуассонівського розподілу .
Зауважимо, що при малих значеннях та достатньо великій кількості випробувань біноміальний розподіл апроксимує пуассонівський.
Приклад 4.4. Імовірність виготовлення стандартної деталі дорівнює 0,99. Яка імовірність того, що серед 100 деталей виявиться одна нестандартна?
Розвязування.
Означення. Течією подій називають послідовність таких подій, які зявляються одна за одною у випадкові моменти часу.
Означення. Течія подій називається простою або пуассонівською, якщо вона:
Означення. Середнє число появ події за одиницю часу називають інтенсивністю течії.
Теорема. Якщо течія пуассонівська (проста), то імовірність появи події разів за час можна знайти за формулою (математичною моделлю простої течії подій):
,
де - інтенсивність течії.
Прикладами простої течії подій можуть бути: поява викликів на АТС, прибуття літаків до аеропорту, прихід покупців до супермаркету тощо.
Означення. Нехай ДВВ - кількість випробувань до появи події в серії НПВ, яка може приймати нескінченну злічену множину значень , а відповідні ймовірності знаходяться за формулою
,
де - імовірність появи події в кожному випробуванні, . Така ДВВ називається розподіленою за геометричним законом.
Ряд відповідних імовірностей цього розподілу є нескінченно спадною геометричною прогресією зі знаменником , сума якого дорівнює одиниці (умова нормування).
Неважко показати, що для геометрично розподіленої ВВ: .
Геометричний розподіл застосовується у різноманітних задачах статистичного контролю якості виробів, в теорії надійності та в страхових розрахунках.
Означення. Нехай ДВВ - кількість елементів із певною властивістю серед елементів, відібраних із сукупності в елементів, яка містить елементів саме такої властивості. Ця ДВВ може приймати значення з імовірностями і підкоряється гіпергеометричному закону розподілу.
Для цієї ДВВ .
Гіпергеометричний розподіл використовують у багатьох задачах статистичного контролю якості.
Відзначимо, що при малих обємах вибірки у порівнянні із обємом усієї сукупності ( ) імовірності у гіпергеометричному розподілі будуть близькими до відповідних імовірностей біноміального розподілу з . В статистиці це означає, що розрахунки імовірностей для безповторної вибірки будуть мало відрізнятись від таких розрахунків для повторної вибірки.
ТЕМА №5
1. Інтегральна функція розподілу та її властивості.
2. Диференціальна функція розподілу та її властивості.
3. Числові характеристики неперервних випадкових величин (НВВ).
4. Закон рівномірного розподілу.
5. Показниковий розподіл.
6. Нормальний закон розподілу. Деякі розподіли, повязані з нормальним.
Існує універсальний спосіб задання ВВ за допомогою функції розподілу імовірностей ( або інтегральної функції розподілу). Всюди надалі ВВ позначаються великими літерами, а малими - довільні дійсні числа.
Означення. Інтегральною функцією розподілу ВВ називається імовірність того, що ВВ прийме значення, менше від числа , тобто
.
Ця функція повністю характеризує ВВ з імовірнісної точки зору, тобто є однією із форм закону розподілу. Тепер можна дати чітке означення ДВВ та НВВ.
Означення. Випадковою величиною називається величина, яка може приймати значення в залежності від випадкових обставин і для якої визначена функція розподілу ймовірностей. ВВ називається неперервною (НВВ), якщо її інтегральна функція неперервна. ВВ називається дискретною (ДВВ), якщо її інтегральна функція розривна (кусочно стала).
Для ДВВ із множиною значень функція розподілу ймовірностей визначається як
,
де символ означає, що сумування проводиться для всіх можливих значень , які менші від .
Приклад 5.1. Таблиця розподілу ДВВ має наступний вигляд:
Знайти інтегральну функцію розподілу, побудувати її графік.
Розвязування.
Графік інтегральної функції розподілу ВВ зображений на рис.
Її аналітичний вираз: |
Висновок:
ВЛАСТИВОСТІ ФУНКЦІЇ РОЗПОДІЛУ.
Всюди надалі вважається, що інтегральна функція визначена .
Доведення.
Доведення.
Наслідок ( основна формула теорії ймовірностей) :
.
3. Імовірність того, що НВВ прийме деяке окреме значення дорівнює нулю, тобто .
Доведення.
Наслідок . Для НВВ справедливі рівності:
Доведення.
Розглянуті властивості функцій розподілу можна сформулювати наступним чином: будь-яка функція розподілу є невідємною неспадною функцією, що задовольняє умови . Справедливе і обернене твердження: будь-яка функція, що задовольняє вищевказаним властивостям, може бути функцією розподілу деякої ВВ.
Приклад 5.2. Нехай річний дохід навмання вибраного підприємця є ВВ , розподіленою за законом Парето з параметрами та ( - граничний дохід, що не обкладається податком). Функція розподілу ВВ має наступний вигляд:
Побудувати графік функції розподілу при та визначити розмір річного доходу підприємця, що обкладається податком, який може бути перевищений з імовірністю 0,5 .
Розвязування.
ЩІЛЬНІСТЬ РОЗПОДІЛУ ІМОВІРНОСТЕЙ.
Незважаючи на те, що інтегральна функція розподілу повністю характеризує ВВ, вона не дозволяє уявити характер розподілу. Тому користуються ( тільки для неперервних ВВ) так званою диференціальною функцією або щільністю розподілу ймовірностей, яка також є законом розподілу.
Означення. Щільністю розподілу ймовірностей (або диференціальною функцією розподілу) називається похідна (якщо вона існує) від інтегральної функції розподілу:
.
ВЛАСТИВОСТІ ДИФЕРЕНЦІАЛЬНОЇ ФУНКЦІЇ.
Доведення.
.
Доведення.
Доведення.
Доведення.
Числові характеристики НВВ визначаються наступними формулами (якщо збігаються відповідні невласні інтеграли):
,
,
.
ЗАКОНИ РОЗПОДІЛУ ДЕЯКИХ НВВ.
Означення. НВВ називається рівномірно розподіленою на проміжку , якщо її щільність розподілу імовірностей стала на цьому проміжку, а поза цим проміжком дорівнює нулю, тобто
Знайдемо значення сталої , скориставшись властивістю диференціальної функції (умовою нормування):
, , .
Звідси . Таким чином, щільність рівномірно розподіленої ВВ має вигляд:
Її графік:
Функція розподілу рівномірно розподіленої НВВ :
Дійсно:
Графік інтегральної функції розподілу зображений на рис.
Числові характеристики рівномірно розподіленої НВВ визначаються формулами:
,
,
.
Дійсно:
Приклад 5.3. Нехай дві незалежні НВВ рівномірно розподілені на . Тоді їх сума рівномірно розподілена на за так званим трикутним розподілом Сімпсона зі щільнстю :
Зазначимо, що розподіл суми незалежних рівномірно розподілених на НВВ : , нормованих математичним сподіванням та середнім квадратичним відхиленням , зі зростанням швидко прямує до стандартного нормального розподілу ( вже при ).
Означення. НВВ називається розподіленою за показниковим законом з параметром , якщо її щільність розподілу імовірностей має вигляд
Неважко впевнитись, що інтегральна функція розподілу для НВВ , розподіленої за показниковим розподілом, має вигляд:
Графіки цих функцій:
Числові характеристики для НВВ , розподіленої за показниковим розподілом, визначаються формулами:
,
,
.
Зауважимо, що показниковий розподіл широко застосовується в теорії надійності та в системах масового обслуговування тощо. Зокрема, тільки цьому закону підкоряється час між появою двох послідовних подій у найпростішій течії подій.
НОРМАЛЬНИЙ ЗАКОН РОЗПОДІЛУ
Означення. НВВ розподілена за нормальним законом з параметрами та , якщо її щільність розподілу імовірностей має вигляд:
.
Скористувавшись означеннями, неважко переконатись, що числові характеристики нормально розподіленої ВВ дорівнюють:
.
Властивості диференціальної функції нормально розподіленої ВВ:
Характер поведінки функції в залежності від параметрів розподілу показані на рисунках:
Знайдемо вигляд інтегральної функції розподілу. За властивостями (співвідношення між функціями розподілу):
.
Зробимо заміну змінних, поклавши :
Враховуючи інтеграл Пуассона та використавши інтегральну функцію Лапласа , остаточно дістаємо:
.
Графік інтегральної функції :
При дослідженні інтегральної функції враховані наступні властивості інтегральної функції Лапласа :
Графік функції Лапласа має наступний вигляд:
Зазначимо, що значення функції Лапласа табульовані при , а при . Але набагато ефективніше використовувати функцію «НОРМРАСП» Excel, яка дозволяє обчислювати значення диференціальної та інтегральної функцій нормального розподілу.
ВЛАСТИВОСТІ НОРМАЛЬНОГО РОЗПОДІЛУ.
. (*)
Доведення.
. (**)
Доведення.
Доведення.
Графічно це можна зобразити так:
Розглянуті властивості дозволяють виділити три характерних особливості нормально розподіленої ВВ :
а) найчастіше у розподілі зустрічаються значення ВВ, близькі до середнього;
б) значення ВВ, рівновіддалені від середнього, зустрічаються у розподілі однаково часто;
в) по мірі віддалення значень ВВ від центру розподілу вони зустрічаються все рідше та рідше.
Досить часто на практиці довільну ВВ , розподілену за нормальним законом, нормують, тобто, замість неї розглядають стандартизовану нормально розподілену ВВ , числові характеристики якої дорівнюють .
Зауваження. Часто при розгляді нормального закону використовують так звану подвоєну інтегральну функцію Лапласа . Тому інтегральна функція нормального розподілу виражатиметься через подвоєну функцію Лапласа наступним чином: , а формули (*) та (**) набувають вигляду:
; (*)
. (**)
ДЕЯКІ РОЗПОДІЛИ, ПОВЯЗАНІ З НОРМАЛЬНИМ.
Логнормальний розподіл.
Неперервна ВВ , яка набуває додатних значень, підкоряється логарифмічно нормальному закону розподілу (скорочено логнормально розподілена), якщо її логарифм є нормально розподіленою ВВ. Розподіл визначається двома параметрами та , причому, якщо у нормального розподіла - це середнє значення (математичне сподівання), то для логнормального розподіла параметр - це його медіана. Логнормальний розподіл суттєво асиметричний (крива щільності круто підіймається зліва від і полого спускається справа). При прямуванні до нуля логнормальний розподіл прямує до нормального.
Логнормальний розподіл виникає у моделях росту, часто використовується для описування розподілу доходів, банківських вкладів, місячної зарплати, дебіту нафтових свердловин, посівних площ, довговічності виробів тощо.
- розподіл.
Розподілом («хі-квадрат») із ступенями вільності називається розподіл суми квадратів незалежних ВВ, розподілених за стандартним нормальним законом, тобто
,
де підкоряються стандартному нормальному закону (з нульовими математичними сподіваннями і середньоквадратичними відхиленнями, рівними одиниці). - розподіл має правосторонню асиметрію і при зростанні повільно прямує до нормального. Цей розподіл широко застосовується в математичній статистиці.
Розподіл Стьюдента.
Розподілом Стьюдента ( -розподілом ) з ступенями вільності називається розподіл ВВ
,
де - ВВ, розподілена за стандартним нормальним законом, а - незалежна від ВВ, яка має -розподіл із степенями вільності. Розподіл Стьюдента близький до нормального, але більш пологий (із більш довгими «хвостами»). При зростанні він швидко наближається до нормального розподілу. Розподіл Стьюдента широко застосовується в математичній статистиці.
ТЕМА №6
1. Закон великих чисел. Нерівності Маркова та Чебишова. Частинні випадки нерівності Чебишова.
2. Збіжність за імовірністю. Теорема Бернуллі. Теорема Чебишова.
3. Центральна гранична теорема.
4. Інтегральна теорема Муавра-Лапласа та її частинні випадки.
Група теорем, які встановлюють відповідність між теоретичними та експериментальними характеристиками великої кількості випадкових величин і випадкових подій, а також які стосуються граничних законів розподілу, обєднуються під загальною назвою граничних теорем теорії ймовірностей. Ці теореми поділимо на дві групи: закон великих чисел та центральну граничну терему. За А.Н.Колмогоровим під законом великих чисел розумітимемо загальний принцип, згідно до якого сукупна дія великої кількості випадкових факторів призводить (при деяких досить загальних умовах) до результату, який майже не залежить від випадку. Іншими словами, при великій кількості ВВ їх середній результат втрачає випадковість і може бути передбаченим із великою ступінню визначеності.
Теорема (нерівність Маркова). Якщо ВВ приймає тільки невідємні значення і має фіксоване математичне сподівання , то для довільного додатного числа справедлива нерівність:
.
Доведення.
Наслідок (друга форма нерівності Маркова) . За умовами теореми
.
Доведення.
Приклад 6.1 . Банк обслуговує в середньому 100 клієнтів щодня. Оцінити імовірність того, що деякого дня банк обслугує: а) не менше 200 клієнтів; б) менше 150 клієнтів.
Розвязування.
Приклад 6.2 . Сума всіх вкладів населення у деякому банку становить 3млн.грн., а імовірність того, що випадково взятий вклад буде меншим від 10тис.грн., дорівнює 0,8 . Що можна сказати про кількість вкладчиків банку?
Розвязування.
Теорема (нерівність Чебишова). Якщо довільна ВВ має фіксовані математичне сподівання та дисперсію , то для довільного додатного числа справедлива нерівність:
.
Доведення.
Наслідок (друга форма нерівності Чебишова) . За умовами теореми
.
Доведення.
Зауваження. Нерівності Маркова,Чебишова дають оцінки імовірностей подій знизу або зверху. Часто ці оцінки занадто грубі, а інколи просто трівіальні. Наприклад:
ЧАСТИННІ ВИПАДКИ НЕРІВНОСТІ ЧЕБИШОВА.
а) для біноміально розподіленої ДВВ - частоти появи події з імовірністю в серії із НПВ:
, або ;
б) для біноміально розподіленої ДВВ - частості (частки) появи події в серії із НПВ:
, або .
Приклад 6.3 . Середньодобове споживання води мешканцем Одеси становить 300л, а середнє квадратичне відхилення не перевищує 60л. Оцінити імовірність того, що у випадково обрану добу споживання води мешканцем менше 600л.
Розвязування.
Теорема Чебишова. Якщо всі дисперсії послідовності попарно незалежних ВВ не перевищують деякого додатного числа, то при майже достовірним можна вважати подію, яка полягає у тому, що модуль відхилення середнього арифметичного ВВ від середнього арифметичного їх математичних сподівань буде величиною нескінченно малою, тобто:
.
Доведення.
Сенс теореми Чебишова полягає у тому, що при великій кількості незалежних ВВ, дисперсії яких обмежені у сукупності, їх середня арифметична практично втрачає характер ВВ і як завгодно мало відрізняється від сталої величини.
Означення. Послідовність ВВ називається збіжною за імовірністю до величини (сталої або випадкової), якщо для довільного як завгодно малого числа
.
Часто застосовується позначення .
Теорема Бернуллі. Частість появи події в серії із НПВ при збігається за імовірністю до - імовірності появи події у кожному окремому випробуванні:
, або .
Доведення.
Теорема Ляпунова. Якщо - незалежні ВВ, у кожної із яких існують математичні сподівання , дисперсії та абсолютні центральні моменти третього порядка , причому виконується умова . Тоді закон розподілу суми при необмежено наближається до нормального з математичним сподіванням і дисперсією .
Наслідок. При виконанні умов теореми імовірність попадання суми ВВ в проміжок можна знаходити за наближеною формулою
,
де - інтегральна функція Лапласа, .
Наслідок (центральна гранична теорема). Зокрема, якщо всі ВВ однаково розподілені, то закон розподілу їх суми при необмежено наближається до нормального.
Інтегральна теорема Муавра-Лапласа. Для біноміально розподіленої ДВВ - частоти появи події з імовірністю в серії із НПВ справедлива наближена формула:
,
де - інтегральна функція Лапласа, .
Доведення.
Частинні випадки інтегральної теореми Муавра-Лапласа . Для частоти та частості появи події з імовірністю в серії із НПВ справедливі наближені формули:
,
.
Приклади.
ТЕМА №7
1. Система випадкових величин.
2. Закон розподілу двохвимірної ДВВ.
3. Функції розподілу двохвимірної ВВ. Залежність та незалежність ВВ.
4. Числові характеристики двохвимірної ВВ.
5. Функції ВВ та їх характеристики.
Раніше розглядались ВВ, які при кожному випробуванні визначались одним можливим значенням. Тому таку ВВ називають одновимірною.
Якщо можливі значення ВВ визначаються у кожному випробуванні числами, то такі ВВ називають відповідно двох-, трьох-,..., -вимірними. Двохвимірну ВВ будемо позначати , де та - компоненти. ВВ та , що розглядаються одночасно, утворюють систему двох випадкових величин. Аналогічно можна розглядати систему ВВ.
Означення. Сукупність одночасно розглядаємих ВВ називають системою ВВ.
Систему ВВ можна розглядати як випадкову точку в -вимірному просторі з координатами або як випадковий вектор, напрямлений з початку координат у точку .
При дістаємо систему двох ВВ , яку можна інтерпретувати як випадкову точку на площині або як випадковий вектор :
Багатовимірні ВВ можуть бути дискретними - ДВВ або неперервними НВВ (компоненти цих величин відповідно будуть дискретними або неперервними).
Означення. Законом розподілу двохвимірної ДВВ називають сукупність із множини її можливих значень та їх імовірностей .
Найчастіше закон розподілу двохвимірної ДВВ задають таблицею:
... |
... |
|||||
... |
... |
|||||
... |
... |
|||||
... |
... |
... |
... |
... |
... |
... |
... |
... |
|||||
... |
... |
... |
... |
... |
... |
... |
... |
... |
Події ., утворюють повну группу, тому сума імовірностей таблиці дорівнює одиниці, тобто виконується умова нормування:
.
Закон розподілу двохвимірної ДВВ дозволяє отримати закони розподілу кожної компоненти. Відповідні імовірності для можливих значень компонент знаходяться сумуванням імовірностей у рядках та стовпцях таблиці.
Приклад 7.1. Знайти закони розподілу компонент двохвимірної ВВ, закон розподілу якої заданий таблицею:
0,1 |
0,06 |
|
0,3 |
0,18 |
|
0,2 |
0,16 |
Розвязування:
Означення. Інтегральною функцією розподілу (функцією розподілу) двохвимірної ВВ називають функцію двох змінних , яка визначає для кожної пари імовірність виконання нерівностей , тобто
.
Геометричний сенс функції розподілу - це імовірність того, що випадкова точка попаде у нескінченний прямокутник з вершиною в точці :
Неважко переконатись у наступних властивостях функції розподілу:
1) , причому .
2) - неспадна функція за кожним аргументом, тобто
,якщо ;
,якщо .
3) Імовірність попадання випадкової точки до прямокутника можна знайти за формулою:
Зауважимо, що інтегральна функція розподілу ДВВ розривна (кусочно-стала), а у неперервних ВВ неперервна. НВВ можна задавати також щільністю імовірностей.
Означення. Диференціальною функцією розподілу (двохвимірною щільністю імовірностей) двохвимірної НВВ називають мішану частинну похідну другого порядку від інтегральної функції розподілу
.
Щільність розподілу імовірностей задовольняє властивостям:
1) Вона невідємна, тобто (як похідна неспадної функції).
2) (умова нормування).
3) (звязок із інтегральною функцією).
4) Імовірність попадання випадкової точки в область знаходиться за формулою .
Дві випадкові величини незалежні, якщо закон розподілу однієї з них не залежить від того, які можливі значення прийняла інша величина. У супротивному випадку випадкові величини залежні.
Теорема. Для того, щоб ВВ та були незалежними, необхідно і достатньо, щоб інтегральна (або диференціальна) функція системи дорівнювала добутку інтегральних (диференціальних) функцій компонент
(або ).
Наслідок. Для незалежності двох ДВВ необхідно і достатньо, щоб .
Числові характеристики двохвимірної ВВ.
Математичне сподівання двохвимірної (системи) ВВ позначається характеризує координати центру розподілу ВВ. Ці координати у випадку НВВ знаходяться за формулами:
,
.
Дисперсії та характеризують розсіювання випадкової точки від центру розподілу вздовж координатних осей Ох та Оу відповідно. Їх можна знаходити за формулами:
,
.
Для опису двохвимірної ВВ крім математичного сподівання, дисперсії та середніх квадратичних відхилень використовують також кореляційний момент (коваріацію):
.
Для НВВ:
.
Для кількісної характеристики залежності ВВ часто використовують (особливо у статистиці) коефіцієнт кореляції:
.
Якщо ВВ та дискретні, то у вищенаведених формулах знаки інтегралів замінюють знаками суми по усім можливим значенням ВВ.
Означення. ВВ та називають некорельованими, якщо їх кореляційний момент або коефіцієнт кореляції дорівнює нулю.
Властивості коефіцієнта кореляції.
1) ;
2) якщо та незалежні, то ;
3) якщо між та є лінійна залежність , де - постійні, то .
Зауваження. Якщо кореляційний момент або коефіцієнт кореляції відмінний від нуля, то ВВ та - корельовані. Дві корельовані ВВ обовязково залежні. Але залежні ВВ можуть бути як корельованими, так і некорельованими, тобто їх коефіцієнт кореляції може бути відмінним від нуля або рівним нулю. Із незалежності ВВ випливає їх некорельованість, але із некорельованості не випливає незалежність ВВ. У випадку нормально розподілених ВВ із некорельованості випливає незалежність ВВ.
Функції ВВ та їх характеристики.
Означення. Якщо вказано закон (або правило) , за яким кожному можливому значенню ВВ відповідає певне значення ВВ , то називають функцією і позначають .
Відзначимо, що іноді різним можливим значенням ВВ відповідають однакові значення ВВ . Наприклад, якщо , то значенням ВВ відповідає одне значення ВВ .
Однією із задач теорії імовірностей є визначення законів розподілу та числових характеристик функцій випадкового аргументу, закон розподілу якого відомий.
Нехай , а аргумент - ДВВ, наприклад, задана таблицею
... |
||||
... |
Тоді також є ДВВ, закон розподілу якої буде мати вигляд:
... |
||||
... |
Математичне сподівання, дисперсію, середнє квадратичне відхилення та початкові і центральні моменти розподілу знаходять за формулами:
;
;
;
;
.
Приклад 7.2. ДВВ задана таблицею
Знайти закон розподілу та числові характеристики функції .
Розвязування.
Нехай - НВВ, закон розподілу якої заданий диференціальною функцією (щільністю розподілу імовірностей) , а ВВ . Якщо - диференційовна функція, монотонна на усьому проміжку можливих значень , то щільність розподілу функції визначається за формулою:
, (*)
де - функція, обернена до функції .
Якщо немонотонна функція на області визначення аргумента , то обернена функція неоднозначна, тому щільність розподілу визначається як сума доданків, кількість яких дорівнює кількості значень оберненої функції:
, (**)
де - обернені функції при заданому .
Алгоритм знаходження щільності розподілу .
1. Визначити множину можливих значень для .
2. Із функціональної залежності знайти явний вираз через , тобто функцію , обернену до функції .
3. Знайти похідну .
4. За формулою (*) записати щільність розподілу ВВ .
5. Перевірити умову нормування для : .
Приклад 7.3. ВВ розподілена за нормальним законом з математичним сподіванням та середнім квадратичним відхиленням (стандартний нормальний розподіл). Знайти закон розподілу функції .
Розвязування.
Для знаходження числових характеристик функції можна спочатку знайти щільність розподілу за формулою (*) або (**), а потім скористуватись означеннями. Але інколи можна знайти числові характеристики безпосередньо. Наприклад, математичне сподівання функції можна знайти за формулою
,
де - щільність розподілу імовірностей ВВ .
Приклад 7.4. НВВ задана щільністю розподілу імовірностей
Знайти числові характеристики функції .
Розвязування.
Функції двох неперервних випадкових аргументів
Якщо кожній парі можливих значень ВВ та відповідає одне можливе значення ВВ , то називають функцією двох випадкових аргументів і записують .
Композицією розподілів (згорткою) називається формула, за якою можна отримати закон розподілу суми незалежних ВВ.
Зазначимо, що закон розподілу суми не співпадає, взагалі кажучи, із законами розподілу доданків (навіть, якщо вони однаково розподілені).
Нехай НВВ та задані щільностями розподілу відповідно та . Тоді щільність розподілу їх суми (за умови, що щільність розподілу хоча б одного із аргументів задана на інтервалі одною формулою) можна знайти за формулою, яку називають формулою композиції двох розподілів (формулою згортки):
.
Зауваження. Якщо можливі значення аргументів невідємні, то щільність розподілу їх суми знаходять за формулою:
Приклад 7.5. Довести, що композиція двох незалежних ВВ, що розподілені за нормальними стандартними законами, також є нормально розподіленою ВВ.
Розвязування.
Приклад 7.6. Скласти композицію двох незалежних ВВ, що розподілені рівномірно на відрізку [0;1].
Розвязування.
ТЕМА №8
1. Предмет математичної статистики. Статистичні сукупності (генеральна та вибіркова).
2. Способи відбору. Проста випадкова вибірка. Впорядкування даних та їх розподіл.
3. Числові характеристики статистичних розподілів.
4. Точкові та інтервальні оцінки параметрів статистичних розподілів, вимоги до цих оцінок.
Предмет математичної статистики полягає у розробці методів збору та обробки статистичних даних для одержання наукових та практичних висновків.
Основні задачі математичної статистики:
ГЕНЕРАЛЬНА ТА ВИБІРКОВА СУКУПНОСТІ.
Нехай потрібно вивчити сукупність обєктів відносно деякої якісної або кількісної ознаки (випадкової величини), які характеризують ці обєкти. Кожен обєкт, який спостерігають, має декілька ознак. Розглядаючи лише одну ознаку кожного обєкта, ми припускаємо, що інші ознаки рівноправні, або що множина обєктів однорідна.
Такі множини однорідних обєктів називають статистичною сукупністю.
Наприклад, якщо досліджують партію деталей, то якісною ознакою може бути стандартність або нестандартність кожної деталі, а кількісною ознакою розмір деталі. Кількісні ознаки бувають дискретними та неперервними.
Перевірку статистичної сукупності можна провести двома способами:
Перевагами вивчення вибірки є малі затрати коштів, обладнання та часу. Вибірку можна ефективно застосовувати для вивчення відповідної ознаки усієї сукупності лише тоді, коли дані вибірки вірно відображають цю ознаку, тобто вибірка повинна бути репрезентативною (представницькою, показною). Згідно із законом великих чисел теорії імовірностей можна стверджувати , що вибірка буде репрезентативною лише тоді, коли її здійснюють випадково.
Простим випадковим відбором (простою випадковою вибіркою) називають такий відбір із статистичної сукупності, при якому кожний обєкт, що відбирається, має однакову імовірність потрапити до вибірки. Обєм вибіркової сукупності (вибірки) це кількість обєктів цієї сукупності. Варто відмітити, що альтернативою для простої випадкової вибірки в статистиці є розшарована випадкова вибірка.
Генеральною називають сукупність обєктів, з якої зроблено вибірку. Обєм генеральної сукупності позначають .
Вибірки бувають повторні (при яких відібраний обєкт повертається до генеральної сукупності перед відбором іншого обєкта) та безповторні (при яких взятий обєкт до генеральної сукупності не повертається). Найчастіше використовуються безповторні вибірки.
ДЖЕРЕЛА ДАНИХ У СТАТИСТИЦІ.
Дослідники і менеджери отримують дані, необхідні для прийняття рішень, в основному, з трьох джерел:
Приклади: 1) дослідницький центр вибирає 1000 потенційних виборців для опитування з метою вивчення рейтингу певного кандидата на виборах; 2) проведення анкетування серед певної групи людей за спеціально розробленою анкетою; 3) аналіз даних рівня продажу певного виду товару, різноманітні офіційні джерела статистичних даних.
Джерела даних бувають первинними та вторинними.
Первинні дані збираються спеціально для статистичного дослідження. Для цих даних є відомості про методи збирання, точність даних тощо.
Вторинними є дані, що використовуються у статистиці, але спочатку збирались для інших цілей. Очевидно, що рутинні записи про діяльність фірм, офіційні статистичні звіти є вторинними даними.
Безумовно, більш цінними є первинні дані, але їх не завжди можна отримати, тому часто використовуються вторинні дані.
СПОСОБИ ВІДБОРУ.
1. Вибір, який не потребує розділення генеральної сукупності на частини. До цього вибору відносять:
2. Вибір, при якому генеральна сукупність розділяється на частини (розшарований випадковий відбір). До цього виду вибору відносять:
Типовим називають відбір, при якому обєкти відбирають не із усієї генеральної сукупності, а лише із її типових частин. Наприклад, якщо однакові вироби виготовляються на різних підприємствах (або різними станками), то відбираються вироби кожного окремого підприємства (станка) тощо.
Механічним називають відбір, при якому генеральна сукупність механічно поділяється на стільки частин, скількимає бути обєктів у вибірці. Із кожної частини випадковим чином відбирають один обєкт. Наприклад, якщо потрібно перевірити 25% усіх виготовлених виробів, то відбирають кожний четвертий виріб. Зазначимо, що для репрезентативності механічного відбору потрібно враховувати специфіку технологічного процесу.
Серійним називають відбір, при якому обєкти із генеральної сукупності відбирають не по одному, а серіями. Серійний відбір застосовують тоді, коли ознака, яку досліджують, мало змінюється у різних серіях.
Зауважимо, що в економічних дослідженнях застосовують і комбіновані відбори.
ПРОСТА ВИПАДКОВА ВИБІРКА.
Для здійснення простої випадкової вибірки необхідна наявність основи вибірки, тобто такого представлення генеральної сукупності, при якому її елементи були б принаймні перераховані.
Приклад. а) генеральна сукупність всі клієнти банку. Основою вибірки можуть бути робочі списки клієнтів, що вів банк.
б) генеральна сукупність всі мешканці міста,які мають телефон. Основою вибірки може бути телефонний довідник.
Як правило, дані для утворення простої випадкової вибірки подаються у вигляді деякої, заздалегідь складеної таблиці і тому основою вибірки є нумерація елементів цієї таблиці.
Основа вибірки повинна повністю відбивати ознаку генеральної сукупності, яка вивчається. Порушення цієї вимоги може зробити вибірку нерепрезентативною.
Приклад. Для обстеження молодих сімей міста на предмет наявності в них дітей дошкільного віку дослідник випадковим чином за допомогою телефонного довідника обзвонює сімї з 18.00 до 21.00 щодня. Чи буде така вибірка репрезентативною?
Приклад. Проста випадкова вибірка може використовуватись у наступних дослідженнях:
а) телефонна компанія перевіряє рахунки 10% всіх міжнародних телефонних переговорів з метою визначення їх середньої величини;
б) аудиторська перевірка 20% фірм регіону з метою контроля правильності сплати податків.
Загальновідомо, що найкращим способом здійснення простої випадкової вибірки є використання випадкових вибіркових чисел (їх таблиць або за допомогою стандартних компютерних програм, зокрема, функції “выборка” електронних таблиць Excel).
СТАТИСТИЧНИЙ РОЗПОДІЛ ОЗНАКИ.
Дані у статистиці, отримані за допомогою спеціальних досліджень або із робочих (рутинних) записів у бізнесі, надходять до дослідника у вигляді неорганізованої маси (незалежно від того, чи є вони вибірковими, чи даними із генеральної сукупності). В математичній статистиці замість слова “дані” вживається термін “варіанти”. Характеристику варіанти (випадкову величину) при цьому називають ознакою.
Нехай із генеральної сукупності взята вибірка обєктів обєму , для вивчення ознаки . Тобто, значення є варіанти ознаки . Першим кроком обробки є впорядкування варіант. Розглянемо приклад:
Вибірка середньомісячної зарплати 100 співробітників фірми |
|||||||||
338 |
348 |
304 |
314 |
326 |
314 |
324 |
304 |
342 |
308 |
336 |
304 |
302 |
338 |
314 |
304 |
320 |
321 |
322 |
321 |
312 |
323 |
336 |
324 |
312 |
312 |
364 |
356 |
362 |
302 |
322 |
310 |
334 |
292 |
362 |
381 |
304 |
366 |
298 |
304 |
381 |
368 |
304 |
298 |
368 |
290 |
340 |
328 |
316 |
322 |
302 |
314 |
292 |
342 |
321 |
322 |
290 |
332 |
298 |
296 |
296 |
298 |
324 |
338 |
352 |
326 |
318 |
304 |
332 |
322 |
360 |
312 |
331 |
331 |
304 |
316 |
332 |
282 |
342 |
338 |
342 |
322 |
324 |
325 |
302 |
328 |
354 |
330 |
316 |
324 |
334 |
350 |
334 |
324 |
332 |
340 |
324 |
314 |
326 |
323 |
Розташуємо дані у порядку зростання:
Впорядкована вибірка середньомісячної зарплати 100 співробітників фірми (у порядку зростання) |
|||||||||
282 |
298 |
304 |
314 |
321 |
323 |
326 |
332 |
340 |
356 |
290 |
302 |
304 |
314 |
321 |
324 |
326 |
334 |
340 |
360 |
290 |
302 |
304 |
314 |
321 |
324 |
328 |
334 |
342 |
362 |
292 |
302 |
304 |
314 |
322 |
324 |
328 |
334 |
342 |
362 |
292 |
302 |
308 |
314 |
322 |
324 |
330 |
336 |
342 |
364 |
296 |
304 |
310 |
316 |
322 |
324 |
331 |
336 |
342 |
366 |
296 |
304 |
312 |
316 |
322 |
324 |
331 |
338 |
348 |
368 |
298 |
304 |
312 |
316 |
322 |
324 |
332 |
238 |
350 |
368 |
298 |
304 |
312 |
318 |
322 |
325 |
332 |
338 |
352 |
381 |
298 |
304 |
312 |
320 |
323 |
326 |
332 |
338 |
354 |
381 |
Варіанти, записані до таблиці у зростаючому (спадаючому) порядку, називають варіаційним рядом. При упорядкуванні (ранжуванні) можна отримати більше інформації, наприклад, про межі зміни середньомісячної зарплати.
РОЗПОДІЛ ЧАСТОТ.
Нехай у вибірці із варіант ознака прийняла значення раз, значення раз, …, значення раз.
Додатне число, що вказує, скільки раз та чи інша варіанта зустрічається в таблиці даних, називається частотою, а ряд називається рядом частот. Відмітимо, що сума усіх частот повинна дорівнювати обєму вибірки: .
Статистичний розподіл вибірки встановлює звязок між рядом варіант, що зростає або спадає, і відповідними частотами. Як правило, його подають у вигляді таблиці:
… |
||||
… |
Заданий такою таблицею розподіл називають простим незгрупованим статистичним розподілом або розподілом частоти варіанти (рядом розподілу частоти варіанти).
Розподіл частоти середньомісячної зарплати співробітників фірми |
|||||||
282 |
1 |
314 |
5 |
328 |
2 |
350 |
1 |
290 |
2 |
316 |
3 |
330 |
1 |
352 |
1 |
292 |
2 |
318 |
1 |
331 |
2 |
354 |
1 |
296 |
2 |
320 |
1 |
332 |
4 |
356 |
1 |
298 |
4 |
321 |
3 |
334 |
3 |
360 |
1 |
302 |
4 |
322 |
6 |
336 |
2 |
362 |
2 |
304 |
9 |
323 |
2 |
338 |
4 |
364 |
1 |
308 |
1 |
324 |
7 |
340 |
2 |
366 |
1 |
310 |
1 |
325 |
1 |
342 |
4 |
368 |
2 |
312 |
4 |
326 |
3 |
348 |
1 |
381 |
2 |
.
Подальшим кроком в обробці даних, що призводить до спрощення досліджень, є їх згрупування. Як видно із останньої таблиці максимальне та мінімальне значення варіанти будуть
.
Різниця цих чисел
називається варіаційним розмахом або розмахом варіант.
Введемо для варіанти інтервали зміни середньої зарплати: 280-290, 290-300,…, 380-390. Кожний інтервал називається класом інтервалів або класом, а число одиниць виміру у цих класах, тобто різниця , називається шириною класу. Використовуючи дані попередньої таблиці, отримуємо:
Згрупований розподіл частоти середньомісячної зарплати співробітників фірми |
|
280-290 |
1 |
290-300 |
10 |
300-310 |
14 |
310-320 |
14 |
320-330 |
25 |
330-340 |
16 |
340-350 |
7 |
350-360 |
4 |
360-370 |
7 |
370-380 |
0 |
380-390 |
2 |
сума |
100 |
Така таблиця, яка встановлює звязок між згрупованим рядом варіант, що зростає або спадає, та сумами їхніх частот по класах, називається згрупованим розподілом частоти варіанти. У нашому прикладі ширина класів однакова і дорівнює , а кількість класів . Зазначимо, що введені величини варіаційний розмах, ширина класів та їх кількість повязані співвідношенням
.
Зауваження. Інколи неможливо або небажано вибирати ширину класів однаковою. Неоднакова ширина класів бажана, наприклад, коли значення частоти одного чи декількох класів набагато більша (менша) значень частот інших інтервалів. Як правило, ширина інтервалів зростає (або спадає) і може містити інтервали відкритого типу “більше ніж…”, “менше ніж…”.
ЗГРУПОВАНИЙ РОЗПОДІЛ НАКОПИЧЕНОЇ ЧАСТОТИ.
Часто поряд із розподілом частоти варіанти необхідно мати розподіл пакопиченої (кумулятивної) частоти. Такий розподіл одержується послідовним додаванням частот чергового інтервалу, починаючи з першого і зікінчуючи останнім (див.таблицю):
Згрупований розподіл частоти середньомісячної зарплати співробітників фірми |
|||
інтервали платні |
частоти |
платня |
накопичені частоти |
280-290 |
1 |
<290 |
1 |
290-300 |
10 |
<300 |
11 |
300-310 |
14 |
<310 |
25 |
310-320 |
14 |
<320 |
39 |
320-330 |
25 |
<330 |
64 |
330-340 |
16 |
<340 |
80 |
340-350 |
7 |
<350 |
87 |
350-360 |
4 |
<360 |
91 |
360-370 |
7 |
<370 |
98 |
370-380 |
0 |
<380 |
98 |
380-390 |
2 |
<390 |
100 |
сума |
100 |
Розподіл накопиченої частоти дозволяє відповісти на питання: “Скільки існує варіант, менших, наприклад, 350?” Із таблиці знаходимо: .
РОЗПОДІЛ ЧАСТКИ (ВІДНОСНОЇ ЧАСТОТИ АБО ЧАСТОСТІ).
Часто замість значень частот використовуються відношення частоти варіанти до обєму вибірки :
,
які називаються частками (відносними частотами або частостями), причому .
Залежність між впорядкованим рядом варіант і відповідними їм частками також називають статистичним розподілом вибірки (див.таблицю):
Згрупований розподіл частки та накопиченої частки середньомісячної зарплати співробітників фірми |
|||||
інтервали платні |
частоти |
частки |
платня |
накопичені частоти |
накопичені частки |
280-290 |
1 |
0,01 |
<290 |
1 |
0,01 |
290-300 |
10 |
0,1 |
<300 |
11 |
0,11 |
300-310 |
14 |
0,14 |
<310 |
25 |
0,25 |
310-320 |
14 |
0,14 |
<320 |
39 |
0,39 |
320-330 |
25 |
0,25 |
<330 |
64 |
0,64 |
330-340 |
16 |
0,16 |
<340 |
80 |
0,80 |
340-350 |
7 |
0,07 |
<350 |
87 |
0,87 |
350-360 |
4 |
0,04 |
<360 |
91 |
0,91 |
360-370 |
7 |
0,07 |
<370 |
98 |
0,98 |
370-380 |
0 |
0,00 |
<380 |
98 |
0,98 |
380-390 |
2 |
0,02 |
<390 |
100 |
1 |
сума |
100 |
1 |
Розподіл накопиченої частки дозволяє відповісти на питання: “Яка частка варіант, що менші, наприклад, 350?” Із таблиці знаходимо: частка цих варіант становить 0,87.
ЗГРУПОВАНИЙ РОЗПОДІЛ ЩІЛЬНОСТЕЙ ЧАСТОТИ ТА ЧАСТКИ.
Якщо поділити всі частоти на ширину інтервалу, то отримаємо розподіл щільності частоти вибірки:
.
Відзначимо, що поняття щільностей мають глибокий імовірністний смисл.
Уведемо до попередньої таблиці стовпці щільностей частот та часток:
інтервали платні |
часто-ти |
частки |
щіль-ність часто-ти |
щіль-ність частки |
платня |
накопичені частоти |
накопичені частки |
280-290 |
1 |
0,01 |
0,1 |
0,001 |
<290 |
1 |
0,01 |
290-300 |
10 |
0,1 |
1,0 |
0,010 |
<300 |
11 |
0,11 |
300-310 |
14 |
0,14 |
1,4 |
0,014 |
<310 |
25 |
0,25 |
310-320 |
14 |
0,14 |
1,4 |
0,014 |
<320 |
39 |
0,39 |
320-330 |
25 |
0,25 |
2,5 |
0,025 |
<330 |
64 |
0,64 |
330-340 |
16 |
0,16 |
1,6 |
0,016 |
<340 |
80 |
0,80 |
340-350 |
7 |
0,07 |
0,7 |
0,007 |
<350 |
87 |
0,87 |
350-360 |
4 |
0,04 |
0,4 |
0,004 |
<360 |
91 |
0,91 |
360-370 |
7 |
0,07 |
0,7 |
0,007 |
<370 |
98 |
0,98 |
370-380 |
0 |
0,00 |
0,0 |
0,000 |
<380 |
98 |
0,98 |
380-390 |
2 |
0,02 |
0,2 |
0,002 |
<390 |
100 |
1 |
сума |
100 |
1 |
ЗАГАЛЬНА СХЕМА ПОБУДОВИ ЗГРУПОВАНОГО РОЗПОДІЛУ ЧАСТОТ.
1. Визначити найбільше та найменше значення варіанти і визначити варіаційний розмах .
2. Задатися певним числом класів , яке рекомендується брати непарним, при обємах вибірки доцільно , а при менших обємах вибірки можна .
3. Визначити ширину класів . Для спрощення розрахунків, отримане значення ширини класів слід округлити до найближчого цілого.
4. Встановити границі класів і підрахувати кількість варіант у кожному класі.
5. Визначити частоту для кожного класу і записати ряд розподілу.
ЕМПІРИЧНА ФУНКЦІЯ РОЗПОДІЛУ.
Нехай є статистичний розподіл частот деякої ознаки .
Означення. Емпіричною функцією розподілу (або функцією розподілу вибірки) називають функцію , яка визначає для кожного дійсного значення частість події , тобто:
,
де - кількість (частота) варіант, які менші від , а - обєм вибірки.
Зауваження. Інтегральну функцію розподілу генеральної сукупності в математичній статистиці називають теоретичною функцією розподілу. Вона відрізняється від емпіричної функції розподілу тим, що визначає імовірність події , а не її частість. Із теореми Бернуллі випливає, що частість події прямує до імовірності цієї події. Тому доцільно використовувати емпіричну (вибіркову) функцію розподілу для представлення теоретичної фунції розподілу генеральної сукупності.
Між емпіричною функцією розподілу і функцією накопичених частот на кожному класі інтервалів існує простий звязок:
.
ГРАФІЧНЕ ЗОБРАЖЕННЯ СТАТИСТИЧНИХ РОЗПОДІЛІВ.
Полігоном частот називають ламану, відрізки якої зєднують точки .
Полігоном часток (частостей або відносних частот) називають ламану, відрізки якої зєднують точки .
Полігон часток є аналогом полігону розподілу імовірностей.
Ці полігони слугують для графічного зображення дискретних варіаційних рядів. А для зображення інтервальних варіаційних рядів використовують гістограми.
Гістограмою частот називають ступінчасту фігуру, що складається з прямокутників, основами яких є частинні інтервали варіант довжиною , а висоти дорівнюють (щільність частоти). Площа гістограми частот дорівнює обєму вибірки.
Гістограмою часток (частостей або відносних частот) називають ступінчасту фігуру, що складається з прямокутників, основами яких є частинні інтервали варіант довжиною , а висоти дорівнюють (щільність частки). Площа гістограми частки дорівнює 1. Гістограма частки є аналогом розподілу щільності імовірностей для генеральної сукупності.
Полігони накопиченої частки (або накопиченої частоти) в статистиці називають огівою або кумулятивною кривою.
Графіки статистичних розподілів для розглянутого прикладу побудовані на окремих листах засобами Excel (див. додатки ).
ОСНОВНІ ВИМОГИ ДО СТАТИСТИЧНИХ ОЦІНОК ПАРАМЕТРІВ РОЗПОДІЛУ.
У багатьох випадках потрібно дослідити кількісну ознаку генеральної сукупності, використовуючи результати вибірки. Часто для цього достатньо знати наближені значення математичного сподівання , дисперсії , середньоквадратичного відхилення , початкові або центральні моменти. Іноді з деяких міркувань вдається встановити закон розподілу . Тоді треба вміти оцінювати параметри цього закону розподілу.
Означення. Статистичною (точковою) оцінкою невідомого параметра випадкової величини генеральної сукупності (теоретичного розподілу ) називають функцію від випадкових величин (результатів вибірки), що спостерігаються.
Нехай є статистична оцінка невідомого параметра теоретичного розподілу. Припустимо, що за вибіркою обєму знайдена оцінка . При інших вибірках того ж обєму одержимо деякі інші оцінки . Саме оцінку можна розглядати як випадкову величину, а числа як її можливі значення. Точкова статистична оцінка повинна задовольняти певним умовам, які сформулюємо у вигляді означень.
Означення. Статистичну оцінку параметра називають незсунутою, якщо . Оцінку називають зсунутою, якщо ця рівність не виконується.
Означення. Статистичну оцінку параметра називають ефективною, якщо вона при заданому обємі вибірки має найменшу можливу дисперсію.
Означення. Статистичну оцінку параметра називають обгрунтованою (значимою, показною, репрезентативною), якщо вона при прямує за імовірністю до оцінюваного параметра.
Відмітимо, що якщо дисперсія незсунутої оцінки при прямує до нуля, то оцінка буде і обгрунтованою.
ЧИСЛОВІ ХАРАКТЕРИСТИКИ ВИБІРКИ.
Окрім табличних та графічних методів представлення даних широко застосовуються їх числові характеристики. Найбільш важливі із них: середнє значення, дисперсія, середнє квадратичне відхилення (стандартне відхилення). Ці характеристики називають генеральними, якщо вони обчислені за даними генеральної сукупності, та вибірковими, якщо вони обчислені за даними вибірки.
Числові характеристики, обчислені по вибірці або ті, що використовуються для опису даних вибірки, часто називають статистиками.
Числові характеристики, обчислені по генеральній сукупності або ті, що використовуються для опису даних генеральної сукупності, часто називають параметрами.
По аналогії із математичним сподіванням, дисперсією та середнім квадратичним відхиленням ДВВ обчислюються вибіркові характеристики (статистики), замінюючи при цьому відповідні імовірності частостями , що відповідають варіантам (якщо неперервна ознака задана інтервальним варіаційним рядом, то проводять його “дискретизацію”, замінюючи кожний інтервал його середнім значенням).
Означення. Вибірковою середньою або вибірковою зваженою середньоарифметичною називають середню арифметичну варіант вибірки із урахуванням їх частостей і позначають
,
де - обєм вибірки, - кількість різних варіант, - частоти варіант (). Аналогічно визначається генеральна середня або генеральна зважена середньоарифметична із заміною обєму вибірки на - обєм генеральної сукупності і позначається .
Вибіркова середня є аналогом математичного сподівання і використовується дуже часто. Вона може приймати різні числові значення при різних вибірках однакового обєму. Тому можна розглядати розподіли вибіркової середньої та числові характеристики цього розподілу. Неважко довести, що:
Теорема. Вибіркова середня є незсунутою, ефективною та обгрунтованою точковою оцінкою для генеральної середньої. Іншими словами, вибіркова середня є статистикою, яка задовольняє всі умови точкового оцінювання, для параметра генеральної середньої кількісної ознаки.
Доведення.
Зауваження. Крім вибіркової середньої (середньозваженої) в статистиці застосовуються і інші середні, зокрема:
проста середньоарифметична ;
степеневі середні (середньоквадратична, середня гармонічна, середня геометрична тощо) ;
структурні середні, які не залежать від значень варіант, що розташовані на краях розподілу, зокрема, мода (значення варіанти, яка має найбільшу частоту) та медіана (значення, яке “ділить розподіл навпіл”) та інші.
Означення. Вибірковою дисперсією називають середню (зважену) квадратів відхилення варіант від вибіркової середньої:
.
Зауважимо, що для спрощення обчислення вибіркової дисперсії можна застосовувати формулу: .
Означення. Вибірковим середньоквадратичним відхиленням (стандартом) називають квадратний корінь із вибіркової дисперсії .
Можна показати,що:
Вибіркова дисперсія є ефективною, обгрунтованою, але ЗСУНУТОЮ точковою оцінкою для генеральної дисперсії .
Зауваження. Вибіркова дисперсія дає занижені оцінки для генеральної дисперсії, але . Тому вибіркову дисперсію виправляють так, щоб вона стала незсунутою оцінкою. А саме, вводять так звану виправлену вибіркову дисперсію
.
Тоді виправленим стандартом вибірки буде .
Очевидно, що при достатньо великих обємах вибірки ( ) вибіркова дисперсія та виправлена вибіркова дисперсія різняться дуже мало, тому в практичних задачах виправлені вибіркові дисперсію та стандарт використовують лише при обємах вибірок .
Окрім вищевказаних числових характеристик, використовують статистичні початкові та центральні моменти інших порядків, зокрема, коефіцієнт асиметрії , який характеризує “зкошеність” розподілу відносно його центра та коефіцієнт ексцеса , який характеризує “крутизну” розподілу.
Зауважимо, що для обчислення статистик вибірки часто користуються так званим методом добутків (методом моментів або умовних варіант).
У випадку оцінювання параметрів якісної ознаки , а саме генеральної частки (частості) за допомогою вибіркової частки , використовується наступна
Теорема. Вибіркова частка є незсунутою, ефективною та обгрунтованою точковою оцінкою для генеральної частки . Іншими словами, вибіркова частість є статистикою, яка задовольняє всі умови точкового оцінювання, для параметра генеральної частості якісної ознаки.
ІНТЕРВАЛЬНІ ОЦІНКИ.
Точкові оцінки параметрів розподілу є випадковими величинами, їх можна вважати первинними результатами обробки вибірки, оскільки невідомо, з якою точністю кожна з них оцінює відповідну числову характеристику генеральної сукупності. Якщо обєм вибірки досить великий, то точкові оцінки задовольняють практичні потреби точності. Якщо ж обєм вибірки малий, то точкові оцінки можуть давати значні похибки, тому питання точності оцінювання у цьому випадку дуже важливе і необхідно використовувати інтервальні оцінки.
Означення. Інтервальною називають оцінку, яка визначається двома числами кінцями інтервалу.
Інтервальні оцінки дозволяють встановити точність та надійність оцінок.
Нехай знайдена за даними вибірки статистична оцінка є точковою оцінкою невідомого параметра . Очевидно, що тим точніше визначає , чим меншим є модуль різниці . Іншими словами, якщо , тоді меншому відповідатиме більш точна оцінка. Тому число називають граничною похибкою вибірки і воно характеризує точність оцінки.
Але статистичні методи не дозволяють категорично стверджувати, що оцінка задовольняє нерівність . Таке твердження можна зробити лише із певною імовірністю.
Означення. Надійністю (довірчою імовірністю) оцінки параметра називають імовірність
,
яку можна записати у вигляді . З цієї рівності випливає, що інтервал містить невідомий параметр генеральної сукупності (часто кажуть, що інтервал покриває невідомий параметр).
Означення. Інтервал називають довірчим, якщо він покриває невідомий параметр із заданою надійністю .
Зауважимо, що кінці довірчого інтервалу є випадковими величинами.
За допомогою теорем закону великих чисел з уточненням Ляпунова (Чебишова для кількісної ознаки та Бернуллі для якісної ознаки) доводиться наступне твердження (класичні інтервальні оцінки або формули довірчої імовірності):
Теорема. Імовірність того, що модуль відхилення вібіркової середньої (або частки) від генеральної середньої (або частки) не перевищить число дорівнює:
(або ),
де - інтегральна функція Лапласа, , а - середньоквадратична похибка (стандарт) вибірки, яка може бути знайдена за наступними формулами:
а) при оцінюванні середньої кількісної ознаки:
у випадку повторної вибірки,
у випадку безповторної вибірки;
б) при оцінюванні частки якісної ознаки
у випадку повторної вибірки,
у випадку безповторної вибірки.
Зауваження. При визначенні середньоквадратичної похибки вибірки для частки якісної ознаки буває, що невідомі ні генеральна частка , ні її точкова оцінка вибіркова частка . Тоді добуток покладають рівним максимальному можливому значенню - .
Наслідок. При заданій надійності (довірчій імовірності) гранична похибка вибірки дорівнює -кратній величині стандарту, тобто
.
Наслідок. Довірчі інтервали (інтервальні оцінки) для генеральної середньої та генеральної частки визначаються формулами:
та .
Із класичних оцінок, в яких точність оцінки визначається граничною похибкою , можна зробити наступні висновки:
ТРИ ТИПИ ЗАДАЧ ВИБІРКОВОГО МЕТОДА.
Приклад 8.1. За умовами результатів вибірки зарплати 100 співробітників фірми із її 1000 робітників визначити: а) імовірність того, що середня платня всіх робітників фірми відрізняється від середньої вибіркової платні не більше ніж на 5грн. в ту чи іншу сторону; б) границі, в яких з надійністю 0,9545 знаходиться середня платня всіх робітників фірми; в) обєм вибірки, при якому з надійністю 0,9973 модуль відхилення середньої платні усіх робітників від вибіркової середньої платні не перевищить 5грн. Розглянути випадки повторної та безповторної вибірки.
Розвязування. Дано: ознака - платня (кількісна ознака).
Генеральна сукупність:
- кількість усіх робітників фірми (обєь генеральної сукупності);
- середня платня усіх робітників (генеральна середня, яка оцінюється).
Вибірка:
- кількість відібраних робітників (обєм вибірки);
вибіркова середня платня,
вибіркові дисперсія та стандарт (знайдені за умовами прикладу Додаток 5).
а) Знаходимо середньоквадратичну похибку вибірки. Для повторної вибірки
. Довірча імовірність . Для безповторної вибірки , а надійність .
Отже, імовірність того, що вибіркова середньомісячна платня буде відрізнятися по модулю від середньомісячної платні всіх робітників фірми не більше, ніж на 5грн., буде дорівнювати 0,9722 для повторної і 0,9802 для безповторної вибірки.
б) Знаходимо граничні похибки повторної та безповторної вибірки за формулою , в якій (знаходиться як аргумент значення інтегральної функції Лапласа по таблиці або за допомогою спеціальної функції Excel).
Для повторної вибірки , а довірчий інтервал: або або грн.
Для безповторної вибірки , а довірчий інтервал: або або грн..
Отже, з надійністю 0,9545 можна стверджувати, що середньомісячна платня всіх робітників фірми буде від 321,3грн. до 330,3грн. у випадку повторної вибірки та від 321,5грн. до 330,1грн. у випадку безповторної вибірки.
в) Знаходимо аргумент значення інтегральної функції Лапласа по таблиці або за допомогою спеціальної функції Excel: . У формулу при підставимо усі відомі величини: , звідси для повторної вибірки; , звідси для безповторної вибірки.
Приклад 8.2. Із партії в 8000 телевізорів відібрано 800. Серед відібраних виявилось 10% нестандартних. Знайти: а) імовірність того, що частка стандартних телевізорів в усій партії відрізняється по модулю від отриманої частки таких телевізорів у вибірці не більш, ніж на 0,02; б) границі, в яких з імовірністю 0,95 знаходиться частка стандартних телевізорів в усій партії; в) кількість телевізорів, які потрібно відібрати, щоб з надійністю 0,9545 частка стандартних телевізорів серед відібраних відрізнялась від генеральної частки по модулю не більш, ніж на 0,03; г) як змінилися б результати попередніх пунктів, якби про частку нестандартних телевізорів взагалі не було б нічого відомо. Розглянути випадки повторної та безповторної вибірки.
Розвязування.
Дано: ознака - телевізор стандартний (якісна ознака).
Генеральна сукупність:
- обєм усієї партії;
- частка стандартних телевізорів в усій партії (оцінюється).
Вибірка: - обєм;
вибіркова частка стандартних телевізорів.
а) Знаходимо середньоквадратичну похибку вибірки для частки. Для повторної вибірки . Довірча імовірність . Для безповторної вибірки , а надійність .
Отже, імовірність того, що вибіркова частка стандартних телевізорів буде відрізнятися по модулю від генеральної частки не більше, ніж на 0,02, буде дорівнювати 0,9412 для повторної і 0,9523 для безповторної вибірки.
б) Знаходимо граничні похибки повторної та безповторної вибірки за формулою , в якій (знаходиться як аргумент значення інтегральної функції Лапласа по таблиці або за допомогою спеціальної функції Excel).
Для повторної вибірки , а довірчий інтервал: або або або .
Для безповторної вибірки , а довірчий інтервал: або або або .
Отже, з надійністю 0,95 можна стверджувати, що частка стандартних телевізорів в усій партії буде від 0,8792 до 0,9208 у випадку повторної вибірки та від 0,8802 до 0,9198 у випадку безповторної вибірки.
в) Знаходимо аргумент значення інтегральної функції Лапласа по таблиці: . У формулу при підставимо усі відомі величини: , звідси для повторної вибірки; , звідси для безповторної вибірки.
г) Якщо про частку нестандартних телевізорів нічого не відомо, то приймаємо добуток рівним максимальному можливому значенню .
Для повторної вибірки:
а) , а довірча імовірність ;
б) , а довірчий інтервал: або або або ;
в) , звідси .
Для безповторної вибірки:
а) , а надійність ;
б) , а довірчий інтервал: або або або ;
в) , звідси .
ТЕМА №9
1. Статистичні гіпотези та їх різновиди. Похибки перевірки гіпотез.
2. Критерії узгодження для перевірки гіпотез. Критична область та її знаходження.
3. Критерій узгодження Пірсона «хі-квадрат»( ).
4. Приклади.
Часто необхідно знати закон розподілу ознаки у генеральній сукупності. Наприклад, є підстави вважати, що він має вигляд А. Тоді висувають гіпотезу (припущення): генеральна сукупність розподілена за законом А. У цій гіпотезі йде мова про вигляд невідомого закону розподілу. Іноді закон розподілу генеральної сукупності відомий, але його параметри (числові характеристики) невідомі. Тоді висувають гіпотезу: невідомий параметр дорівнює . Ця гіпотеза вказує припущену величину параметра відомого розподілу. Можливі інші гіпотези: про рівність параметрів двох різних розподілів, про незалежність вибірок тощо.
Означення. Статистичними називають гіпотези про вигляд розподілу генеральної сукупності або про параметри відомих розподілів.
Наприклад, статистичними будуть гіпотези: а) генеральна сукупність розподілена за нормальним законом; б) дисперсії двох сукупностей, розподілених за законом Пуассона, рівні між собою.
Приклад нестатистичної гіпотези (оскільки не йде мова ні про вигляд закону розподілу, ні про його параметри): значна частина людей, народжених у другому півріччі, має краще розвинену праву частину мозку, яка здійснює образне мислення.
Разом із припущеною гіпотезою завжди можна розглядати протилежну їй гіпотезу, які доцільно розрізняти.
Означення. Основною (нульовою) називають припущену гіпотезу і позначають .
Означення. Альтернативною (конкурентною) називають гіпотезу, що суперечить основній і позначають .
Наприклад, якщо , то .
Гіпотези можуть містити тільки одне припущення ( прості ) або більше одного припущення ( складні ). Наприклад, якщо - параметр показникового розподілу, то гіпотеза - проста, а гіпотеза - складна (містить нескінченну множину гіпотез).
Статистична гіпотеза, яка висунута, може бути правильною або неправильною, тому виникає необхідність її статистичної перевірки (перевірка за даними вибірки). При цьому за даними випадкової вибірки можна зробити хибний висновок.
Означення. Якщо за висновком буде відкинута правильна гіпотеза, то кажуть, що це похибка першого роду.
Означення. Якщо за висновком буде прийнята хибна гіпотеза, то кажуть, що це похибка другого роду.
Відмітимо, що наслідки похибок другого роду більш небезпечні, ніж наслідки похибок першого роду.
Означення. Імовірність здійснити похибку першого роду називають рівнем значущості.
Рівень значущості найчастіше позначають і приймають рівним 0,01 або 0,05. Якщо , то це значить, що в пяти випадках із 100 ми ризикуємо дістати похибку першого роду (відкинути правильну гіпотезу).
Наприклад, при контролі якості продукції імовірність признати неякісними якісні вироби називають ризиком виробника, а імовірність признати якісними неякісні вироби називають ризиком споживача.
КРИТЕРІЇ УЗГОДЖЕННЯ ДЛЯ ПЕРЕВІРКИ ГІПОТЕЗ.
Означення. Статистичним критерієм узгодження перевірки гіпотези (або просто критерієм ) називають випадкову величину К (вибіркову функцію), розподіл якої (точний або наближений) відомий і яка застосовується для перевірки основної гіпотези.
Зауваження. Якщо статистична характеристика (вибіркова функція) розподілена нормально, то критерій позначають не буквою К, а літерою Z (а процес перевірки Z-тестуванням). Якщо статистична характеристика розподілена за законом Фішера-Снедекора, то її позначають F ( Fтестування). У випадку розподілу статистичної характеристики за законом Стьюдента її позначають t (tтестування), а у випадку закону “хі-квадрат” - (-тестування).
Означення. Спостереженим значенням критерію узгодження називають значення відповідного критерію, обчислене за даними вибірки.
Означення. Критичною областю називають множину можливих значень критерію, при яких основна гіпотеза відхиляється. Є однобічні та двобічні критичні області.
Означення. Областю прийняття гіпотези (областю допустимих значень) називають множину можливих значень критерію, при яких основна гіпотеза приймається.
Для знаходження критичних областей (та областей прийняття гіпотез) задають рівень значущості , визначають кількості ступенів вільності (це поняття буде розглянуто далі), а потім шукають критичну точку із умови у випадку правобічної критичної області. Ця точка відокремлює критичну область від області прийняття гіпотези.
Зауваження. Єдиним способом одночасного зменшення імовірностей похибок першого та другого роду є збільшення обєму вибірки.
КРИТЕРІЙ УЗГОДЖЕННЯ ПІРСОНА ( -КРИТЕРІЙ).
Критерій Пірсона ефективно використовують для перевірки гіпотези про розподіл генеральної сукупності (теоретичний розподіл). Критерієм перевірки основної гіпотези про вигляд теоретичного розподілу беруть випадкову величину , що визначається через порівняння емпіричних (вибіркових) та теоретичних частот. Ця ВВ не залежить від виду закону, а залежить тільки від рівня значущості та кількості ступенів вільності , яка визначається як різниця між зменшеною на одиницю кількістю варіант (або інтервалів варіант) та кількістю параметрів розподілу. Тобто , де - кількість варіант (або інтервалів варіант), а - кількість параметрів розподілу.
Критичне значення (критична точка) знаходиться за відповідними таблицями (або за спеціальними функціями Excel).
Правило Пірсона. Щоб при заданому рівні значущості перевірити основну гіпотезу : генеральна сукупність розподілена за певним законом, потрібно:
;
якщо < , то гіпотеза приймається,
якщо > , то гіпотеза відхиляється.
Для нашого приклада (див.аналіз вибіркових даних на попередній лекції) висунемо основну гіпотезу : платня усіх робітників фірми (генеральна сукупність) розподілена за нормальним законом з параметрами:
математичне сподівання грн.
стандарт грн.
Щільність розподілу імовірностей (диференціальна функція):
.
Функція розподілу імовірностей (інтегральна функція):
, де - інтегральна функція Лапласа.
Усі подальші розрахунки див. на Додатку 5 (інтервали з теоретичними або емпіричними частотами, меншими 5, приєднуються до сусідніх). За таблицями (або за спеціальними функціями Excel) для рівня значущості при кількості ступенів вільності : .
ВИСНОВОК: оскільки < , то гіпотеза : платня усіх робітників фірми (генеральна сукупність) розподілена за нормальним законом приймається
Поняття статистичної та кореляційної залежності
Нагадаємо, що функціональна залежність характеризується відповідністю кожному значенню однієї змінної (аргумента) цілком певного, єдиного значення іншої змінної (функції).
Означення. Статистичною залежністю між двома змінними називається залежність, при якій кожному можливому значенню однієї змінної відповідає закон розподілу іншої змінної.
Означення. Кореляційною (регресійною) називають залежність, при якій кожному можливому значенню однієї змінної відповідає середнє (умовне середнє) значення іншої змінної (знайдене по закону розподілу або отримане шляхом спостережень). Кореляція взаємозвязок, регресія вплив.
Розглянемо наступний приклад:
Залежність між випуском продукції У (тон) протягом доби та величиною основних виробничих фондів (ОВФ) Х (млн.грн.) для сукупності 50 однотипних підприємств наведена в таблиці :
У Х |
27- |
31- |
35- |
39- |
43- |
|
-31 |
-35 |
-39 |
-43 |
47 |
||
40-45 |
2 |
1 |
3 |
|||
45-50 |
3 |
6 |
4 |
13 |
||
50-55 |
3 |
11 |
7 |
21 |
||
55-60 |
1 |
2 |
6 |
2 |
11 |
|
60-65 |
1 |
1 |
2 |
|||
5 |
11 |
17 |
14 |
3 |
50 |
Необхідно:
А) побудувати точкову діаграму статистичної залежності (кореляційне поле); визначити аргументи (регресори), які впливають на функцію-регресант;
Б) побудувати моделі регресійної залежності. Оцінити щільність кореляційного звязку;
В) використати моделі для економічного аналізу та прогнозування.
Спочатку «дискретизуємо» ВВ Х та У. Для цього кожен інтервал зміни ВВ замінимо на середнє значення (див. додаток ). Задано двохвимірну статистичну сукупність кореляційну таблицю, графічне зображення якої кореляційна хмара дозволяє зробити припущення про наявність залежності між змінними. Із економічної постановки задачі слідує, що незалежною змінною (регресором) є ОВФ Х, яка впливає на регресант (залежну змінну) - випуск У. За даними таблиці побудовано кореляційну (регресійну) залежність та її графік емпіричну лінію регресії. Вигляд цієї ламаної теж дозволяє припускати лінійну залежність між змінними.
Проста вибіркова лінійна регресія
Прості лінійні регресійні моделі встановлюють лінійну залежність між двома змінними, наприклад витратами на відпустку та складом родини; витратами на рекламу та обсягом реалізованої продукції; витратами на споживання та валовим національним продуктом (ВНП); зміною обсягу реалізованої продукції залежно від часу тощо.
При цьому одна із змінних вважається залежною ( - ендогенна або результативна змінна, регресант) та розглядається як функція від незалежної змінної ( - екзогенна або факторна змінна, регресор).
У загальному вигляді проста вибіркова регресійна модель запишеться так:
,
де
- вектор спостережень за залежною змінною; ;
- вектор спостережень за незалежною змінною; ;
- невідомі параметри регресійної моделі;
- вектор випадкових величин (помилок); .
Регресійна модель називається лінійною, якщо вона лінійна за своїми параметрами. Її ще можна трактувати як пряму на площині, де - перетин з віссю ординат, а - нахил (звичайно, якщо абстрагуватись від випадкової величини ).
Оцінка параметрів лінійної регресії за допомогою
методу найменших квадратів ( МНК )
Щоб мати явний вигляд залежності, необхідно знайти (оцінити) невідомі параметри цієї моделі. Тобто, потрібно за певним критерієм вибрати із множини можливих прямих «найкращу» з точки зору даного критерію. Найпоширенішим є критерій найменших квадратів, який полягає у мінімізації суми квадратів відхилень (помилок, залишків) .
За цим критерієм:
.
Визначимо значення , які мінімізують суму квадратів відхилень, із необхідних умов екстремуму функції двох змінних (неважко переконатись у виконанні достатніх умов мінімуму для цієї стаціонарної точки). Як відомо, це умови рівності нулю усіх частинних похідних:
Після нескладних перетворень звідси дістаємо систему лінійних алгебраїчних рівнянь (так звану нормальну систему):
Розвязок нормальної системи відносно нахилу дає
.
Поділивши чисельник і знаменник на , отримуємо
,
де - середні значення, - коефіцієнт коваріації, - дисперсія.
Враховуючи, що сума відхилень дорівнює нулю ( ), а також знайдене значення , дістаємо значення іншого параметра :
.
У нашому прикладі (див.Додаток ) система нормальних рівнянь розвязана матричним методом.
Властивості простої вибіркової лінійної регресії
Коефіцієнт кореляції
Після знаходження оцінок невідомих параметрів регресійної моделі оцінимо щільність звязку між величинами, тобто потрібно відповісти на запитання, наскільки значним є вплив незалежної змінної (фактора, регресора) на залежну змінну (результат, регресант) . Найпростішим критерієм, який дає кількісну оцінку звязку між двома показниками, є коефіцієнт кореляції:
,
де - коефіцієнт коваріації між та ; - дисперсії змінних.
Як видно із виразу, коефіцієнт кореляції, на відміну від коефіцієнта коваріації, є вже не абсолютною, а відносною мірою звязку між двома факторами. Тому значення коефіцієнта кореляції розташовані між -1 та +1 ( ). Позитивне значення коефіцієнта кореляції свідчить про прямий звязок між факторами, а негативне про зворотний звязок. Коли коефіцієнт кореляції прямує за абсолютною величиною до 1, це свідчить про наявність сильного звязку ( - щільність звязку велика), коли коефіцієнт кореляції прямує до нуля (), то звязок дуже слабкий. У нашому прикладі щільність прямого звязку між факторами велика, оскільки коефіцієнт кореляції близький до одиниці.
Декомпозиція дисперсій. Коефіцієнт детермінації
Поряд із коефіцієнтом кореляції використовується ще один критерій, за допомогою якого також вимірюється щільність звязку між двома або більше показниками та перевіряється адекватність (відповідність) побудованої регресійної моделі реальній дійсності (фактичним даним). Тобто дається відповідь на запитання, на скільки зміна значень лінійно залежить від зміни значень , а не відбувається під впливом різних випадкових факторів, не врахованих у моделі. Таким критерієм є коефіцієнт детермінації.
Спочатку розглянемо питання про декомпозицію дисперсій (так зване «правило складання дисперсій»), яке є одним із центральних у статистиці.
Розглянемо на рисункі, як розбиваються на дві частини відхилення фактичних (емпіричних) значень залежної змінної від значень, які знаходяться на регресійній прямій (теоретичних або розрахункових ):
Як видно із рисунка: . Звідси дістаємо
. (*)
В статистиці різницю прийнято називати загальним відхиленням. Різницю називають відхиленням, яке можна пояснити, виходячи із регресійної прямої. Різницю називають відхиленням, яке не можна пояснити, виходячи з регресійної прямої, або непояснюваним відхиленням. Піднесемо обидві частини (*) до квадрату і підсумуємо по . Враховуючи, що сума похибок дорівнює нулю, дістанемо:
, (**)
де - загальна сума квадратів, яку прийнято позначати SST (sum square total); - сума квадратів, що пояснює регресію та позначається SSR (sum square regression); - сума квадратів помилок, яка позначається SSE (sum square error). Таким чином, (**) у скороченому вигляді може бути записана як
SST=SSR+SSE.
Поділивши обидві частини (*) на , отримаємо так зване «правило складання дисперсій»:
, (***)
де - загальна дисперсія, яка позначена ;
- дисперсія, що пояснює регресію, позначається ;
- дисперсія помилок, яка позначена .
Таким чином, ми розклали загальну дисперсію на дві частини: дисперсію, що пояснює регресію, та дисперсію помилок (або дисперсію випадкової величини).
Поділимо обидві частини (***) на і отримаємо:
.
Як видно, перше відношення у правій частині є пропорцією дисперсії, що пояснює регресію, у загальній дисперсії. Друге відношення є пропорцією дисперсії помилок у загальній дисперсії, тобто є частиною дисперсії, яку не можна пояснити через регресійний звязок.
Частина дисперсії, що пояснює регресію, називається коефіцієнтом детермінації і позначається . Коефіцієнт детермінації використовується як критерій адекватності моделі, оскільки є мірою пояснювальної сили незалежної змінної . Коефіцієнт детермінації можна записати в одному із двох еквівалентних виразів:
або .
Очевидно, що .
Враховуючи, що коефіцієнт кореляції , неважко встановити наступний звязок між коефіцієнтами детермінації та кореляції (для лінійної регресії):
.
Поняття про ступені вільності.
Повернемося до тотожності, яка звязує суми квадратів:
SST=SSR+SSE.
Кожна сума квадратів повязана з числом, яке називають її «ступенем вільності». Це число показує, скільки незалежних елементів інформації, що утворилися із спостережуваних елементів , потрібно для розрахунку даної суми квадратів.
У статистиці кількістю ступенів вільності певної величини називають різницю між кількістю різних дослідів та кількістю параметрів, встановлених у результаті цих дослідів, незалежно один від одного.
Розглянемо, скільки ступенів вільності має кожна сума квадратів.
Загальна сума квадратів SST утворюється із використанням незалежних чисел, тому що із чисел незалежні тільки враховуючи властивість .
Суму квадратів, що пояснює регресію (SSR), отримують, використовуючи тільки одну незалежну одиницю інформації, яка утворюється із , а саме (для випадку багатофакторної регресії матимемо іншу ситуацію). Звідси SSR має один ступінь вільності. Звернемо увагу на те, що кількість ступенів вільності співпадає із кількістю незалежних змінних, що входять до регресійної моделі.
Сума квадратів помилок (SSE) має ступені вільності. Ця сума базується на кількості ступенів вільності, яка дорівнює різниці між кількістю спостережень та кількістю параметрів, що оцінюються.
Ступені вільності прийнято позначати , або , або .
У разі простої лінійної регресії ступені вільності можна розкласти як суми квадратів:
.
Перевірка простої регресійної моделі на адекватність.
Поняття F-критерію Фішера.
Ми показали, що адекватність простої лінійної регресії можна перевірити за допомогою коефіцієнта детермінації. Якщо його значення близьке до одиниці, то модель адекватна. Якщо його значення близьке до нуля, то модель неадекватна. Проблема оцінки адекватності виникає, коли коефіцієнт детермінації набуває «проміжних значень», напр. 0,3; 0,5; 0,7 тощо. У таких випадках важко зробити однозначний висновок щодо адекватності моделі, тому потрібен відповідний критерій. Найпоширенішим із таких критеріїв є критерій Фішера. До правої частини простої лінійної регресійної моделі
входить випадкова величина , тому величини будуть також випадковими, як і будь-які функції від них.
В теорії імовірностей розглядається величина
де mean square regression - середня сума квадратів, що пояснює регресію (тобто сума квадратів, поділена на відповідний ступень вільності), mean square error - середня сума помилок. Як відомо ця величина має функцію розподілу Фішера із та ступенями вільності, за умови, що нахил лінійної моделі дорівнює нулю. На цьому базується -критерій Фішера, процес застосування якого можна поділити на наступні етапи:
1) Розраховуємо величину -відношення
.
2) Задаємо рівень значимості (значущості) (або ). Наприклад, якщо ми вважаємо, що можлива для нас помилка становить (або 5%), це означає, що ми можемо помилитись не більше, ніж у 5% випадків, а в 95% випадків наші висновки будуть правильними.
3) За статистичними таблицями -розподілу Фішера з ступенями вільності і рівнем значимості (або ) обчислюємо критичне значення .
4) Якщо розраховне значення , то ми відкидаємо нульову (базову) гіпотезу, що нахил нульовий з ризиком помилитися не більше ніж у 5% випадків. Іншими словами у цьому випадку побудована нами модель адекватна реальній дійсності. У супротивному випадку () модель неадекватна.
Розглянемо застосування критерію Фішера у нашому прикладі (див.Додаток ). Висновок: із 95% надійністю побудована модель адекватна вибірковим даним.
Прогнозування.
Після побудови моделі (теоретичної регресійної залежності) та перевірки її адекватності можна виконувати прогнозування. При цьому отримуємо точкові та інтервальні прогнози. Точковий прогноз дає оцінку значення залежної змінної, наприклад, для значення за побудованою вибірковою моделлю:
.
При інтервальному оцінюванні застосовується -розподіл Стьюдента з ступенями вільності при заданому рівні значущості :
,
де - середня квадратична помилка, - середнє значення фактора (регресора). Для нашого приклада (див.Додаток ) знайдено 95% довірчий інтервал прогнозованого випуску при збільшенні ОВФ до 70 млн.грн.
Економічна інтерпретація: коефіцієнт при змінній Х в моделі означає, що при збільшенні ОВФ на 1 млн.грн випуск зросте приблизно на 0,646 тон.
Класична модель лінійної регресії: основні припущення,
що лежать в основі методу найменших квадратів
Узагальнена лінійна регресійна модель
,
де - правильні параметри усієї генеральної сукупності, - неспостережувана випадкова величина.
Мета регресійного аналізу полягає не тільки у визначенні невідомих параметрів вибіркової лінійної моделі , а, насамперед, у висновках, які ми можемо зробити щодо дійсних значень параметрів узагальненої моделі . Для того, щоб відповісти на запитання, наскільки наближаються знайдені оцінки до відповідних значень параметрів узагальненої моделі, або, що те ж саме, наскільки наближається теоретичне значення до дійсного значення свого математичного сподівання , ми повинні не тільки точно визначити функціональну форму моделі, а й зробити певні припущення щодо випадкової величини (ВВ) та звязку між випадковою величиною та незалежною змінною .
Припущення 1. Математичне сподівання ВВ дорівнює нулю:
.
Графічно:
Припущення 1 реально стверджує, що фактори, які не враховано в моделі і тому віднесено до , не впливають систематично на математичне сподівання , тобто додатні значення нейтралізують відємні , тому їхній усереднений чи очікуваний вплив на дорівнює нулю.
Зазначимо, що припущення еквівалентне умові .
Припущення 2. Відсутність автокореляції між ВВ . Це припущення означає, що ВВ незалежні між собою, тобто коефіцієнт коваріації між ними дорівнює нулю:
.
На рисунках покажемо випадки відсутності автокореляції, а також наявність додатного та відємного звязку між ВВ:
Припущення 2 дає змогу розглянути найпростіший випадок, коли вивчається систематичний вплив (якщо він є) на без урахування впливу інших факторів, виражених ВВ . У супротивному випадку залежатиме не тільки від , а й від . Тому потрібно тестувати наявність звязку між ВВ .
Припущення 3. Гомоскедастичність, або однакова дисперсія ВВ незалежно від номера спостереження:
.
Це припущення свідчить, що умовна дисперсія розподілу є також сталою величиною. Покажемо дану ситуацію, а також її порушення, тобто випадок гетероскедастичності на рисунках:
Припущення 4. Незалежність між значеннями і значеннями змінної , або нульова коваріація між ними:
.
Припущення 4 виконується автоматично, якщо змінна є невипадковою, або нестохастичною (як у нашому прикладі ряду динаміки). Дане припущення суттєве у випадку, коли значення випадкові.
Припущення 5. Регресійну модель визначено (специфіковано) правильно (відсутність похибки). Покажемо, що може бути у випадку порушення цього припущення на прикладі так званої кривої Філіпса:
1. Множинний регресійний аналіз. Багатофакторна лінійна регресія.
2. Кореляційна матриця та її вибіркова оцінка.
3. Оцінка взаємозвязку змінних. Перевірка значущості рівняння множинної регресії (адекватності моделі).
На практиці економічний процес змінюється під впливом багатьох різноманітних факторів, які треба вміти виявити та оцінити.
Наприклад, на обсяги продажу (регресант) впливають (регресори) частина ринку, яку утримує фірма; якість продукції; імідж марки продукції серед населення; середня заробітна плата населення у регіонах продажу та інші фактори. До складу доходу консолідованого бюджету України входять прямі податки (на доходи) підприємств та домашніх господарств і непрямі податки (ПДВ, акцизні збори). Доход також може залучати стягнення із зарплати (Чорнобильський податок, пенсійний фонд) та нефіскальні стягнення (наприклад, доходи від приватизації) тощо. Отже, при аналізі та прогнозуванні доходу консолідованого бюджету України, необхідно дослідити вплив на його величину вищеперерахованих факторів, тобто, здійснити багатофакторний аналіз.
Підсумовуючи вищесказане, зазначимо, що саме багатофакторний регресійний аналіз допомагає знайти явний вигляд залежності досліджуваного показника від численних факторів, що впливають на його зміну, а також кількісно оцінити їх вплив.
Але треба підкреслити, що складність розрахунків та узагальнення інформації призводять до необхідності широкого використання обчислювальної техніки. Тому побудова та аналіз багатофакторних регресійних моделей базуються на сучасних пакетах прикладних програм. Економіст-статистик повинен уміти аналізувати отримані результати та робити за ними висновки, вміти оцінити найкращу модель для взаємозвязку вихідних статистичних даних.
Класична лінійна багатофакторна модель.
Основні припущення.
Узагальнена багатофакторна лінійна регресійна модель (класична) може бути записана у такому вигляді:
,
де -залежна змінна (результативна, регресант);
- незалежні змінні (фактори, регресори);
- параметри моделі (константи), які потрібно оцінити;
- неспостережувана випадкова величина.
Регресійна модель називається лінійною, якщо вона лінійна за своїми параметрами. У багатьох випадках спеціальними прийомами від нелінійних залежностей можна перейти до лінійних.
Припущення 1. Математичне сподівання випадкової величини дорівнює 0.
.
Припущення 2. Випадкові відхилення незалежні між собою.
.
Припущення 3. Модель гомоскедастична, тобто має однакову дисперсію для будь-якого спостереження.
.
Припущення 4. Коваріація між випадковою величиною та кожною незалежною змінною дорівнює 0.
Зазначимо, що припущення 4 виконується автоматично, якщо незалежні змінні не стохастичні та справедливе припущення 1.
Припущення 5. Модель повинна бути правильно специфікованою.
Припущення 6. Випадкова величина нормально розподілена із нульовим математичним сподіванням та постійною дисперсією. Відзначимо, що це припущення випливає із попередніх (на підставі центральної граничної теореми).
Припущення 7 (специфічне для багатофакторної регресії, на відміну від простої лінійної регресії). Відсутність мультиколінеарності між факторами , тобто фактори повинні бути незалежними між собою. Іншими словами, не повинно бути лінійного звязку між двома або більше факторами.
Етапи побудови багатофакторної регресійної моделі
1. Вибір та аналіз усіх можливих факторів (регресорів), які впливають на показник-результат (регресант), що вивчається.
2. Вимір та аналіз вибраних факторів.
3. Математико-статистичний аналіз факторів.
4. Вибір метода та побудова регресійної багатофакторної моделі.
5. Оцінка невідомих параметрів регресійної моделі.
6. Перевірка моделі на адекватність.
7. Розрахунок основних характеристик та побудова інтервалів довіри.
8. Аналіз отриманих результатів, висновки.
Перший етап складається з вибору усіх можливих факторів, які впливають на процес або показник, що вивчається. На цьому етапі дослідник повинен глибоко зрозуміти сам економічний процес, розглянути його з макро і мікроекономічних позицій; виявити якомога більше факторів, які в конкретному випадку можуть справити суттєвий або несуттєвий вплив на його зміну. На цьому етапі можуть знадобитись поради практиків, які працюють у галузі або на фірмі, що вивчається і т.і.
На другому етапі дослідник повинен оцінити можливість кількісного вираження відібраних факторів, провести вимірювання або зібрати статистику для кількісних факторів; підібрати або розробити балову шкалу оцінок для якісних даних. Якщо деякі фактори неможливо кількісно виразити, наприклад, імідж продукції у населення, їх треба вилучити із подальшого розгляду. Із подальшого розгляду вилучаються також фактори, для яких немає або недоступна статистика.
Третій етап математико-статистичного аналізу є найважливішим підготовчим етапом для побудови регресійної багатофакторної моделі. На ньому проводиться перевірка основних припущень класичного регресійного аналізу та перевірка факторів на мультиколінеарність. Для цього спочатку будується матриця коефіцієнтів парної кореляції, яка є симетричною і має такий вигляд:
,
де - коефіцієнт парної кореляції між -им та -им факторами; - коефіцієнт кореляції між залежною змінною та -им фактором. Потім аналізуються коефіцієнти парної кореляції між факторами. Якщо значення деяких з них близьке до 1, то це вказує на щільний (сильний) звязок між ними (тобто, на мультиколінеарність). У такому випадку один із факторів потрібно вилучити, а інший залишити. Найчастіше залишають фактор, який з економічної точки зору більш вагомий для аналізу впливу на залежну змінну. Можна також залишити фактор, який має більший коефіцієнт кореляції із залежною змінною . В результаті знаходиться множина незалежних між собою факторів, які є базою для побудови регресійної моделі.
Розглянемо приклад (див.Додаток , на якому усі дані наведені у безрозмірних умовних одиницях).
Маємо вибіркові дані по n=12 однотипним підприємствам, які відображають залежність обєму випуску продукції V від трьох факторів: капіталу K, живої праці L та коефіцієнту змінності обладнання k.
Модель такого процесу це виробнича функція
,
тобто, маємо мультиплікативну степеневу регресію. Зауважимо, що вона є лінійною за параметрами . Прологарифмуємо обидві додатні частини:
.
Введемо нові змінні: . Відносно нових змінних отримали лінійну регресію:
, де .
Для зручності вводять «фіктивну» факторну змінну , усі значення якої дорівнюють одиниці. Таким чином, маємо лінійну модель:
.
Спочатку, використовуючи функцію «КОРРЕЛ» Excel будуємо матрицю парних коефіцієнтів кореляції, по яким оцінюємо взаємозвязок факторів (див.Додаток ). Можна зробити висновок, що фактори Х1 та Х2 досить суттєво впливають на результуючий фактор У, а вплив Х3 на У незначний. Також малі по модулю коефіцієнти кореляції між факторними ознаками дозволяють припустити відсутність мультиколінеарності.
Оцінка параметрів лінійної моделі здійснюється за МНК, розвязуванням системи нормальних рівнянь, яка записується у матричному вигляді:
,
де - матриця, стовпцями якої є значення факторів (регресорів),
- транспонована матриця ,
- матриця-стовпець оцінюваних параметрів,
- матриця-стовпець результативної ознаки (регресанта).
Розвязок системи нормальних рівнянь знайдено матричним методом (див.Додаток ):
.
Лінійна модель має вигляд:
.
Після оберненої заміни, враховуючи, що , дістаємо вихідну виробничу регресію:
.
Після знаходження параметрів моделі проводиться при рівні значимості 0,05 перевірка моделі на адекватність за допомогою -критерія Фішера із 3=кількості аргументів та 8=12-1-3 ступенями вільності (аналогічно простій однофакторній лінійній регресії), а також перевірка значимості знайдених параметрів (що еквівалентно значимості факторів) за -критерієм Стьюдента (див.Додаток ). При цьому використовується кореляційна матриця:
.
По близькому до одиниці значенню коефіцієнта детермінації та порівнюючи можна із надійністю 0,95 стверджувати, що наша лінійна модель адекватна вибірковим даним (іншими словами, 95% зміни результату обумовлені змінами факторів).
Значення t-статистик факторів Х1 та Х2 по модулю перевищують критичне значення, тому можна вважати суттєвим їх вплив на результат. А ось фактор Х3 можна виключити із моделі, оскільки його t-статистика по модулю менша критичного значення.
Модель адекватна, тому можемо працювати далі: виконувати прогнозування, будувати інтервали довіри, аналізувати та інтерпретувати отримані результати.
ПРАКТИЧНЕ ЗАНЯТТЯ №1
ЗАДАЧІ ДЛЯ РОЗВЯЗУВАННЯ В АУДИТОРІЇ.
Приклад 1.1. Дана множина . Випишіть усі можливі перестановки, розміщення та комбінації. Підрахуйте їх кількість та порівняйте із розрахунками за формулами.
Приклад 1.2. Опишіть простір елементарних подій для наступних випробувань: а) подвійне підкидання монети;
б) постріли по мішені до першого влучення.
Приклад 1.3. Стрілець стріляє двічі по мішені. Опишіть простір елементарних наслідків. Виберіть із цього простору наступні події: а) стрілець влучив у мішень принаймні один раз; б) стрілець влучив тільки один раз; в) стрілець не влучив у мішень.
Приклад 1.4. На складі є деталі трьох сортів. Навмання вибирається деталь. Розглядаються події: А - деталь першого сорту; В - деталь другого сорту; С - деталь третього сорту. Опишіть події .
Приклад 1.5. З колоди у 36 карт навмання беруть одну карту. Знайти ймовірності появи наступних подій: А вийнята карта бубнової масті, В - вийнята карта туз, С-вийнята карта бубнова сімка.
Приклад 1.6. На складі зберігають 500 акумуляторів. Відомо, що після року зберігання 4% із них будуть непридатними. Знайти імовірність того, що навмання взятий після року зберігання акумулятор буде справним, якщо відомо, що після 6 місяців зберігання було вилучено 5 несправних акумуляторів.
Приклад 1.7. Відділ контролю виявив 5 бракованих виробів із випадково відібраних 100 однакових виробів. Знайти частість появи бракованих виробів.
Приклад 1.8. В урні знаходяться 4 білі та 6 чорних куль. Яка ймовірність того, що навмання витягнуті 2 кулі будуть: а) чорні? б) білі? (Розгляньте два випадки: діставання куль виконується за схемами “повернених” та “неповернених” куль).
Приклад 1.9. Студент підготував 20 із 30 теоретичних питань, які входять до екзаменаційного білету. Знайти імовірність того, що навмання взятий білет на екзамені (із двома теоретичними питаннями) буде містити принаймні одне питання, підготовлене студентом.
Приклад 1.10. У студентскій групі 25 чоловік. Серед них 20 старші 19 років і 8 старші 22 років. Знайти імовірність того, що навмання вибраний із групи студент старший 19 років, але не старший 22 років.
ЗАДАЧІ ДЛЯ САМОСТІЙНОГО РОЗВЯЗУВАННЯ.
Приклад 1.11. Дана множина . Випишіть усі можливі перестановки, розміщення та комбінації. Підрахуйте їх кількість та порівняйте із розрахунками за формулами.
Приклад 1.12. Кидається гральний кубик. Опишіть простір елементарних подій. Опишіть подію А випадіння числа, що ділиться на 3.
Приклад 1.13. Гральний кубик кидають двічі. Опишіть простір елементарних подій. Опишіть події: А сума очок, яка випаде на двох кубиках, дорівнює 8; В випаде принаймні одна 6.
Приклад 1.14. В урні є 10 куль : 3 білі та 7 чорних . Яка ймовірність того, що навмання витягнуті 2 кулі будуть: а) чорні? б) білі?
Приклад 1.15. Вкладники банку за сумами вкладів та віком мають такий процентний розподіл:
Вік |
Суми вкладу |
||
<$1000 |
$1000-5000 |
>$ 5000 |
|
< 30 років |
5% |
15% |
8% |
30 50 років |
8% |
25% |
20% |
> 50 років |
7% |
10% |
2% |
Нехай А та В такі події:
А={у навмання вибраного клієнта вклад більший $5000}
B={вік навмання вибраного клієнта не менший 30 років}.
Визначити:Р(А),Р(В),.
ПРАКТИЧНЕ ЗАНЯТТЯ №2
1. Теореми добутку (продовження) та суми.
2. Повна імовірність.
3. Формула Байєса.
ЗАДАЧІ ДЛЯ РОЗВЯЗУВАННЯ В АУДИТОРІЇ.
Приклад 2.1. Два мисливці роблять по одному пострілу у ціль. Імовірність влучання для першого мисливця становить 0,7 , а для другого 0,8. Знайти імовірність того, що: а) обидва влучать у ціль; б) жоден не влучить; в) хоча б один влучить; г) тільки один влучить.
Приклад 2.2. Знайдіть імовірність , якщо .
Приклад 2.3. Імовірність хоча б одного влучення в ціль при трьох пострілах дорівнює 0,992. Знайдіть імовірність влучення при одному окремому пострілі.
Приклад 2.4. Серед 30 екзаменаційних білетів є 5 “щасливих”. Студенти по черзі витягують білети. У кого більша імовірність витягти “щасливий” білет: у того, хто підійшов першим, чи у того, хто підійшов другим?
Приклад 2.5. На двох автоматичних лініях виготовляють однакові деталі, причому 60% на першій та 40% на другій. Імовірність виготовлення стандартної деталі на першій лінії дорівнює 0,8 , а на другій 0,9. Виготовлені деталі надходять до складу. Знайти імовірність того, що навмання взята зі складу деталь не відповідає стандарту.
Приклад 2.6. У першому ящику вдвічі більше деталей, ніж у другому. Перший містить 20% браку, а другий 10%. При транспортуванні загубили якісну деталь. Знайти імовірність того, що загублено деталь із : а) першого ящика; б) другого ящика.
ЗАДАЧІ ДЛЯ САМОСТІЙНОГО РОЗВЯЗУВАННЯ.
Приклад 2.7. Кидають три гральних кубика. Знайти імовірність того, що число 6 випаде : а) принаймні на одному із кубиків; б) тільки на одному із кубиків.
Приклад 2.8. Знайдіть імовірність , якщо ..
Приклад 2.9. У першій урні 3 білі та 7 чорних куль, а у другій 4 білі та 6 чорних куль. Із першої урни до другої переклали дві кулі. Знайти імовірність того, що навмання витягнута із другої урни куля біла.
Приклад 2.10. До лікарні надходить 50% хворих на грип, 30% хворих на ангіну та 20% хворих на пневмонію. Імовірність повного одужання від грипу дорівнює 0,7 , від ангіни та пневмонії 0,8 та 0,9 відповідно. Виписано хворого, який повністю одужав. Знайти імовірність того, що він був хворим на: а) ангіну; б) пневмонію; в) грип.
Приклад 2.11. Студент може з однаковою імовірністю зайти до будь-якої із трьох бібліотек. Імовірність отримання потрібної студентові книги становить для першоі бібліотеки 0,9 , для другої 0,7 , для третьої 0,6. Студент отримав потрібну книгу. Знайти імовірність того, що книгу видала третя бібліотека.
Приклад 2.12. У першій урні 3 білі та 7 чорних куль, а у другій 4 білі та 6 чорних куль. Із двох урн дістали по одній кулі. Потім із двох витягнутих куль навмання вибрали одну. Знайти імовірність того, що остання вибрана куля біла.
ПРАКТИЧНЕ ЗАНЯТТЯ №3
1. Дискретні випадкові величини (ДВВ), їх закони розподілу.
2. Операції над ДВВ.
3. Числові характеристики ДВВ та їх властивості.
4. Метод моментів для обчислення МС та дисперсії.
ЗАДАЧІ ДЛЯ РОЗВЯЗУВАННЯ В АУДИТОРІЇ.
Приклад 3.1. У відділі електротоварів є 5 приладів, серед яких 2 бракованих. Продавець перевіряє їх при продажу, доки не знайде справний прилад. Скласти закон розподілу ВВ кількості перевірених приладів. Побудувати полігон розподілу імовірностей. Обчислити числові характеристики.
Приклад 3.2. Дослідженнями, проведеними на виробничому обєднанні за деякий період, встановлені закони розподілу ВВ обємів випуску (в тис.шт.) однорідної продукції для кожного із двох груп підприємств:
а) для кожного підприємства першої групи:
Х (тис.шт) |
1 |
2 |
3 |
Р |
0,2 |
0,5 |
0,3 |
б) для кожного підприємства другої групи:
У (тис.шт) |
2 |
3 |
4 |
Р |
0,6 |
0,3 |
0,1 |
Знайти закон розподілу ВВ обємів випуску (в тис.шт.) продукції для всього виробничого обєднання, якщо підприємств першої групи 3, а другої групи 2. Обчислити числові характеристики усіх ВВ (безпосередньо та за властивостями). Побудувати полігони розподілів.
Приклад 3.3. Використовуючи метод моментів, знайти числові характеристики наступної ВВ:
Х |
23-32 |
32-41 |
41-50 |
50-59 |
Р |
0,1 |
0,2 |
0,6 |
? |
ЗАДАЧІ ДЛЯ САМОСТІЙНОГО РОЗВЯЗУВАННЯ.
Приклад 3.4. Контролер перевіряє 10 деталей, серед яких є 3 бракованих, до тих пір, поки не знайде якісну. Скласти закон розподілу ВВ кількості перевірених деталей. Побудувати полігон розподілу імовірностей. Обчислити числові характеристики.
Приклад 3.5. Маркетинговими дослідженнями встановлені закони розподілу ВВ обємів продажу (в тис.шт.) деякого товару та ціни (в грн.) на цей товар протягом певного періоду часу (для спрощення вважати їх незалежними):
обєми продажу Х (тис.шт) |
5 |
7 |
9 |
Р |
0,2 |
0,5 |
0,3 |
ціна одиниці товару У (грн.) |
2 |
3 |
4 |
Р |
0,6 |
0,3 |
0,1 |
Знайти закон розподілу ВВ виручки (в тис.грн.) від продажу товару протягом досліджуваного періоду. Обчислити числові характеристики усіх ВВ (безпосередньо та за властивостями). Побудувати полігони розподілів.
Приклад 3.6. Використовуючи метод моментів, знайти числові характеристики наступної ВВ:
Х |
20-25 |
25-30 |
30-35 |
35-40 |
Р |
? |
0,3 |
0,4 |
0,1 |
ПРАКТИЧНЕ ЗАНЯТТЯ №4
ЗАДАЧІ ДЛЯ РОЗВЯЗУВАННЯ В АУДИТОРІЇ.
Приклад 4.1. В середньому 30% пакетів акцій продаються на аукціоні за початково заявленою ціною. На торги виставлено 5 пакетів. Знайти імовірність того, що за початково аявленною ціною: а) не буде продано жодного пакету; б) буде продано хоча б один пакет; в) скласти закон розподілу частоти проданих пакетів та побудувати полігон; г) знайти найімовірніше число проданих пакетів та його імовірність.
Приклад 4.2. За статистичними даними податкових інспекцій кожне третє із 1000 малих підприємств регіону має порушення фінансової дисципліни. Знайдіть: а) числові характеристики ВВ частоти малих підприємств, які працюють без порушень; б) найімовірнішу кількість підприємств, які мають порушення та її імовірність; в) скільки підприємств потрібно перевірити податковим інспекціям, щоб найімовірніша кількість порушників дорівнювала 100?
Приклад 4.3. До банку надійшло 5000 грошових купюр. Імовірність появи фальшивої купюри становить 0,0001. Знайдіть імовірність того, що в результаті перевірки банком буде знайдено 4 фальшивих купюри.
Приклад 4.4. Диспетчерський пункт в середньому протягом хвилини приймає 3 замовлення на таксі. Знайдіть імовірність того, що протягом двох хвилин надійде 4 замовлення.
ЗАДАЧІ ДЛЯ САМОСТІЙНОГО РОЗВЯЗУВАННЯ.
Приклад 4.5. В середньому 80% студентів вчасно отримують залік з терії імовірностей. Знайти імовірність того, що серед випадково вибраних 5 студентів: а) жоден вчасно не отримає залік; б) вчасно отримає залік хоча б один студент; в) скласти закон розподілу кількості студентів, які вчасно отримають залік та побудувати полігон; г) знайти найімовірніше число студентів, які вчасно отримають залік та його імовірність.
Приклад 4.6. За статистичними даними 40% студентів одного із факультетів ОДЕУ палять. На факультеті навчається 1500 студентів. Знайдіть: а) числові характеристики ВВ числа студентів факультету, які не палять; б) найімовірнішу кількість студентів, які палять та її імовірність; в) скільки студентів факультету потрібно опросити декану, щоб найімовірніша кількість тих, хто палить дорівнювала 50?
Приклад 4.7. Імовірність того, що акція оформлена без порушень дорівнює 0,998. Знайдіть імовірність того, що серед 2000 акцій, які продаються на аукціоні, будуть 5 акцій, оформлених із порушеннями.
Приклад 4.8. На популярну телепередачу в середньому протягом хвилини надходить 10 СМС-повідомлень. Знайдіть імовірність того, що за три години, які триває передача, надійде 5 СМС-повідомлень .
ПРАКТИЧНЕ ЗАНЯТТЯ №5
1. Функція розподілу імовірностей (інтегральна функція) та її властивості.
2. Щільність розподілу імовірностей (диференціальна функція) та її властивості.
3. Числові характеристики НВВ.
4. Деякі закони розподілу НВВ (рівномірний, показниковий, нормальний).
ЗАДАЧІ ДЛЯ РОЗВЯЗУВАННЯ В АУДИТОРІЇ.
Приклад 5.1. Скласти закон розподілу ВВ - числа появи герба при двох кидках монети. Знайти функцію розподілу імовірностей для цієї ВВ та побудувати її графік.
Приклад 5.2. ВВ рівномірно розподілена на проміжку . Знайти: а) функції розподілу, побудувати їх графіки; б) числові характеристики; в) імовірності .
Приклад 5.3. ВВ задана функцією розподілу імовірностей
Знайти: а) щільність розподілу імовірностей, побудувати графіки функцій розподілу; б) числові характеристики; в) імовірності , показати на графіках числові характеристики та знайдені імовірності.
Приклад 5.4. ВВ задана щільністю розподілу імовірностей
Знайти: а) функцію розподілу імовірностей, побудувати графіки функцій розподілу; б) числові характеристики; в) імовірності , показати на графіках числові характеристики та знайдені імовірності..
Приклад 5.5. ВВ розподілена за показниковим законом з параметром . Знайти: а) функції розподілу, побудувати їх графіки; б) числові характеристики; в) імовірності .
Приклад 5.6. ВВ задана функцією розподілу імовірностей
Знайти: а) щільність розподілу імовірностей, побудувати графіки функцій розподілу; б) числові характеристики; в) імовірності , показати на графіках числові характеристики та знайдені імовірності.
Приклад 5.7. ВВ задана щільністю розподілу імовірностей
Знайти: а) функцію розподілу імовірностей, побудувати графіки функцій розподілу; б) числові характеристики; в) імовірності , показати на графіках числові характеристики та знайдені імовірності..
Приклад 5.8. ВВ розподілена за нормальним законом з параметрами . Знайти: а) функції розподілу, побудувати їх графіки; б) числові характеристики; в) імовірності .
Приклад 5.9. ВВ задана функцією розподілу імовірностей
, де - інтегральна функція Лапласа.
Знайти: а) щільність розподілу імовірностей, побудувати графіки функцій розподілу; б) числові характеристики; в) імовірності , показати на графіках числові характеристики та знайдені імовірності.
Приклад 5.10. ВВ задана щільністю розподілу імовірностей
Знайти: а) функцію розподілу імовірностей, побудувати графіки функцій розподілу; б) числові характеристики; в) імовірності , показати на графіках числові характеристики та знайдені імовірності..
ЗАДАЧІ ДЛЯ САМОСТІЙНОГО РОЗВЯЗУВАННЯ.
Приклад 5.11. Скласти закон розподілу ВВ - числа появи одиниці при двох кидках грального кубика. Знайти функцію розподілу імовірностей для цієї ВВ та побудувати її графік.
Приклад 5.12. ВВ рівномірно розподілена на проміжку . Знайти: а) функції розподілу, побудувати їх графіки; б) числові характеристики; в) імовірності .
Приклад 5.13. ВВ задана функцією розподілу імовірностей
Знайти: а) щільність розподілу імовірностей, побудувати графіки функцій розподілу; б) числові характеристики; в) імовірності , показати на графіках числові характеристики та знайдені імовірності.
Приклад 5.14. ВВ задана щільністю розподілу імовірностей
Знайти: а) функцію розподілу імовірностей, побудувати графіки функцій розподілу; б) числові характеристики; в) імовірності , показати на графіках числові характеристики та знайдені імовірності..
Приклад 5.15. ВВ розподілена за показниковим законом з параметром . Знайти: а) функції розподілу, побудувати їх графіки; б) числові характеристики; в) імовірності .
Приклад 5.16. ВВ задана функцією розподілу імовірностей
Знайти: а) щільність розподілу імовірностей, побудувати графіки функцій розподілу; б) числові характеристики; в) імовірності , показати на графіках числові характеристики та знайдені імовірності.
Приклад 1.17. ВВ задана щільністю розподілу імовірностей
Знайти: а) функцію розподілу імовірностей, побудувати графіки функцій розподілу; б) числові характеристики; в) імовірності , показати на графіках числові характеристики та знайдені імовірності..
Приклад 5.18. ВВ розподілена за нормальним законом з параметрами . Знайти: а) функції розподілу, побудувати їх графіки; б) числові характеристики; в) імовірності .
Приклад 5.19. ВВ задана функцією розподілу імовірностей
, де - інтегральна функція Лапласа.
Знайти: а) щільність розподілу імовірностей, побудувати графіки функцій розподілу; б) числові характеристики; в) імовірності , показати на графіках числові характеристики та знайдені імовірності.
Приклад 5.20. ВВ задана щільністю розподілу імовірностей
Знайти: а) функцію розподілу імовірностей, побудувати графіки функцій розподілу; б) числові характеристики; в) імовірності , показати на графіках числові характеристики та знайдені імовірності..
ПРАКТИЧНЕ ЗАНЯТТЯ №6
1. Закон великих чисел. Нерівності Маркова та Чебишова. Частинні випадки нерівності Чебишова.
2. Збіжність за імовірністю. Теорема Бернуллі. Теорема Чебишова.
3. Центральна гранична теорема.
4. Інтегральна теорема Муавра-Лапласа та її частинні випадки.
ЗАДАЧІ ДЛЯ РОЗВЯЗУВАННЯ В АУДИТОРІЇ
Приклад 6.1. Середня кількість викликів, які потрапляють на мініАТС протягом години, дорівнює 300. Оцініть імовірність того, що протягом деякої години кількість викликів буде: а) не менше 400; б) менше 500.
Приклад 6.2. Практика показує, що 60% студентів ІІ курсу успішно складають усі іспити в період сесії. За допомогою нерівності Чебишова оцініть імовірність того, що серед 1200 студентів ІІ курсу частка тих, хто вчасно здав усі іспити, знаходиться в межах від 0,56 до 0,64.
Приклад 6.3. Ймовірність випуску стандартної деталі дорівнює 0,96. Оцініть за допомогою нерівності Чебишова ймовірність того, що кількість бракованих деталей серед 2000 виготовлених знаходиться у межах від 60 до 100 включно. Уточніть імовірність тієї ж події за допомогою інтегральної теореми Муавра-Лапласа. Порівняйте отримані результати.
Приклад 6.4. На лекції з «Теорії імовірностей» спізнюються 3 із 75 студентів. Що можна стверджувати про кількість студентів, які спізняться на чергову лекцію, з імовірністю не менше 0,8? Розрахунки провести із застосуванням нерівностей та теореми Муавра-Лапласа.
Приклад 6.5. Середнє квадратичне відхилення кожної із 1000 незалежних однаково розподілених ВВ дорівнює 2. Яке найбільше відхилення середньої арифметичної цих ВВ від свого математичного сподівання за абсолютною величиною можна очікувати із імовірністю, не меншою, ніж 0,95. Порівняти результат із розрахунками за наслідком із центральної граничної теореми.
ЗАДАЧІ ДЛЯ САМОСТІЙНОГО РОЗВЯЗУВАННЯ
Приклад 6.6. Середні витрати електроенергії малим підприємством складає 1000 кВт у день, а середнє квадратичне відхилення цих витрат не перевищує 200 кВт. Оцініть імовірність того, що витрати електроенергії на підприємстві протягом деякого дня не перевищать 2000 кВт, використовуючи : а) нерівність Маркова; б) нерівність Чебишева. Порівняйте отримані оцінки.
Приклад 6.7. Протягом одних біржових торгів курс акцій компанії в середньому змінюється на 0,3%. Оцініть імовірність того, що на наступних торгах курс зміниться більше, ніж на 3%.
Приклад 6.8. У середньому 10% працездатного населення деякого регіону безробітні. Оцінить за допомогою нерівності Чебишова ймовірність того, що рівень безробіття (частка безробітних) серед 10000 працездатних жителів міста буде в межах від 9 до 11% (включно).
Приклад 6.9. Досвід роботи страхової компанії показує, що страховий випадок припадає на кожну десяту угоду. Скільки угод необхідно укласти, щоб із імовірністю не менше 0,9 можна було стверджувати, що частка страхових випадків відхилиться від 0,1 не більш ніж на 0,01 (за абсолютною величиною). Порівняйте результат із розрахунками за допомогою наслідку з інтегральної теореми Муавра-Лапласа.
Приклад 6.10. Дисперсія кожної із 900 незалежних однаково розподілених ВВ дорівнює 1. Оцінити імовірність того, що середнє арифметичне цих ВВ відхиляється від свого математичного сподівання за абсолютною величиною не більше, ніж на 0,1. Порівняти результат із розрахунками за наслідком із центральної граничної теореми.
ПРАКТИЧНЕ ЗАНЯТТЯ №7
1. Система випадкових величин.
2. Закон розподілу двохвимірної ДВВ.
3. Функції розподілу двохвимірної ВВ. Залежність та незалежність ВВ.
4. Числові характеристики двохвимірної ВВ.
5. Функції ВВ та їх характеристики.
Нехай - НВВ, закон розподілу якої заданий диференціальною функцією (щільністю розподілу імовірностей) , а ВВ . Якщо - диференційовна функція, монотонна на усьому проміжку можливих значень , то щільність розподілу функції визначається за формулою:
, (*)
де - функція, обернена до функції .
Алгоритм знаходження щільності розподілу .
1. Визначити множину можливих значень для .
2. Із функціональної залежності знайти явний вираз через , тобто функцію , обернену до функції .
3. Знайти похідну .
4. За формулою (*) записати щільність розподілу ВВ .
5. Перевірити умову нормування для : .
ЗАДАЧІ ДЛЯ РОЗВЯЗУВАННЯ В АУДИТОРІЇ
Приклад 7.1. Знайти закони розподілу компонент двохвимірної ВВ, закон розподілу якої заданий таблицею:
0,01 |
0,07 |
|
0,25 |
0,28 |
|
0,12 |
0,27 |
Приклад 7.2. ДВВ задана таблицею
-2 |
1 |
3 |
|
0,2 |
0,3 |
0,5 |
Знайти закон розподілу та числові характеристики функції .
Приклад 7.3. ВВ розподілена за нормальним законом з математичним сподіванням та середнім квадратичним відхиленням . Знайти закон розподілу функції .
Приклад 7.4. ВВ рівномірно розподілена на [-1;1]. Знайти закон розподілу функції .
ЗАДАЧІ ДЛЯ САМОСТІЙНОГО РОЗВЯЗУВАННЯ
Приклад 7.5. Знайти закони розподілу компонент двохвимірної ВВ, закон розподілу якої заданий таблицею:
0,27 |
0,25 |
|
0,07 |
0,12 |
|
0,28 |
0,01 |
Приклад 7.6. ДВВ задана таблицею
-1 |
2 |
5 |
|
0,3 |
0,1 |
0,6 |
Знайти закон розподілу та числові характеристики функції .
Приклад 7.7. ВВ розподілена за нормальним законом з математичним сподіванням та середнім квадратичним відхиленням . Знайти закон розподілу функції .
Приклад 7.8. ВВ рівномірно розподілена на [1;3]. Знайти закон розподілу функції .
ПРАКТИЧНЕ ЗАНЯТТЯ №8
1. Статистичні сукупності (генеральна та вибіркова), ознаки та їх розподіли. Числові характеристики статистичних розподілів.
2. Точкові та інтервальні оцінки параметрів статистичних розподілів, вимоги до цих оцінок.
3. Основні формули інтервального оцінювання. Три типи задач вибіркового методу.
Теорема. Імовірність того, що модуль відхилення вібіркової середньої (або частки) від генеральної середньої (або частки) не перевищить число дорівнює:
(або ), де - інтегральна функція Лапласа, , а - середньоквадратична похибка (стандарт) вибірки, яка може бути знайдена за наступними формулами:
при оцінюванні середньої кількісної ознаки
у випадку повторної вибірки,
у випадку безповторної вибірки;
при оцінюванні частки якісної ознаки
у випадку повторної вибірки,
у випадку безповторної вибірки.
Зауваження. При визначенні середньоквадратичної похибки вибірки для частки якісної ознаки буває, що невідомі ні генеральна частка , ні її точкова оцінка вибіркова частка . Тоді добуток покладають рівним максимальному можливому значенню - .
Наслідок. При заданій надійності (довірчій імовірності) гранична похибка вибірки дорівнює -кратній величині стандарту, тобто
.
Наслідок. Довірчі інтервали (інтервальні оцінки) для генеральної середньої та генеральної частки визначаються формулами:
та .
Із класичних оцінок, в яких точність оцінки визначається граничною похибкою , можна зробити наступні висновки:
ТРИ ТИПИ ЗАДАЧ ВИБІРКОВОГО МЕТОДА.
ЗАДАЧІ ДЛЯ РОЗВЯЗУВАННЯ В АУДИТОРІЇ
Приклад 8.1. В торзі працюють 500 продавців. Серед 100 продавців відібраних за методом безповторної вибірки середній денний виторг склав 2000 грн., а середнє квадратичне відхилення 40 грн. Знайти імовірність того, що середній денний виторг одного продавця в торзі відрізняється від 2000 грн. не більше, ніж на 10 грн.
Приклад 8.2. Комерційний банк для вивчення можливостей надання довготермінових кредитів населенню провів опитування 1000 чоловік з 10000 своїх клієнтів. Середнє значення необхідного кредиту в вибірці склало 2000 грн., а дисперсія 1024. Знайти межі довірчого інтервалу для середнього значення кредиту для всіх клієнтів банку з надійністю 0,95.
Приклад 8.3. Вибіркові дослідження показали, що частка покупців, що віддають перевагу новій модифікації товару А, складає 60% від загального числа покупців даного товару. Яким повинен бути обсяг повторної вибірки, щоб з імовірністю 0,9 можна було стверджувати, що частка таких покупців в загальній кількості буде відрізнятися від 0,6 не більше, ніж на 0,05?
Приклад 8.4. Продукція, що вироблена станком-автоматом за зміну, перевіряється методом повторної вибірки. Серед відібраних 400 деталей виявилось 120 першосортних. Знайти імовірність того, що частка першосортних деталей серед усіх вироблених буде відрізнятись від частки таких деталей у вибірці не більше, ніж на 5 % .
Приклад 8.5. Для визначення ефективності внесення добрив було проведено вибіркове обстеження 30 га посівної площі. З кожного гектара відібрали по 1 кв.м. і визначили урожайність на кожному гектарі. Середня урожайність серед обстежених 30 га виявилась 43 ц/га, а дисперсія 5. В яких межах знаходиться середня урожайність на всій площі, якщо результат необхідно гарантувати з надійністю 0,9.
Приклад 8.6. Коробки з цукерками пакуються автоматично. Середня вага коробки 0,6 кг. На контроль надійшло 2000 коробок. Скільки коробок слід перевірити методом безповторної вибірки, щоб з ймовірністю 0,9 можна було стверджувати, що середня вага всіх коробок знаходиться в межах від 0,55 до 0,65 кг? Дисперсія ваги не перевищує 0,1.
ЗАДАЧІ ДЛЯ САМОСТІЙНОГО РОЗВЯЗУВАННЯ
Приклад 8.7. Для оцінки частки безробітних серед 5000 робітників одного з районів міста відібрано методом безповторної вибірки 500 чоловік. Виявилось, що в вибірці 25 безробітних. Знайти з надійністю 0,95 довірчий інтервал частки безробітних для всіх робітників району.
Приклад 8.8. В СП 6000 овець. Вибірковим методом було встановлено, що середній настриг вовни з однієї вівці у партії в 1000 голів становить 5 кг, дисперсія 0,9. Знайти ймовірність, з якою можна стверджувати, що середній настриг вовни з однієї вівці для всієї отари відрізнятиметься від 5 кг не більш ніж на 0,2 кг в ту чи іншу сторону.
Приклад 8.9. Вибірковим обстеженням потрібно визначити середню вагу зерна пшениці. Скільки потрібно обстежити зернин, щоб з надійністю 0,9 можна було стверджувати, що середня вага зернини серед відібраних відрізнятиметься від середньої ваги зернини в усій партії не більше, ніж на 0,001 г ? Встановлено, що середнє квадратичне відхилення ваги зернини не перевищує 0,04 г.
Приклад 8.10. Середній вміст вітаміну С серед 100 драже, що перевірялись методом повторної вибірки, склав 14 % . Знайти імовірність того, що середній вміст вітаміну С в усій партії драже буде в межах від 13 % до 15 % , якщо дисперсія ознаки не перевищує 25.
Приклад 8.11. Шляхом безповторної вибірки перевірена якість 1000 деталей з партії в 5000 штук. Серед перевірених було 3 % нестандартних. Визначити межі, в яких знаходиться частка нестандартних деталей в усій партії, якщо результат необхідно гарантувати з ймовірністю 0,9973.
Приклад 8.12. Для оцінки частки деталей найвищого ґатунку в партії з 6000 деталей проводиться вибіркове обстеження. Яким повинен бути обсяг безповторної вибірки, щоб із ймовірністю 0,89 можна було стверджувати, що похибка вибірки не перевищить 0,02?
ПРАКТИЧНЕ ЗАНЯТТЯ №9
1. Статистичні гіпотези. Похибки перевірки гіпотез.
2. Критерії узгодження для перевірки гіпотез. Критична область та її знаходження.
3. Критерій узгодження Пірсона «хі-квадрат»( ).
4. Індивідуальне завдання №1.
Задача1. Із великої партії банкоматів було зроблено вибірку для дослідження закону розподілу часу безперервної роботи банкомату. Результати дослідів наведені в таблиці ( N = номеру варіанта) :
Час безвідмовної роботи (год) |
Кількість банкоматів |
Час безвідмовної роботи (год) |
Кількість банкоматів |
(1000+N) - (1010+N) (1010+N) - (1020+N) (1020+N) - (1030+N) (1030+N) - (1040+N) (1040+N) - (1050+N) |
165 120 75 55 35 |
(1050+N) - (1060+N) (1060+N) - (1070+N) (1070+N) - (1080+N) (1080+N) - (1090+N) |
20 15 10 5 |
Необхідно:
1) побудувати полігон відносних частот (часток), знайти числові характеристики розподілу;
2) обгрунтовано вибрати закон розподілу часу безперервної роботи у генеральній сукупності (теоретичний розподіл), знайти його параметри, функції розподілу та побудувати графік щільності розподілу (на діаграмі для полігону);
3) перевірити за допомогою критерія Пірсона узгодженість вибіркових даних з побудованим теоретичним розподілом (рівень значущості прийняти рівним 0,05).
Розвязування. Використати при розвязуванні Excel (див. Додаток ).
Підготуватись до співбесіди.
Задача 2. Для дослідження закону розподілу розміру щомісячної батьківської матеріальної підтримки студентам ОДЕУ проведено вибіркове обстеження, результати якого наведені в таблиці ( N номер варіанта) :
Розмір підтримки(грн) |
Чис-ло студ |
Розмір підтримки(грн) |
Чис-ло студ |
Розмір підтримки(грн) |
Чис-ло студ |
(140+N)-(142+N) (142+N)-(144+N) (144+N)-(146+N) (146+N)-(148+N) (148+N)-(150+N) |
1 3 7 26 66 |
(150+N)-(152+N) (152+N)-(154+N) (154+N)-(156+N) (156+N)-(158+N) (158+N)-(160+N) |
114 186 200 172 120 |
(160+N)-(162+N) (162+N)-(164+N) (164+N)-(166+N) (166+N)-(168+N) (168+N)-(170+N) |
64 28 9 3 1 |
Необхідно:
1) побудувати полігон відносних частот (часток), знайти числові характеристики розподілу;
2) обгрунтовано вибрати закон розподілу розміру щомісячної батьківської матеріальної підтримки у генеральній сукупності (теоретичний розподіл), знайти його параметри, функції розподілу та побудувати графік щільності розподілу (на діаграмі для полігону);
3) перевірити за допомогою критерія Пірсона узгодженість вибіркових даних з побудованим теоретичним розподілом (рівень значущості прийняти рівним 0,05).
Розвязування. Використати при розвязуванні Excel (див. Додаток ).
Підготуватись до співбесіди.
Задача 3. Проведені спостереження, в результаті яких реєструвалась кількість покупців за проміжок часу. Вважаючи, що течія найпростіша (Пуассонівська), визначити її параметри та перевірити за критерієм Пірсона узгодженість побудованого теоретичного закона реальним змінам вхідної течії. На одній діаграмі побудувати полігони емпіричних та теоретичних частот. Дані наведені у таблиці:
Варіант |
Показники розподілу |
Результати спостережень |
1,11,21 |
Кількість покупців за 5 хв. Кількість (частоти) інтервалів |
2 3 4 5 6 7 8 9 10 1 2 3 3 3 3 2 2 2 |
2,12,22 |
Кількість покупців за 5 хв. Кількість (частоти) інтервалів |
0 1 2 3 4 5 6 7 2 3 6 7 6 4 2 1 |
3,13,23 |
Кількість покупців за 5 хв. Кількість (частоти) інтервалів |
4 5 6 7 8 9 10 11 12 2 3 4 4 4 4 3 2 2 |
4,14,24 |
Кількість покупців за 5 хв. Кількість (частоти) інтервалів |
1 2 3 4 5 6 7 5 6 6 6 4 2 1 |
5,15,25 |
Кількість покупців за 5 хв. Кількість (частоти) інтервалів |
3 4 5 6 7 8 9 10 4 5 6 6 5 4 3 2 |
6,16,26 |
Кількість покупців за 10 хв. Кількість (частоти) інтервалів |
3 4 5 6 7 8 9 10 3 4 5 5 4 3 2 2 |
7,17,27 |
Кількість покупців за 10 хв. Кількість (частоти) інтервалів |
0 1 2 3 4 5 6 7 8 9 1 1 3 6 7 7 6 5 3 1 |
8,18,28 |
Кількість покупців за 10 хв. Кількість (частоти) інтервалів |
1 2 3 4 5 6 7 4 6 7 6 5 4 3 |
9,19,29 |
Кількість покупців за 10 хв. Кількість (частоти) інтервалів |
4 5 6 7 8 9 10 11 12 13 14 2 3 3 4 4 4 4 4 3 3 3 |
10,20, 30 |
Кількість покупців за 10 хв. Кількість (частоти) інтервалів |
7 8 9 10 11 12 13 14 15 16 1 3 3 4 5 7 5 4 3 3 |
Розвязування. Використати при розвязуванні Excel (див. Додаток ).
Підготуватись до співбесіди.
ПРАКТИЧНЕ ЗАНЯТТЯ №10
Задача. Залежність між випуском продукції У (тон) протягом доби та величиною основних виробничих фондів (ОВФ) Х (млн.грн.) для сукупності 50 однотипних підприємств наведена в таблиці ( N номер варіанта):
У Х |
7+N |
11+N |
15+N- |
19+N- |
23+N- |
||
11+N |
15+N |
19+N |
23+N |
27+N |
|||
20+N- |
25+N |
2 |
1 |
3 |
|||
25+N- |
30+N |
3 |
6 |
4 |
13 |
||
30+N- |
35+N |
3 |
11 |
7 |
21 |
||
35+N- |
40+N |
1 |
2 |
6 |
2 |
11 |
|
40+N- |
45+N |
1 |
1 |
2 |
|||
5 |
11 |
17 |
14 |
3 |
50 |
Необхідно:
1) побудувати точкову діаграму статистичної залежності (кореляційне поле); визначити аргументи (регресори), які впливають на функцію-регресант;
2) побудувати моделі регресійної залежності У на Х та Х на У. Оцінити щільність кореляційного звязку;
3) використати моделі для економічного аналізу та прогнозування.
Розвязування. Використати при розвязуванні Excel (див. Додаток ).
Підготуватись до співбесіди.
ПРАКТИЧНЕ ЗАНЯТТЯ №11
1. Багатофакторна регресія. Основні положення. Особливості (відмінності від однофакторної).
2. Оцінка взаємозвязку між змінними. Матриця коефіцієнтів парної кореляції.
3. Адекватність моделі. Виключення факторів.
4. Індивідуальне завдання.
Задача (умови будуть надані).
Розвязування. Використати при розвязуванні Excel (див. Додаток ).
Підготуватись до співбесіди.
Література.
М.: ЮНИТИ ДАНА, 2002.