Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

тематичних методів моделювання функцій інтелекту зокрема процесів навчання

Работа добавлена на сайт samzan.net: 2016-06-20

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 18.5.2024

Розділ 3 Градієнтні методи навчання нейронних мереж

Лекція 4.   Метод зворотного поширення похибки (Backpropagation).

4.1. Градієнт похибки нейронної мережі

Головним недоліком перцептрона, виявленим вже при перших експериментах, була нездатність до розпізнавання даних, що не є лінійно розподільними. Це дало підстави для нищівної критики перцептрона з боку прихильників математичних методів моделювання функцій інтелекту, зокрема процесів навчання. Треба відзначити, що така критика багато в чому була несправедливою, оскільки шляхи усунення недоліків простішого перцептрона було розроблено самим Ф. Розенблатом, який запропонував моделі перцептрона з двома шарами асоціативних елементів та з перехресними зв’язками між А-елементами. На жаль, методів налагодження зв’зків для цих моделей тоді знайдено не було. Ефективні способи навчання багатошарових нейронних мереж, основані на застосуванні градієнтних методів оптимізації були розроблені лише на початку 80-х років минулого сторіччя.

На рис 4.1 зображено структуру багатошарової  нейронної мережі прямого поширення (Feed Forward). Мережа складається з K шарів нейронів, включаючи шар ефекторних нейронів, які утворюють вихід мережі, K-1 шарів прихованих нейронів а також входи мережі, що розглядаються як нульовий шар. Входи кожного нейрона зв’язані з виходами всіх нейронів попереднього шару, але нейрони одного шару не мають зв’язків між собою.

           y(1K)             y(NK)  Виходи мережі.

   .  .  .  .  .  .

      Kшар (ефекторний)

          wK1,1                                                    wKN,N

       y(1K-1) .  .  .  .  .     y(nK-1) .  .  .  .     y(NK-1)

          K-1прихований шар

                             .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .  .                        

                       y(11)  .  .  .  .  .  .        y(n1) .  .  .  .  .  .    y(N1)

 1прихований шар

         w11,1            w1N,N

                       

          x(10) .  .  .  .  .  .  .  .  . x(n0) .  .  .  .  .  .  .  .  .  .  .   x(N0)       Входи мережі 

 

Рис. 4.1. Структура нейромережі прямого поширення 

В зображеній на рис. 4.1 схемі застосовано такі позначення:

  •  y(nk) -  вихід n-г о нейрона в k – му шарі нейронів;
  •  wkij   - вага зв’язку між  виходом j го нейрона  k-1- го шару та входом  i – го нейрона  k –го шару.

Розглядатимемо вектор реакції мережі  як функцію багатовимірного вектора , елементами якого є вагові коефіцієнти, налагоджувані при навчанні нейронної мережі:

 .       (4.1)

 Тут: - – вектор сигналів на вході нейромережі.

Задача навчання полягає у знаходженні значення вектору вагових коефіцієнтів W, що забезпечує мінімальну різницю між дійсним Y та очікуваним T значеннями реакції нейронної мережі. Цю різницю найчастіше оцінюють за критерієм середньоквадратичної похибки:

,   (4.2)

де  NKкількість ефекторів (нейронів виходу); t(nK) та y(nK)– очікуване та дійсне значення реакції на nK му виході нейронної мережі. 

Якщо вид функції F(.) в (4.1) є відомим, то для пошуку мінімуму похибки Е можна скористатись методом градієнтного спуску. Цей ітеративний метод передбачає поступову зміну поточного значення вектора W в напрямку, протилежному градієнту похибки. Вважаючи, що активаційні функції нейронів мають похідні, знайдемо величину градієнту похибки як похідну функції похибки (4.2) по величині ваги зв’язку w. Для цього спочатку випишемо значення компоненти вектору реакції нейромережі Y :

 ;

 ,   (4.3)

де  fn(.)активаційна функція n-го нейрона.

Для нейромережі, що має лише один шар нейронів величина градієнта визначається співвідношеннями:

,    (4.4)

де:    .

Величина g(n,j) визначає швидкість зміни величини похибки на виході мережі при зміні значення ваги зв’язку w(n,j). Тому для зменшення величини похибки вагу зв’язку слід корегувати в напрямку антиградієнта  d(n,j)= - g(n,j):

  ,     (4.5)

де величинау μ <1 має назву коефіцієнта швидкості навчання.

Відзначимо, що швидкість зміни ваги кожного зв’язку злежить не тільки від величини коефіцієнта μ, але також і від величини похідної активаційної функції . Для найчастіше вживаної сигмоідної активаційної функції залежність  має плаский максимум при Z=0 і поступово зменшується до нуля при зростанні абсолютного значення аргументу. Тому швидкість навчання виявляється найбільшою при малих значеннях аргументу Z, коли вагові коефіцієнти мають малі значення. При збільшенні ваги зв’язків величини похідних зменшуються і відповідно уповільнюється процес навчання. Іноді це приводить до повної зупинки процесу навчання не доходячи до мінімуму функції похибки. В таких випадках замість сигмоіди слід застосувати функцію гіперболічного тангенсу, похідна якої значно повільніше зменшується при зростанні аргументу.

Співвідношення (4.5), яке дозволяє обчислювати величину та напрямок корегування всіх вагових коефіцієнтів для одношарової нейромережі, є основним для методу зворотного поширення, застосовуваного в багатошарових нейронних мережах.  

4.2. Загальні співвідношення для градієнту похибки

Розглянемо застосування співвідношення (4.4) для загального випадку, коли нейронна мережа має кілька прихованих шарів, а для навчання використовується множина векторів даних. Навчальною послідовністю називають набір пар , де Xm – вектор входу, а Tm– очікуване значення виходу нейронної мережі. Іноді вектор Xm називають образом, а  Tm реакцією нейромережі. Представлення при навчанні всієї послідовності  називають епохою.

Визначимо величину сумарної похибки за епоху  для мережі, що складається з K шарів нейронів:

    ,     (4.6)

де  -величина похибки для nK -го виходу нейронної мережі  при представленні  m – го  вектору навчальної послідовності Xm :

      

Щоб знайти реакцію довільного нейрона k –го шару представимо співвідношення (4.3) в такому вигляді:  

 ; .  (4.7)

Величини порогу b(nk)  та активаційні функції нейронів fn будемо вважати однаковими в межах одного шару мережі.

Визначимо градієнт сумарної похибки мережі за епоху для  виходу нейромережі, тобто для звязків нейронів K-го шару мережі: 

 .   (4.8)

Користуючись ланцюговим правилом обчислення похідних, знайдемо величину градієнту для нейронів довільного l-го (l< k) шару:

  (4.9)

 Такі обчислення можна продовжувати впритул до першого (рецепторного ) шару мережі. В 1986 р. Румельхардтом та ін. було запропоновано метод спрощення таких розрахунків, який дістав назву  Back Propagation – зворотного поширення похибки.

4.3. Зворотне поширення похибки

Розглянемо спочатку мережу, що має лише один прихований шар нейронів і визначимо градієнт для шару виходів (2-го) та прихованого шару (1-го):

 ;    .  

Введемо величини  та , що позначають приведене значення похибки для  i-го нейрона відповідно першого та другого шару мережі:

,  

.  (4.10)

Підставляючи ці величини в наведені раніше формули для градієнта, одержимо:

   ;    . (4.11)

Розглядаючи співвідношення (4.10) можна дійти висновку, що приведена похибка поширюється у зворотному напрямку від виходу нейромережі до її входу через звязки між нейронами. Для мережі з довільною кількістю шарів значення приведеної похибки можна обчислити за рекурентним співвідношенням:

 .   (4.12)

Відповідно можна представити співвідношення градієнту похибки (4.9) у компактному вигляді:

   .     (4.13)  

4.4. Алгоритм навчання нейронної мережі

 

Маючи оцінки приведеної похибки, задачу навчання нейронної мережі можна звести до навчання кожного нейрона, з використанням локальних значень антиградієнта похибки для кожного представленого образа з навчальної послідовності:

   .    (4.14)

Підсумовуючи значення в межах епохи, можна знайти кумулятивні оцінки антиградієнту, що використовуються при кумулятивному навчанні нейронної мережі, тобто коли корегування вагових коефіцієнтів виконується один раз на епоху навчання. Але більш поширеним є некумулятивний спосіб, коли вагові коефіцієнти для всіх зв’язків мережі корегуються для кожного вектору навчальної послідовності. Корегування ваги зв’язків при представленні  m-го вектору виконується за формулою:

     ,      (4.15)

де μ – коефіцієнт швидкості навчання.

Вибір способу навчання значною мірою залежить від характеру даних навчальної послідовності. У випадку однорідних даних, коли функція похибок не містить великої кількості виражених локальних мінімумів, кумулятивний метод дозволяє досягти мінімуму похибки з меншими витратами обчислювальних ресурсів.  Однак в більшості прикладних задач навчальні послідовності є неоднорідними, тому доводиться застосовувати некумулятивний спосіб.

Не менш важливим є правильний вибір величини коефіцієнту швидкості навчання μ. При некумулятивному навчанні орієнтиром для вибору μ є величина зворотна до розміру епохи, тобто числу корекцій, що здійснюються протягом однієї епохи. При збільшенні коефіцієнту швидкості зростає величина кроку корекції ваги, що приводить до збільшення ризику  “проскочити” зону глобального мінімуму похибки. При зменшенні цієї величини значно уповільнюється процес навчання. Обидві ситуації представлено на рис. 4.2.

  

Рис. 4.2. Пошук глобального мінімуму при малому (а) та надто великому (b) значенні  коефіцієнту швидкості навчання. 

4.5. Узагальнене дельта-правило.

Для стабілізації досягнення глобального мінімуму похибки при некумулятивному способі навчання Румельхардтом та ін. було запропоновано метод згладжування величини кроку корекції вагових коефіцієнтів, який згодом дістав назву узагальненого дельта-правила навчання:

  ,   (4.16)

де   α <1- коефіцієнт моменту, що визначає інерцію процесу корекції віги.

Кожна наступна корекції ваги залежить від величини попередньої корекції. Тому після представлення m векторів навчальної послідовності сумарна величина корекції ваги  становитиме:

  .    (4.17)

При  α =0 в правій частині цього співвідношення залишається лише останній доданок. В цьому випадку це співвідношення збігається із формулою (4.15) для некумулятивного навчання. При збільшенні значення цього коефіцієнту величина приросту ваги звязку дорівнюватиме експоненціально зваженій сумі значень антиградієнта за весь період навчання. При великих значеннях моменту процес корегування наближається до режиму кумулятивного навчання.

 

Контрольні запитання

  1.   Архітектура нейромережі прямого поширення. Рівняння градієнту похибки.
    1.  Приведене значення похибки. Рівняння зворотного поширення похибки.
    2.  Кумулятивне та некумулятивне навчання. Вибір швидкості навчання.
    3.  Узагальнене дельта-правило. Поняття моменту.

 Література до розділу 3

  1.  Хайкин С. Нейронные сети. Полный курс./ М.: «Вильямс», 2006.-1103с.  
  2.  Комарцова Л.Г., Максимов А.В. Нейрокомпьютеры: Учеб. пособие для вузов. / -М.: Изд-во МГТУ им. Н. Баумана, 2002. –320 с.
  3.  Осовский С. Нейронные сети для обработки информации./ М. Финансы и статистика, 2004. -343с.
  4.  Медведев В.С., Потемкин В.Г. Нейронные сети. MATLAB 6 / ред. В.Г. Потемкин – М: ДИАЛОГ-МИФИ, 2002. – 496 с. (Пакеты прикладных программ; кн. 4). 
  5.  Rumelhardt D.E., Hinton G.E., Williams R.I.  Learning Internal Representations by Error Propagation // Parallel Distributed Processing: Explorations in the Microstructure of Cognition. -Cambridge, Mass.: MIT Press. -1986. -v1. -P.318-362.
  6.  Reed R.D., Marks II R.J. Neural Smithing, MIT Press, 1995.
  7.  Fine T. L.  Feedforward Neural Network Methodology (statistics for engineering and information science) / Springer, 1999, 340p.




1. тумба 30 2750 2 Столтумба с ящ 30 3260
2. 389 Российская академия наук Институт психологии
3. Право СССР послевоенного периода
4. РЕФЕРАТ дисертації на здобуття наукового ступеня кандидата юридичних наук Львів 2008
5. Правовий захист підприємництва
6. ПРЕДЛОЖЕНИЕ ~ способность и желание продавцов предложить определенное количество товара по данной цене
7. Булацг постать яка трохи осторонь стояла від датськоїсуспільности
8. гражданское право Розничная купляпродажа и защита прав потребителей содержание введение3 1
9.  это конкретный человек являющийся представителем определённого общества определённой социальной группы
10. do not esily pull the fish out of the pond
11. Создание и выполнение культурного проекта- Организация корпоративной вечеринки
12. тематика 2 курс 2012-2013 уч
13. Римское право 20112012 учебный год Составитель к
14. либо специальными навыками сумели превратить хобби в источник дохода и кардинально изменить свою жизнь а в
15.  Введение в измерительную технику Роль и значение измерительной техники
16. Муха Афганистан
17.  Государственный контроль надзор за соблюдением требований технических регламентов
18. тематики и информатики
19. на тему- Особенности стратегий роста малых фирм
20. Налог на добычу полезных ископаемых