У вас вопросы?
У нас ответы:) SamZan.net

Лекція 10 Псевдоінверсний алгоритм навчання 10

Работа добавлена на сайт samzan.net:

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 26.12.2024

 Лекція 10. Псевдоінверсний алгоритм навчання 

 10.1. Рішення матричного рівняння стійкості нейромережі. 

Нелінійне рівняння стійкості мережі Хопфілда для вектора  має вигляд:

.     (10.1)

Оскільки активаційна функція нейронів є монотонною, то для забезпечення стійкості мережі необхідно лише, щоб знаки реакції та постсинаптичного потенціалу були однаковими одночасно для всіх нейронів мережі.  Цю умову можна представити у вигляді лінійного рівняння:

    (10.2)

де Λ –довільна позитивно визначена діагональна матриця: .

Щоб переконатися у допустимості такого представлення запишемо значення елемента вектору :

   .

При  довільному >0 ця рівність може виконуватись лише за умови, що знак суми в правій частині збігається із знаком величини у її лівій частині.  

Розглянемо ситуацію, коли нейромережа має не один, а M  атракторів. Представимо всі ці атрактори у вигляді матриці V розміру MxN, стовпчиками якої є M запам’ятованих векторів Ym. Матричний аналог нелінійного рівняння (10.1) для M стійких станів матиме вигляд:

.

Відповідно представимо в матричній формі лінійне рівняння (10.2):

  .      (10.3)

Це рівняння можна вирішити відносно W, для чого помножимо обидві частини цього рівняння зліва на матрицю, обернену до  Λ, а справа – на матрицю , що є псевдооберненою до  V:

.

Добуток Λ-1Λ =I правій частині є одиничною матрицею. Добуток є проекційною матрицею. Оскільки проекційна матриця є ідемпотентною, тобто: =, то рішення рівняння (10.3) має вигляд:

,       (10.4)

Одержане рішення дозволяє визначити синаптичну матриці з точністю до довільного позитивного множника Λ-1. При застосуванні знакової активаційної функції нейронів, що є звичайним для нейронної асоціативної памяті,  величина цього множника не впливає на поведінку нейронної мережі. Тому в подальшому будемо вважати .

10.2. Основні поняття лінійного  простору  та псевдообернення матриць

Узагальнений метод обернення матриць довільного виду було запропоновано ще в 1920г. Е. Муром. Цей метод дозволяв вирішувати неповні системи лінійних рівнянь та обернення прямокутних матриць, що здавалось неприпустимим порушенням вимог математичної строгості. З цієї причини цей метод не одержав визнання, доки в 1955р. Р. Пенроуз  запропонував його нову редакцію як метод псевдообернення матриць. Теорію цього методу у конспективному вигляді можна представити наступним чином.

Нехай A і B  - вектори однакового розміру, які ми будемо представляти як матриці-стовпчики. Визначимо лінійний многовид  L як підмножину евклідова простору, замкнену відносно операцій додавання та добутку на скаляр. Тобто, якщо вектори  A та B  належать  L, то і всі  (α A+ β B) також належать  L при будь-яких значеннях скалярів α і β. Вектор x є ортогональним до лінійного многовиду , якщо він є ортогональним до кожного з векторів з L.

Для будь-якого вектору евклідова простору x існує єдиний розклад:

,

де   - проекція вектору  на лінійних многовид L ;

- вектор, ортогональний до многовиду L.

Для кожного , такого, що має місце співвідношення:

,     (10.5)

где -норма вектору x.

Кажуть, що многовид L є напнутий на , якщо це найменший многовид, що містить ці вектори, та всі вектори, що можуть бути утворені як лінійні комбінації з yi.  Вектор , що зветься проекцією x на L,  є єдиним вектором з  L, таким, що:

,      .     (10.6)

Послідовність з M векторів однакового розміру N можна записати у формі матриці  H, що включає M стовпчиків. Множина образів довільної матриці H є множиною векторів, що є образами векторів евклідова простору з області визначення H:

для деякого x.

є лінійним многовидом для векторів z, розмірність яких є  N. При цьому вектори x  мають розмірність M.  Позначаючи - транспоновану матрицю, визначимо лінійний многовид для векторів x як:

   для .

Мають місце такі співвідношення:

;   ,   (10.7)

 Ці співвідношення мають особливе значення, оскільки на відміну від матриці H, у якої кількість рядків може відрізнятись від кількості стовпчиків, матриця HHT завжди є симетричною, тобто квадратною і вона завжди збігається із своєю транспонованою. За визначенням Р. Пенроуза псевдоінверсна матриця є єдиним рішенням системи матричних рівнянь. Для довільної матриці  H матриця H+ є псевдооберненою тоді і лише тоді, коли виконано такі умови:

1)  та - симетричні матриці;

2)         (10.8)

3)

 Це визначення є зручним інструментом для одержання різних співвідношень, повязаних з оберненням матриць та інтерпретацією одержаних рішень систем лінійних рівнянь.

 10.3. Проекційні матриці та деякі їх властивості

 Повертаючись до рішення рівняння стійкості (10.4) та вважаючи Λ=I, розглянемо властивості синаптичної матриці нейронної мережі. Одержана матриця описує лінійний многовид, напнутий на множину векторів стовпчиків матриці V . Матриця W є проекційною, тобто вона здійснює проекцію множини векторів на себе.  Окрім цього, виходячи з  (10.8)  матриця  є ідемпотентною, тобто . Таким чином:

  ;  ;

; .    (10.9)

Зазначимо також, що ранг матриці  дорівнює числу рядків матриці V, тобто M. Це дозволяє кількісно оцінити значення діагональних елементів:  

;  .  (10.10)

Порівнюючи це співвідношення з формулою (10.9) можна дійти висновку, що найбільше число векторів множини V не може перевищувати розмірність векторів N. При наближенні синаптична матриця наближується до одиничної і такою залишається при .

 10.4. Псевдоінверсний алгоритм навчання нейронних мереж

Псевдоінверсний, або як його іноді називають, проекційний алгоритм навчання нейронних мереж базується на ітеративній схемі обчислення значень проекційної матриці  

. Розрахунок починають з нульової матриці: W0=0 . Далі обчислюють проекційна  матриця для першого вектору Y1, яка визначається як:

   .     (10.11)

Далі одержана величина W1 корегується з урахуванням значення вектору Y2 і так далі до вичерпання масиву V. Корекція здійснюється за математичними співвідношеннями теореми Гревіля, які можна одержати послідовно застосовуючи формули Пенроуза  1)÷2) до матриці виду , що утворюються додаванням вектору Ym+1 до раніше сформованого масиву з  m векторів. Ітераційна формула обчислення синаптичної матриці має вигляд: 

.  (10.12)

Друга складова, що є додатком до попереднього значення синаптичної матриці містить у чисельнику векторний добуток складових нового вектору Ym+1, ортогональних до лінійного многовиду, напнутому на m векторів, які було запамятовано нейромережею раніше.  Визначником є величина квадрату норми цієї ортогональної складової.  Таке нормування запамятовуваних даних призводить до того, що вектори, для яких ця норма є великою, дають порівняно невеликий приріст значень синаптичної матриці, тоді як вектори, що є близькими до раніше запамятованих, для яких норма ортогональної складової наближається до нуля, дають набагато більший приріст.  Це забезпечує підкреслювання тих ознак, що розрізняють запам’ятовувані вектори та вирівнювання впливу атракторів на поведінку нейронної мережі. Разом з тим, при запамятовуванні надто близьких векторів через наближення до нуля величини визначника в (10.12), значно зростають вимоги до точності обчислень. Так ж ситуація виникає, коли новий вектор є близьким до лінійної комбінації раніше запамятованих векторів. На щастя для бінарних векторів даних імовірність такого випадку є досить малою, особливо, коли їхня розмірність не є дуже високою (не перевищує тисячі). На практиці, аби уникнути обчислювальних ускладнень при запам’ятовуванні кожного наступного вектора спочатку перевіряють значення визначника в формулі (10.2) і, якщо ця величина наближається до нуля, відмовляються від корегування синаптичної матриці, вважаючи, що цей вектор вже існує в асоціативній пам’яті нейронної мережі. Існує також строге вирішення рівняння стійкості (10.4), що дозволяє оперувати з лінійно-залежними векторами даних, але воно потребує обчислення кількох вагових матриць і вимагає надмірних обчислювальних ресурсів.

У випадку, коли всі запам’ятовувані вектори є ортогональними, формула (10.12) набуває особливо простого вигляду, що збігається з формулою обчислення вагових коефіцієнтів, запропонованою Хопфілдом:

 (10.13)

Таким чином, мережу Хопфілда слід розглядати як окремий  випадок псевдоінверсної нейронної мережі для ортогональних  запам’ятовуваних векторів.

 

10.5. Реалізація псевдоінверсного алгоритму навчання

.

Розкриваючи матричні добутки співвідношення (10.12), одержимо розрахункові формули для обчислення елементів синаптичної матриці:

;

;    (10.14)

; 

.

Величину:     

   (10.15)

називають коефіцієнтом відмінності для вектору  Ym+1. Якщо цей вектор збігається з одим з раніше запамятованих, або лінійною комбінацією таких векторів, величина  q обертається на нуль. Тому при реалізації псевдо інверсного алгоритму навчання в першу чергу обчислюють величину  dm+1 . Якщо її величина є меншою за встановлену межу (як правило 0,001), то синаптичну матрицю не корегують.

Кількість векторів, що може зберігати розрахована за формулами (10.14) нейронна мережа в своїй асоціативній памяті становить до 25% від числа нейронів. Це майже вдвічі більше, ніж для мережі Хопфілда. Таку різницю можна пояснити тим, що псевдоінверсний алгоритм враховує лінійні залежності між векторами даних, які більш проста формула Хопфілда не враховує.  Тому було запропоновано спрощені варіанти псевдоінверсного алгоритму. Одним з найкращих наближень є така формула обчислення додатку при запамятовуванні вектору Ym+1 : 

  (10.16) 

При такому обчисленні синаптичної матриці кількість запам’ятовуваних векторів становить близько 17% від числа нейронів мережі, що краще ніж для мережі Хопфілда, але значно гірше, ніж для точного псевдо інверсного алгоритму.

10.6 Атракторний радіус нейронної мережі

 З рішення рівняння енергії для нейронної мережі Хопфілда випливає, що при довільному початковому стані така мережа намагається перейти в стан з меншою енергією, причому такій прехід може складатися з великої кількості кроків. Цей процес, називається конвергенцією і завершується досягненням мінімуму  функції енергії, тобто стану, з якого неможливо вийти за один крок конвергенції. Однак, можливо, що при збільшенні розміру кроку конвергенції можна було б знайти стан з ще меншим рівнем енергії мережі. Головними атракторами називають стани мережі, що відповідають глобальним мінімумам енергії. Атрактори, що відповідають локальним мінімумам енергії є хибними.  

 Величину кроку конвергенції визначають в одиницях Хеммінга і вимірюють кількістю нейронів, у яких при переході нейронної мережі в наступний стан змінились значення виходів. Атракторний радіус (АР) – це величина останнього кроку конвергенції при досягненні мережею стану головного атрактору. Для оцінки величини АР, розглянемо добуток величин виходу та постсинаптичного потенціалу нейрона в момент досягнення стану головного атрактору:

,

де vi=yi(t) – компонента атрактору, якого мережа досягає в момент t, H кількість нейронів що поміняли значення виходу. Для того, щоб наступний стан був атрактором, необхідно, щоб усі такі добутки для кожного нейрона мали позитивний знак. Для нейронів, значення виходу яких помінялись цю вимогу можна представити нерівністю:   

  ,  i=1,2,....N    (10.17)

Для нейронів, що зберігають попередній стан права частина нерівності дорівнює 1. Це співвідношення дозволяє оцінювати величину АР нейронної мережі через значення коефіцієнтів її синаптичної матриці. Знаючи, в яких межах можуть знаходитись значення діагональних та недіагональних елементів синаптичної матриці, можна одержати граничні оцінки для величини АР: верхню, або оптимістичну та нижню, або песимістичну.  Песимістична оцінка відповідає припущенню, що всі недіагональні елементи синаптичної матриці мають великі позитивні значення:

  .    (10.18)

Відповідно, для одержання оптимістичної оцінки слід вважати, що значення недіагональних елементів дорівнюють їх середнім абсолютним значенням.

10.7. Оптимістична та песимістична оцінки АР

Знайдемо спочатку значення оцінки для діагональних та недіагональних елементів синаптичної матриці, що входять до нерівності (10.18). Для цього використаємо  загальні властивості проекційної матриці розглянуті нами раніше: 

  ;  .    (10.19)

Представляючи останнє співвідношення в такому вигляді:

,

оцінимо величину математичного сподівання для квадрата недіагонального елемента синаптичної матриці як:

  .

Звідси знайдемо оцінку для абсолютної величини недіагонального елемента:

  .   (10.20)

Верхня межа для цієї оцінки відповідає припущенню, що всі недіагональні елементи крім одного мають значення, наближене до нуля. В цьому випадку 

   .    (10.21)

 Підставляючи цю оцінку в формулу (10.18), ми  одержимо  песимістичну оцінку величини АР:  

.   (10.22)

Відповідно, скориставшись оцінкою (10.4), знайдемо оптимістичну оцінку АР: 

.  (10.23)

Песимістична оцінка величини АР відповідає випадку запамятовування сильно корельованих векторів даних, коли більшість недіагональних членів синаптичної матриці мають значення близькі до нуля. При запамятовуванні ортогональних векторів даних величина АР наближається до оптимістичної її оцінки. В обох випадках має виконуватись умова , що визначає граничну місткість асоціативної пам’яті нейронної мережі. При досягненні рівня величина АР обертається на нуль і нейронна мережа повністю втрачає здатність до конвергенції.  

Відзначимо, що в роботі Персонназа та ін., де поняття атракторного радіусу було введено вперше, для оцінки величини АР використовувалось співвідношення

     ,     (10.24)

 що базувалось на припущенні, що всі елементи синаптичної матриці мають однакові значення, а саме – M/N. Ця оцінка наближається до песимістичної.

На рис 10.1 подано залежність песимістичної та оптимістичної оцінок АР від розмірів нейронної мережі та кількості запамятованих даних. 

 

Рис 10.1. Оптимістична та песимістична оцінки величини АР при різній кількості запамятованих векторів даних.

Співвідношення (10.22) та (10.23) дозволяють оцінити нижню межу для обсягу асоціативної памяті, що визначається кількістю головних атракторів M, що можуть бути досягнуті за один крок конвергенції при рівні початкових збурень, заданому величиною H. Реальний обсяг асоціативної пам’яті нейромережі виявляється в 3-5 разів більшим, оскільки процес асоціативного пошуку може складатись з кількох кроків і тривати 4-8 ітерацій конвергенці.

 10.8. Метод рознасичення синаптичної матриці

Наявність безпосередньої залежності між величиною АР та співвідношенням між значеннями діагональних та недіагональних елементів синаптичної матриці наводить на думку про можливість збільшення величини АР шляхом штучного зменшення величини діагональних елементів. Цю ідею було реалізовано в 1996р.  Д. Городничим, який  вперше виявив ефект, названий рознасиченням синаптичної матриці нейронної мережі.  

Сутність явища рознасичення пояснює рис. 10.2, де зображено коло зворотнього зв’язку нейрона, що включає синапс, що відповідає діагональному елементу синаптичної матриці wii. За псевдоінверсним алгоритмом навчання діагональні елементи матриці одержують лише позитивні прирости, тому дія такого зворотного зв’язку перешкоджає зміні поточного стану нейрона. Оскільки значення діагональних елементів зростає пропорційно кількості запам’ятованих векторів, то здатніст мережі до конвергенції відповідно зменшується. Віддзеркаленням цього є зменшення величини АР та зростання кількості хибних атракторів.

При штучному зменшенні величини діагональних членів симетричність синаптичної матриці не порушується, тому її здатність до конвергенції зберігається. Зменшення рівня зворотного зв’язку сприяє зростанню активності мережі, якій стає легше уникати хибні атрактори, проскакувати при конвергенції повз локальні мінімуми енергії. Зростання активності викликає також  зростання імовірності появи динамічних атракторів. Виконані дослідження показали, що при помірному скороченні величини діагональних елементів в 3-5 разів імовірність появи динамічних атракторів в околі головних атракторів мережі є незначною, натомість кількість хибних атракторів скорочується монотонно.  Користуючись цим можна в кілька разів збільшити АР і відповідно – обсяг асоціативної пам’яті нейронної мережі.

       

         wij ,i j    

 wij=       

        kwij , i=j 

0<k <1              

                                                         wii

Рис. 10.3. Метод рознасичення синаптичної матриці.

Метод рознасичення передбачає пропорційне зменшення значень всіх діагональних елементів синаптичної матриці нейронної мережі, які були одержані після її навчання за псевдоінверсним алгоритмом.   

Для кількісної оцінки ефекту рознасичення розглянемо, як зменшення діагональних елементів  впливає на величину АР мережі.  Позначимо k <1 – коефіцієнт рознасичення і визначимо умови переходу мережі в стан атрактору при рознасиченні:

Для нейронів, що змінили свій стан при досягненні атрактору, ця нерівність набуває такого вигляду: 

,   i=1,2,....N. (10.25)

Порівняємо цей вираз з формулою (10.17). При k=1 обидві нерівності збігаються, тоді як при малих значеннях коефіцієнту рознасичення граничне значення wii, для якого права частина нерівності обертається на нуль наближається до одиниці. Це вдвічі більше ніж для мережі без рознасичення. Діючи таким же чином, як і при одержанні співвідношення (10.18), знайдемо:

   (10.26)

 Зменшення величини коефіцієнту k веде до зростання величини АР і при k=0 його величина зростає практично вдвічі. Така нейромережа здатна відновлювати збурені дані при вдвічі більшому рівні завад.   На рис.10.3 подано результати розрахунку залежності величини АР від ступеню заповнення асоціативної памяті (M/N) при різних значеннях  коефіцієнту рознасичення при запамятовуванні ортогональних векторів. Наведені дані експериментів для мережі з 100 нейронів одержано за допомогою нейропрограми  “Нейроконструктор-2” , створеної в ІПММС НАН України. По осі абсцис подано рівень заповнення асоціативної пам’яті, а по осі ординат – відносна величина АР. Світлі символи

відповідають експериментальним оцінкам рівня завад, що у 50% випадків усувались за один крок конвергенції, а темні – коли за один крок завади усувалось у 99% випадків. Як бачимо, теоретичні оцінки є досить близькими до результатів експерименту. Для порівняння там же наведено залежність H=N/2M, одержана раніше Персонназом та ін.

 Рис. 10.3. Залежність величини АР від заповнення асоціативної памяті при різних значеннях коефіцієнту рознасичення k. 

Як бачимо, при зменшенні величини коефіцієнту рознасичення до нуля величина АР практично подвоюється. При помірному рознасиченні (k=0,2) мережа зберігає атракторні властивості навіть при співвідношенні M/N >0,6, що є теоретично неможливим  в  мережі без рознасичення.

Контрольні запитання

  1.  Матричне рівняння стабільності мережі та його рішення.
  2.  Псевдообернення матриць за Пенроузом.
  3.  Властивості проекційної матриці.
  4.  Псевдоінверсний алгоритм навчання. Коефіцієнт відмінності.  
  5.  Поняття атракторного радіуса. Формула для його обчислення.
  6.  Оптимістична та песимістична оцінки атракторного радіуса.
  7.  Метод рознасичення синаптичної матриці


wii




1. Просветительская деятельность Кирилла и Мефодия
2. Самбо 330 СПб Невский рн 2Николаев Матвей 3 Николаев Глеб 3Богданов Илья СК Иппон Кингисепп Вес-
3. Общая характеристика внимания Важнейшей особенностью протекания психических процессов является их избир
4. Основы конституционного строя РФ
5. а с тем чтобы определить адекватна ли работа по внедрению нового налога определить возможных ldquo;победите
6. Политическая специфика избирателей и современных выборов
7. Рица Лыхны Отхара Сухум Кындыг Моква Отап Новый Афон Общая информация- Отдых на берегу Черноморско
8. Силовой анализ механизма]
9. Тема5 Подготовка к сессии
10. На тему- Неандертальцы
11. вариант 2 1 Согласно Платону общественную стабильность обеспечиваетют социальн
12. Методы контрацепции
13.  Дисциплина Часы учебного плана
14. РАНЧО 445051 РФ Самарская обл.
15. Культура России 2001 2005 год
16. постановка проблемы и актуальные направления социальной политики Социальный прогресс и смены периодо
17. .Понятие об информации Все объекты окружающие нас в материальном мире относятся либо к физическим телам ли
18. Новосибирский государственный медицинский университет Министерства здравоохранения и социального разв
19. минерального cocтава структур и текстур характера взаимодействия грунтов с водой степени их выветрелости и
20. Муниципальное право