У вас вопросы?
У нас ответы:) SamZan.net

Лекція 16 Методи вилучення знань з навчених нейронних мереж

Работа добавлена на сайт samzan.net: 2016-06-20

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Имя

Выберите тип работы:

Принимаю Политику конфиденциальности

Скидка 25% при заказе до 4.7.2025

Лекція 16 Методи вилучення знань з навчених нейронних мереж.

16.1. Вступ

Здатність до навчання є основною відмінністю штучних нейронних мереж від більшості існуючих засобів обробки інформації. Маючи приклади рішення певної задачі, нейронна мережа здатна сама знайти правила їх вирішення, тобто набути властивостей експерта в прикладній області, визначеній прикладами рішень, включених до навчальної послідовності. На відміну від експерта людини, нейронна мережа не здатна пояснювати свої рішення, тобто вона діє як чорна скринька. Непрозорість правил, за якими діє нейрона мережа, є істотним її недоліком, який змушує багатьох користувачів надавати перевагу формалізованим системам штучного інтелекту, таким як дерева рішень, продукційні системи або скінчені автомати. Такі системи дозволяють відстежувати кроки прийняття рішень, передбачувати і навіть корегувати окремі їхні дії.

При вирішенні дійсно складних прикладних задач число логічних або продукційних правил, необхідних для представлення множини прикладів, сягає десятків тисяч. За цих умов перевага формальних систем над нейронними мережами виявляється ілюзорною. Тому доводиться шукати компроміс між застосуванням формальних методів теорії штучного інтелекту, або використанням методів нейротехнології. Пошук такого компромісу триває вже понад 15 років. За цей час виконано значний обсяг досліджень, огляд яких можна знайти в роботах [1,2]. Компромісним зараз вважається рішення, за яким навчена нейронна мережа розглядається як експерт, що володіє знаннями в прикладній області, визначеній множиною прикладів навчальної послідовності. Для вилучення цих знань можуть бути застосовані різні методи формалізації, зокрема методи штучного інтелекту, застосовувані до експерта людини.

Існує кілька підходів до вилучення одержаних нейронною мережею знань:

Формування логічної схеми шляхом скелетизації навченої нейронної мережі;
Квантування простору станів і застосування моделей скінчених автоматів;
Побудова дерев рішень з використанням методів індуктивного навчання;
Апроксимація функціональних залежностей навченої нейронної мережі.

Однією з найбільш складних проблем при формалізації правил, за якими діє навчена нейронна мережа є те, що її параметри (вагові коефіцієнти, входи та виходи нейронів, пороги) як правило є безперервними величинами. Навіть в тих випадках, коли дані навчальної послідовності, тобто значення входів та виходів мережі є бінарними, тобто можуть бути представлені як логічні змінні, реакції прихованих нейронів, а тим більше, значення вагових коефіцієнтів зв’язків між нейронами, представлені дійсними числами. Тому при вилученні знань є важливим є проведення дискретизації значень параметрів нейромережі. Для цього використовуються різні способи, зокрема спеціальний режим навчання із застосуванням методу регуляризації, який дозволяє поступово наближувати значення параметрів до бінарних. Послідовне застосування дискретизації дозволяє досягти скелетизації навченої нейронної мережі, коли стає можливим представити ансамблі нейронів у вигляді логічних формул, або продукційних правил „якщо – то”.

Найбільш складною є проблема формалізації динамічних рекурентних нейронних мереж, які в процесі навчання засвоюють темпоральні властивості навчальних масивів даних. Рекурентну мережу можна формально представити моделлю скінченого автомата на послідовності символів, що відповідає вхідним даним. Таке формальне представлення, як правило, є приблизним і досягається шляхом дискретизації значень входу, виходу та внутрішніх параметрів нейронної мережі. Дискретизація параметрів рекурентної мережі базується на методах квантування простору її станів.

Інший підхід до проблеми вилучення знань базується на представленні навченої нейронної мережі як експерта в певній предметній області. Ставлячи запитання до такого експерта у вигляді тестових прикладів, і одержуючи його реакції, отримують інформацію, необхідну для представлення його знань. Для формалізації послідовності запитань та одержаних відповідей застосовують методи індуктивного навчання, які дозволяють будувати дерева рішень, правила виводу, або системи продукцій, що представляють відповідну предметну область.

Найбільш безпосереднім методом вилучення інформації з навченої нейронної мережі є формальна апроксимація поведінки нейронів мережі. Поведінку мережі представляють у вигляді продукційних правил „якщо (умова), то (дія)”. Для зменшення похибок формальної апроксимації використовують методи дискретизації, що дозволяє видаляти найменш значимі нейрони та зв’язки між ними. Для залишених нейронів застосовують порогову, логічну, або кусочно-лінійну апроксимацію, створюючи таким чином функціональну модель, що імітує роботу навченої нейронної мережі.

16.2. Метод скелетизації нейронної мережі.

Метод скелетизації полягає у поступовій модифікації параметрів навченої нейронної мережі з метою наближення її структури до мережі формальних нейронів Мак-Калока-Піттса. Метод застосовують до мереж прямого поширення (перцептрони) з одним прихованим шаром нейронів. Модифікація мережі включає:

представлення всіх вхідних даних в бінарній формі;
скелетизацію структури мережі;
бінарізацію значень реакції прихованих нейронів;

При такій модифікації можливе погіршення роботи мережі та часткова втрата знань, набутих при навчанні. Щоб зменшити втрати модифікацію здійснюють шляхом навчання в спеціальному режимі із застосуванням методу регуляризації, який забезпечує підсилення сильних та пригнічення слабких зв’язків мережі. При навчанні також поступово збільшують крутизну сигмоїдної активаційної функції нейронів в результаті чого реакції стають більш чіткими, наближаються до значень +1, або –1.

Метод регуляризації базується на застосуванні додаткових складових функції похибки мережі:

Перший член суми дає значення середньої квадратичної похибки. Другий представляє регуляційну складову, яка обмежує абсолютні значення вагових коефіцієнтів і сприяє поліпшенню здатності мережі до узагальнення. Третім членом є регуляційна складова, яка наближує значення вагових коефіцієнтів до 0, +1, або –1.

Архітектуру модифікованої мережі зображено на рис 16.1. Зовнішні безперервні дані (х1- х4) надходять на входи L-елементів, які здійснюють квантування, тобто представляють їх логічними змінними. Протягом навчання функції L-елементів не змінюються. Бінарізовані значення виходів L-елементів надходять на входи нейронів прихованого шару, виходи яких зв’язані з нейронами виходу (на рис 16.1 зображений лише один елемент виходу). Нейрони виходу та прихованого шару мають сигмоїдні активаційні функції:

причому на початку навчання параметр β має невелике значення, що забезпечує майже лінійну залежність для малих значень аргументу х.

Вихід

R-елементи {

L-елементи

Входи x1 x2 x3 x4

Рис. 16.1 Приклад архітектури модифікованої нейронної мережі.

В процесі навчання величину β поступово збільшують, внаслідок чого крутизна лінійної ділянки зростає. При сигмоїдна залежність наближається до порогової, а реакції нейрона – до бінарних. При цьому нейрони перетворюються на R –елементи, що виконують логічні функції.

Загалом алгоритм формування та модифікації нейронної мережі включає такі кроки:

Встановлюють структуру мережі, для входів, які мають безперервні значення формують шар L-елементів. Кількість L-елементів має бути достатньою для забезпечення необхідної точності відтворення вхідних даних.
Створюють по одному прихованому нейрону (R-елементу) на кожен клас рішень.
Навчають перший прихований нейрон на перший клас рішень за алгоритмом зворотного поширення з регуляризацією. На початку встановлюють малі значення коефіцієнтів: λ1 = 10-5, λ2 =0 , β=1.
Якщо процес навчання виявляється надто повільним, додають ще один прихований нейрон і продовжують навчання одночасно на обидва класи рішень. Якщо це не допомагає, то збільшують кількість нейронів, що навчаються одночасно.
Навчання продовжують доки продовжується зменшення похибки. Після стабілізації значення похибки збільшують коефіцієнт регуляризації λ1←10 λ1 та крутизну активаційної функції: β←β+1.
Поступово зменшують величину λ1 поки похибка не зменшиться до попереднього рівня і продовжують навчання до стабілізації похибки.
Встановлюють : λ2 = λ1 та λ1 =0. Продовжують навчання поступово збільшуючи коефіцієнти λ2 та β, доки вагові коефіцієнти не досягнуть значень 0±0,05, або ±1±0,05.
Встановлюють дуже велике значення β=1000 та цілі значення (0, ±1) для вагових коефіцієнтів навчених прихованих нейронів.
Аналізують одержані вагові коефіцієнти у перших навчених прихованих нейронів та виписують відповідні логічні правила для перших класів рішень.
Заморожують значення вагових коефіцієнтів навчених нейронів та продовжують пп. 2-5 для залишених даних та нових класів рішень.

Розглянутий метод було реалізовано в моделі системи C-MLP2LN, створеній в університеті Коперніка (Польща) В. Духом та ін. [3].

Дещо інший підхід до скелетизації застосовано в системі N2PFA (NN Prunning for Function Approximation), створеній Я. Зурабою та ін [4]. В цій моделі застосовано іншу форму функції похибок:

Другий член в правій частині цієї формули є регуляційною складовою, яка стимулює зменшення ваги всіх міжнейронних зв’язків. Завдяки їй значна частина вагових коефіцієнтів протягом навчання стає близькою до нуля і перестає впливати на поведінку мережі. Тому приховані нейрони, вхідні або та вихідних зв’язки яких наближаються до нуля можуть бути видалені без суттєвих втрат для якості роботи мережі. Нейрони-кандидати на видалення визначають шляхом оцінки їхнього впливу на результати тестування мережі на незалежних даних. Після вилучення нейронів, вплив яких є найменшим, навчання мережі продовжують, доки похибки продовжують зменшуватись, після чого видаляють наступні приховані нейрони. Процес навчання та видалення нейронів повторюють кілька разів, доки величина похибки мережі не вийде за допустимі межі. При випробуваннях системи N2PFA на різних типах прикладних задач одержано досить високу (85-90%) точність відтворення поведінки мережі.

16.3. Квантування простору станів динамічної нейромережі.

Цей метод застосовують для вилучення знань з навчених рекурентних нейромереж (РНМ). Такі мережі здійснюють адаптивну обробку даних у реальному, або наближеному до реального часу і є динамічним системами. Реакцію РНМ визначає поточне значення входу та стану мережі. Останній є внутрішньою характеристикою РНМ і залежить від її попередньої поведінки. Проблему вилучення знань можна розглядати як побудову скінченого автомату, що за своєю поведінкою максимально наближений до динамічної системи, якою є навчена РНМ. Вирішення цієї проблеми ускладнює континуальний, як правило, характер множини станів РНМ, а також недоступність поточного стану мережі для зовнішнього спостереження. Для вирішення цієї проблеми необхідно квантування простору станів РНМ, а це може вести до часткової втрати інформації набутої при навчанні. Щоб зменшити втрати застосовують ітераційну процедуру пошуку. Для цього обирають деяку початкову модель дискретного автомату, яку далі корегують шляхом спроб. Алгоритм пошуку включає такі кроки:

Квантування безперервного простору станів РНМ, відповідно до простору станів скінченого автомату.
Одержання та класифікація станів РНМ шляхом її тестування послідовностями вхідних даних.
Конструювання правил на основі спостережуваних змін стану РНМ.
Мінімізація множини одержаних правил.

Квантування простору станів РНМ починають з дискретного представлення значень її входів, яке виконують так само, як і для мережі прямого поширення, зображеної на рис. 16.1. Далі обирають початкову модель скінченого автомату, входи якого збігаються з входами РНМ. Дискретні стани моделі визначають макростани РНМ, кожному з яких відповідає певна множина її мікростанів. Поділ на макростани відповідає квантуванню безперервної множини станів РНМ, її поділу на фіксоване число макростанів, відповідно до станів обраної моделі скінченого автомату. Подаючи на входи автоматної моделі та РНМ однакові послідовності значень входів, можна виявляти неузгодженість їхньої поведінки та корегувати автоматну модель, поступово усуваючи спостережувані невідповідності.

На рис. 16.2 приведено приклад побудови автомату для моделювання РНМ. За початкову модель обрано скінчений автомат, що має 9 станів. Безперервну множину станів рекурентної мережі зображено квадратом, поділеним на 9 клітин, які представляють макростани РНМ, що відповідають станам скінченого автомату. Кожна клітина є підмножиною мікростанів РНМ, які позначені світлими кружечками. На рис 16.2 представлено просту ситуацію, коли РНМ має лише один бінарний вхід та один бінарний вихід. Суцільні та пунктирні лінії переходів між станами відповідають бінарним значенням входу мережі. Значення виходу поділяють множину станів РНМ на дві зони, виділені білим та сірим фоном.

В правій частині рисунка зображено граф скінченого автомата квантованої моделі РНМ. Вузли графа позначені одинарною, або подвійною лінією залежно від значення реакції РНМ. Побудова графа триває доти, доки виявляються вузли, що мають два вихідних шляхи. Пошук шляхів здійснюється вшир і його метою є перевірка допустимості всіх послідовностей вхідних символів. Недопустимими вважаються послідовності, для яких реакції скінченого автомата відповідають різні реакції РНМ. На рис 16.2 недопустимим є вузол 5, для якого існують різні реакції РНМ. При виявленні недопустимих послідовностей автоматну модель корегують, вводячи додаткові стани, що точніше віддзеркалюють розподіл простору станів РНМ

а a

2 b 5

c f

Рис.16.2. Побудова скінченого автомата для РНМ.

Успішність процесу квантування простору станів РНМ істотно залежить від початкового вибору моделі скінченого автомату. Щоб зробити успішний вибір, часто проводять попередній аналіз простору станів навченої РНМ з метою виявлення зон більш щільного розташування станів, які потребують більш детального представлення в автоматній моделі. Найчастіше для цього використовують метод векторного квантування. Ідея цього методу полягає в створенні множини випадкових послідовностей вхідних векторів, одержанні реакцій на них РНМ та поділу цієї множини на k кластерів за відстанню, яку оцінюють за значеннями реакції РНМ. Для побудови моделі скінченого автомату обирають вхідні послідовності, що є центрами знайдених кластерів.

Принциповим недоліком підходу до вилучення знань з навченої РНМ шляхом квантування її станів і побудови скінчених автоматів є те, що за винятком дуже простих прикладів, точного відтворення поведінки РНМ досягти практично неможливо. Для встановлення ідентичності побудованих формальних моделей необхідно виконувати великий обсяг випробувань, що не завжди є виправданим. Тому в останні роки проводяться дослідження по застосуванню стохастичних автоматних моделей, які здатні відтворювати поведінку навченої РНМ з певною заздалегідь контрольованою точністю. Невизначеність мікростанів РНМ розглядається як імовірнісна складова поведінки формальної моделі, заданої переходами макростанів РНМ. Для оцінки розподілу імовірностей переходів між макростанами застосовують тестування на випадкових вхідних послідовностях. При цьому кожний вузол стохастичної моделі описується розподілом імовірностей можливих переходів.

Загалом слід зазначити, що проблема вилучення знань з динамічних, зокрема рекурсивних нейронних мереж досі не має надійних рішень і тому залишається предметом подальших досліджень.

16.4. Вилучення знань із застосуванням методів індуктивного навчання

Застосування методів інженерії знань до навченої нейронної мережі як експерта в даній предметній галузі дозволяє не звертати уваги на архітектуру, тип нейропарадигми, або методи, за якими проводилось навчання нейронної мережі. Важливим є лише здатність такої мережі вирішувати тестові завдання, тобто правильно відповідати на запитання з даної предметної області. Мережу розглядають як своєрідного оракула, що дає об’єктивні відповіді на питання, які можуть надходити у випадковому порядку.

Запитання мають форму N-вимірних векторів (за кількістю входів мережі). Звичайно компоненти векторів є бінарними. В іншому випадку спочатку здійснюють квантування, розбиваючи множину значень кожного входу на скінчену кількість інтервалів. Запитання та одержані відповіді є прикладами, за якими будують дерево рішень бази знань. Вузли дерева відповідають певному заздалегідь обраному критерію поділу простору входів мережі. Листями дерева є вузли, що представляють класи рішень (відповідей оракула). Відповіді оракула служить для розмічування векторів, відібраних даним вузлом. При побудові вузлів дерева звичайно використовують правило MofN, тобто рішення „1” приймається якщо M з N елементів вхідного вектору мають значення 1, а решта - 0. При цьому найбільш складним є вибір критеріїв класифікації для локальних вузів дерева рішень. Звичайно спочатку вводять один вузол, який приймається за лист дерева. Класифікаційними ознаками на цьому етапі є значення питань (компонент вхідного вектора мережі) та відповіді оракула. Якщо на наступні питання надходять такі саме відповіді, то вхідні вектори додаються до кластеру даних, що пов’язані з цим вузлом. При надходженні іншої відповіді для даного вузла формується логічне правило, що пов’язує раніше включені в кластер приклади з попереднім рішенням оракула і одночасно створюється новий вузол, який на початку вважається листом.

Даний підхід до вилучення знань з навченої нейронної мережі вперше реалізовано в системі TREPAN, розробленій в 1996 р. Кравеном та Шавліком [5]. В ній використовується дискретне представлення вхідних даних і при формуванні нових прикладів застосовується емпірична статистична модель розподілу значень для величин, що є безперервними. Формування дерева рішень здійснюється за принципом „спочатку вшир”. При формуванні локальних правил MofN у вузлах дерева враховується інформативність правила, тобто відношення кількості прикладів, що належать певному класу, до загальної кількості прикладів, відібраних даним вузлом. Якщо це відношення наближається до одиниці, вузол вважається листом. В іншому випадку при надходженні у вузол чергового прикладу виконується розщеплення відібраних вузлом прикладів і формуються нові вузли.

16.5. Апроксимація функціональних залежностей нейронної мереж

Проблема інтерпретації поведінки навченої нейронної мережі полягає у незвичності для сприйняття виконуваних нейронами операцій, та великій кількості вагових коефіцієнтів, що є налагоджуваними параметрами мережі. Для вирішення цієї проблеми необхідно вирішити дві задачі: зменшити по можливості число налагоджуваних параметрів та представити поведінку нейромережі в іншому, більш звичному функціональному базисі. Першу задачу вирішують методи скелетизації, а другу - методи квантування простору станів та індуктивного навчання.

Але можливий і більш прямий спосіб вилучення знань з навченої нейронної мережі – апроксимація функціональних залежностей. Вперше цей спосіб застосовано Товелом [6] в системі KWANN (Knowledge Based Neural Network), призначеній для формування дерев рішень на основі даних, представлених у бінарній формі. Нейронна мережа мала один шар прихованих нейронів, які розглядались як потенційні аналоги вузлів для прийняття проміжних рішень. В процесі навчання виконувались операції скелетизації мережі, тобто видалялись мало значущі зв’язки та приховані нейрони, які не суттєво впливали на реакції нейромережі. Далі проводилась бінарізація всіх зв’язків мережі. Для кожного нейрона визначалась підмножина входів, поява одиниць на яких забезпечувала його активацію і формувались логічні правила, що імітували роботу нейрона. Таким чином створювались локальні правила прийняття рішень. На завершальному етапі одержані локальні правила об’єднувались у загальне дерево рішень яке апроксимувало функції нейронної мережі. Цей спосіб формалізації нейронної мережі було реалізовано в кількох системах, зокрема у згаданій раніше системі C-MLP2LN.

Недоліком системи KWANN та її аналогів є відносно мала точність відтворення функцій нейронної мережі, а також те, що вони можуть застосовуватись лише у випадках дуже малого простору рішень. Запропонований в роботі [4] метод REFANN (Rule Extraction from Function Approximating Neural Networks) дозволяє усунути ці недоліки, використовуючи кусочно - лінійну апроксимацію активаційних функцій. На рис. 16.3 подано приклад апроксимації активаційної функції на два лінійні ділянки.

0 x0 xm

Рис.16.3 Апроксимація активаційної функції двома кусочно - лінійними функціями.

Звичайно процес вилучення знань за цим методом складається з двох етапів: спочатку виконують скелетизацію мережі за методом N2PFA, який не передбачає модифікацію активаційних функцій, після чого здійснюють кусочно-лінійну апроксимацію активаційних функцій нейронів на 3 або 5 ділянки. Така апроксимація розчленує область визначення постсинаптичного потенціалу на 3 або 5 зон, кожній з яких відповідає певне значення реакції нейрона. При апроксимації на 3 ділянки нейрону відповідає правило

де S – значення постсинаптичного потенціалу, xi, qi –параметри апроксимації.

Поєднуючи такі правила, знайдені для кожного нейрона, формують продукційну систему, що апроксимує функції всієї нейронної мережі.

Результати експериментальних випробувань системи REFANN на базі даних, що містила понад 30 масивів для різних типів прикладних задач продемонстрували досить високу точність апроксимації, яка становила 97-98% при поділі активаційних функцій на 3 ділянки і 98,5-100% при поділі на 5 ділянок. Загальна кількість синтезованих правил становила в першому випадку від 2 до 50, а в другому –від 3 до понад 100.

Контрольні запитання

Назвіть існуючі підходи до вилучення знань з навченої нейромережі.
В чому полягає метод регуляризації.
Етапи формування мережі за методом скелетизації.
Метод квантування простру станів.
Для чого застосовують правило MofN .
Метод апроксимації активаційних функцій.

Література

Schetinin V. “Rule Extraction from Neural Networks” Summary of research
Jacobsson H. “Rule Extraction from Recurrent Neural Networks: F Taxonomy and Review” Neural Computation, v.17, i.6
Duch W., Adamczak R., Grabcsewski K., Jancowski N. “Neural methods of knowledge extraction” Control and Cybernetics, v.29(2000), No 4, p.1-19.
Scetiono R., Leow W. K., Zurada J. “Extraction of Rules From Artificial Neural Networks for Nonlinear Regression” IEEE Transaction on Neural Networks, v.13, No 3, may 2002, p.564-577.
Crawen M.W., Shavlik J.W. “Extracting tree-structured representation of trained networks” Advances in Neural Information Processing Systems, v.8, MIT Press, Denver CO, 1996, p.24-30.

c f

3 4 e

1. Группа Ренессанс Страхование Программа добровольного медицинского страхования в компании
2. а а особенно личинки этих насекомых.html
3. САРАТОВСКИЙ ОБЛАСТНОЙ КОЛЛЕДЖ ИСКУССТВ Рабочая программа учебной дисциплинЫ
4. белыми и цветными симметричными аморфными слабоструктурированными изображениями т.html
5. Авторская песня как предмет литературоведческого лингвистического и междисциплинарного изучения
6. Вплив іонизуючого опромінення на тварин
7. Ярославская государственная медицинская академия федерального агентства по здравоохранению и социальному
8. Вопросы входного-выходного контроля устав ППС
9. Тема 32 Хромосомная теория наследственности
10. статья профессора Лозовского о причинах старения человеческого организма вызвавшая среди ученых пересуды и

Материалы собраны группой SamZan и находятся в свободном доступе