Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
5. РЕКУРЕНТНЫЕ НЕЙРОСЕТИ. АССОЦИАТИВНАЯ ПАМЯТЬ
Рекуррентные сети это сети FBNN (с обратными связями). Прямые сети (FFNN), будучи обученными, выдают ответ сразу после прохождения через них входного сигнала. Каждый нейрон срабатывает лишь однажды. Глубокая многостадийная обработка данных требует многих слоев и усложнений обучения. Рекуррентные сети обобщают такие однопроходные схемы. Выходы их возвращаются на входы, и информация пропускается многократно. Отсюда новое качество динамическое обучение и обработка данных.
В 1982 году Дж. Хопфилд, специалист в области физики твердого тела, опубликовал статью по аналогии между нейронными сетями с симметричными связями и физическими объектами - спиновыми стёклами [ ]. С этой работы начался бурный интерес к FBNN типа сети ХОПФИЛДА (ХОП), как основе для построения ассоциативной памяти. НОР сети успешно исследовались методами теоретической физики (статистической механики). Кроме того, они имели регулярную структуру и могли быть просто реализованы аппаратно.
В ХОП сети матрица связей W - полная и симметричная с нулевой диагональю:
. (5.1)
В связи с этим ХОП сети имеют очень простую структуру (рис.5.1). Каждый i-й нейрон соединяется прямыми и обратными связями с каждым i-1-м нейроном (сплошные линии), а также - с i+1-м нейроном (штриховые линии).
Такая сеть может использоваться в нескольких вариантах.
Асинхронный вариант. Нейроны могут принимать два состояния: . В дискретные моменты времени случайным образом выбирается k-й нейрон, для которого выполняется значение потенциала . При выполнении условия , состояние нейрона меняется на противоположное: .
Последовательный вариант. Перебор нейронов производится не случайно, а циклически, но в каждый момент t может меняться лишь состояние одного нейрона.
Параллельный вариант. Одновременно изменяется состояние тех нейронов, для которых выполняется условие . Синхронизация моментов обновления состояний нейронов делает такую динамику подверженной "зацикливанию".
В отличие от многослойных ПТ с пространственно разделенными входами и выходами, в ХОП сети все нейроны могут иметь и входы, и выходы. Вход в сети задается начальной конфигурацией активных нейронов. Выход сети определяется конечной стационарной конфигурацией активных нейронов.
Можно показать, что асинхронная динамика сети сопровождается уменьшением энергии, определяемой как
. (5.2)
При изменении состояния одного k-го нейрона, его вклад в Е изменяется с на . Следовательно, .
Поскольку число нейронов конечно, Е ограничена снизу. Это означает, что эволюция состояния должна закончиться в стационарном состоянии с min E (локальным).
Можно сопоставить динамику ХОП сети с динамикой шарика, движущегося с трением в сложном рельефе (рис.5.2а).
В минимумах функции устойчивые состояния сети, а на ее склонах переходные состояния. Такая динамика определяет главное свойство НОР-сети способность восстанавливать возмущенные состояния, т.е. вспоминать потерянную информацию (частично). Воспоминания по ассоциации свойство ассоциативной памяти.
Стационарные состояния НОР сети определяется положением аттракторов бассейна притяжения (рис.4.2б). Если начальная конфигурация s мало отличается от одного из аттракторов , т.е. , то сеть быстро эволюционирует к этому аттрактору, изменив состояния небольшого числа нейронов . Можно сказать, что состояние s содержит неполную информацию, которая, однако, достаточна для восстановления полной информации, кодируемой состоянием . Например, сеть может восстановить название запомненного имени по неполному набору символов.
Память, в которой информация ищется не по адресу, а по частичной информации о содержании называется контекстно-адресуемой или ассоциативной памятью. Важным свойством такой памяти является распределенное кодирование состояний: все нейроны сети участвуют в кодировании всех состояний памяти. Это сильно повышает устойчивость к помехам.
Обучение сети Хопфилда. Воспользуемся правилом Хебба для построения весов связей:
. (5.3)
Здесь - число примеров; - вектор, кодирующий образ: .
Это правило гарантирует стационарность произвольно выбранных векторов в случае, когда их число P=0.05N. При больших значениях P некоторые из запомненных теряют свойство стационарности. А при стационарное состояние сети теряют всякую связь с и сеть переходит из режима запоминания в режим с большим числом аттракторов, далеких от запомненных .
Аттракторы, не совпадающие с , называются ложной памятью. Однако, это тоже можно считать замечательным свойством НОР сети, определяющим ее способность к синтезу новых образов. Такая сеть может активно преобразовывать информацию, а не только пассивно ее хранить.
Существует специальная процедура уменьшения доступа к ложной памяти (разобучение). Она применяется к обученной сети и предполагает многократное представление сети, в качестве начальных состояний, случайно генерируемых векторов и прослеживание их эволюции вплоть до стационарного состояния , которое может принадлежать как истинной, так и ложной памяти. После этого связи в сети модифицируются так:
, (5.4)
где - небольшая константа.
Такая процедура приводит к выравниванию доступности состояний истинных образов и снижению доступности состояний ложных образов (ложные состояния "закапываются").
Разобучением можно увеличить емкость памяти с до. Модифицирование разобучения возможно в виде:
. (5.5)
Возможны такие применения ХОП сети:
Реализация сети Хопфилда. Эта сеть значительно отличается от многослойных ПТ, а также сетей KOH, WTA и RBF. Как уже говорилось, НОРсети принадлежат к классу полносвязных FBNN, в которых важную роль играет динамика. Динамика сети описывается системой нелинейных дифференциальных уравнений и энергетической функцией, минимизируемой в течение процесса обучения.
В общем виде ХОП сеть представлена на рис.5.3. Такое представление соответствует практической реализации сети, предложенной Дж. Хопфилдом и реализованной в дальнейшем аппаратно в многочисленных вариантах. Здесь преобразования токовых входов Ii (i=1,…,n) осуществляются на проводимостях (веса входов) и усилителях (нелинейные преобразователи). Выходные сигналы формируются после усилителей и, вследствие обратных связей, они могут быть и входными.
Аппаратная реализация такой сети на резисторах, операционных усилителях, емкостях и внешних токовых источниках представлена на рис.5.4.
Согласно законов Киргоффа, такая сеть может быть описана системой дифференциальных уравнений:
. (5.6)
В матричном виде эту систему можно переписать, как:
, (5.7)
Здесь:
- постоянные времени;
- коэффициенты затухания;
- весовые коэффициенты;
- функции активации;
- пороги нейронов.
Энергетическая функция E(x) вводится для объяснения работы сети Хопфилда. Для бинарного варианта сети E(х) имеет вид:
. (5.8)
Поведение ХОП сети можно описать уравнением, связывающим E(x) и u:
. (5.9)
Здесь - матричный градиент E(x).
П р и м е р Рассмотрим сеть из трех нейронов с бинарными входами и выходами и фиксированными весами (рис.5.5). В ней выполняться условия .
Состояние сети в любой момент времени задается вектором выходов узлов . Предположим, что сеть стартует из некоторого начального состояния, случайно выбирает узел j и корректирует его выход ("поджигает" при ).
Активность j го узла оценивается обычным образом: . Выход узла равен «1», если и «0» - иначе. Далее выбираем и поджигаем случайно новый узел, и так делаем много шагов (асинхронный режим работы). Так можно оценить для каждого состояния узла следующее состояние при поджигании. Данные сведем в таблицу 5.1:
Таблица 5.1
S |
Состояние |
Новые состояния (после поджигания) |
|||||
Вектор |
|||||||
0 |
0 |
0 |
0 |
4 |
2 |
1 |
|
1 |
0 |
0 |
1 |
1 |
3 |
1 |
|
2 |
0 |
1 |
0 |
6 |
2 |
3 |
|
3 |
0 |
1 |
1 |
3 |
3 |
3 |
s* |
4 |
1 |
0 |
0 |
4 |
6 |
4 |
|
5 |
1 |
0 |
1 |
1 |
7 |
3 |
|
6 |
1 |
1 |
0 |
6 |
6 |
6 |
s* |
7 |
1 |
1 |
1 |
3 |
7 |
6 |
Пример расчета: старт с , поджигаем узел 1, тогда . Значит выход =1 и новое состояние .
Поджигаем . Значит
Поджигаем . Значит
Анализ поведения сети позволяет сделать такие выводы:
Просчет всех состояний с поджиганием узлов может отразить диаграммой переходов (рис.5.6).
Рассмотрим дискретную модель НОР, содержащую n бинарных нейронов (биполярных): . Веса - симметричные. Сеть достигает локального минимума E(x) в стабильных состояниях, т.е. модернизируясь итеративно, причем каждый нейрон асинхронно работает, модернизируясь в соответствии с правилом:
. (5.10)
Напомним, что асинхронная работа сети при последовательном действии нейронов выполняется так, что на каждом такте генерируется D-T точка только одной новой величины ; остальные остаются без изменений до следующих итерацией. В противовес, синхронная работа сети при параллельном методе действия в момент выполняется путем генерации значения для каждого по , вычисляемых в последних итерациях. Общий недостаток синхронного метода действий D-T модели состоит в возможности предельного циклического поведения (решение осциллирует между состояниями). Это часто имеет место в D-T нелинейных системах. Важным преимуществом асинхронного метода есть то, что НС всегда конвергирует к стабильному состоянию, которое соответствует локальному минимуму E(x).
E(x) может содержать много локальных минимумов, поэтому трудно найти хорошее решение 5.10, которое гарантирует сходимость к ближайшему локальному минимуму. Стохастические процедуры позволяют обойти локальные минимумы.
Машина Больцмана (МБ) это другой подход, используемый с этой же целью. МБ стохастическая FFNN, состоящая из бинарных биполярных нейронов, коннtктирующих через симметричные веса связей. МБ является энергетически минимизирующей сетью статистических нейронов, которые вероятностно появляются в одном из состояний . Алгоритм для локализации минимума энергетической функции реализует симуляцию "отжига" (отжиг металла обычно производится нагревом выше критической температуры, при которой атомы теряют твердую фазу, и медленным охлаждением для установления устойчивой структуры связей). Симуляция отжига это стохастическая стратегия поиска состояния нейронов, соответствующих глобальному минимуму энергетической функции. МБ вводит термальный шум, который постепенно уменьшается во времени. Флуктуации энергетической функции E(x) при этом подчиняется вероятностному распределению Больцмана (отсюда название сети), имеющему вид:
, (5.11)
где сумма собирает всех возможные конфигурации состояний, а Т является управляющим параметром, называемым вычислительной температурой и определяющим значение флуктуаций энергетической функции E(x). Идея состоит в том, чтобы применить униформные случайные пертурбации к состояниям выходов нейронов и затем определить результирующее изменение энергии. Если <0, новая конфигурация приемлема, а если >0, новая конфигурация может быть также приемлема, но с вероятностью, пропорциональной . Другими словами, мы должны селектировать случайное число между 0 и 1, используя униформную функцию плотности. Если , то новое состояние приемлемо, иначе оно признается негодным. При высокой температуре T вероятность перепрыгивания холма энергетической функции большая, а при низкой вероятность низкая. Симуляция отжига позволяет переходить вершины (холмы) энергетической функции в управляемом режиме, поэтому нет опасности выйти из локального минимума и попасть в еще худший.
Для энергетической функции, соответствующей бинарной модели сети:
, (5.12)
вероятность отдельного нейрона оказаться в +1 или 1 будет:
, (5.13)
где
. (5.14)
На практике вероятностный переход в состояние или не переход достигается добавлением к каждому нейрону отдельного "термального" шума . Тогда выходное состояние нейрона:
. (5.15)
Усиление должно быть достаточно высоким, чтобы функция активации была бы сингулярная. Каждый нейрон должен питаться от аддитивного с нулевым средним независимого (некоррелированного) источника шума, таким образом, чтобы его состояние не менялось бы из-за шумов, приложенных к другим нейронам. Шум должен медленно уменьшаться во времени для симуляции отжига. Эффективность отжига критична к планированию охлаждения для Т. Возможно изменение Т инверсно пропорциональна логарифмической функции времени . В таком варианте охлаждение довольно медленное и удовлетворительное решение может быть никогда не достигнуто. Но, если ввести слишком быстрое охлаждение, возможна преждевременная конвергенция к локальному минимуму.
Итак, алгоритм симуляционного отжига для МБ может быть такой:
Главный недостаток алгоритма симуляции отжига очень большое время вычислений, т.к. выполняется случайный поиск на каждом температурном шаге для достижения ближайшего устойчивого состояния. Один из подходов для увеличения скорости сходимости к ближайшему глобальному решению применение теории усреднения области [ ].