У вас вопросы?
У нас ответы:) SamZan.net

РЕФЕРАТ дисертації на здобуття наукового ступеня кандидата технічних наук Львів 20

Работа добавлена на сайт samzan.net: 2015-07-10

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Имя

Выберите тип работы:

Принимаю Политику конфиденциальности

Скидка 25% при заказе до 6.7.2025

НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ

“ЛЬВІВСЬКА ПОЛІТЕХНІКА”

Гудим Володимир Васильович

УДК 621.391.19+681.142.37

ВИКОРИСТАННЯ ВЕЙВЛЕТ-ПЕРЕТВОРЕНЬ ТА НЕЙРОННИХ МЕРЕЖ ДЛЯ ОБРОБКИ ТА ПОКРАЩАННЯ РОЗПІЗНАВАННЯ МОВНИХ СИГНАЛІВ

05.12.13 –Радіотехнічні пристрої та засоби телекомунікацій

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня

кандидата технічних наук

Львів - 2003

Дисертацією є рукопис.

Робота виконана в Національному університеті “Львівська політехніка”

Міністерства освіти і науки України.

Науковий керівник:

кандидат технічних наук, доцент

Романишин Юрій Михайлович,

Національний університет “Львівська політехніка”,

доцент кафедри електронних засобів інформаційно-комп’ютерних технологій

Офіційні опоненти:

доктор технічних наук, доцент

Тимченко Олександр Володимирович,

Національний університет “Львівська політехніка”,

професор кафедри телекомунікацій

доктор технічних наук, професор

Воробель Роман Антонович,

Фізико-механічний інститут ім. Г.В. Карпенка НАН

України (м. Львів), завідувач відділу

Провідна установа: Національний технічний університет України “Київський політехнічний інститут” Міністерства освіти і науки України, кафедра радіоконструювання та виробництва радіоелектронної апаратури

Захист відбудеться 5 листопада 2003 р. о 16 год. на засіданні спеціалізованої вченої ради Д 35.052.10 в Національному університеті “Львівська політехніка” (79013, м. Львів, вул. С. Бандери, 12)

З дисертацією можна ознайомитися у бібліотеці Національного університету “Львівська політехніка” (79013, м. Львів, вул. Професорська, 1).

Автореферат розісланий 30 вересня 2003р.

Вчений секретар

спеціалізованої вченої ради Бондарєв А. П.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Існуючі засоби цифрової обробки мовних сигналів мають ряд недоліків внаслідок обмеженості використовуваних методів та алгоритмів, а також нестаціонарності мовних сигналів. Тому необхідно вдосконалювати існуючі та розробляти нові методи обробки мовних сигналів з метою отримання параметрів, менш чутливих до мінливості мовних сигналів, враховуючи особливості утворення та слухового сприйняття сигналів, які забезпечували б високу швидкодію та якість їх обробки.

Проведена велика робота в найбільших наукових лабораторіях і компаніях світу, таких як IBM, AT&T, Oregon Institute, MITS, Dragon, Philips та ін., дозволила за останні десятиріччя перейти від теоретичних розробок і лабораторних систем до практичних продуктів обробки мовних сигналів (управління голосом, диктування, забезпечення доступу) з задовільними показниками.

Розв’язання таких проблем можливе на основі використання вейвлет-перетворень і побудови вейвлет-функцій. Вейвлет-перетворення можна використати для розв’язання задач стискання, зменшення рівня шуму, виділення параметрів та розпізнавання смислових елементів цифрових мовних сигналів з високою точністю і швидкодією. Тому згадані задачі є складовою загальної проблеми цифрової обробки сигналів і на сучасному етапі є важливі та актуальні.

Протягом останніх років ведуться інтенсивні дослідження, спрямовані на удосконалювання методології застосування прихованих Марковських моделей (ПММ) і розробку високоточних інтелектуальних (нейронних) систем розпізнавання мови та ідентифікації диктора. Використання статистичних методів на основі ПММ дозволяє описувати часову й акустичну мінливість мовних сигналів. Для більш ефективного представлення часової й акустичної мінливості мови необхідно враховувати статистичні залежності між сусідніми фрагментами мовних сигналів.

У зв'язку з цим розробка методів і алгоритмів обробки мовних сигналів та удосконалення структури штучних нейронних мереж є подальшим розвитком апарату цифрової обробки та моделювання мовних сигналів.

Зв’язок роботи з науковими програмами, планами, темами. Дисертаційна робота пов'язана з планами науково-дослідних робіт кафедри електронних засобів інформаційно-комп’ютерних технологій Національного університету "Львівська політехніка", зокрема з науково-технічною програмою Міносвіти України „Розробка теоретичних основ побудови багаторівневих інтегральних систем з включенням складових керуючих і обчислювальних комплексів, роботи і роботехнічні системи інформації”. Окремі етапи роботи пов’язані з держбюджетною темою кафедри ”Перспективні технології, прилади комплексної автоматизації, системи зв’язку”, що виконувалася згідно з координаційними планами НДР за фаховим напрямком „Радіотехніка та електроніка”.

Мета і задачі досліджень. Метою роботи є покращання ефективності розпізнавання мовних сигналів та їх компресії за допомогою засобів цифрової обробки, розроблених на основі апарату вейвлет-перетворень та штучних нейронних мереж.

Досягнення поставленої мети вимагало розв’язання таких задач:

1. Аналіз математичних моделей формування та сприйняття мовних сигналів для задач їх цифрової обробки.

2. Виділення та побудова еталонів мовних сигналів для подальшого їх використання як вхідних параметрів у структурах штучних нейронних мереж.

3. Вибір вейвлет-функцій та порівняння апарату вейвлет-перетворень з перетвореннями Фур’є для використання у засобах цифрової обробки мовних сигналів.

4. Дослідження та чисельна реалізація прямого та оберненого неперервного вейвлет-перетворення (НВП).

5. Компресія та зниження рівня шумів на основі апарату дискретних вейвлет-перетворень (ДВП) з врахуванням психоакустичних принципів сприйняття сигналів.

6. Побудова і вибір структури та параметрів нейронної мережі для розпізнавання елементів мовних сигналів та аналіз функціонування нейронної мережі при наявності шумових факторів.

7. Виконання комп’ютерних експериментів, їх аналіз та порівняння отриманих результатів з відомими.

Об’єктом дослідження є сигнали, що відповідають звукам мови.

Предметом дослідження є засоби цифрової обробки мовних сигналів на основі апарату вейвлет-перетворень та штучних нейронних мереж.

Методи досліджень. Теорія сигналів та методи їх цифрової обробки: кореляційні, спектральні, кепстральні, неперервні та дискретні вейвлет-перетворення; методи математичного моделювання; апарат штучних нейронних мереж; теорія імовірностей та статистичного аналізу.

Наукова новизна отриманих результатів.

1. На основі аналізу спектральних характеристик елементів мовних сигналів вдосконалено метод попередньої сегментації сигналів, який відрізняється від відомих тим, що базується на кореляційному аналізі спектральних сегментів (вікон) і дозволяє точніше виділяти межі елементів мовних сигналів для подальшої їх цифрової обробки та аналізу.

. Запропоновано нові (для мовних сигналів) параметри спектрально-часової невизначеності та ентропії спектру часового вікна з нелінійною (логарифмічною) шкалою частот, які, порівняно з відомими параметрами, зокрема формантами, відзначаються більшою стабільністю для елементів мовного сигналу, що дозволяє використовувати ці параметри, разом з відомими, для побудови ефективніших систем розпізнавання мовних сигналів.

. Розроблено нову методику застосування неперервних вейвлет-перетворень для цифрової обробки та аналізу мовних сигналів, яка відрізняється від існуючих тим, що базується на попередньому виборі вейвлет-функції за критерієм мінімальної ентропії коефіцієнтів вейвлет-перетворення та частотно-часової локалізації вейвлет-функції, що дозволило підвищити якість розпізнавання складових елементів мовного потоку та зменшити обчислювальні затрати.

. Модифіковано та адаптовано до цифрової обробки мовних сигналів метод дискретного вейвлет-перетворення на основі вибору ортонормованого вейвлет-базису за критерієм мінімальної ентропії коефіцієнтів вейвлет-розкладу на масштабованих рівнях розкладу, що дозволило, порівняно з існуючими методами, підвищити коефіцієнт компресії мовного сигналу та відношення сигнал/шум при відповідній якості відтворення сигналу.

. Подальший розвиток отримало застосування штучних нейронних мереж для обробки, класифікації та розпізнавання елементів мовних сигналів на основі введення нових, запропонованих та досліджених складових вектора вхідних параметрів мережі, що дозволило покращити якість розпізнавання складових мовного сигналу.

Практичне значення одержаних результатів.

1. Реалізовано процедури сегментації та формування параметрів спектрально-часової невизначеності та ентропії віконного спектру з нелінійною шкалою частот мовних сигналів для використання у системах цифрової обробки мовних сигналів.

2. Програмно реалізовано алгоритми вибору та побудови вейвлет-функцій для обробки мовних сигналів, а також алгоритми аналізу квазіперіодичності мовного сигналу та оберненого неперервного вейвлет-перетворення.

3. Програмно реалізовано алгоритми зниження рівня шумів, компресії та декомпресії для зберігання та передачі мовних сигналів на основі дискретного вейвлет-перетворення.

. Програмно реалізована структура нейронної мережі для класифікації та розпізнавання мовних сигналів з використанням алгоритмів попередньої обробки та відомих і запропонованих параметрів мовних сигналів.

5. Розроблено додатковий набір функцій пакету прикладних програм MATLAB для цифрової обробки мовних сигналів.

Реалізація та впровадження результатів роботи. Результати дисертаційної роботи впроваджені у ВАТ “Укртелеком” (м.Львів) та знайшли застосування при розробці інформаційно-довідкової системи. Розроблені теоретичні положення і пакети прикладних програм використовуються у лекційних курсах та лабораторних заняттях кафедри електронних засобів інформаційно-комп'ютерних технологій Національного університету “Львівська політехніка”.

Особистий внесок здобувача. Особистий внесок здобувача полягає у самостійному виконанні теоретичної і експериментальної частин роботи та інтерпретації одержаних результатів. Усі основні положення, викладені в дисертації, отримано автором особисто. В роботах, написаних у співавторстві, автору належить: [1, 9] –вибір та розрахунок часових, спектральних та кепстральних параметрів мовних елементів для побудови шаблонів; [2, 3, 7] - обчислення, дослідження та аналіз спектрально-часової невизначеності елементів мовного сигналу; [4, 6, 8] - порівняння вейвлет-функцій за критерієм мінімального значення ентропії, компресія та зниження рівня шумів у мовних сигналах на основі дискретних вейвлет-перетворень; [5] - побудова нейронної мережі для обробки мовних сигналів, її дослідження та аналіз функціонування при наявності шуму у мовному сигналі; [10] - порівняння спектрально-часових властивостей вейвлет-функцій. Аналіз результатів окремих досліджень та аспектів прикладних застосувань проведено у співавторстві.

Апробація результатів дисертації. Основні результати виконаних досліджень були представлені на наступних науково-технічних конференціях:

Міжнародна науково-технічна конференція "Проблеми фізичної та біомедичної електроніки". - Київ, 1999.

-я міжнародна науково-технічна конференція "Математичне моделювання в електротехніці та електроенергетиці". - Львів, 1999.

Міжнародна конференція "Сучасні проблеми засобів телекомунікації, комп'ютерної інженерії та підготовки кадрів" (TCSET 2000). - Львів-Славсько, 2000.

VI міжнародна науково-технічна конференція "Досвід розробки та застосування приладо-технологічних САПР в мікроелектроніці" (CADSM 2001). - Львів-Славсько, 2001.

Міжнародна науково-технічна конференція "Інформаційно-комп'ютерні технології 2002". - Житомир, 2002.

-а науково-практична інтернет-конференція "Україна наукова 2002". –Дніпропетровськ, 2002.

Публікації. Результати дисертаційної роботи опубліковані у 10 наукових працях, у тому числі 6 статтях у фахових виданнях з переліку, затвердженого ВАК України, та 4 збірниках матеріалів науково-технічних конференцій.

Структура та обсяг роботи. Дисертація складається зі вступу, п'яти розділів, висновків, списку використаних джерел (173 найменування на 14 с.) та трьох додатків (16 с.). Загальний обсяг дисертації становить 188 с., обсяг основного тексту 150 с., дисертація містить 48 ілюстрацій на 30 с. та 14 таблиць на 12 с.

ОСНОВНИЙ ЗМІСТ ДИСЕРТАЦІЙНОЇ РОБОТИ

У вступі обґрунтовано актуальність проблеми покращання розпізнавання мовних сигналів та їх цифрової обробки, сформульовані мета та задачі досліджень, наведені відомості про наукову новизну, практичну цінність та апробацію отриманих результатів, публікацію матеріалів дисертації та впровадження її результатів.

У першому розділі наведено огляд наукових публікацій вітчизняних і зарубіжних авторів з проблем формування та математичного моделювання мовних сигналів, психоакустичних принципів їх сприйняття, особливостей представлення у часовій і спектральних областях, методів цифрової обробки мовних сигналів з метою вирішення практичних задач. Розглянуто основні методи цифрової обробки мовних сигналів у часовій та спектральних областях. Проведено порівняння і аналіз основних методів компресії та розпізнавання мовних сигналів з використанням різних методів їх обробки.

На основі аналізу стану проблеми встановлено, що необхідно проводити дослідження в області розробки нових та вдосконалення існуючих методів цифрової обробки мовних сигналів для ефективного використання їх у прикладних задачах.

У другому розділі розглянуто методи побудови еталонів мовних сигналів та їх дослідження.

Запропонований метод попередньої сегментації базується на порівнянні спектрів короткотривалих вікон аналізу цифрового мовного сигналу. Спектральний діапазон ділиться на дві частотні смуги: 1) 0.02-2.5 кГц та 2) 2.5-15 кГц. Ці діапазони вибрані виходячи з того, що спектр вокалізованих звуків, як правило, зосереджений в діапазоні 0.02-2,5 кГц, а невокалізованих - у діапазоні 2.5-15 кГц. Попередньо проводиться нормування енергії сигналів часових вікон. Порівняння спектрів проводилося методом кореляції спектрів у відповідних частотних діапазонах. Для прийняття рішення про наявність звукового сигналу вводиться порогове значення на рівні 20% максимальної короткочасної енергії сигналу. При цьому паралельно з поелементним часовим поділом мовного потоку відбувається відділення вокалізованих та невокалізованих мовних елементів, що є основною перевагою над існуючими методами.

За спектральною характеристикою визначаються параметри, що дозволяють значною мірою ідентифікувати мовний сигнал. До таких параметрів належить абсолютна ширина спектра , що визначається частотним діапазоном, в якому зосереджена основна частина енергії сигналу: . Середні значення абсолютної ширини спектра () для кількості вибірки 80 голосних звуків відображені у табл. 1. Для ідентифікації мовних сигналів використовуються також частоти формант, яким відповідають максимуми спектра.

d2��. 1. ��

Якщо параметри різних вікон вважати незалежними один від одного, то губиться інформація про динаміку мовних параметрів. Для врахування динамічної поведінки мовних сигналів використовуються дельта-параметри. Отримані в такий спосіб величини, що є похідними від основних параметрів, дозволяють підвищити інформативність сукупності параметрів сигналу. Вектор, сформований з основних та дельта-параметрів в кепстральній області, звичайно використовують як вектор вхідних параметрів в існуючих системах розпізнавання мови.

Еталонами у кепстральній області є перші (більш високі коефіцієнти практично нечутливі до змін у сигналі) кепстральні коефіцієнти (КК), які характеризують мовний сигнал, а також дельта-параметри - перша та друга похідні у часі від кадру до кадру.

Ефективна тривалість сигналу та ефективна ширина його спектру є самостійними параметрами, а їх добуток характеризує спектрально-часову невизначеність сигналу. Для квазіперіодичних мовних сигналів спектрально-часова невизначеність визначається для одного квазіперіоду. Для обчислення цих величин використовуються перший та другий моменти (в дискретному представленні):

; ; (1)

; , (2)

де - ефективна середина сигналу; - ефективна центральна частота; –відліки сигналу в дискретні моменти часу ; - крок часу; - крок частоти; сигнал нормований за питомою енергією.

Значення параметра сигналів, що відповідають класу голосних звуків та розраховані для еталонних звуків з частотою основного тону (ОТ) 120 Гц, наведені в табл. 1. За шириною смуги частот сигнали звуків "о" і "у", а також "е" і "и" мало відрізняються між собою, але суттєво відрізняються за спектрально-часовою невизначеністю (рис. 1), що дозволяє ці параметри використовувати разом.

d0��. 1. ��-��

Як додатковий запропоновано параметр, що базується на використанні ентропії спектру сигналу з нелінійною шкалою частот. Для отримання спектру мовних сигналів з нелінійною шкалою частот використовується банк фільтрів. Для кожного -го банку фільтрів обчислюється параметр як сума квадратів модулів вихідного спектру у відповідній смузі частот. Відповідно до моделі нелінійних принципів сприйняття отримана інтегральна спектральна енергетична характеристика апроксимується функцією:

, (3)

де –центральна частота в Гц спектральної складової .

Отримані значення нелінійного спектру нормуються так, щоб , що є умовою використання ентропії, де - кількість спектральних складових. Оцінка нелінійного спектру за критерієм ентропії проводиться за формулою:

. (4)

Значення ентропії спектру з нелінійною шкалою частот отримуються для поточного вікна аналізу.

У табл.1 наведені середні значення ентропії mel-спектру для голосних звуків, а також їх середньоквадратичні відхилення .

Ентропія спектру з нелінійною шкалою дозволяє оцінити його кількісно лише одним параметром і не вимагає великих затрат на виконання обчислювальних процедур, що є важливим для роботи у реальному масштабі часі.

Дослідження показали, що параметри і успішно можна використовувати як додаткові у системах розпізнавання мовних елементів, оскільки для відповідних груп мовних сигналів вони мають відносно стабільні значення та діапазони їх змін.

Третій розділ присвячений застосуванню апарату неперервного вейвлет-перетворення для обробки мовних сигналів.

Першою задачею при використанні НВП є вибір вейвлет-функції (ВФ), яка найкраще відображає локальні характеристики мовного сигналу. Цей вибір проводився за критерієм мінімального значення ентропії коефіцієнтів розкладу . Значення нормуються таким чином, щоб забезпечувалася умова: , де - кількість масштабів; - кількість зсувів аргументу. Ентропія множини коефіцієнтів визначається за формулою:

. (5)

Встановлено, що для аналізу мовних сигналів НВП за критерієм мінімального значення ентропії найкраще підходять ВФ Morlet і mexihat, оскільки вони добре відображають локальні властивості мовних сигналів і є подібними до них у часовому представленні.

ВФ при зсувах та зміні масштабу аргументу характеризуються постійною спектрально-часовою невизначеністю, яка характеризує фільтруючі властивості ВФ одночасно в обох областях, тобто визначає як часову локалізацію сигналу, так і спектральну. Значення для вейвлет-функції визначається виразом:

, (6)

де ; вейвлет-функції нормовані за енергією: .

Аналогічно визначається параметр вейвлет-функції в частотній області:

; , (7)

де - спектр вейвлет-функції.

Мінімальне значення параметра спектрально-часової невизначеності ВФ характеризує найкращі локалізуючі властивості в часі та фільтруючі у спектральній області. На основі проведених чисельних експериментів встановлено, що найкращими за даним параметром є ВФ Morlet та mexihat.

Пряме НВП може бути обчислене на основі часового або спектрального представлення. З точки зору обчислювальних затрат порівняльна ефективність залежить від ВФ та кількості дискретних значень сигналу. Для порівняння обчислювальних затрат прямого НВП в часовій (cwt) та спектральній (rwt) областях були проведені чисельні експерименти з різною кількістю дискретних відліків сигналу та двома ВФ: mexihat (рис. 2,а) та Morlet (рис. 2,б). Кількість масштабних коефіцієнтів для двох варіантів реалізації НВП була 40. Обчислення виконувались на ПК з тактовою частотою процесора 350 МГц.

Розроблено чисельний алгоритм реалізації оберненого НВП. На рис. 3 зображений деякий початковий сигнал (1) та результат його реконструкції (2) за допомогою оберненого НВП при використанні ВФ mexihat. Сигнал представляє собою нормований фрагмент мовного сигналу з частотою дискретизації 44,1 кГц та кількістю дискретних відліків 200. Значення масштабів, для яких обчислювалося

а) б)

Рис. 2. Залежність часу виконання НВП від кількості дискретних відліків

пряме НВП та реконструйовувався сигнал за допомогою оберненого НВП, становили: ; ; кількість масштабів ; послідовність масштабів утворює геометричну прогресію зі знаменником .

d0��. 3. ��

e7��

Кожна ВФ має певну тривалість, центральну псевдочастоту і густину розподілу спектру при відповідному масштабі. З погляду мінімального обсягу обчислень і максимальної інформативності коефіцієнтів розкладу необхідно, щоб спектри масштабованих функцій рівномірно перекривалися в частотній області за рівнем енергії в діапазоні 70–10000 Гц. У такому випадку отримається мінімальна кількість масштабних коефіцієнтів , які рівномірно фільтрують мовний сигнал. Поріг перекриття вибирається на рівні енергії відносно центральної псевдочастоти.

На рис. 4,а наведені спектри ВФ Morlet при двох значеннях масштабних коефіцієнтів (з відповідними центральними псевдочастотами =14 Гц і =28 Гц) з перекриттям спектрів на рівні . Центральні псевдочастоти відповідають масштабам , а та - частоти, що відповідають пороговому значенню енергії. Відомою є перша центральна псевдочастота , тобто нижня межа звукового діапазону частот мовних сигналів. Виходячи з доцільності перекриття спектральних смуг на одному рівні, отримуємо:

; ; . (8)

Таким чином, можна обчислити наступні значення масштабних коефіцієнтів ВФ, знаючи попередні значення масштабу і ширину спектру відносно центральної псевдочастоти на рівні .

На рис. 4,б показані спектри масштабованих вейвлет-функцій, що рівномірно перекриваються на рівні у звуковому діапазоні частот 70-5500 Гц для вейвлет-функції Morlet.

а) б)

Рис. 4. Спектри вейвлет-функцій Morlet (а) та масштабованих ВФ Morlet (б)

Розроблений спосіб вибору кроку масштабних коефіцієнтів забезпечує рівномірне виділення складових мовного сигналу у частотній області фільтрами ВФ та мінімальну кількість масштабних коефіцієнтів, що суттєво впливає на обсяг обчислень, не зменшуючи інформативності коефіцієнтів розкладу мовних сигналів.

Основними недоліками існуючих методів оцінки частоти основного тону є неточний контроль в реальному масштабі часу та громіздкість обрахунків. Використання методів вейвлет-обробки дозволяє проведення локального аналізу мовних сигналів, що дає можливість точного виділення квазіперіодів мовних сигналів за максимальними значеннями коефіцієнтів розкладу, визначення меж вокалізованих ділянок мовних сигналів для наступної їх обробки та інше. НВП для масштабного коефіцієнту, що відповідає частоті ОТ, набуде вигляду:

. (9)

де та - мінімальна та максимальні частоти основного тону; - крок дискретизації мовного сигналу; - центральна псевдочастота ВФ.

На підставі аналізу експериментальних даних можна зробити висновок, що найкращими для аналізу частоти ОТ за критерієм мінімальної ентропії є ВФ Morlet та мexihat. На рис. 5,а показаний мовний сигнал слова “час” з частотою дискретизації 22.5 кГц, а на рис. 5,б його розклад ВФ Morlet при масштабному коефіцієнті, який відповідає середній частоті ОТ 120 Гц. Аналізуючи відстань між максимумами коефіцієнтів розкладу (рис. 5,в) при масштабі , можна у реальному масштабі часу контролювати зміну частоти ОТ з максимальною точністю.

d0��. 5. ��

ec�� .

Для розкладу мовних сигналів доцільно будувати ВФ, що відповідають мінімальним смисловим одиницям мови – фонемам або квазіперіодам з погляду максимальної їх подібності до мовних сигналів. Вибір таких ВФ може здійснюватися на стадії попередньої обробки мовних сигналів. Основними перевагами використання фонем є незначна зміна їх тривалості, яка не буде суттєво впливати на результати вейвлет-розкладу, оскільки в цих межах можна змінювати масштабні коефіцієнти. ВФ, що відповідають фонемам відповідних звуків, будуть максимально корельованими з мовним сигналом. Побудовані ВФ на основі фонем з використанням НВП можна використовувати для систем розпізнавання мовних елементів.

У четвертому розділі представлено використання апарату дискретного вейвлет-перетворення (ДВП) для цифрової обробки мовних сигналів.

Однією з першочергових задач при використанні ДВП для цифрової обробки мовних сигналів є вибір базової ВФ. Критерієм такого вибору є, зокрема, мінімальна кількість підрівнів розкладу, яка несе суттєву інформацію про сигнал. Для цього необхідно оцінити кожний підрівень за критерієм мінімального значення ентропії.

При розкладі ДВП отримується набір коефіцієнтів апроксимації та коефіцієнтів деталей . Значення ентропії на кожному підрівні обчислюється окремо, а загальна ентропія на визначеному рівні є сумою цих значень:

, (10)

де - - номер рівня; - кількість коефіцієнтів підрівня.

На основі експериментальних результатів було вибрано за критерієм мінімальної ентропії ВФ сімейства Добеші db4 i db7 на 6-му рівні вейвлет-розкладу.

Для аналізу мовних сигналів найкращим рішенням було б максимально подібне виділення смуг частот ВФ, що відповідають нелінійному сприйняттю по mel-шкалі частот. Було побудовано дерево, яке забезпечує максимальну подібність ДВП до нелінійної mel-шкали. Побудоване дерево розкладу є найкращим для аналізу мовних сигналів з погляду нелінійного сприйняття мовних сигналів. Воно дозволяє визначити необхідні рівні і підрівні розкладу мовного сигналу та мінімізувати обсяг обчислень.

Компресія мовних сигналів з можливістю їх подальшого якісного відтворення є однією з важливих та актуальних задач перетворення мовних сигналів для їх передачі та зберігання. Запропонована процедура компресії та декомпресії мовних сигналів реалізовується у три етапи:

- на першому етапі здійснюється вибір ВФ і рівня , а також обчислення вейвлет-декомпозиції сигналу на рівні ;

- на другому етапі для кожного рівня від 1 до (апроксимацій і деталей), здійснюється вибір порогів коефіцієнтів;

- на третьому етапі реалізовується реконструкція, тобто відновлення сигналу за коефіцієнтами вейвлет-розкладу.

Вибір рівня декомпозиції мовного сигналу ґрунтується на мінімальній смузі частот, що відповідає частоті основного тону, яку охоплює один підрівень розкладу:

, (11)

де - ціла частина; - частота дискретизації мовного сигналу; - частота основного тону.

Для обчислення рівня порогу коефіцієнтів розкладу було використано адаптивний поріг, який визначається виразом:

, (12)

де - коефіцієнт порогу.

Коефіцієнти, що не перевищують значення порогу, вважаються такими, що не несуть інформацію про сигнал і прирівнюються до нуля.

Ефективність компресії характеризується двома основними показниками – рівень стискання та якість відтворення відносно вихідного сигналу.

Показники стискання кількісно характеризуються:

- відносним коефіцієнтом стискання -;

- кількістю ненульових коефіцієнтів у відсотках -;

- швидкістю передачі мовного сигналу -.

Якість стиснутого мовного сигналу характеризується наступними показниками:

- коефіцієнт кореляції між початковим та відновленим сигналом - ;

- середньоквадратична відстань -;

- збережена енергія коефіцієнтів ДВП у відсотках - ;

- відношення сигнал/шум- (дБ).

У табл. 2 наведені результати використання ДВП для компресії та декомпресії мовних сигналів. Для дослідження був вибраний дискретний мовний сигнал, що відповідає слову “частота” при частоті дискретизації 22.5 кГц і кількості рівнів квантування . Тривалість сигналу становила 0.6 сек. Кількість рівнів розкладу .

З експериментальних даних видно, що для компресії та декомпресії даного мовного сигналу найкращою з погляду коефіцієнту стискання (18 разів), якості відтвореного сигналу та з врахуванням обчислювальних затрат є ВФ ”db4”.

Використання дискретних вейвлет-перетворень дозволяє знизити рівень шумів, наявних у цифрових мовних сигналах. Обробка багаторазово записаних шумових сигналів показала, що вони описуються функцією нормального розподілу. Виходячи з цього, для моделювання шумів використовувався генератор псевдо-випадкових чисел з нормальним законом розподілу.

Табл. 2.

Параметри стискання мовних сигналів

Процедура зниження рівня шумів з використанням ДВП здійснюється подібно до процедури компресії та декомпресії. Для обчислення рівня порогу коефіцієнтів розкладу використано два методи. Фіксований поріг для підрівнів розкладу сигналу на рівні знаходиться за співвідношенням:

, (13)

де - середньоквадратичне відхилення передбачуваного шуму; - кількість відліків сигналу.

Адаптивний коефіцієнт порогу обчислюється за співвідношенням:

, (14)

де - коефіцієнт порогу; –коефіцієнти деталей.

Отримавши поріг для кожного підрівня на рівні L, виконуються порівняння коефіцієнтів розкладу з пороговим значенням T. Коефіцієнти, що не перевищують значення порогу, вважаються шумовою складовою сигналу і прирівнюються до нуля.

Оцінити якісно оброблений мовний сигнал можна шляхом експертного слухового сприйняття, а кількісно за такими самими показниками, як для компресії і декомпресії.

У даній роботі експерименти здійснювалися для голосних звуків, на які накладався білий шум з нормальним законом розподілу та нульовим середнім значенням . Результати експериментів наведені у табл. 3. Базовою функцією ДВП для зниження рівня шумів мовного сигналу була вибрана “db4”. Після процедури зниження рівня шумів проводилось порівняння початкового мовного сигналу з обробленим за функцією взаємної кореляції , середньоквадратичною відстанню , збереженою енергією коефіцієнтів ДВП у відсотках - , відношенням сигнал/шум - (дБ), а виділений з сигналу шум оцінювався за середньоквадратичним відхиленням та середнім значенням .

Табл. 3.

Результати експериментів по зниженню рівня шумів у мовних сигналах

За рахунок методу зниження рівня шумів при фіксованому порозі досягаються кращі результати для голосних та частини приголосних мовних сигналів, а адаптивний поріг краще використовувати для шиплячих, вибухових та частини інших приголосних. На слух краще сприймається фільтрований сигнал для фіксованого порогу. Деякий недолік такого підходу полягає у необхідності попередньої оцінки параметра шуму, створюваного середовищем та апаратними засобами формування сигналу. Отже, зменшення шуму у мовних сигналах дозволяє значно покращити ефективність цифрової обробки та сприйняття мовних сигналів.

У п’ятому розділі розглянуто особливості удосконалення та використання структур штучних нейронних мереж (ШНМ) для розпізнавання мовних сигналів.

Для класифікації мовних сигналів важливими є вимоги до ШНМ за ефективністю розпізнавання та часом навчання і роботи , оскільки мережа повинна працювати у реальному масштабі часу. За даними показниками виконано порівняння відомих структур ШНМ, встановлено, що однією з кращих є імовірнісна ШНМ.

Імовірнісна штучна нейронна мережа (ІШНМ) базується на оцінках густини розподілу ймовірності значень, при цьому вважається, що густина підпорядкована деякому закону розподілу (найчастіше – нормальному). Імовірнісна нейронна мережа має єдиний керуючий параметр навчання - відхилення гаусової функції .

Як параметри вхідних векторів існуючі системи розпізнавання мовних сигналів використовують кепстральні коефіцієнти. Запропоновано ввести додаткові вхідні параметри спектрально–часової невизначеності та ентропії з нелінійною шкалою частот.

d0��. 6. ��

f0��

1. совокупностью наук
2. Условная вероятность события
3. Советская внешняя разведка в годы войны
4. Ictimi f~nl~r Название теста- Философия Составительи- Арабханова Р
5. Громадянське суспільство і держава
6. Нормативные акты и их действие
7. Возможные проблемы ребенка- нарушение дыхания и других жизненно важных функций; нарушение питания всле
8. Институт коррекционной педагогикиРоссийской академии образования Предис.html
9. История возникновения экологии как самостоятельной науки
10. Комплексный исследование финансово-хозяйственной деятельности предприятия

Материалы собраны группой SamZan и находятся в свободном доступе