Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
41
ХАРКІВСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ
РАДІОЕЛЕКТРОНІКИ
На правах рукопису
Четвериков Григорій Григорович
УДК 007.681.5; 519.714; 519.766
ФОРМАЛЬНІ МОДЕЛІ ТА МЕТОДИ СИНТЕЗУ ШВИДКОДІЮЧИХ БАГАТОЗНАЧНИХ СТРУКТУР МОВНИХ СИСТЕМ
05.13.23 cистеми та засоби штучного інтелекту
Автореферат
дисертації на здобуття наукового ступеня
доктора технічних наук
Харків-2005
Дисертацією є рукопис
Робота виконана у Харківському національному університеті радіоелектроніки Міністерства освіти і науки України
Науковий консультант доктор технічних наук, професор
Бондаренко Михайло Федорович, Харківський національний університет радіоелектроніки, ректор, завідувач кафедри програмного забезпечення ЕОМ
Офіційні опоненти:
доктор фізико-математичних наук, професор Анісімов Анатолій Васильович, Київський національний університет, декан факультету кібернетики, завідувач кафедри математичної інформатики
доктор технічних наук, член-коренспондент НАН України, професор Грицик Володимир Володимирович, Державний науково-дослідний інститут інформаційної інфраструктури НАН України (м. Львів), директор
доктор технічних наук, професор Кучеренко Євген Іванович, Харківський національний університет радіоелектроніки, професор кафедри штучного інтелекту
Провідна установа:
Інститут кібернетики ім. В. М. Глушкова НАН України, відділ теорії цифрових математичних машин та систем
Захист відбудеться “_25_”__січня__ 2006 р. о _13.00_ годині на засіданні спеціалізованої вченої ради Д 64.052.01 Харківського національного університету радіоелектроніки за адресою 61166, м. Харків, пр. Леніна, 14
З дисертацією можна ознайомитись у бібліотеці Харківського національного університету радіоелектроніки за адресою 61166, м. Харків, пр. Леніна, 14
Автореферат розісланий “_23_”___грудня____ 2005 р.
Вчений секретар
спеціалізованої вченої ради Чалий С. Ф.
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. Розвиток обчислювальної техніки є базою автоматизації розумової діяльності, і тому виникло нове поняття штучного інтелекту. Проте, успіхи в галузі інтелектуалізації обчислювальної техніки незначні, особливо, якщо порівнювати досягнуте з очікуваними результатами та прогнозами. На даний час проблеми у розвитку систем штучного інтелекту ставлять питання про застосування орієнтації на досягнення високорівневої технології обробки інформації (тобто отримання нової якості), що виявляється у намаганнях реалізувати на фон-неймановських компютерах системи ШтІ. Отже сучасні, нові вимоги до технології обробки інформації можно звести до таких двох моментів: необхідність вирішення проблем, що кепсько формалізуются та наявністю кінцевого користувача, який за своєю професійною діяльностью не є програмистом.
Таким чином, приходимо до розуміння одного з варіантів на шляху створення систем ШтІ це шлях аналізу, моделювання та синтезу мовного інтелектуального інтерфейсу за допомогою засобів k-значної логічної системи, зокрема, алгебри скінченних предикатів (АСП) та k-значних структур і кодування.
Основний вплив на вирішення проблеми моделювання механізмів природної мови, автоматизації мовної діяльності людини, а також розвитку та удосконаленню засобів обчислювальної техніки для її реалізації зробили дослідження українських та закордонних учених: А.В. Анісімова, М.Ф. Бондаренка, В.П.Гладуна, В.В.Грицика, А.Д.Закревского, А.В.Каляева, А.В.Палагіна, Д.А.Поспелова, К.Г.Самофалова, В.П.Тарасенка, Ю.П.Шабанова-Кушнаренка, В.А.Широкова, F. Ferrandi, A. Napieralski, R. Ubar, S. Yoshitomi та інших. Слід відмітити, що одним з перспективних і актуальних напрямків застосування теорії багатозначних структур і кодування в системах штучного інтелекту на практиці є моделювання природної мови. Цей підхід дозволяє поряд з розвитком варіантів програмної реалізації отриманих моделей мови здійснити інший підхід схемний. Мозок, при цьому, розглядається як відправна точка побудови k-значних просторових структур мовних систем штучного інтелекту. Аналіз показує, що найближчими апаратними засобами за допомогою яких можливо вирішити ці проблеми є універсальні багатозначні єлементи та структури просторового типу з властивостями оборотної дії.
Виникає актуальна необхідність створення теоретичних та методологичних oснов опису лінгвістичних звязків (законів) української мови рівняннями алгебри предикатів, розвиток методів синтезу багатозначних апаратних засобів просторового типу для побудови високоефективних інтерфейсів інформаційних систем на природній українській мові, а також принципів та методів, що обєднані даною теоретичною основою.
Звязок роботи з науковими програмами, планами, темами. Дисертація виконана на кафедрі програмного забезпечення ЕОМ Харківського національного університету радіоелектроніки в рамках держбюджетних науково-дослідних робіт: “Розробка теорії штучного інтелекту та її застосування для автоматизації процесів навчання та виховання в учбових закладах України”(№ ДР 0195U023071) згідно з підрозділом “Розробка математичних основ та алгоритмів синтезу експертних та мовних систем з елементами штучного інтелекту (науковий керівник); “Розробка загальних принципів, методів, моделей і алгоритмів семантичної обробки інформації для побудови інтелектуальних інформаційних систем”(№ ДР 0196U013503) згідно з підрозділом “Розробка математичних моделей морфології української мови та загальних принципів і методів побудови універсальних просторових структур штучного інтелекту”( науковий керівник); “Розробка теорії штучного інтелекту на базі дослідження механізмів розуму людини та її застосування для проектування та побудови інтелектуальних інформаційних систем”(№ ДР 0197U012126, виконавець); „Розробка математичного, алгоритмічного та програмного забезпечення для проектування інтелектуальних систем обробки аудіо, відеосигналів, природної мови та аналітичної інформації”(№ ДР 0100U005436) згідно з підрозділом „Розробка теоретичних основ, моделей та алгоритмів вилучення знань з текстових баз даних та побудова високоефективних багатозначних структур природно-мовних систем щодо реалізації інтелектуального інтерфейсу”(науковий керівник) „Моделі механізмів інтелекту людини та їх застосування у інформаційних системах зі штучним інтелектом”(№ ДР 0103U001545) у рамках підрозділу „Ідентифікація мовника на обмеженому образі мовного матеріалу”(виконавець) та госпдоговірних тем: “Розробка моделі обєктно-реляційного адаптеру для програми “TraxFinder”(№ ДР 0103U003651, науковий керівник), “Розробка методології та програмно-апаратних засобів забезпечення відказостійкості й живучості спеціалізорованих однорідних процесорів та їх елементів для побудови надшвидкодіючих пристроїв у системах штучного інтелекту”(№ ДР 0195U023051, науковий керівник), а також ряду тем за договорами про науково-технічне співробітництво.
Мета і задачі дослідження. Метою дисертаційної роботи є розробка теоретичних та методологічних засобів опису лінгвістичних звязків (законів) української мови у вигляді рівнянь алгебри предикатів, а також апаратурних методів їх розвязання у рамках подальшого розвитку та удосконалення методів синтезу багатозначних апаратних засобів просторового типу для досягнення високорівневої технології обробки символьної інформації
Для досягнення поставленої мети в дисертації сформульовано та вирішено такі задачі
дослідження проблеми моделювання механізмів природної мови та розроблення теоретичних основ побудови швидкодіючих багатозначних структур мовних систем на основі апаратурного методу розвязання рівнянь алгебри предикатів;
дослідження процесу формалізації системи фонетичних ознак української мови та побудова математичних моделей акцентних характеристик і букво-фонемних відношень для голосних та приголосних звуків української мови;
дослідження процесу формалізації системи граматичних ознак української мови та побудувати математичні моделі його морфологічного рівня;
вивчити специфіку застосування запропонованого апаратурного методу розвязання рівнянь алгебри предикатів для обробки символьної інформації, що задана k-значними неоднорідними кодами (у вигляді рівнянь алгебри предикатів): оборотні АСП-структури;
побудова і дослідження нового класу АСП-структур на основі декомпозиції k-значних структур на дискретно-аналогові та цифрові субблоки у вигляді універсальних функціональних перетворювачів просторового типу для схемної реалізації формальних моделей мови.
Обєктом досліджень у роботі є процеси моделювання інтелектуальної діяльності людини, зокрема процедура формального опису природної мови (української): слово.
Предмет досліджень апаратурні методи розвязання рівнянь алгебри скінченних предикатів та засоби побудови універсальних k-значних просторових структур мовних систем штучного інтелекту.
Методи дослідження грунтуються на використанні теорії множин, інженерної лінвістики, теорії моделювання, базуючись на математичному апараті теорії інтелекту, зокрема АСП, для одержання формального опису системи фонетичних ознак, букво-фонемних відношень та морфології української мови; при синтезі швидкодіючих багатозначних структур мовних систем використано методи теорії інформації, інтелекту, кодування та засобів k-значної логічної системи.
Наукова новизна одержаних результатів. Наукова новизна дисертації полягає в постановці та рішенні проблеми розвитку теоретичних основ побудови швидкодіючих багатозначних структур мовних систем штучного інтелекту в рамках подальшого розвитку теорії інтелекту у вигляді алгебро-логічних засобів моделювання природної мови та методів синтезу багатозначних оборотних неоднорідних елементів і модулів просторового типу: АСП-структур.
У рамках вирішення цієї проблеми одержано такі наукові результати:
•Отримав подальший розвиток апаратурний метод розвязання рівнянь алгебри скінченних предикатів, що, на відміну від існуючих, забеспечує реалізацію властивості оборотної дії АСП-структур та широке розпаралелювання обробки символьної інформації.
•Вперше формально описані та отримані моделі лінгвістичних звязків елементів фонетичного рівня української мови, зокрема, фонетичних ознак, букво-фонемних відношень голосних та приголосних звуків у вигляді рівнянь алгебри предикатів, що дозволяє отримати їх компактну формальну модель для наступної програмно-апаратної реалізації.
•Вперше засобами алгебри предикатів отримано математичний опис акцентних характеристик субстантивного відмінювання іменників, акцентної закономірності відмінювання дієслів, розміщення умовного наголосу в повних та коротких формах прикметників та числівників української мови, що дає можливість застосування даних моделей для економного запису словарних структур природної мови у лексикографічних базах данних.
•Вперше описані та отримані формальні моделі словозміни іменних частин української мови, які наведені у вигляді рівнянь алгебри предикатів, що дозволяє здійснити їх апаратну реалізацію на базі запропонованих АСП-структур, що синтезовані засобами цієї алгебри.
•На базі використання апарату алгебри скінченних предикатів вдалося виявити особливості моделей АСП-структур з властивостями оборотної дії для перетворення багатозначних неоднорідних кодів ( у вигляді рівнянь): встановлені їхні властивості, вивчена система суперпозицій, що в сукупності представляє уніфікований дослідницький апарат аналізу та інтерпретації даних в умовах багатозначності і неоднорідності.
• Розроблений та обґрунтований новий клас математичних моделей у вигляді АСП-структур на основі декомпозиції k-значних стуктур на дискретно-аналогові та цифрові субблокі у вигляді універсальних функціональних перетворювачів просторового типу зі зростом значності, які шляхом налагодження, а не зміни структури, забезпечують відтворення моделюючих інтелектуальних властивостей та потрібних функціональних перетворювань.
Практичне значення одержаних результатів. Розроблені методи забезпечують створення універсальних або спеціалізованих програмно-апаратних засобів обробки k-значних неоднорідних кодів, що задані лінгвістичними рівняннями, які володіють широкими функціональними можливостями, прямою i оберненою дією та підвищеною надійністю. Одержано 3 патенти України і РФ на винаходи, технічні рішення яких були використані на ряді підприємств згідно з актами.
Практичне значення результатів дисертації полягає в тому, що створено логіко-математичний інструментарій та теоретичні основи побудови просторових (швидкодіючих) апаратних засобів обробки символьної інформації, що дає можливість здійснити розробку інтелектуального інтерфейсу мовних систем ШтІ; запропоновані та створені засоби володіють широкими, аж до універсальності, функціональними можливостями, прямою і оберненою дією та підвищеною надійністю.
Матеріали дисертації були використані та впроваджені при розробці і для створення мікроелектронної реалізації k-значних просторових елементів і структур в системах з елементами штучного інтелекту та лексикографічних базах даних, що підтверджено відповідними актами: ВАТ СКТВ “Елемент”(м. Одеса, акт від 31.10.1997), ФМІ НАН України (м. Львів, акт від 17.03.1998), Науково-виробничій корпорації “Київський iнститут автоматики”(м. Київ, акт від 02.06.1998), Донецькому інституті проблем штучного інтелекту (м. Донецьк, акт від 03.06.1998), ВАТ НДІ ПРЕА (м. Львів, акт від 21.12.1998), Національному технічному університеті України “Київський політехнічний інститут”(м. Київ, акт від 08.02.2001), ЦККБ “Протон”(м. Харків, акт від 05.02.2004), Українському мовно-інформаційному фонду НАН України (м. Київ, акт від 31.08.2005), Львівська наукова бібліотека НАН України ім. В.Стефаника (акт від 21.12. 1998), Харківська державна наукова бібліотека ім. В.Г.Короленка (акт від 02.02.2002), Академіі наук екології та безпеки життєдіяльності (м. Харків, акт від 24.12.2001), Харківська Міська Рада Харківської області, Головне управління міського господарства (акт від 21.11.2001) та Харківському національному університеті радіоелектроніки: у навчальному процесі кафедри програмного забезпечення ЕОМ при читанні лекцій, проведенні практичних і лабораторних занять з дисциплін “Високорівневі технології обробки мовної інформації”, “Логічні технології штучного інтелекту”, у курсовому та дипломному проектуванні під час підготовки спеціалістів та магістрів спеціальності “Програмні засоби автоматизованих систем”(ПЗ АС) компютерного варіанту тлумачного словника з інтелектуальних систем під час створення компютерних технологій навчання та їх застосування у відповідних навчальних курсах із спеціальності ПЗ АС. Одноосібно видано і впроваджено в навчальний процес три навчальних посібника з грифом Міністерства освіти України ( акти від 3.12.1998; 04.12.2001; 10.01.2002)
Особистий внесок здобувача. Усі положення, що виносяться на захист, основні результати теоретико-прикладних і експериментальних досліджень отримані здобувачем особисто та опубліковані в роботах [6, 34, 44]. В усіх роботах, які написані у співавторстві, здобувачу належать ініціатива ідей, постановки задач, вибір і обґрунтування їхнього рішення, а також розробка нового підходу, нової теоретичної бази побудови k-значних швидкодіючих структур мовних систем штучного інтелекту. У монографії [1] підрозділи 1.4, 3.4 і розділи 2, 4, 5 написані здобувачем особисто. У роботах [2, 19, 31] здобувачем запропоновано методи синтезу та апаратної реалізації проміжних цифрових дешифраторів, просторових матричних комутаторів і селекторів для універсальних багатозначних функціональних перетворювачів із використанням засобів теорії інтелекту, зокрема АСП, за умов нарощування значності та числа змінних. У роботах [20, 27, 39, 45] загальні принципи побудови та модифіковані методи синтезу окремих компонент універсальних багатозначних просторових структур (АСП-структур): багатозначних оборотних неоднорідних логічних елементів та модулів. У роботах [18, 26] здобувачем досліджено алгебро-логічну структуру мови та зроблено поширення алгебри скінченних предикатів. У роботах [23, 38] здобувачем особисто запропоновано методологію формального опису лінгвістичних звязків елементів фонетичного та морфологічного рівня української мови. Здійснено дослідження подальшого розвитку методології та методів математичного опису лінгвістичних звязків. У роботі [30] викладено модульний принцип схемної реалізації системи лінгвістичних рівнянь, який запропоновано здобувачем.
Апробація результатів дисертації. Основні положення та результати досліджень доповідались, обговорювалися й отримали позитивну оцінку на таких науково-технічних конференціях, симпозіумах, форумах та семінарах: Всесоюзній школі-семінарі “Распараллеливание обработки информации”(Львів, 19791987), “Проектирование автоматизированных систем контроля”(Харків, 1991), “Психологическая бионика”(Харків, 1986, 1987), “Бионика интеллекта”(Харків, 1987); Всесоюзній науково-технічній конференції “Повышение качества программного обеспечения ЭВМ”(Севастополь, 1986); Міжрегіональній науково-технічній конференції “Цифровая обработка сигналов в системах связи и управления”(Львів, 1992); Міжнародній науковотехннічній конференції “Методы представления и обработки случайных сигналов и полей”(Туапсе, 1993); Міжнародній науковій конференції ім. Академіка М. Кравчука (Київ, 1995, 1996); Українській конференціїї по автоматичному управлінню “Автоматика”(Львів, Севастополь, 1995, 1996 ); Науково-технічній конференції “Досвід розробки та застосування приладо-технологічних САПР мікроелектроніки”(Львів, 1995); Міжнародному семінарі “Проблеми обновлення вищої бібліотечної та інформаційної освіти”(Харків, 1995); Міжнародній конференції “Теория и техника передачи, приема и обработки информации”(Туапсе, 1995-2003); Міжнародній науково-практичній конференції “Информационные ресурсы: создание, интеграция и использование”(Гута, 1996); Міжнародній конференції “Приборостроение в экологии и безопасности человека (Санкт-Петербург, 1996); ІІІ,ІV Всеукраїнській міжнародній конференції (Київ, “УкрОБРАЗ”, “УкрОБРАЗ”); Міжнародній науково-методичній конференції “Интеграция образования, науки и производства”(Луцьк, 1996, 1997); Міжнародній науково-технічній конференції “Проблемы физической биомедицинской электроники”(Київ, 1997); Науково-методичній конференції “Використання компютерних технологій в навчальному процесі”(Харків,1997); Міжнародній науково-практичній конференції “Системы и средства передачи и обработки информации”(Одеса, 1998); VІІХ Міжнародних конференціях “Знание-Диалог-Решение”(Кацівелі, Ялта, Санкт-Петербург, 1997, 1999, 2001); ІV,V Міжнародних наукових конференціях “Интеллектуальные и многопроцессорные системы,2004. Искусственный интеллект,2004”(Геленджик, Росія, Кацівелі, УкраЇна); Міжнародній науковій конференції “Вычислительные методы и производство: реальность, проблемы, перспектива”(Гомель, Беларусь, 1998); Міжнародній науковотехнічній конференції “Вопросы проектирования, эксплуатации технических систем в металлургии, строительстве и машиностроении”(Старий Оскол, 1999); ІV Міжнародній науково-технічній конференції по телекомунікаціям (Одеса, “НТК-Телеком”); 1-го Міжнародного радіоелектроного Форуму “Прикладная радиоэлектроника. Состояние и перспективы развития”(Харків, МРФ); X-th International Conference “Knowledge-Dialogue-Solution (KDS)”, Varna, Bulgaria; Proceeding of the Third International Conference “Information Reseach, Applications and Education”(i.TECH 2005), Varna (Bulgaria); Proceeding of the 6th,10th ,12th International conference “Mixed Desing of Integrated Circuits and Systems”, Krakow, Lodz, Krakow (Poland), (MIXDES, MIXDES, MIXDES); Proceedings of International Conference “Information Resources Management Associati”(IRMA 2003), Philadelphia (USA), Proceedings of the 9th World Multi-Conference in Systemics, Cybernetics and Informatics (WMSCI 2005), Orlando, Florida, (USA).
Публікації. Основні наукові положення дисертації викладені в 49 працях, серед яких 2 монографії, 17 статей у 8 різних журналах, 8 статей у 6 різних збірниках наукових праць (усі 25 робот (з яких 12 опубліковано одноосібно) у виданнях, що внесено до переліку наукових фахових видань ВАК України за спеціальностями “Технічні науки”)), 3 навчальних посібники з грифом Міністерства освіти України, 16 публікацій у працях, матеріалах і тезах доповідей різних конференцій та семінарів, 3 патента (України та Російської Федерації) на винаходи.
Структура та обсяг дисертації. Дисертація складається із вступу, семи розділів, висновків, списку використаної літератури із 282 найменування на 18 с., додатку на 17 с. Загальний обсяг становить 327 с., ілюстрацій (з них 27 на 27 окремих сторінках), таблиць ( з них 3 на 7 окремих сторінках).
ОСНОВНИЙ ЗМІСТ РОБОТИ
У вступі обґрунтовано актуальність обраної теми дисертації, сформульовано мету, основні задачі досліджень і наукову новизну отриманих результатів. Розглянуто практичне значення, реалізацію та впровадження результатів дисертації. Зазначені звязок роботи з науковими програмами, планами організацій, де виконувалась робота, а також особистий внесок автора в роботи, виконані у співавторстві. Наведено відомості про публікації та апробацію роботи.
Перший розділ присвячений аналізу стану досліджуваної та розвязуваної проблеми, повязаної з побудовою формальних моделей мови та створенням основ теорії синтезу високоефективних цифрових багатозначних структур мовних систем з просторовим відображенням інформації та тенденцій їх розвитку.
Показано, що теоретичні та експериментальні дослідження, й виникаючі під час створення систем ШтІ ускладнення, сприяють висуненню концепції адекватності багатозначної логіки та структур завданню створення систем ШтІ з очікуваними властивостями та можливостями.
Задача інтелектуалізації та українізації цифрових мереж і структур не передбачає простого й швидкого вирішення. Головна перепона, на яку наштовхуються всі спроби радикально підвищити інтелектуальні здібності ЕОМ, полягає у недосконалості машинних мов. Вони значно поступаються щодо промовистості природним мовам. Росте число прихильників точки зору, що створення “машинного інтелекту”вимагає вивчення й моделювання людського інтелекту та, у першу чергу, природної мови, що лежить у його основі. Стає все очевиднішим, що при подальшому вдосконаленні машинних мов необхідно використовувати ширше організацію людської мови. Механізм природної мови, не дивлячись на видиму легкість користування ним людиною, надзвичайно складний й до того ж слабо вивчений. Отже розроблення систем обробки мовної інформації дуже часто базуються на недостатньо міцному лінгвістичному фундаменті. Багато хто з дослідників, що займалися автоматизацією мовної діяльності, перейшли до поглибленого вивчення, дослідження й моделювання окремих сторін механізму природної мови.
Наявність алгебри скінченних предикатів відкриває можливість переходу від алгоритмічного опису інформаційних процесів до опису їх у вигляді рівнянь, а рівняння задають відношення між змінними. Усі змінні в рівнянні рівноправні, будь-які з них можуть виступати як у ролі незалежних, так і в ролі залежних. При цьому рівняння дають ту перевагу перед алгоритмами, що можна розрахувати реакцію системи навіть при неповній визначеності вхідних сигналів, у той час як неповністю розроблений алгоритм є непрацездатним. По-друге, за умов зміни знань про об'єкт система рівнянь АСП, покладених на структуру системи, завжди готова до використання, а алгоритм часто вимагає докорінної зміни її структури. За допомогою формул АСП будуємо АСП-структури, які реалізують відповідні скінченні предикати. Це є аналог побудови комбінаційних схем за формулами алгебри логіки. В залежності від рівня функціонально-структурної реалізації маємо АСП-структури першого, другого та третього роду.
У розділі з загальних позіцій проаналізовано підхід, що дозволяє шляхом уніфікації дво- й k-значного кодування та застосування засобів алгебри скінченнях предикатів синтезувати багатозначні оборотні неоднорідні елементи та модулі: оборотні АСП-структури. Останні дозволяють побудувати нові пристрої прямої та зворотної дії для вирішення задач морфологічної обробки словоформ (текстів), зокрема аналізу, синтезу та нормалізації.
Другий розділ присвячений алгебро-логічним засобам моделювання природної мови, аналізу та дослідженню її алгебро-логічної структури. Природна мова (ПМ), як явище інтелектуальної діяльності людини є дуже складним обєктом. Але маючи формальний опис природної мови, його можна реалізувати на ЕОМ і таким чином прищепити машині здібність володіти природною мовою. Треба щоб машина пристосовувалась до людини та розмовляла її мовою, а не навпаки людина прилаштовувалась до машини. Природна мова для людини найзручніша. Людина ніколи не проміняє її ні на мову математики, ні на мову програмування. Уявляється, що немає іншої галузі знань, яка б в вищому ступені ніж ця сприяла підвищенню темпів компютеризації та інформатизації суспільства. Тоді можна буде прищепити машині здібність до природної мови. Якщо можна буде добути з аналізу мови більш досконалу алгебраїчну мову, це дуже збільшить можливості розроблювачів інформаційних систем, нових інформаційних технологій. Алгебро-логічний апарат, який можна буде добувати з природної мови дозволятиме розширювати можливості розроблювача, що займається створенням нових інформаційних технологій. Отже, концептуально-методологичний підхід до ПМ (з математичної точки зору) дозволяє сприймати її як деяку алгебру, а тексти як формули цієї алгебри.
У якості обєкту дослідження та моделювання в даній роботі вибрана українська мова (точніше її словоформи). Кожна людина являється носієм предикатів тих слів, словосполучень та речень, котрі вона розуміє. Таким чином смисл речення є предикат, який задає визначений звязок L(X,Y) поміж смислом та відповідним йому фрагментом тексту. Тут X=(x, x,…, xm) змінний вектор смислу, m число його компонент, а y, y, … , ynдеякий фрагмент тексту, де y, y, … , yn букви, які стоять на 1,2, ... , n місцях фрагменту. На підставі наданої моделі базується процес формалізації (математичний опис) природної мови, який запропоновано у роботі.
У роботі використовується апарат алгебри предикатів. Останню трактуємо як алгебру, носієм якої є множина M усіх предикатів Um, де U непорожня множина всіляких змінних, яку називатимемо універсумом, тобто U={x, x,…, xm}. Множина U може бути як скінченною, так нескінченною. У першому випадку простір Umназиватимемо скінченним, а в іншому нескінченним. Тут x, x,…, xmвсілякі місця предметів. Тому їх інакше називатимемо предметними змінними. Якщо предмет a знаходиться на місці xi (i=), то будемо казати, що змінна xiприймає значення a та маємо такий запис xi=a. Якщо a, a,..., am U та x=a, x=a, ...,xm= am, то пишемо (a, a,..., am) Um і кажуть, що предметний вектор (набір) належить предметному простору Um. Число m називатимемо вимірністю простору Um. Будь-яку підмножину T простору Umназиватимемо m-місцевим відношенням, яке задано на Um. Для формульного запису таких відношень будемо використовувати функції у вигляді Q(x)=Q(x, x,…, xm), яке відбиває Um у множину = {0,1}, що називатимемо предикатами, які визначені на Um. Елементи множини назватимемо логічними.
Нехай T множина усіх відношень на Um, Q множина усіх предикатів на Um. Відношення T та предикат Q називатимемо відповідними одне одному, якщо при будь-яких x, x,…,xm маємо:
(1)
Згідно з (1) можливий перехід від будь-якого відношення T до відповідного йому предикату Q. Предикат Q, що знаходимо по (1), називатимемо характеристичною функцією відношення T.
Предикатом розпізнавання предмета aU за змінною xi (i=) називатимемо умову
Предикат a(xi) будемо розглядати як предикат a(x, x,…, xi,..., xm) із P усі аргументи якого, крім xi, неістотні. Вираз у вигляді a(xi), де (i=), aU, замінимо на xia: тут a називатимемо показником для змінної xi.
Алгеброю предикатів над M називатимемо множину T з базисними елементами xia (i=, aU) та базисними операціями: диз′юнкція, кон′юнкція, заперечення. Виключення з базису даної алгебри операції заперечення дозволяє отримати диз′юнктивно-кон′юнктивну алгебру. Доведено її повноту.
Природну мову будемо уявляти як математичний обєкт (якась алгебра). При цьому смисл (зміст) думок можна висловити реченнями і текстами, що з точки зору їх математичної природи будемо розглядати як предикати. Наша відправна точка у даних міркуваннях: думки це предикати. Таким чином, кожне речення виражає деяку функцію з двійковим значенням, тобто задає деякий предикат P(x) = . Незалежною змінною х даної функції буде змінна ситуація, залежною істинна змінна . Після підставлення замість змінної х конкретної постійної ситуації х=а задане речення стає істинним ( = 1) або хибним ( = 0). Це залежить від того чи відповідає чи ні зміст цього речення ситуації а, до якої воно віднесено. Будемо розглядати змінну ситуацію як набір х=(х, х,…, хm) предметних змінних х, х,…, хm. Будь-яка постійна ситуація х=а повинна бути набором а=(а, а,…, аm) деяких предметів х = а, х = а,…, хm= аm .Таким чином кожне речення повинно висловлювати деякий предикат P(х, х,…, хm) = , що представляє залежність істинної змінної від предметних змінних х, х,…, хm. Проте будь-яке речення за природно-мовною формою відрізняється від математичної формули тим, що виражає не усю функцію P(х, х,…, хm), а тільки її імя Р. І це так, бо кожен раз, коли людина перетворює те чи інше речення у відповідну до нього думку вона добудовує його до предикату. При цьому вона додає до нього (як до імя предикату) відсутні предметні змінні. Тільки після цього речення стає доступним для розуміння. Та, навпаки, перетворюючи деяку думку у речення, людина виключає з неї предметні змінні, що дозволяє передавати іншим людям не саму думку, а лише її імя.
Таким чином в роботі алгебра розглядається як інструмент дослідження, але не як його предмет. Розглянемо та побудуємо відповідні реляційні моделі лінгвістичних звязків елементів фонетичного рівня та морфології української мови за допомогою алгебри предикатів.
У третьому розділі обєктом моделювання є відношення, що базуються на лінгвістичних зв'язках, які існують між різними елементами фонетичного рівня української мови. На підставі вивчення даних фонетики, математично описуються відношення, що зв'язують окремі фонеми з системою їх фонетичних ознак:
у ознака голосності звуку зі значеннями: г голосна, п приголосна;
у ознака шумності приголосних зі значеннями: ш шумова, нш нешумова;
у ознака вокалізації звуку зі значеннями: дз дзвінка, г глуха;
у ознака проривності звуку зі значеннями: пр проривна, щ щілинна;
у, у ознаки веляризації та лабілізації звуку зі значеннями: м, с, в мала, середня, велика відповідно;
у ознака палаталізації зі значеннями: т, м тверда, м'яка відповідно;
у ознака назалізації зі значеннями: р ротова, н носова;
у ознака вібрантності зі значеннями: с спокійна, т тремтяча;
у ознака місця артикуляції звуку зі значеннями: г губна, п передньоязикова, з задньоязикова;
у ознака локалізації передньоязикової шумової фонеми зі значеннями:
з зубна, п піднебінна;
у ознака африкативності передньоязикових шумових фонем зі значеннями:
аф африката, неаф неафриката.
Встановлено зв'язки між звуками Y мови у визначеному фонетичному контексті Z та відповідними їм буквами українського алфавіту Х у вигляді тернарного відношення Ф (X, Y, Z), яке названо букво-фонемним.
Математична модель лінгвістичних зв'язків, що регулюють процес переходу від фонетичного подання слів до їх графічного запису й навпаки, буде мати вигляд:
Ф = Ф & Ф & ... & Фr,
де Ф = 1, Ф = 1, ..., Фr =1 різні, незалежні одне від одного зв'язки між X, Y, Z, що фактично існують в українській мові, r загальне їх число.
Під час переходу від значень фонетичних ознак до фонетичного зображення звуку формується фонема, тобто знак, що позначає клас звуків, що тяжіють до певної букви тексту. Зворотне перетворення полягає в заміні фонетичного знаку набором відповідних йому значень фонетичних ознак звуку.
Фонема як знак: ФОН(Х)= xA xБ xВ xГ xҐ xД xЕ xЄ xЖ xЗ xИ
xІ xЇ xЙ xК xЛ xМ xН xО xП xР xС xТ шУ xФ xХ xЦ
xЧ xШ xЩ xЮ xЯ .
Ознака голосності звуку у: Голосн(Х) = хА хЕ хІ хО хУ хИ; Приглсн (Х) = хБ хВ хГ хҐ хД хЄ хЖ хЗ хЙ хК хЛ хМ хН хП хР хС хТ хФ хХ хЦ хЧ хШ хЩ.
Ознака шумності звуку у: Шум(Х) = хБ хВ хГ хД хЖ хЗ хК хС хП хТ хФ хХ
хЦ хЧ хШ; Сон(Х) = хЛ хМ хН хР хЙ; у1ПРИГ у2НШУМ Сон(Х) у2ШУМ Шум(Х) = 1.
Ознака вокалізації звуку y: Глух(Х) = хК хП хС хТ хФ хХ хЦ хЧ хШ;
Дзвн(Х) = хБ хВ хГ хД хЖ хЗ хЦ хЧ. у1ПРИГ у3ДЗ Дзвн(Х) у3ГЛХ Глух(Х) = 1.
Ознака проривності звуку у: Прор(Х) = хБ хГ хД хК хП хТ хХ хЦ хЧ; Щіл(Х) =хВ
хҐ хЖ хЗ хС хФ хШ хЩ ; у1ПРИГ у2ШУМ у4ПРОР Прор(Х) у4ЩІЛ Щіл(Х) = 1.
Ознака веляризації звуку у: Мвл(Х)=хА хЇ хЯ; Свл(Х)=хЄ хЕ хО; Ввл(Х)=хІ хУ
хИ хЮ; z1 y5М Мвл(Х) y5c Свл(Х) у5Е Ввл(Х) = 1.
Ознака лабілізації звуку у: Млб(Х)=хА хє хі хи хе хя; Слб(Х)=хє хо; Влб(Х)=ху хю; z1 у6м Млб(X) у6с Слб(Х) у6в Влб(Х) = 1.
Ознака палаталізації звуку у: Мгол(Х)=хє хї хі хю хя ; Тгол(Х)=ха хо ху хи хе; z1 у7т Тгол(X) у7м Мгол(Х) = 1.
Рівняння звязку фонеми Х з ознаками у, у, у: z1 у5м (у6м ( у7т xа у7м xя) у6в
(у7т xи у7м хi)) y5c ((у7т xo y7m xi) ( у7т xe у7м xє)) y5в ( у7т xУ у7м xю) = 1.
Ознака назалізації звуку у: Рсн(Х)=хй хл хм; Нсн(Х)=хм хн;
z yp Рсн(Х) ун Нсн(Х) = 1.
Ознака вібрантності звуку у: Ссн(Х)=хй хл хм хН хВ; z yС Ссн(Х) yТ х Т = 1
Ознака місця артикуляції звуку у: Псн(Х)=хл хн хр;
z уг хм уп Псн(Х) yз хй = 1
Рівняння звязку фонеми Х з ознаками у, у, у:
z yз хй ур уп хл ун ( уг хм уп хн) ут хр = 1.
Індивідуальні предикати для передньоязикових, задньоязикових та губних шумових фонем: Пшф(Х)=хд хж хз хдж хдз хс хт хц хч хш; Зшф(Х)=хг хк хх; Гшф(Х)=хб хв хг хг хф; у2ш у10г Гшф(Х) у10п Пшф(Х) у10з Зшф(Х) = 1.
Індивідуальні предикати для зубних та піднебінних передньоязикових шумових фонем: Зпш(Х) = хд хз хдж хдз хс хм хц; Ппш(Х) = хд хж хт хч хш;
у2ш у10п у11з Зпш(Х) у11пН Ппш(Х) = 1.
Ознака африкативності звуку у: Неафпш(Х) = хд хж хдж хдз хз хс хт хш;
Афпш(Х) = хч хц; у2ш у10п у12аФ Афпш(Х) у12НЕАФ Неафпш(Х) = 1.
Рівняння звязку фонеми Х з ознаками у, у, у:
z3 у10г хб у10З хг у10п [у11з ( у12НЕАФ хд у12АФхц) у11Пнхч] = 1;
z4 у10г хв у10З хг у10п (у11з хз у11ПН хж) = 1;
z5 у10Г хп у10З хк у10п [у11з ( у12нЕАФ хт у12аф хц) у11ПНхЧ] = 1;
z6 у10г хф у10З хх у10п ( у11з хс у11ПН хш) = 1.
Створені моделі зв'язують фонему з набором ознак звуку й дозволяють визначити значення фонеми в залежності від значень ознак. Уведено відношення, що ув'язує фонетичний запис тексту з його орфографічним записом, між фонемою та фонетичними ознаками звуку. Перехід від фонетичного запису тексту до орфографічного й навпаки здійснено на основі правил української мови, що регулюють вимову (фонетичні правила) та написання (орфографічні правила).
Формально описані відношення, які описують вплив фонетичного контексту на вибір букв для позначення голосних звуків.
Правила фонетичних позицій голосних звуків у слові:
положення після різних, відносно категорії твердості мякості приголосних
G1т = J2 (p v ) qvт; G2м = J2 (p v ) qvм, де J2(pV) = pVБ pVв pVд pVз
pVл pVм pVГ pVдж pVдз pVн pVп pVР pVс pVт pVф;
на абсолютному початку слова; після голосних звуків:
G3Н = pv; G4г = pva pvУ pvо pvі pvи pvе ;
після [ц] та шиплячих приголосних:
G5ц = pvц qvт ; G6ш = (pvщ pvж) (qvм qvт) pvч qvм ;
положення після задньоязикових звуків та після [j]:
G73 = pvг pvк pvх ; G8 J= pvJ .
Запис правил рівняннями АСП:
Ф11т= G1т ( рaxa руxу роxо ріxі риxи) qVтt ; Ф12т = G1т ( руxу риxи) qVт (t t).
де Фт , Фт букво-фонемні відношення твердих наголошених голосних після твердих приголосних;
t, t ознаки ненаголошених та переднаголошених складів відповідно, t ознака наголошених складів.
Ф13т = G1т рV pе qт t з хе; Ф14т = G1т А pеqт (t1 t2) хе;
Ф15т = G1т J2(pu) pеqт t з хе,( хе хє), де А=(рVт рVд рVс рVз рVр рVн ) qVт;
Ф21М = G2м q мt3(paxя руxю роxї рехє риxi); Ф22м = G2М pyqvм xю (t2 t1);
Ф31п=G3п (раха рохо) qтt3; Ф32п=G3п [(рyхy рeхe) qт рiqмхi] (t2 t3);
Ф41г=G4Г [(раха рохо руху) qт рiqмхй] t3; Ф42г=G4г реt3 (рiqтхє риqтхе);
Ф51ш=G5ш (ра ~ ха)(ре ~ хе) (рі ~ хі) t3; Ф52ш=G5ш (рУ ~ хУ) (t3 t2 t1);
Ф53Ш=G5Ш pV pOxOqTt1; Ф54Ш=G5Ш J З(pV) pOхOqT t 3,
де предикат J З(pU)=pUБ pUВ pUГ ... pUШ формалізує поняття приголосного звуку;
Ф61Ц=G6ц (раха рОхо рехе) qт t 3 рyqтху. Ф62ц=G6ц [рі ~ (хі ~ хй)](t3 t2 t1);
Ф713=G73 {[ pA(qтxа qмxя) po(qтxoqмхї]t3 pУ(qvтxУ qvмxю)(t3 t2 t1);
Ф72з=G7з (рехе ріхі) qмt3; Ф81j=G8j (рахя рохї рехє) qмt3; Ф82j=G8j (рУ~хю) qм.
Отримана система рівнянь є підмоделлю букво-фонемних зв'язків, що охоплює клас голосних звуків української мови.
Формально описані відношення, які описують вплив фонетичного контексту на вибір букв для позначення приголосних звуків.
G9cП=pUj J4(pU) J5(pU) рUв,
де J4(pU) i J5(pU) предикати, що задають формальний опис понять “голосний звук”та “сонорний звук”відповідно й визначаються виразами
J4 ( pU )=pUа pUе pUі рUо рUу рUи; J5 ( pU )=pUл pUм pUн рUр .
G10кц = pU; G11глух = J6(pU); G12дз = J7(pU),
де J6(pU) і J7(pU) визначають класи дзвінких та глухих шумових приголосних:
J6(pU)=pUБ pUв pUг pUд pUж pUз pUдж pUдз;
J7(pU)=pUп pUх pUк pUт pUш pUч pUс pUц pUф
Чотири групи ознак, які формально подамо предикатами:
предикат Ф1сп фіксує залежність між значеннями різних ознак умови, що звук Y перебуває у сильній позиції; Ф2кц за умови, що Y звучить в кінці слова; Ф3глух перед глухими приголосними; Ф4дз перед дзвінкими шумовими приголосними.
Ознака дзвінкості глухості:
в сильній позиції регулюються предикатом: Ф1сп= G9СП (рбx1б рвx1в ргx1г
рдx1д ржx1ж рзx1з ркx1к рпx1п рсx1с ртx1т рфx1ф ршx1ш).
в положенні кінця слова: Ф2КЦ=G10кц А (рк ~ (x1к x1г)), де А = (рп~(x1п x1б)) (рф~(x1ф x1в)) (рт~(x1т x1д))(рс~x1з x1с)(рш~(x1ш x1ж)).
група правил, що задає відношення Ф3iглух (при умові G11глух= 1):
Ф3глух = (pUт pUс) qUм А qм; Ф3ГЛУХ=G11ГЛУХpUп (pпqт ~ (х1п х1б));
Ф3ГЛУХ=G11ГЛУХpUф pфqт~ х1к х1в х1х х1ф; Ф3ГЛУХ=G11ГЛУХpUп (pпqт~ (х1т х1д));
Ф3ГЛУХ=(pUт pUч)qUм (pтqм~ (х1т х1д)); Ф3ГЛУХ=G11ГЛУХpUч (pкqт~ (х1к х1г));
Ф3ГЛУХ=G11ГЛУХpUш (pшqт~ (х1ш х1ж)); Ф3 ГЛУХ=(pUк pUц) qт (pcqт (х1c х1з));
Ф3ГЛУХ =(pUкqUт pUцqUм) (pcqм (х1c х1з)); Ф3 ГЛУХ = puп quт pпqтх1п;
Ф3ГЛУХ = puф quт pфqтх1ф; Ф3ГЛУХ = puд quт pдqтх1д; Ф3ГЛУХ = puт pтx1т;
Ф3ГЛУХ = (puс puв puф puп puм puт puх) pcqтx1с;
Ф3г = (puф puп puс) pсqмx1с; Ф3 ГЛУХ = puч pхqтx1г;
Ф3 ГЛУХ = puж pжqтx1ж ; Ф3 ГЛУХ = puш pшqтx1ш.
склад предикату Ф4дз (X, Y, Z) (звук [у] перебуває у фонетичній позиції перед дзвінкими шумовими приголосними):
Ф41дз = pвqт (pUг ~ x1ф)(pUг ~ x1в); Ф42дз = (pUв pUб) qUм pвqмx1в;
Ф43дз = (qтG12дзpuд qмpuдquм) (pд~ (x1д x1т)); Ф44дз = puб ~ x1дрдqм;
Ф45дз = (puб puд puз puг)quм ~ pзqт (x1з x1c);
Ф46дз = (puб quм puдquт puтquм ) ~ pзqм (x1з x1c);
Ф47дз=G12дз pГqт(x1г x1х); Ф48дз=pб ~ x1б.
Наведена вище система рівнянь є формальним еквівалентом зв'язків, що існують між звуками сонорних, парних і позапарних дзвінких та глухих приголосних і графічними еквівалентами мови, що їм відповідають.
З допомогою запропонованого опису букво-фонемних зв'язків у вигляді системи рівнянь алгебри предикатів можна здійснити формальний перехід від фонетичного запису слова до його графічного подання (задача аналізу), за заданим орфографічним текстом отримувати його фонетичну транскрипцію (задача синтезу).
Отримані формальні моделі наглядно показуть, що математичний апарат алгебри скінчених предикатів й вибрана методика формального опису дозволяє отримати їх компактний формальний опис, а також опис акцентних характеристик відмінюваних і дієвідмінюваних частин української мови. Такі моделі задовольняють двом основним вимогам формалізації, а саме: достатньо точно описуть вихідний мовний об'єкт та можуть бути реалізовані засобами обчислювальної техніки. Розроблений формальний опис акцентних залежностей мови можна використати для економного запису словарних структур природної мови в лексикографічних базах даних.
У четвертому розділі висвітлено шляхи математичного моделювання морфологічного рівня української мови. Об'єктом формального опису є письмова, тобто орфографічна, а не фонематична реалізація словоформ української мови. При цьому, окремою словоформою є відтинок тексту між двома проміжками.
Особливу роль під час словозміни відіграють закінчення словоформ (флексії), що передають, як правило, граматичні значення в українських словах. У морфології української мови існує певна залежність (відношення) між флексією та оточуючим її текстом. Завдання полягає в математичному описі існуючої залежності, тобто у формалізації поняття флексії. Текст, що охоплює закінчення, є неоднорідним щодо нього. Розрізняємо найближчий текст, що межує безпосередньо з закінченням у словоформі і подальший текст, що межує з словоформою, у якій перебуває закінчення, а також зосередимо подальший розгляд на методиці формального опису процесів зміни слів за допомогою флексій, що можна застосувати й до інших лінгвістичних одиниць тексту.
Дію тексту, що оточує закінчення (як ближчого, так і подальшого), замінимо уведенням набору ознак, який проінтерпретуємо як смисл закінчення. Під смислом будемо розуміти набір проміжних змінних, що зв'язують рівняння, які описують закінчення, з рівняннями, що описують решту частини тексту. Набір значень цих змінних будемо інтерпретувати як значення смислу. Смисл розглядається як змінний вектор Х = (x, x,…, xm), де m число компонентів вектора смислу, а змінні x, x,…, xm компоненти смислу.
Переважна більшість закінчень містить одно-, дво-, трибуквені закінчення та нулеву флексію. Це дало підставу для формального подання закінчення у вигляді трикомпонентного вектора Y = (y, y, y), де y, y, y літери, що стоять зліва направо на першому, другому та третьому місцях закінчення відповідно.
Для того, щоб отримати компактний та повний опис фрагментного морфологічного відношення L (X, Y), необхідно вибрати компоненти вектора Х з урахуванням внутрішньої структури мови. Через те, що об'єкт, який моделюється, є достатньо складною для математичного опису системою, зручно розбити його на ряд підсистем, які будемо надалі називати “мовними блоками”, що пізніше об'єднаються теоремою про розкладання в алгебрі скінчених предикатів.
Для кожного мовного блоку фіксують значення деяких із компонентів смислу, які ми назвемо обмеженими. Другу групу ознак, що служать безпосередньо для вибору закінчення всередині деякого мовного блока, назвемо змінними. Обмежувальним ознакам поставимо у відповідність змінну , а змінним X. Таким чином, маємо можливість уточнити структуру вектора смислу X= (, X) =(, , …, k, x, x, …, xm), де k, m число обмежувальних та змінних компонентів вектора смислу відповідно.
Змінні ознаки в свою чергу неоднорідні щодо закінчення. Впливові ближнього тексту на закінчення будуть відповідати лексичні ознаки, а подальшого синтаксичні.
Отже, завдання полягає у формальному описі засобами АСП фрагментарного морфологічного відношення L = (, ,..., k, x, x,…, xm, y, y, …, yn), що буде моделлю флексійного оброблення українських словоформ. Морфологічне відношення визначається своєю характеристичною функцією L (X, Y).
Звуження обсягу математичного опису здійснено уведенням шести граматичних ознак. Найперше уведено ознаку виду морфеми з значеннями: закінчення (з), не закінчення (н) (префікс, корінь, суфікс тощо).
Ознака змінюваності слова, експлікована змінною може приймати одне з двох значень змінюване (зм), незмінюване (нзм).
Уведення змінної , що відповідає ознаці типу словозміни, дозволило окремо описувати відмінювання іменних частин мови (= і ) та відмінювання дієслів (= д).
Іменні частини мови розрізняються за ознакою типу відмінювання (змінна ). Змінна визначена на множині значень: субстантивна (с), ад'єктивна (а), займенникова (з) та числівникова (ч).
Уведемо граматичну ознаку змінної іменної частини мови (). що може приймати одне з таких значень: іменник (і), прикметник (п), займенник (з), числівник (ч), дієприкметник (дп).
Шоста граматична ознака, що забезпечує звуження об'єкту математичного моделювання вид словоформи з значеннями регулярна (р), нерегулярна (н).
Проведені лінгвістичні дослідження показали, що необхідно увести дев'ятнадцять граматичних ознак: x відмінок з значеннями: називний (н), родовий (р), давальний (д), знахідний (з), орудний (о), місцевий (м), кличний (кл); x рід з значеннями: чоловічий (ч), жіночий (ж), середній (с); x число з значеннями: однина (о), множина (м); x ознака одухотвореності з значеннями: одухотворена (о), не одухотворена (н); x варіант закінчення з значеннями: архаїчне (а), сучасне (с); x ознака наголошеності закінчення з значеннями: наголошене(н),ненаголошене (н-); x остання буква основи з значеннями, заданими на множині букв та знаків українського алфавіту; x вид основи з значеннями: тверда (т), м'яка (м); x вимога встановлення знака “над буквою”ї з значеннями: ставити (с), не ставити (н); x повнота словоформи з значеннями: повна (п), коротка (к); x ознака репрезентації з значеннями: інфінітив (і), особова форма (о); x спосіб з значеннями: дійсна (д), наказова (н); x часу з значеннями: минуле (м). не минуле (м-з); x особи з значеннями: перша (1), друга (2), третя (3); x тип впливу дієслівної основи з значеннями: перший (1), другий (2); x відмінювання з значеннями: перше (1), друге (2); x ознака наявності частки "ви" з значеннями: так (т). ні (н); x передостання буква основи з значеннями, заданими на множині більшості букв українського алфавіту; x наявність нормативних обмежень з значеннями: так (т), ні (н).
Лінгвістичні дослідження формальних моделей словозміни української мови виявили специфічний характер індивідуального морфологічного предиката Li(Х,Y), який можна зобразити у вигляді кон'юнкції двох предикатів, що залежать від меншого числа змінних. Лінгвістичною основою такого зображення предикату Li(Х,Y) є різна природа змінних ознак X, що відповідають двом механізмам: синтаксичного впливу тексту та впливу закінчень основ.
Предикати Li та Li змістовно інтерпретуються як таблиці впливу основ та парадигматичні таблиці синтаксичного впливу відповідно. Функція уj = F(Х), , що відповідає предикатові Li(Х,Y) та задана на декартовому добутку
АВ значеннями в М у вигляді Yj = ц(t, s), де t = (ХI), s = (ХII); А = ХI {х, х, ..., х, х, х, ..., х}; В = ХII {х, х, х, х, хб, ..., х}.
Для отримання функцій s = (ХII) та t = (ХI) розроблено відповідні алгоритми. Множина цих номерів прийнята як області значення функції s'= (XІІ):
s = ПРГ (х) хт ЗЯЗ(х) ГОЛ (х) хц; s = ПРГ (х) хм; s = ГОЛ (х) хй.
Отримано два класи суміжності, перенумеровані довільно та прийняті як значення функції t'= (ХІ):
t = (хн хо хн ) хм хо; t = (хp хз хо ) хм хо.
Предикат L(X, Y) відповідає функції уj = Fi(X), що відображає залежність закінчень регулярних словоформ іменних частин мови ад'єктивного відмінювання від смислу. Подамо цю функцію у вигляді
уj = ц (s, t), де s = (ХII), t = (ХI);
ХI = { х, х, х, х, х, х }, ХII = { х, х, х}.
Парадигматична таблиця ад'єктивного відмінювання є квадратною матрицею, а таблиця впливу основ прямокутною. У парадигматичній таблиці класи суміжності результуючого розбиття Q' перенумеровані довільним чином.
Способи впливу подальшого тексту на закінчення регулярних словоформ
за числом класів суміжності:
t= (хн хз хн) хч хо хп ; t= ((хp хз хо) хч хо хр хс хо) хп ;
t= xд(xч xс) xо xп ; t= (xо ( xч xс) xо xп ;
t= xм(xч xс) xо xп ; t= xн xж xо xп ;
t= (xp xд xо xа xм ) xж xо xп ; t= xз xж xо xп ;
t= xо xж xо xс xп ; t= (xн xз) xс xо xп ; t= (xн xз xн) xм xп ;
t= (xp x1а xо xм) xм xп ; t= xо xм xк ; t= xч xо xк ;
t= xс xо xк ; t= xс xо xк ; t= хм хк ,
t (уи уі уо) уй у; t (уa уя) ум уи; t (yо yє) yв yі;
t (уи уі) ум у; t (yо yє) yм y; t (yв yя) y yм;
t (yИ yі) yй y; t (yо yє) y yю; t (yо yв) y yю;
t (ya yя) y yх; t (ya yе) y yр; t (ya yя) yт y;
t (yи yі)yмyи; t (у(у(у уь) уую; t (yayя)yy;
t (уо уе) у у; t (yі yя) y y.
Способи впливу ближчого тексту на закінчення регулярних словоформ
за числом класів суміжності:
s = ПРГ(х) xн хт; s = ПРГ (х) xн хм; s = ЗЯЗ(х) xн;
s = ШИП(х) xн;s = xн хц; s1=хн(ПРГ (х) хц ГОЛ (х) хи);
s = хн (ЗЯЗ(х) ШИП(х); s = xн ( ГОЛ (х) хи)
Функція уj = ц(s, t) відповідності структури закінчення (предикатові L):
для першої букви закінчення:
уа = (t t)(s s s s s s); yя = (tt)(ss);
yи = (ttt12tt )(sss)t (ss);
yі = (ttttt)(sssss)t(ssss);
yо = (ttttttt)(ssss)t(s s);
yе = (ttttttt )(ssss );
yу = t (ssssss); yю = t (ss); y = t( sss);
для другої букви закінчення:
yм = t t t t; yй = t t t & s ; yх = t; yг = t;
у= tt t t t t(s s ... s) t t t;
для третьої букви закінчення:
yи = t; yю = t t; yя = t; yе = t t; yь = s & t; yo = t; yy = t;
у = t t t t t t(s s s ... s) t t t.
Формалізація нерегулярних словоформ з нестандартним закінченнями
де деяке слово з словника системи, - зображення слова зі словника, <у, у, у> закінчення слова, означає логічну суму всіх елементів словника, найдовше слово якого містить не більше двадцяти букв.
Пятий розділ присвячений аналізу специфіки процесу розпаралелювання процедури розвязання систем лінгвістичних рівнянь шляхом програмного моделювання запропонованих алгоритмів для досягнення граничної структурної швидкодії при їхній апраратній реалізації. На прикладі морфологічного аналізу показана можливість машинної реалізації відношень природної мови, описаних у вигляді таких рівнянь. Їхнє затосування та моделювання дозволяє провести (здійснити) такі машинні експерименти, що виявляють неточності у математичному опису.
Шостий розділ присвячено аналізу та розробці технології побудови нового класу моделей багатозначних апаратних засобів АСП-структур третього роду на базі універсальних функціональних перетворювачів просторового типу.
Мета шостого розділу досягається шляхом декомпозиції багатозначних структур на дискретно-аналогові та цифрові субблоки, особливо у частині їх проміжного просторового перетворення інформації. Вперше запропоновано вирішення низки підзадач аналізу та синтезу АСП-структур третього
роду на основі універсальних функціональних перетворювачів просторового типу, зокрема у випадку, коли значність дорівнює трьом та десяти для одно- та двоходового варіанту.
В узагальненому вигляді одно- та двовходовий універсальний багатозначний функціональний перетворювач (УБФП) містять: елемент розпізнавання k-значної змінної, що утворює паралельний аналого-цифровий перетворювач разом із просторовим дешифратором, матричний селектор, комутатор, блок керування, паралельний цифро-аналоговий перетворювач (рис.1 та рис.2).
Рис. 1. Одновходовий багатозначний УФП (АСП-структура третього роду)
Рис. 2. Двовходовий багатозначний УФП (АСП-структура третього роду)
У задачах оброблення природної мови уже на рівні фонетики необхідно розпізнавати й опрацьовувати 32 букви української мови. Отже, починаючи із задач фонетичного оброблення, збільшення значності є неуникною задачею подальших досліджень. Очевидно, що розгляд такого підходу й дослідження проблем створення й побудови УБФП необхідно розширити з точки зору наростання значності структурного алфавіту, тобто коли значність k>3.
Оскільки перетворювач є універсальним, то потужність множини функцій, що реалізуються одновходовим універсальним функціональним перетворювачем дорівнює N=kk. Нарощування значності структурного алфавіту (числа паралельних каскадів ЦАП та ЦАП) з 3 до 10 дозволяє підвищити функціональні можливості щодо реалізації множини логічних функцій однієї змінної в 10/3 разів.
Таким чином уведення в двовходовий УФП однотипних за принципом дії та побудовою дешифраторів, матричного селектора та комутатора, а також виконання дешифратора, селектора та комутатора на елементах кон'юнкції, що утворюють у просторі АСП-структуру паралельного типу з просторовим k-значним кодуванням, реалізованим у вигляді збуджених двійкових станів просторових полюсів, дозволило забезпечити однотипність й однорідність її внутрішньої структури, а також підвищити швидкодію за рахунок мінімальної затримки в усіх її ланках. В АСП-структурі та принципі її дії використовуються логічні, а не обчислювальні методи проміжних перетворень з застосуванням концепції уніфікації дво- та k-значного кодування, що дозволяє спростити технічну реалізацію АСП-структур і, як наслідок, веде до їх граничного паралелізму та зменшення затримок під час перетворень, а також спрощення структури проміжних субблоків.
Сьомий розділ присвячений застосуванню та модифікації методів синтезу k-значних оборотних неоднорідних логічних елементів та модулів для автоматизованої обробки мовної інформації. Сформульовані основні вимоги, що дозволяють ураховувати обставини практики, які визначають той чи інший варіант синтезу оборотних модулів: АСП-структур другого роду.
Апаратура, що синтезована за допомогою запропанованих методів, здобуває цілий ряд важливих властивостей, у тому числі властивості прямого і зворотного перетворення інформації, часткового і повного відновлення вхідних (початково-вихідних) послідовностей даних по наявним вихідним (початково-вихідним), а також виявлення заборонених наборів даних і діагностики відмовлень.
При побудові таких структур будемо вважати, якщо значення будь-яких змінних вихідного предикатного рівняння не задані, то на відповідні вхідні шини АСП-структури треба подати значення логічної одиниці. Цим допускається будь-яке значення даної змінної з області її визначення. Помітимо, що поява логічного нуля на усіх входах (виходах) однієї чи декількох змінних треба вважати “помилковим”, тобто дана ситуація, з погляду діагностики, сигналізує про збій у роботі тієї чи іншої ділянки АСП-структури. У свою чергу, відмінним моментом є властивість дублювання відомих змінних свого значення на вихідних шинах синтезованої структури. Це, з одного боку, підвищує її надійність з погляду одиночного моделювання несправностей, коли по одиночній константній несправності (поява комбінації “”на всіх шинах тієї чи іншої шуканої вихідної змінної) можливо локалізувати місце і причини дефекту, а з іншого боку, є відповідно неявним тестовим діагностуванням реалізує процес визначення технічного стану структури за станом інформації на вихідних шинах відомих (вихідних) змінних. Аналогічно можуть бути апаратурно реалізовані (у вигляді АСП-структури першого роду) і відношення кон'юнкції, що містять більш трьох змінних різної значності. Останнє ствердження повною мірою відноситься і до відношення диз'юнкції.
Таким чином, у нашому арсеналі з'являється певний набір АСП-структур першого роду, що реалізують наступні предикатні рівняння y = a b; y = a b c;
y = a b c d і т. п., де число змінних n < 8 10 при їхньої різної значності, а також набір АСП-структур, що реалізують предикатні рівняння у вигляді y = a b;
y = a b c; y = a b c d і т.п., де число змінних n < 8 10 при їхньої різної значності. Маючи такий набір АСП-структур першого роду для зняття обмеження на число змінних у вихідному предикатному рівнянні при “підвищеній”(k 6) значності більшості його змінних, переходимо до побудови АСП-структур другого роду. Запропоновані також модіфіковані таблиці істинності, які є відправним моментом при їх побудові.
У роботі запропоновано методологію проектування лінгвістичних обєктів на базі k-значних оборотних АСП-структур просторового типу. Наведено приклад реалізації морфологічного аналізу на базі універсальних багатозначних функціональних перетворювачів просторового типу (АСП-структур третього роду).
На практиці для апаратної реалізації алгоритму, що надано на прикладі морфологічного аналізу (МА), найближчим підходом є застосування неоднорідних систем типу “'базова машина + функціонально орієнтований процесор”(БМ+ФОП). Очевидно, що в основі апаратної побудови проблемно орієнтованої системи для нашого випадку буде лежати структура “базова машина + програмований ФОП на базі двоходового десятизначного УФП (АСП-структури)”.
Оскільки алгоритм МА передбачає ряд кроків автоматичного перебору, порівняння та покрокового аналізу результатів обчислень, до апаратних засобів БМ відносяться: пам'ять словників основ та закінчень, а також оперативну пам'ять припустимих основ, припустимих закінчень та припустимої морфологічної інформації, оперативна пам'ять налагоджень універсального елемента на виконання певної логічної функції у нашому прикладі це функція вибору максимального з двох значень. Стикування десятизначного елемента з БМ, яка є на сьогоднішній день двозначною, вимагає наявності перетворювачів кодів (ПК) з двозначного коду в десятизначний та навпаки (ПК 210 та ПК 102). Процедура морфологічного аналізу вимагає також окремого лічильника на п'ять кроків для перевірки даних на сумісність.
Аналіз результатів впровадження дисертаційних досліджень показує, що з'являється можливість створювати спеціалізовану апаратуру прямої і зворотної дії та підвищеної надійності, що суттєво при рішенні багатьох прикладних задач штучного інтелекту та інших суміжних областей, зокрема, при рішенні лінгвістичних задач граматичної обробки слів.
ВИСНОВКИ
У дисертації сформульовано та вирішено важливу для теорії та практики мовних систем штучного інтелекту наукову проблему досягнення високорівневої технології обробки інформації на основі розвитку концепції уніфікації та розробки методів синтезу швидкодіючих багатозначних структур мовних систем. При проведенні дисертаційних досліджень отримані такі основні результати.
1. Показано, що людська мова, як явище дискретне, повинна описуватись засобами дискретної математики. Встановлено, що досить універсальним у концептуальному та прикладному аспекті є підхід, заснований на моделюванні природної мови засобами апарату багатозначної (k-значної) логіки, оскільки природна мова багатозначна, зокрема засобами алгебри скінченних предикатів.
2. На підставі вивчення даних фонетики та орфографії української мови розроблені системи фонетичних ознак і отримані предикати їх формального опису; розроблена методика формального опису букво-фонемних відношень; побудовані математичні моделі відношень голосних, приголосних звуків та акцентних характеристик української мови, на основі яких формалізуються фонетичні закономірності, що дозволяє здійснювати їх автоматичне оброблення.
3. На підставі вивчення основних характеристик морфології української мови, як об'єкту моделювання, встановлено теоретичну залежність (відношення) між флексією та оточуючим її текстом. Формалізовано поняття флексії, а також визначені предикати математичних моделей словозміни іменних частин мови, що забезпечує автоматичне оброблення (аналіз, синтез, нормалізація та корегування помилок) мови.
4. Проведено аналіз алгебро-логічної структури природної мови, а також алгебро-логічних засобів її моделювання. Концептуально-методологічний підхід до мови людини (з математичної точки зору) дозволяє сприймати її як деяку алгебру, а її тексти як формули цієї алгебри. Раніше алгебра скінченних предикатів була спрямована на формульний опис функцій (алфавітних операторів). Тепер область її рекомендованого застосування поширена та охоплює довільні відношення.
5. Дослідження з нарощування значності структурного алфавіту від 3 до 10 показує, що в універсальних k-значних просторових структурах забезпечується підвищення функціональних можливостей щодо реалізації множини логічних функцій однієї змінної в 10/3 разів; інший шлях підвищення функціональних можливостей під час моделювання мовних процесів є нарощування числа входів.
6. Запропоновано модифікацію традиційних таблиць істинності для багатозначних неоднорідних кодів, що дозволяє представляти їх у більш компактній формі. Число елементів модифікованої таблиці зменшується в 3p разів, де p- глибина декомпозиції.
. Уперше розроблені методи синтезу і здійснено аналіз базових модулів у вигляді багатозначних оборотних неоднорідних логічних елементів. Показано можливість ефективної побудови на їх основі оборотних АСП-структур просторового типу за рахунок варіювання базових модулів. Запропоновано методику проектування лінгвістичних обєктів (на прикладі задачі морфологічного аналізу) на базі k-значних оборотних неоднорідних логічних елементів та модулів просторового типу (АСП-структур першого третього роду) та наведено тематичну інтерпретацію процесу їх функціонування.
8. Розроблені просторові універсальні k-значні структури забезпечують: скорочення числа виводів, що дає повністю очевидний ефект спрощення складного монтажу; скорочення числа різнотипних модулів та апаратних затрат; підвищення регулярності їх внутрішньої структури.
9. Теоретичні і практичні результати дисертаційних досліджень впроваджені в ряді програмно-апаратних систем, що у тій чи інший формі використовують процедури обробки мовної інформації: формальних моделей мови у вигляді систем лінгвістичних рівнянь алгебри скінченних предикатів. Новизна та оригінальність технічних реалізацій підтверджена трьома патентами України та Російської Федерації на винахід.
СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ
1. Бондаренко М.Ф., Коноплянко З.Д., Четвериков Г.Г. Основи теорії синтезу надшвидкодіючих структур мовних систем штучного інтелекту К.: ІЗМН, 1997. 264 с.
. Бондаренко М. Ф., Коноплянко З.Д., Четвериков Г.Г. Основи теорії багатозначних структур і кодування в системах штучного інтелекту. Харків: Фактор-друк, 2003.с.
3. Малий тлумачний словник з інтелектуальних систем: Навчальний посібник /
Г.Г. Четвериков. К.: ІЗМН, 1997. 64 с.
4. Малий тлумачний словник з інтелектуальних систем (доповнення): Навчальний посібник / Г.Г. Четвериков.Харків: ХТУРЕ, 1999. 56 с.
. Четвериков Г.Г. Многозначные структуры (анализ, сравнение, синтез, обобщение). Ч.1: Учебное пособие. К.: ИСМО, 1997. с.
6. Четвериков Г.Г. Формалізація принципів побудови універсальних k-значних структур мовних систем штучного інтелекту // Доповіді НАН України. 2001. №1 (41). C. 7679.
7. Четвериков Г.Г. Концепция построения сверхбыстродействующих многозначных структур языковых систем искусственного интеллекта // Автоматизация производственных процессов. . №2. С. 8994.
8. Четвериков Г.Г. Математичні моделі акцентних характеристик української мови // Праці УНДІРТ. . №2(6). С. 88.
. Четвериков Г.Г. Лінгвістичний компютер підвищеного інтелекту та швидкодії // Искусственный интеллект. . №1/2. С. 51.
10. Четвериков Г.Г. Концептуальна структурно-функціональна модель гомеостатичного модуля мовних систем штучного інтелекту // Вестник Херсонского государственного технического университета. . №5. C.5457.
11. Четвериков Г.Г. Десятичный функциональный преобразователь пространственного типа // Вестник Херсонского государственного университета.. №5. С. 5761.
12. Четвериков Г.Г. Аналіз нових шляхів побудови швидкодіючих універсальних k-значних структур для систем штучного інтелекту // АСУ и приборы автоматики. Харьков: ХТУРЭ. . №114. С. 3942.
13. Четвериков Г.Г. Синтез просторових структур мовних систем (на прикладі української мови) // Проблемы бионики. Харьков: ХТУРЭ. 1999. Вып.50. С.112.
14. Четвериков Г.Г. Структурный синтез проблемно-орієнтованих засобів для автоматизованої обробки текстової інформації // Искусственный интеллект. . №3. С. 165173.
15. Четвериков Г.Г. Практичні аспекти теорії статичних просторових k-значних структур у методології проектування ергатичних систем // Искусственный интеллект. . №3. С. 123126.
16. Четвериков Г.Г. Алгебро-логічні засоби моделювання природної мови. Повідомлення 1 // Бионика интеллекта. 2004. №1(61). С.4245.
17. Четвериков Г.Г. Алгебро-логічні засоби моделювання природної мови. Повідомлення 2 // Бионика интеллекта. 2005. №2(62). С.12.
18. Бондаренко М.Ф., Четвериков Г.Г. Алгебро-логический подход к построению структур лингвистических объектов // Искусственный интеллект. . №1. C.2428.
19. Бондаренко М.Ф., Четвериков Г.Г. Особливості архітектурних побудов просторових k-значних структур мовних систем штучного інтелекту // Проблемы бионики. Харьков: ХНУРЭ. 2002. Вып.56. С.3.
20. Мурашко А.Г., Герасин С.Н., Четвериков Г.Г. Организация структуры вычислительного процесса в неоднородной вычислительной среде // Электронное моделирование. . №6. С. 3844.
21. Коноплянко З.Д., Четвериков Г.Г. Проблеми інтелектуалізації та українізації цифрових систем та мереж телекомунікацій // Труды УНИИРТ. . №4. С.72.
22. Четвериков Г.Г., Ревенчук И.А., Стороженко А.В., Бавыкин В.Н. Принципы построения отдельных компонентов k-значных структур искусственного интеллекта // Радиоэлектроника и информатика. . №2(03). C.8890.
23. Коноплянко З.Д., Четвериков Г.Г. Аналіз лінгвістичних зв'язків елементів фонетичного рівня української мови // Праці УНДІРТ. . №1(5). С.70.
24. Четвериков Г.Г., Коноплянко З.Д., Ревенчук И.А., Ляховец С.В. Аналіз та дослідження букво-фонемних відношень голосних української мови // Праці УНДІРТ. . №1(21). С. 60.
25. Четвериков Г.Г., Ляховец С.В., Коноплянко З.Д., Колесник А.С. Побудова математичної моделі букво-фонемних відношень для приголосних звуків української мови // Праці УНДІРТ. 2001. №1(25). С.21.
26. Ревенчук І.А., Четвериков Г.Г. Про методику вибору структури векторів закінчення та смислу // АСУ и приборы автоматики. Харьков: ХТУРЭ. . Вып. 104. С. 128132.
27. Бавыкин В.Н., Четвериков Г.Г. Моделирование гибридных многозначных структур средствами предикатно-гибридной логики // Радиоэлектроника и информатика. . №2(11). С.102105.
28. Бондаренко М.Ф., Бавыкин В.Н., Герасин С.Н., Четвериков Г.Г. Структурный синтез неоднородных модулей в интеллектуальных системах // Искусственный интеллект. . №3. С. 2326.
29. Четвериков Г.Г., Бавыкин В.Н., Ревенчук И.А. Модификация средств построения k-значных обратимых переключательных цепей второго рода // Искусственный интеллект. 2003. №3. С.111117.
30. Бондаренко М.Ф., Гусятин Е.М., Четвериков Г.Г., Рябчинская Е.А. Методы решения предикатных уравнений // Компьютерные интеллектуальные модели и системы. Харьков: ХАИ. . С.2227.
31. Пат. 14935 А. Україна, МКВ Н 03 К 19/08. Функціональний перетворювач / М.Ф.Бондаренко, З.Д. Коноплянко, Г.Г.Четвериков (Україна). №96010250; Дата подання 22.01.96; Опубл. 30.06.97, Бюл. №3. c.
32. Пат. 20462 А. Україна, МКВ Н 03 К 19/02. Двовходовий багатозначний логічний елемент / М.Ф.Бондаренко, З.Д. Коноплянко, Г.Г.Четвериков (Україна). №97031289; Дата подання 20.03.97; Опубл. 15.07.97, Бюл. №3. c.
33. Пат. 2147789 РФ, МКВ Н 03 К 19/02, Н 03 М 1/00. Функциональный преобразователь с многозначным кодированием / М.Ф.Бондаренко, З.Д. Коноплянко, Г.Г.Четвериков (Україна). №97101717/09; Заявл. 04.02.97; Опубл. 24.04.2000, Бюл.№11.- 6c.
34. Четвериков Г.Г. Синтез широкопаралельних багатозначних перемикальних структур // Праці 2-ої Української конф. з автоматичного керування (“Автоматика-95”). Т. 1. Львів: ФМІ НАН України. 1995. С.134.
35. Четвериков Г.Г. Применение средств ИИ для автоматического анализа и синтеза лингвистической информации // Праці 3-ої Української конф. з автоматичного керування (“Автоматика-96”). Т. 2. Севастополь: СевГТУ. 1996. С.4748.
36. Четвериков Г.Г. Общие принципы и методы построения многозначных неоднородных структур // Труды 2-ой Междунар. конф. “Теория и техника передачи, приёма и обработки информации”. Т. 2. Харьков-Туапсе: ХГТУРЭ. . С. 214.
37. Четвериков Г.Г. Модульный принцип организации многозначных пространственных структур систем ИИ // Труды 4-ой Междунар. конф. “Теория и техника передачи, приёма и обработки информации”(“Новые информационные технологии”). Харьков-Туапсе: ХГТУРЭ. . С. 253.
38. Бондаренко М., Бавикін В., Коноплянко З., Стороженко А., Четвериков Г. Моделювання лінгвістичних звязків елементів фонетичного та морфологічного рівня української мови в системах автоматичного розпізнавання сигналіву // 3-я Всеукраїнська Міжнар. конф. “Оброблення сигналів і зображень та розпізнавання сигналів (Signal/Image Processing and Pattern Recognition)”(УкрОбраз). Київ: УА з ОІ та РО. . С.116.
39. Бондаренко М.Ф., Ревенчук И.А., Четвериков Г.Г. Синтез швидкодіючих багатозначних структур мовних систем штучного інтелекту // 4-та Всеукраїнська Міжнар. конф. “Оброблення сигналів і зображень та розпізнавання сигналів (Signal/Image Processing and Pattern Recognition)”(УкрОбраз). Київ: УА з ОІ та РО. . С.61.
40. Бондаренко М.Ф., Четвериков Г.Г., Ревенчук И.А. Формализация принципа симбиоза многозначных структур интеллектуальных систем // Труды Междунар. научной конф. “Интеллектуализация обработки информации”(ИОИ 2000). Симферополь: Крымский научный центр НАН Украины. . С.1516.
41. Бондаренко М.Ф., Карпухин А.В., Четвериков Г.Г. Анализ проблемы создания новых технических средств для реализации лингвистического интерфейса // Proc. of the X-th International Conf. “Knowledge-Dialog-Solution”(KDS-2003) .Varna (Bulgaria). . С.3.
42. Бондаренко М.Ф., Четвериков Г.Г. Проблема інтелектуалізації та українізації мовних систем штучного інтелекту // Труды 6-ой Междунар. конф. “Знания-Диалог-Решение”(KDS-97). К.: ИК НАН Украины. 1997. С.68.
43. Бондаренко М.Ф., Ляховец С.В., Карпухин А.В., Четвериков Г.Г. Синтез швидкодіючих структур лінгвістичних обєктів // Труды 9-ой Междунар. научно-практической конф. “Знания-Диалог-Решение” (KDS-2001). К.: ИК НАН Украины. . С.4249.
44. Четвериков Г.Г. Природна мова як обєкт математичного опису // Материалы 5-ой Междунар. научно-технич. конф. “Искусственный интеллект. Интеллектуальные и многопроцессорные системы ”. Т. 2. Таганрог-Донецк: ТРТИ. . С.4143.
45. Bondarenko M., Chetverikov G., Karpuhin A., Roshka S., Deyneko Zh. Synthesis Methods of Multiplevalued Structures of Language Systems // Proc. of the Third International Conf. “Information Reseach, Applications and Education”(i.TECH 2005). Varna (Bulgaria)..P. 102.
46. Bondarenko M., Bavykin V., Revenchuk I., Chetverikov G. Modeling of Universal Multiple-Valued Structures of Atificical Intelligence Systems // Proc. of the 6-th International Conf. “Mixed design of integrated circuits and systems”(MIXDES). Krakow (Polska). . P. 131133.
47. Bondarenko M., Karpuhin A., Chetverikov G. Application of a numerically analytical method for Simulation of Non-Linear Resonant Circuits // Proc. of the 10-th International Conf. “Mixed design of integrated circuits and systems”(MIXDES 2003), Lodz (Polska). . P. 399402.
. Bondarenko M., Karpuhin A., Chetverikov G., Leshchinsky V. Synthesis Methods of Multiplevalued Structures of Bilogical Networks // Proc. of the 12-th International Conf. “Mixed design of integrated circuits and systems”(MIXDES 2005), Krakow (Polska). . P. 201.
49. Bondarenko M., Chetverikov G., Karpuhin A. Structural Synthesis of Universal Multiple-Valued Structures of Artificial Intelligence Systems // Proc. of the 9th World Multi-Conference in Systemics, Cybernetics and Informatics (WMSCI 2005).Orlando, Florida (USA).. Vol. VII. P. 127.
АННОТАЦИЯ
Четвериков Г.Г. Формальные модели и методы синтеза быстродействующих многозначных структур языковых систем. Рукопись.
Диссертация на соискание ученой степени доктора технических наук по специальности 05.13.23 системы и средства искусственного интеллекта. Харковский национальный университет радиоэлектроники, Харьков, 2005.
Диссертация посвящена решению проблемы построения формальних моделей украинского языка на фонетическом и морфологическом уровнях, а также разработке методов синтеза аппаратных средств в виде быстродействующих многозначных структур для их схемной реализации. Предложены и исследованы алгебро-логические средства моделирования естественного языка, а также методы синтеза многозначных обратимых неоднородных элементов и модулей пространственного типа: обратимых АКП-структур.
В первом разделе проведен анализ состояния и тенденции развития теоретических основ построения высокоэффективных цифровых многозначных структур с пространственным принципом представления информации. Человеческая речь, как явление дискретное, должна описываться средствами дискретной математики. Предложенная профессором Ю.П. Шабановым-Кушнаренко алгебра конечных предикатов открывает возможность перехода от алгоритмического описания информационных процессов к их описанию в виде предикатных уравнений, которые и задают отношения между переменными (характеристиками) исследуемого объекта. Таким образом, приходим к пониманию одного из возможных путей создания систем ИИ это путь анализа, моделирования и синтеза языкового интеллектуального интерфейса с помощью алгебры конечных предикатов, средств k-значных логической системы и k-значных структур и кодировки.
Во втором разделе исследованы алгебро-логические средства моделирования естественного языка (ЕЯ). Получено расширение алгебры конечных предикатов (АКП). Проведен анализ алгебро-логической структуры естественного языка. Концептаульно-методологический подход к ЕЯ (с математической точки зрения) позволяет воспринимать его как некоторую алгебру, а ее тексты как формулы этой алгебры. Фактически получен универсальный математический аппарат, который характеризуется полнотою и внутренним параллелизмом формульных конструкций при переходе от алгоритмов к аппаратной реализации.
Третий и четвертый разделы посвящены получению реальных математических моделей лингвистических связей (законов) украинского языка. В третьем разделе объектом моделирования служит отношение, связывающее фонему с набором фонетических признаков (фонетическое отношение). Получила развитие методика формального описания букво-фонемных отношений для гласных и согласных звуков украинского языка на базе примениения аппарата алгебры предикатов. В четвертом разделе осуществлено математическое описание морфологического отношения на множестве слов украинского языка. Введены лингвистические переменные и области их определения для формальных моделей отдельных фрагментов морфологии украинского языка.
В пятом разделе проведен анализ специфики процесса распараллеливания процедуры решения систем лингвистических уравнений алгебры предикатов путем моделирования предложенных алгоритмов для достижения предельного структурного быстродействия при их аппаратной реализации.
В шестом разделе рассмотрен круг вопросов, связанных с принципами построения универсальных многозначных елементов, модулей и структур пространственного типа; детально изучено влияние изменения значности и числа входных переменных на свойства указанных структур. Для повышения эффективности, быстродействия, обеспечения универсальности, гибкости перенастройки аппаратных структур языковых систем предложено применять как k-значные пространственные структуры, так и механизмы k-значного кодирования.
Седьмой раздел посвящен анализу особенностей преимущества практического применения быстродействующих многозначных структур. Сформулированы основные приемы, позволяющие учесть требования практики, которые определяют тот или иной вариант синтеза многозначных обратимых неоднородных логических элементов и модулей (АКП-структур первого и второго рода). Анализ результатов внедрения диссертационных исследований показывает, что применение разработанных методов синтеза АКП-структур обеспечивает: сокращение числа входов, что дает полностью очевидный эффект; упрощения ремонта и замены вышедших из строя модулей; повышения регулярности их внутренней структуры, а также тематическую интерпретацию промежуточного преобразования информационных признаков при ограничениях на используемую вычислительную среду.
Ключевые слова: естественный язык, конечный предикат, алгебра конечных предикатов, система лингвистических уравнений, многозначные обратимые неоднородные логические элементы, АКП-структура.
АНОТАЦІЯ
Четвериков Г.Г. Формальні моделі та методи синтезу швидкодіючих багатозначних структур мовних систем. Рукопис.
Дисертація на здобуття наукового ступеня доктора технічних наук за спеціальністю 05.13.23 системи та засоби штучного інтелекту. Харківський національний університет радіоелектроніки, Харків, 2005.
Дисертація присвячена розробці адекватного алгебро-логічного та системотехнічного інструментарію обєктивації мовних явищ на підставі їх формалізації та відповідної апробації.
Розроблені теоретичні засади побудови просторових оборотних багатозначних елементів, модулів та структур. Дістали подальший розвиток та модифіковані методи побудови багатозначних оборотних неоднорідних логічних елементів та модулів (АСП-структур першого та другого роду) для мовних систем штучного інтелекту з оборотними властивостями. Дослідження апаратних засобів реалізації отриманих моделей мови та методів синтезу АСП-структур дозволили визначити раціональні шляхи їх створення, а також сформулювати критерії вибору АСП-структур для реалізації відношень, що складають основу дії мовних систем. Створено новий клас моделей у вигляді АСП-структур на базі декомпозиції k-значних структур на дискретно-аналогові та цифрові субблоки, що дозволяє на одному й тому ж пристрою реалізувати наліз, нормалізацію та синтез задач морфології української мови.
Ключові слова: природна мова, скінченний предикат, алгебра скінченних предикатів, система лінгвістичних рівнянь, багатозначні оборотні неоднорідні логічні елементи, АСП-структури.
ABSTRACT
Chetverikov G. G. Formal models and synthesis methods of speed of multiple-valued structures of language systems. Manuscript.
The thesis for a doctors degree (engineering) on speciality 05.13.23 systems and facilities of artificial intelligence. Kharkiv national university of radio electronics, Kharkiv, 2005.
The thesis is dedicated to development of adequate algebra and logic systems engineering tools of language phenomena objectification on the basis of their formalization and corresponding aprobation.
Theoretical construction principles of spatial invertible multiplevalued elements and structures have been developed. The analysis of their practical application in information system with k-valued coding has been tested. The comparative analisis of parallel methods of linguistics equation system solving which enables to study and compare proposed software and hardware implementation of obtained language models (at the example of the morfology analyses of Ukrainian language words) has been carried out.
On the basis of general principles and methods of universality hybridism and parallelism (speed) of k-valued spatial structures a new class of universal functional converters AFP-structures of the third kind which allows to implement analysis, normalization and synthesis of Ukrainian language morphology problems has been created.
Keywords: natural language, final predicate, final predicate algebra, linguistics equation system, multiple-valued invertible heterogeneous logic elements, FPA-structures.
Підп. до друку 20.12.05 Формат 60х84/16. Спосіб друку ризографія.
Умов. друк. арк. 1,9 Ціна договірна. Тираж 100 прим.
Зам. № 2
___________________________________________________________________
ХНУРЕ, 61166, Харків, просп. Леніна, 14
___________________________________________________________________
Віддруковано в навчально-науковому
видавничо-поліграфічному центрі ХНУРЕ
, Харків, просп. Леніна, 14