Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Департамент компютерних технологій
Кафедра інформатики
Контрольна робота
з курсу
Лінгвістичне забезпечення інтелектуальних систем
за осінній триместр 1999/2000 н.р.
Лексикографічна структура
семантичного словника
в моделях класу “Смисл текст”
Керіник: доцент
І.Б. Штерн
Київ 1999
План
[0.0.0.1] Лексикографічна структура [0.0.0.2] семантичного словника [0.0.1] студента ДКТ-5 [0.0.2] Бубенщикова Євгена [0.1] Семантичне представлення [0.2] Лексичні функції. [0.3] Тлумачно-комбінаторний словник. [1] Типи лексикографічної інформації у тлумачно-комбінаторному словнику [1.1] Вхід словникової статті [1.2] Зона перекладів [1.3] Зона частин мови [1.4] Зона визначень [1.5] Зона обмежень [1.6] Зона синтаксичних ознак [1.7] Зона дескрипторів [1.8] Зона синтаксичних ознак та дескрипторів типового власника [1.9] Зона моделей керування [1.10] Зона лексичних функцій [1.11] Зона неформальних коментарів та ілюстрацій [2] Висновок
[3] |
Вступ.
Лінгвістична модель типу “Смисл Текст” це засіб опису природної мови, що передбачає створення системи правил, механічне застосування котрих дозволяє встановлювати відповідність між даним смислом та всіма текстами мови, які виражають цей смисл.
Визначають три самих загальних вимоги, які пред'являють до моделей типу “Смисл Текст”:
1. Модель “Смисл Текст” повинна бути діючою моделлю. Вона являє собою пристрій, що має вхід і вихід, і який перероблює те, що подається на вхід (задача), в інше, що видається на виході (результат). Принципова динамічність цих моделей протиставлена статичності більш традиційних класифікуючих(таксономічних) описів.
Опис відповідності між смислами та текстами повинно містити такі три компоненти:
2. Модель “Смисл Текст” повинна бути задана абсолютно формально - за допомогою однозначних та логічно послідовних формулювань, що не потребують залучення якоїсь додаткової інформації. У якості контрольного критерію висувається принципова здійсненність моделі, або будь-якого її фрагменту на обчислювальній машині.
3. Модель “Смисл Текст” є не породжуючий, а перетворюючий пристрій не генератор текстів, а транслятор смислів в тексти і назад. Необхідно підкреслити таку неасиметричність: модель “Смисл Текст” по-різному ставиться до неправильності тексту і неправильності смислу. Будучи моделлю мови, а не мислення, модель “Смисл Текст” повинна реагувати на будь-яку мовну неправильність тексту, проте необовязково реагувати на аномальність заданого “смислу” або смислу, що був вихвачений з тексту (“круглий квадрат”).
Таким чином, не займаючись самим смислом, модель типу “Смисл Текст” відповідає за формальну правильність текстів і за правильну відповідність текстів і смислів. Таким чином така модель зобовязана:
а) при русі від смислу до тексту виключати побудову “абсолютно” невірних фраз, а при зворотньому напрямку виявляти “абсолютну” невірність предявлених фраз;
б) забезпечувати приписування будь-якому заданому смислу Ф всіх правильних відносно цього смислу фраз Фі і тільки таких фраз, ф також приписування будь-якій заданій фразі Ф всіх смислів Фі , відносно яких ця фраза є вірною, і тільки таких смислів.
У рамках моделі “Смисл Текст” при русі від смислу до тексту як вхідні дані повинні виступати семантичні представлення (Сеп) особливі експліцитні представлення загального змісту множини рівнозначних висловлювань. При зворотньому напрямку від тексту до смислу семантичне представлення вхідного тексту є кінцевим результати роботи системи в цілому.
Оскільки модель є описом відношення між смислами та текстами, а “смисли” ми ототожнюємо з “семантичними представленнями”, то питання про СемП виявляється надзвичайно важливим.
Передбачувана для даної моделі “Смисл Текст” семантична мова може бути характеризована заданням таких трьох множин:
Словник, який містить символи трьох типів:
Правила утворення, у відповідності з якими з символів словника можуть будуватися семантичні представлення висловлювань. Ці правила тривіальні, так як стосуються суто зовнішньої, формальної правильності семантичних представлень.
Правила перетворення, які задають синонімічність, або рівносильність двох семантичних представлень зокрема, за рахунок згортки підграфів семантичного графу до проміжних одиниць і розгортки останніх.
Крім цього, для успішного використання охарактеризованої семантичної мови у моделі “Смисл Текст” необхідні відомості ще двох типів, які не належать самій семантичній мові.
По-перше, це семантичні аксіоми, чи універсальні закони дійсності. По-друге, це “семантична комбінаторика” правила розчленування/зєднання семантичних представлень у процесі переходу від смислу до тексту і навпаки.
Модель “Смисл Текст” суттєвим чином використовує більшу кількість відомостей про кожне слово мови, яку розглядаємо. Ці відомості можуть бути представлені в спеціальному словнику, який ми називаємо тлумачно-комбінаторний словник (ТКС). Словникова стаття цього словника повинна в ідеалі містити всі словозмінюючі, словоутворюючі, синтаксичні, семантичні та стилістичні характеристики заголовного, або ключового слова С0; крім цього, для С0 необхідно вказати всі слова (або словосполучення), визначеним чином звязані з ним за смислом, а саме: 1) його “парадигматичні варіанти”, чи “заміни” засоби, які можуть чи повинні заміняти С0 у тих чи інших контекстах та при тих чи інших умовах, та 2) його “синтагматичні партнери”, чи “параметри” засоби, за допомогою яких ідіоматично, тобто невільно, висловлюються при даному слові деякі смисли.
Для позначення парадигматичних варіантів та синтагматичних партнерів слова ще використовується термін “лексичні кореляти”.
Залежності, які звязують слова з їх лексичними корелятами описується за допомогою лексичних функцій. Лексичні функції, як правило, позначаються абревіатурами, що утворюються від латинських слів.
Наприклад, функція, що відповідає смислу “дуже”, позначається Magn від латинського magnus “великий”, функція Syn синонім слова.
Magn (брюнетка) = жагуча. Syn (арештовувати) = затримувати.
Magn (знати) = напамять.
Тлумачно-комбінаторний словник (ТКС), який буде розглядатися, є складовою частиною системи автоматизованого перекладу. Будемо розглядати спрощений варіант моделі “Смисл Текст”. В цьому варіанті буде всього три рівня формального представлення речень: морфологічний, поверхово-синтаксичний та глибинно-синтаксичний.
Морфологічний компонент системи забезпечує перехід (встановлення відповідності) “Речення МС”. Під МС розуміємо послідовність імен лексем, що входять в речення, при цьому імені кожної лексеми приписана певна граматична характеристика.
Поверхнево-синтаксичний компонент забезпечує перехід “МС ПСС”. Під ПСС розуміємо дерево залежностей, вузли котрого відмічені іменами лексем, які забезпечені наборами семантично змістовних граматичних характеристик, стрілки котрих відповідають одному з специфічних для даної природної мови поверхнево-синтаксичних відносин.
Глибинно-синтаксичний компонент забезпечує перехід “ПСС ГСС”. Під ГСС розуміємо дерево залежностей, вузли котрих можуть бути відмічені іменами конкретних лексем чи фразем та двох типів фіктивних лексем: іменами потенційних (фіктивних) слів, які у данній мові неможливі, та іменами глибинно-синтаксичних слів, які репрезентують на глибинному рівні смисл семантично змістовних поверхнево-синтаксичних відносин.
Весь процес перекладу складається з таких основних етапів:
Речення => МС
МС => ПСС аналіз
ПСС => ГСС
ГССвхід => ГССвихід власне переклад
ГССвихід => ГССпохід перефразування
ГСС => ПСС
ПСС => МС синтез
МС => Речення
На всіх етапах, за винятком першого та останнього, необхідно звертатися до ТКС, який, таким чином, виявляється вельмисуттєво звязаним з граматичним компонетом системи, являючи з нею один (інтегральний) опис мови. Тому для успішної роботи системи необхідно мати максимально узгоджені один з одним граматику і словник. Це дуже складно зробити, бо цей словник має вміщувати, як можна більше інформації про мову, але без такого словника автоматизований переклад (саме ПЕРЕКЛАД) буде неможливий.
Словарна стаття ТКС являє собою підмножину деякої множини зон, у котрих записується інформація про відповідні властивості лексичних одиниць. Кожна зона, за винятком першої, вводиться своєю поміткою абревіатурою з прописних латинських букв, з двокрапкою. Ось ці зони:
Зони (1) та (4) обовязкові в будь-якій словниковій статті. В словникових статтях фразем обовязкові зони (12) та (13). Решта зон факультативні.
Однією з двох центральних проблем будь-якої системи АП (автоматизованого перекладу) є вирішення проблеми неоднозначності при аналізі морфологічної, синтаксичної і лексичної омонімії та лексичної полісемії. (Друга центральна проблема можливість породити достатню синонімію при синтезі, щоб подолати лексико-синтаксичні розходження між вхідною і вихідною моваим).
З усіх перерахованих типів неоднозначності доречно розглянути тільки лексичну полісемію та засоби її вирішення.
Для цього використовується інформація, що знаходиться в таких зонах: LIM, SYNT, GOV, MG, LF. LIM виступає як розрізник значень у тих випадках, коли на значення і слова Х накладаються певні морфологічні чи синтаксичні обмеження, а в реченні, яке ми оброблюємо ці обмеження не спостерігаються.
Наприклад, лексема ЗУСТРІЧАТИ І (Я випадково зустрів її RECONTRER (fr.)), ЗУСТРІЧАТИ ІІ (Хто поїхав зустрічати делегацію? ACCUEILLIR (fr.)). Ця різниця формально і цілком природньо проявляється в тому, що ЗУСТРІЧАТИ ІІ може бути залежним членом обставинного відношення при лексемі, здатної підпорядковувати собі цільовий інфінітив. до числа таких лексем відносяться більшість дієслів переміщення типу ЙТИ, ПІТИ, ЇХАТИ, ВЕСТИ та ін. Всім їм у словнику приписується спеціальна синтаксична ознака (обс-інф), яка описує їх здатність бути головним членом згаданої вище конструкції. Щоб використати цю інформацію при виборі потрібного значення дієслова ЗУСТРІЧАТИ в реченнях типу
Хто поїхав зустрічати делегацію?
Вона повела дітей зустрічати батьків.
достатньо записати таке обмеження у словниковій статті ЗУСТРІЧАТИ І:
LIM: якщо kw = інф., то не х(v, обст-інф) > kw. В ПСС таких речень будуть піддерева як раз такого вигляду, і, отже, словоформа ЗУСТРІЧАТИ буде однозначно обізнаний як така, що репрезентує лексему ЗУСТРІЧАТИ ІІ.
Тепер розглянемо окремо кожну зону словникової статті.
Ми розглянемо зони словникової статті.
Вхід словникової статті має вигляд NWI.J
N восьмизначний номер лексичної одиниці
W сама лексична одиниця
I номер її омоніма
J номер її значення
Приклади: (рос.)
02682100 РАЗРЯД 1.(=DECHARGE); 02682200 РАЗРЯД 2.(=CLASSE).
Процес перекладу речення з однієї природної мови на іншу здійснюється на глибинно-синтаксичному рівні, являючи собою перетворення глибинно-синтаксичної структури (ГСС) вхідної мови у ГСС вихідної мови, тобто
ГССa => ГССb,
де a і b назви робочих мов системи.
Переклад здійснюється поетапно, перехід ГССa => ГССb забезпечується рядом загальних правил, зоною LF та TRANS. У спрощеній системі загальним правилом може бути, наприклад, опущення артиклів.
Через зону LF (лексичних функцій), переклад здійснюється, коли
В першому випадку щоб перевести піддерево у ГСС вищезгаданого вигляду вихідною мовою, достатньо знайти словникову статтю TRANS(Y), а в цій статті значення функції iF чи jF.
Так само здійснюється і переклад і у другому випадку. Єдина суттєва різниця в тому, що є сигналом до описаної процедури відсутність еквівалентів в зоні TRANS чи присутність у ГСС піддерева описаного типу.
В інших випадках, коли в словниковій статті є зона TRANS. переклад здійснюється зверненням безпосередньо до цієї зони. Характер заповнення зони TRANS залежить від таких факторів:
Наприклад, якщо об'єкт, що перекладається, є ім'ям одного вузла ГСС, у зоні TRANS записується тільки еквівалентом, який перекладається. Якщо при цьому еквівалент, на який перекладається (Y) також є окремим словом, і якщо можливість вибору Y не залежить ні від умов використання X та Y, то в зоні TRANS знаходиться тільки один переклад. Наприклад:
СИСТЕМА
…
TRANS : SYSTEM
Якщо є декілька рівноправних однослівних перекладів, в зону TRANS записується найбільш загальний з них, а всі інші фігурують у якості синонімів у зоні лексичних функцій Y = TRANS(X).
Якщо серед перекладів даної лексичної одиниці є ще і переклади-піддерева, всі вони заносяться у зону TRANS. (В рядку syn зони LF містяться тільки однослівні синоніми!).
Всі переклади даної лексичної одиниці одиниці заносяться в зону TRANS, і втому випадку, коли вибір перекладу залежить від якихось властивостей речення, що перекладається чи на яке перекладається, чи їх формальних представлень. Як легко зрозуміти в цьому випадку виникаються проблеми розпізнання варіантів перекладу, цілком аналогічна проблемам розпізнання значень багатозначного слова. єдиною суттєвою різницею є те, що у даному випадку розпізнання відбувається всередині одного й того ж значення лексичної одиниці, яка перекладається. Наприклад:
НЕСКІНЧЕНА
… attr
TRANS 1) INFINI | якщо X(S) > kw, то не
X = РЯД чи ДРІБ чи ДОБУТОК
attr
2) CONTINU | X(S) > kw,
та Х = РЯД або ДРІБ або ДОБУТОК
Зона POR вказує на належність kw(key word) на до однієї з наступних частин мови:
S- Іменник (+ займенники Я, ТИ, ХТО …) (+ чисельники тисяча …)
A - Прикметник (+ числівники перший, другий) (+ займ. мій ніякий…)
Adv - Прислівник
Num - Чисельник
Prep - Прийменник
Art - Артикль
Part - Частка
Conj - Сполучник
V - Дієслово
Com - Композит (весняно-, українсько-)
Frm - Формула-є хоча б одна літера, що не відноситься до алфавіту (цифра)
У данній зоні записується визначення kw у термінах лексичних функцій. У якості аргументів лексичних функцій у зоні DEF можуть виступати як конкретні лексичні одиниці, так і змінні (у випадку, коли ключове слово несе смисл даної лексичної функції і виступає в якості значення при невизначеному околі слів.
ПАЦІЄНТ
DEF: //S2 (лікувати)
В цій зоні вказуються морфологічні, синтаксичні та поєднувані обмеження на дане значення слова чи на слово у складі фраземи.
НАСТУПАТИ 2.2
…
LIM : не док.
Армія наступала - не може бути “армія наступила”
Синтаксичні одиниці описують здатність лексичних одиниць брати участь у якості головного чи залежного члена у тих чи інших конструкціях. Синтаксичні ознаки присутні у синтагмах, операторах та правилах порядку слів. Всього в моделі поверхневого синтезу української мова нараховується приблизно 150 200 синтаксичних ознак.
Наприклад:
(одн!) іменник молоко, адєктивні іменники “ціле” і т.п.
ВАГА
…
SYNT: чолов, неперерах, парам, парам-тіл.
У зоні DES ключовому слову приписуються дескриптори ознаки, які відносять слово до деякого семантичного класу (чи класів). На різницю від інших відомостей, дескриптори є прагматичним, скоріше за все алгоритмічним, засобом семантичного контролю та, по суті справи, не має визначеного наукового статусу.
В першу чергу звертатися до семантики при перекладі доводиться на етапі власне перекладу: в описі зони TTRANS можуть бути випадки, коли вибір того чи іншого перекладу ключового слова обумовлен семантичними властивостями слів, з яким вони пов'язані. Крім є плідним використовувати семантичні обмеження на поєднання слів у процесі поверхово-синтакчисного аналізу (синтезу) у якості фільтра при перевірці гіпотез про присутність/відсутність деякого синтаксичного відношення між якимось двома словами.
Дескриптори приписуються всім повнозначним словам, в основному іменникам та дієсловам, рідко прикметникам та прислівникам.
БІГАТИ
…
DES : дія
Дескрипторів може нараховуватися приблизно 100 (рослина, властивість, твір, система, фізика, і т.і.) Частина дескрипторів організована у ієрархічні структури.
Зона GOV передбачується у словникових статтях прикметників, прислівників, прийменників та сполучників. В цій зоні записуються дескриптори та синтаксичні ознаки типового синтаксичного власника ключового слова.
Типовим власником прикметника є іменник, зв'язаний з ним визначниковим відношенням.
У прислівника це дієслово чи прикметник. У прийменника та сполучника дієслово, прикметник та іменник.
СКЛЯНИЙ І:
…
POR : A
GOV : DES (G) = артефакт.
Зона GOV містить інформацію про пасивні валентності слова.
Зона моделей керування містить таку інформацію
Модель керування має вигляд таблиці, кількість стовпчиків котрої відповідає числу актантів ключового слова. У верхньому рядку кожного стовпчика вказується символ М та номер актанту.
У наступних рядках таблиці записується відомості про слова та групи слів, які виражають дане актантне місце. Ці відомості складаються з вказівки частини мови слова, його синтаксичних ознак та морфологічних характеристик, символів стандартних піддерев та конкретних лексем.
Наприклад, модель керуванні дієслова ДІЗНАВАТИСЯ І виглядає так:
М1 |
М2 |
М3 |
|
(NP), знах (APPROX) (V), особ (Q U) ТЕ, знах ЩО *Про2 * ЩО *Про2. ТЕ ЩО |
В 2 У З ІЗ ВІД (Adv, locat) |
NP іменник, прикметник, чисельник, чи кількісно-іменна група (один з них). APPROX означає, що перший та другий актанти можуть бути вираженими кількісно-апроксимативною групою (біля ста чоловік). QU вказує на різні типи непрямого питання (Дізнатися, чи буде потяг). (V) вказує на можливість конструкції “Я дізнався, він не приїде.”. * перед ЩО словами вказує на семантичну ненаповненість сполучника, на відміну від сполучникового слова ЩО (На відміну “Я дізнався, що ти привіз.”) * ставиться також перед семантично пустими прийменниками. Номер 2 при прийменнику вказує на місцевий відмінок. Третій актант описує позначає джерело інформації.
Також необхідно знати не тільки синтактико-морфологічні способи оформлення актантів, але і семантичні ознаки та синтаксичні особливості слів, які заповнюють ту чи іншу валентність. Такі відомості записуються безпосередньо під моделлю керування у вигляді обмежень на дескриптори та синтаксичні ознаки актантів. Для нашого випадку це буде
DES (M1) = людина
DES (D 3.1) = група
DES (D 3.2) = людина
DES (D 3.3) = інформація/текст
DES (D 3.4) = інформація/текст
DES (D 3.5) = людина
Неможна сказати “Камінь дізнався про це від інституту”.
Крім відомостей про дескриптори та синтаксичні ознак, умови до моделі керування можуть містити таку інформацію:
якщо M2 = D 2.2, то X(S) > kw та kw = оруд.,
Якщо слово має декілька моделей керування, умови в кожній з них записуються безпосередньо після моделі, а потім вказується спосіб перетворення однієї моделі в іншу з необхідними умовами цього перетворення.
В даній зоні подаються значення лексичних функцій від ключового слова.
Зона LF складається з рядків; кожен рядок містить значення певної ЛФ. Значенням ЛФ може бути окрема лексема, декілька різних, проте синонімічних одна до одної лексем, невироджене піддерев ГСС чи декілька таких дерев. Рядок починається імям ЛФ (вхід рядку), потім через знак = йдуть одне чи декілька значень даної ЛФ, ті чи інші значення можуть йти з умовами. Лексичні функції можуть розрізнятися по деяким ознакам. Основними ознаками є 1)елементарність/неелементарність 2)стандартність/нестандартність 3)склеюваність/несклеюваність.
Елементарними ЛФ є такі ЛФ, імя котрих складається з одного символу (можливо, з цифрами-індексами позаду чи попереду).
Приклад деяких стандартних ЛФ: A0, Able, Adv0, Caus, Anti, Syn та ін.
До елементарних функцій належать також нестандартні функції, що складаються з символу f з цифровим індексом (2f (ВЕЛИЧИНА) = абсолютний). При цьому вирази вигляду Caus 13f, що містять символи елементарних стандартних чи нестандартних ЛФ, вважаються неелементарними ЛФ. Неелементарні (складні) функції отримують з елементарних шляхом операції суперпозиції і композиції.
Нестандартні ЛФ описують ті вирази, котрі співвідносяться з ключовим словом ідіоматичним образом чи необхідним для перекладу, проте не можуть бути задані за допомогою елементарних чи складних стандартних ЛФ. Нестандартні ЛФ позначаються літерою F з цифровим індексом-номером на початку.
Приклад нестандартних ЛФ у словниковій статті до слова АТОМ:
1F = гарячий
2F = XВІДДАЧА
2
YЕНЕРГІЯ,од
attr
ZВЕЛИКИЙ
3F = розщеплений
В словниках різних мов у словникових статтях слів-еквівалентів цифрові індекси при нестандартних ЛФ, які є перекладами одна іншої, повинні співпадати.
Функція Y = f(kw) несклеювання функція, якщо смисл Y не містить у собі смислу ключового слова. (Magn (ДОЖДЬ) = проливной) (рос.)
Функція Y = //f(kw) склеювання функція, якщо смисл Y цілком містить у собі смисл ключового слова. (//Magn (ДОЖДЬ) = ЛИВЕНЬ) (рос.)
У будь-якому місці словникової статті можуть наводитися коментарі, пояснення та приклади, які не розраховуються на безпосередню автоматичну обробку і призначені для читача-людини.
З одного боку, все, що я розглянув, (а це далеко не повний опис того всього, що використовується і вживається у мові словникових статей ТКС), з першого погляду є дуже громіздким. Проте ця мова є достатньо формалізована для того, щоб використовуватися при перекладі, а без такого словника компютерний переклад текстів максимально близький до природної мови є неможливим.
Тому сучасні системи компютеризованого перекладу повинні враховувати семантичні зв'язки у реченнях та у тексті в цілому, і повинні спиратись на могутній словник, який містить детальну інформацію про мови, з якої і на яку проводиться переклад.