Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Лекция 5
Система машинного перевода ФР-2
Система ФР-2 это экспериментальная система МП второго поколения с многовариантным анализом фильтрового типа, доходящим до уровня поверхностно-синтаксической структуры, рассчитанная на перевод математических текстов. Эта система разрабатывалась в ИПМ АН СССР. Конечной целью является построение для фразы одного или нескольких зависимостей.
Досинтаксический анализ
Обработка фразы начинается с расщепления, т.е. превращения в две словоформы некоторых слитных слов, а именно: au = à les, du = de les, auquel = à lequel, auxquels = à lesquels, duquel = de lequel, desquels = de lesquels, desquelles = de lesquelles, auxquelles = à lesquelles. В дальнейшем словоформы, полученные в результате такого расщепления, ничем не отличаются от других словоформ исходной фразы.
После этого происходит обращение к словарю основ (условное название, в самой системе используют название II. 1) Целью обращения к словарю является нахождение для каждой словоформы фразы заголовка словарной статьи, т.е. основы, вкладывающейся в данную словоформу. Если такой заголовок найден, то для данной словоформы запоминается набор информации, входившей в словарную статью найденного заголовка.
Затем происходит обработка оборотов.
Для отыскания оборотов просматриваются подряд словоформы фразы (приписанная им информация) и проверяется, может ли очередное слово быть основным в обороте. Если нет, то переходят к следующей словоформе, а если может, то обращаются к первому обороту с данным основным словом. В соответствии с указаниями о числе слов в обороте и номере основного слова формируют последовательность слов и сравнивают её с записью оборота. Если совпадения нет, то переходят к следующему обороту с данным основным словом, а если таких больше нет, то к дальнейшему просмотру фразы.
Если оборот действительно найден, то он «сворачивается», т.е. в дальнейшем рассматривается как единое целое и ему приписывается соответствующая информация из словаря оборотов.
Морфологический анализ
Задача этапа морфологического анализа получить морфологические характеристики слов. Происходит обращение к словарю основ и ищется самая длинная основа, совпадающая с началом слова. Иначе говоря, ведется поиск на вложение основ, начиная с левого конца словоформы. С учетом особенностей французского языка, такой поиск накладывает определенные ограничения на набор основ. Так, если две основы вкладываются друг в друга, то следует помнить о том, что в словоформу, образованную от меньшей основы, может вложиться бОльшая основа. Такое вложение может произойти как при омонимичной словоформе, действительно допускающей два разных разложения (forme = form + e(V)/forme + Ǿ (S)), так и при неомонимичной словоформе (например, для former тоже могла быть найдена основа forme существительного, а не form-глагола). Поэтому словарь основ содержит, в частности, информацию о том, какие группы изменения сформированы для данного класса слов (существительных, прилагательных и проч.)
Предсинтаксическая подготовка
После этого происходит предсинтаксическая подготовка, которая включает в себя:
- обработку сложных глагольных форм. Поочередно рассматриваются Participе Passe (PP), имеющиеся во фразе. Для очередного PP выясняется, с каким вспомогательным глаголом -avoir или etre сочетается данный глагол, и ищут слева от PP нужный вспомогательный глагол. Если такой вспомогательный глагол найден, то основа с PP записывается на место вспомогательного глагола и ей сообщается информация, что это глагол в соответствующей форме.
- приписывание Participe Passe пометки о возможности управлять предлогом par.
- приписывание глаголам и причастиям пометки об отрицании. Эта пометка приписывается если отрицательная частица ne стоит непосредственно перед глагольной формой, или отделена от нее только некоторыми местоимениями. Это сделано потому, что в отрицательной форме глаголы управляют прямым дополнением через предлог de т.е. для них связи устанавливаются не совсем так, как при отсутствии отрицания.
После этого фраза попадает на этап синтаксического анализа.
Первым делом строится набор гипотетических или потенциальных синтаксических связей. Для этого имеется таблица связей, называемая Анализатором (Рис.2).
В этом Анализаторе различаются 77 типов связей. Анализатор имеет вид таблицы. В каждой строке таблицы указаны: 1). Тип связи, 2) признаки управляемой и управляющей текстовых единиц, релевантные для установления данного типа связи; 3) сведения о том, в каком порядке должны стоять во фразе связываемые текстовые единицы. Также приводятся примеры.
Абстрагируясь от формального языка и обозначений, принятых во ФР-II, устройство Анализатора можно описать примерно следующим образом:
1. Прилагательное (м.р. ед.ч.) Сущ (м.р. ед.ч) / Сущ (м.р. мн.ч) / Формула направление связи любое пример: le seul polynome entire
2. Прил. (ж.р. ед.ч.) Сущ (ж.р. ед.ч.) / Сущ (ж.р. мн.ч.) / формула направление связи любое пример: equation differentielle
3. Прич.Прош. (муж.р. ед.ч.) / Прич.наст. (муж.р. ед.ч.) Cущ (м.р. ед.ч.) / Сущ (м.р. мн.ч.) / Формула подчиненное стоит после управляющего пример: le resultat obtenu
4. Прич. Прош. (ж.р. ед.ч.) / Прич.наст. (ж.р.ед.ч.) Сущ. (ж.р. ед.ч.) / Сущ (ж.р. мн.ч.) / Формула подчиненное стоит после управляющего пример: lequation transformee
5. Прилаг. (м.р. мн.ч.) / Прилаг.-детерминатив (м.р. мн.ч.) / Прилаг.-детерминатив (мн.ч.) подчиненное стоит слева от управляющего пример: tous le rayons
После того, как фраза пропущена через анализатор, получается некоторый исходный набор потенциальных связей.
Следующий этап чистка этого набора потенциальных связей с целью уменьшить этот набор насколько возможно, убирая в нем как можно больше «лишних» связей и стремясь при этом сохранить «правильные» связи.
При чистке учитываются т.н. «уникальные» связи (в терминах графа, уникальная связь это такая дуга, что в вершину, в которую она входит, не входит никакая другая дуга). Чтобы дерево оставалось связным, уникальные связи должны сохраняться при чистках и войти в окончательный набор. Это значит, что если возникнет конфликт между связями, то предпочтение отдается уникальной связи.
Чистка набора потенциальных связей делится на 16 этапов.
I Разбор омонимов Сущ/ Прилаг и Сущ/ Детерминатив. Авторы комментируют, что было бы логично этот этап перенести в блок снятия омонимии при предсинтаксическом анализе. Он у них здесь остался исторически.
В общих чертах правила разрешения данных случаев омонимии в пользу существительного состоят в следующем. Разбираемая омонимичная форма считается существительным, если, двигаясь по фразе влево от неё, можно дойти до явного левого ограничителя группы существительного (т.е. до предлога или прилагательного-детерминатива, неомонимичного с существительным), пропуская только формулы, числительные или препозитивные прилагательные, а двигаясь вправо не обнаруживаем неомонимичного существительного, которое можно счесть главным словом данной именной группы и к которому можно отнести разбираемое слово в качестве определения.
II Разбор ne, se; pas, point, plus, que (при наличии ne); прилагательного-детерминатива. Этот этап выделен для разбора тех слов, которые стоят близко к своим управляющим и для которых истинные управляющие легко установить независимо от того, как расставлены связи во фразе.
В частности, разбор ne и se состоит в том, что если ближайшее к ним потенциальное управляющее это глагол, participe passé или participe présent, ничем не отделенные или отделенные только местоимениями, то для ne и se остаются только связи от этого управляющего, а все остальные стираются.
III Чистка по двоеточию и точке с запятой. Стираются связи между парами слов, одно из которых стоит до двоеточия, а другое правее двоеточия.
IV Чистка по предикатам. Если между собой связаны два слова, одно из которых стоит левее предиката, а другое правее, то эти связи стираются (из соображений проективности). (Предикат это глагол в личной форме или инфинитив).
V Деление на фрагменты, чистка по фрагментам. Деление на фрагменты включает в себя установление границ фрагментов и выяснение того, какие из них являются предикатными. Границами фрагментов считаются: начало и конец фразы; неомонимичные подчинительные союзы; слова qui, dont, lequel (и его формы); quel (и его формы); слово que (кроме случаев, когда оно входит в сочетание ne … que); любой знак препинания, кроме запятой; запятая, если она является границей (правой или левой) куска, содержащего предикат и не содержащего других границ.
Чистка по фрагментам выполняется в соответствии со следующими правилами.
Если во фрагменте есть предикат (или несколько предикатов), то стираются все связи от всех текстовых единиц фрагмента к текстовым единицам не из этого фрагмента, кроме связей к qui и lequel (и его формам) от предлогов и связей к que и si от глаголов и прилагательных.
Если во фрагменте есть точно один предикат и левая граница этого фрагмента не является знаком препинания, то стираются все связи, идущие от текстовых единиц этого фрагмента к текстовым единицам, стоящим левее этого фрагмента.
VI Выявление субстантивированных прилагательных. Этот этап выделен потому, что субстантивированные прилагательные должны анализироваться совсем иначе, чем другие прилагательные. Поэтому, если окажется, что рассматриваемое прилагательное является субстантивированным происходит возврат алгоритма на этап I.
На этом этапе выясняется, не употреблено ли прилагательное в роли существительного. Разбираются прилагательные и прилагательные-детерминативы, не омонимичные с существительными, местоимениями и глаголами.
На это есть свои проверки.
VII Чистка по уникальным и квазиуникальным связям. Если имеется пересечение связей (и, соответственно, нарушена проективность) предпочтение отдается уникальным связям, а все остальные стираются. Если есть несколько претендентов на роль подчиненного, там, где подчиненный может быть только один и один из этих претендентов уникальная связь все остальные стираются.
VIII Чистка по неомонимичному предлогу. Считается, что предлог обязательно должен иметь подчиненную ему текстовую единицу, причем стоящую во фразе после предлога, или, иными словами, требование предлога на наличие подчиненного настолько сильно, что ему следует отдавать предпочтение перед всеми другими требованиями.
Если имеется только одна текстовая единица, которая может выступать в качестве подчиненной некоторому неомонимичному предлогу, то ясно, что можно для этой текстовой единицы оставить уникальную связь от этого предлога, отбросив все другие потенциальные связи от других потенциальных управляющих.
Если имеется несколько текстовых единиц, которые подчинены предлогу гипотетическими связями, то среди них берется ближайшее к предлогу неомонимичное существительное и отбрасываются связи, которые тянутся от предлога к словам, следующим, за этим неомонимичным существительным. Выбранное таким образом существительное может затем оказаться не подчиненным этому предлогу (настоящее подчиненное может стоять еще ближе к предлогу), но, во всяком случае, оно ограничивает сферу действия этого предлога.
X Выбор гипотез. На этом этапе проверяется, не встречаются ли запрещенные текстовые единицы между двумя текстовыми единицами, для которых есть гипотеза об их связи. Если запрещенные текстовые единицы есть, то гипотеза отбрасывается. Есть специальная таблица, где указано, представители каких классов являются запрещенными для связи того или иного типа, т.е. через представителей каких классов не может идти та или иная связь.
Ничто не запрещено 02, 07, 11, 12, 23, 24, 25, 31, 41, 45, 46, 47, 53, 60, 63
Все запрещено - 10, 15, 17, 44, 51, 56
Запрещено
V/CS/P/PR=de - 03, 16, 33
V/ CS/P/PR - 06
V/CS/P/PR/S/CC - 30
V/CS - 01, 05, 14, 20, 21, 22, 32, 34, 35, 36, 37, 40, 50, 61, 62, 72
CS - 27
Запрещено все, кроме
A/AD/N - 43
P/PT - 52
P/PT/ADV - 04, 13, 26
A/AD/N/F - 42, 57
A/ADV/N/F/PT - 73
Например, между tres interessant не может стоять никаких других слов. Если они стоят, то связь между tres interessant стирается.
XI Работа частных правил (1 группа)
XII Работа частных правил (2 группа)
На этих этапах работают правила, называемые частными. С их помощью разбираются довольно сложные и не очень частые конструкции. Всего есть около 260 частных правил.
Например, чистка по взаимоисключающим связям. Разработана таблица недопустимых пар связей, таких, что подчиненное в одной связи не может быть управляющим в другой. Это следующие пары:
(01, 52), (16, 01), (43, 01) (01, 50), (11, 57), (34, 57), (53, 32), (53, 50), (55, 52), (77, 57), (17, 01), (01, 73), (32, 32), (20, 40), (14, 57), (47, 10)
Есть частные правила, определяющие невозможность проявления некоторой связи без наличия некоторой другой связи.
Некоторые частные правила учитывают сильные валентности слов. Это значит, что если некоторое подчиненное заполняет сильную валентность своего управляющего, наличию связи между ними не противоречит расположение границ и иных разделителей, и если на это же подчиненное не претендует другое управляющее с сильной валентностью, то у такого подчиненного можно отбросить все другие связи.
Есть правила, которые производят выбор, так сказать, с позиции подчиненного среди многих возможных управляющих. К правилам такого вида относится правило выбора первого претендента на роль управляющего для существительного из числа претендентов на сильные связи, т.е. предлогов и глаголов. Правило сводится к тому, что из числа претендентов управляющих, предшествующих подчиненному, отдается предпочтение ближайшему, если он не отделен ничем или «почти» ничем и не омонимичен.
Некоторые правила, наоборот, производят выбор как бы с позиции управляющего, выбирая одного из претендентов на роль подчиненного по определенному типу связи. Если есть несколько претендентов на одинаковые роли подчиненного, то проверяется, допускает ли управляющее несколько однородных подчиненных и подтверждается ли предположение об имеющейся однородности наличием сочинительных союзов и знаков препинания.
XIII Уничтожение гипотез, которые противоречат уникальным.
XIV Обработка предлогов. Этот этап понадобился потому, что предлоги встречаются часто и у каждого из них бывает много потенциальных управляющих. Задача этапа выделить среди этих потенциальных управляющих наиболее вероятных. Для этого, для всех гипотетических связей подсчитываются веса и выбираются гипотезы с максимальным весом. (По сути, эти требования на предлоги в некотором смысле аналогичны модели управления). Например, правило вычисления весов для предлогов не a и не de выглядит следующим образом:
Глагол слева со специальным требованием вес 5
Глагол справа со специальным требованием вес 4
Сущ/Прич.Прош./ Прич.Наст./Наречие со специальным требованием вес 4
Глагол слева без специального требования вес 3
Глагол справа без специального требования вес 2
Сущ/Прич.Прош./ Прич.Наст./Наречие без специального требования вес 2
Есть правила для комбинации предлогов a и de, правила для предлога a, правила для предлога de.
XV Работа частных правил.
XVI Уничтожение гипотез, которые противоречат уникальным.
Все эти этапы чистки набора потенциальных связей выполняются либо однократно (однократный просмотр фразы), либо в цикле до стабилизации. (Стабилизация, это когда после выполнения этапа или группы этапов на выходе получается тот же набор связей, что и был на входе). В цикле до стабилизации повторяются группы этапов VII IX и этапы XIII и XVI. Остальные выполняются однократно.
При выполнении этапа VI, если найдено субстантивированное прилагательное, происходит возврат к этапу построения гипотетических связей, а затем повторяются этапы чистки.
Также на этапе XV (обработка предлогов), при обработке предлога des может произойти возврат к этапу построения гипотетических связей или даже к морфологическому анализу.
Начиная с этапа чистки XI и в каждом последующем этапе происходит проверка, не является ли полученный набор связей единичным (единичный это тот, при котором для каждой текстовой единицы имеется ровно одна синтаксическая связь, где данная текстовая единица управляемая). Для проверки этого факта достаточно установить, что число связей равно числу текстовых единиц. Если получен единичный набор, то чистки прекращаются и происходит переход к фазе построения деревьев зависимостей из единичных поднаборов (это заключительная фаза синтаксического анализа).
После того, как закончился этап чистки, получается некоторый результирующий набор синтаксических связей. Если число связей больше, чем число текстовых единиц (т.е. набор не единичный) и применение фильтров уже не может уменьшить этот набор, происходит переход к фазе 3 построение единичных наборов связей. Т.е. строится несколько вариантов единичных наборов. Эти единичные наборы должны быть согласованными, т.е. совместными между собой с точки зрения некоторых ограничений. Имеется специально разработанный список ограничений на совместность/несовместность связей. Например, учитывается возможность наличия у одной управляющей текстовой единицы двух подчиненных, связанных с общей управляющей связями определенных типов; возможность наличия связей определенных типов в тройке текстовых единиц, где первая управляет второй, а вторая третьей; а также аналогичные ограничения.
Это расщепление результирующего набора на согласованные единичные наборы делается с помощью матрицы совместности гипотез. В этой матрице элемент, стоящий на пересечении строки с номером l и столбца с номером m, равен нулю, если гипотезы с номером l и m несовместимы, и равен единице, если они совместны. В результате получается совокупность неуникальных совместимых гипотез и к ним добавляются все уникальные гипотезы, что дает единичный набор.
Этот процесс построения единичных наборов дает возможность построить все возможные единичные наборы, содержащиеся в результирующем наборе. Однако в систему заложено ограничение можно строить не более 17 вариантов.
На этом этап построения единичных наборов связей закончен и варианты единичных наборов поступают на этап построения деревьев зависимостей из единичных наборов.
Эти единичные наборы представляют собой, вообще говоря, несвязный псевдограф. Разработаны специальные правила, как сделать этот граф связным. Например, вводные слова и обороты надо подчинить вершине и т.д.
В результате на выходе этапа синтаксического анализа оказывается одно или несколько деревьев.