Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

Подписываем
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Предоплата всего
Подписываем
Лекция 1
Система машинного перевода ЭТАП -2.
Этап-2 (Электро-Технический Автоматический Перевод, вторая очередь) это экспериментальная система автоматического перевода второго с половиной поколения, предназначенная для перевода электротехнических текстов с английского языка на русский.
Входным языком в ЭТАПе-2 является английский. Это порождает некоторые трудности. Английский язык имеет слабую формальную маркировку семантических и синтаксических отношений между словами во фразе. Части речи в нем почти не имеют характерных парадигм, и одно орфографическое слово сплошь и рядом бывает существительным, прилагательным и глаголом, а иногда даже наречием и предлогом; ср. ROUND -'круг' (существительное),'круглый' (прилагательное), округлять' (глагол), 'кругом' (наречие) и 'вокруг' (предлог).
Окончания разных частей речи омонимичны, ср. ROUNDS - 'круги' или 'округляет'. Омонимичны и грамматические суффиксы, ср. ROUNDING - 'округляющий' или 'округляя', ROUNDED 'округлил' или 'округленный'. Грамматические суффиксы омонимичны словообразовательным, ср. ROUNDING - 'округляющий' или 'округление'. Прилагательные и причастия не имеют никаких окончаний, и поэтому их согласование с существительными никак не выражено. Например: electric device - 'электрическое устройство' и electric devices 'электрические устройства'.
Подчинительные союзы и союзные слова могут опускаться. Например: He claimed he was ill - 'Он утверждал, что был болен', буквально 'Он утверждал он был болен', или The man I saw yesterday - 'Человек, которого я видел вчера', буквально 'Человек я видел вчера'. Тем самым оказываются невыраженными подчинительные отношения.
В лингвистическом обеспечении Этапа-2 выделяются следующие крупные блоки:
(1) морфологический анализ исходного английского предложения;
(2) синтаксический анализ английского предложения;
(3) нормализация синтаксической структуры английского предложения;
(4) преобразование нормализованной английской структуры в нормализованную русскую;
(5) развертывание нормализованной структуры в синтаксическую структуру будущего русского предложения;
(6) синтаксический синтез русского предложения;
(7) морфологический синтез русского предложения,
Все семь блоков переработки фразы требуют обращения к словарям, На этапах (1) и (7) происходит обращение к морфологическим словарям системы английскому и русскому соответственно. До начала этапа (2) происходит однократное обращение к комбинаторному словарю (КС) английского языка. Для каждой лексемы предложения (точнее, для множества омонимичных лексем в каждой позиции) из КС извлекается вся лексикографическая информация, необходимая для синтаксического анализа, нормализации и перевода английского предложения. На этапах (4) (6) происходит обращение к русскому КС, откуда извлекается лексикографическая информация, необходимая для "доводки" русской синтаксической структуры и для ее морфологизации.
Морфологический анализ
На вход морфологического компонента системы ЭТАП-2 поступает английское предложение. Задача морфологического анализа состоит в построении морфологической структуры этого предложения. До начала работы блока морфологического анализа происходит предморфологический анализ и выделение безусловных оборотов.
Предморфологический анализ
На вход морфологического анализа должна поступать непрепарированная английская фраза. Это, в частности, означает, что в ней используются некоторые специфические для английского языка способы слитной записи отдельных словоформ при помощи апострофа и дефиса: I dont think hes written anything about the phrase-structure approach. 'Я не думаю, что он писал что-либо о методе непосредственных составляющих'.
До начала морфологического разбора необходимо произвести целый ряд мелких операций по расклейке словоформ, чтобы привести их к каноническому виду. Эту задачу и выполняет блок предморфологической обработки. Объекты, с которыми приходится иметь дело этому блоку, подразделяются на три категории:
1) записанная слитно словоформа cannot, которую необходимо просто расклеить, т.е. переписать в виде: can not;
2) словоформы, пишущиеся через дефис в композитной конструкции, например: high-frequency modulations 'высокочастотные колебания', sholder-fired rocket 'ракетный снаряд, запускаемый с плеча'. В принципе они должны быть разъединены. Однако поскольку в английском языке дефис ставится не только между разными словами, но и внутри одного слова (non-alignment 'неприсоединение', re-interpretation 'реинтерпретация' и т.д.), до расклейки необходимо убедиться в том, что обрабатываемая словоформа с дефисом не включена в словарь;
3) словоформы, записанные через апостроф:
а) личное, указательное или вопросительное местоимение + личная форма глагола: Im, theyve, were, whos, hed.
б) личная форма глагола + отрицательная частица not: isnt, wasnt, arent, werent, doesnt, havent, mustnt, mightnt, couldnt, shouldnt, wouldnt
Сложность обработки этих словоформ связана с двумя обстоятельствами. С одной стороны, их необходимо отличать от слов типа oclock 'часов' (в обозначении времени, ср. 5 oclock), hapenny 'полпенса' и т.п., у которых апостроф входит в состав слова. С другой стороны, их необходимо отличать от форм притяжательного падежа типа Johns, masters, authors. Даже когда эта проблема решена, остается еще неоднозначность словоформ, оканчивающихся на 'd и на 's и представляющих собой редуцированные формы соответственно had/would и is/has.
Таким образом, при обработке слов с апострофом после целого ряда проверок от них отделяется их концевая часть, а именно: 'm 'ге, 've, 'll, nt, d, s.
Выделение безусловных оборотов
Задача блока выделения безусловных оборотов - собрать несколько изолированных словоформ в единое целое.
В английском, как и в любом другом, языке существует довольно большое количество устойчивых оборотов, которые в силу традиции пишутся раздельно, а, по существу, представляют собой одно слово. Вспомним, что между элементами безусловного оборота не могут вставляться посторонние слова, а сами эти элементы непереставимы и являются грамматически неизменяемыми формами, ср.: А FEW«несколько» АS IF «как если бы», BECAUSE OF «из-за», FOR INSTANCE «например» и т.д. Такими оборотами при синтаксическом анализе удобно оперировать как цельными объектами.
Выделение безусловных оборотов производится следующим образом. Имеется множество словосочетаний, которые должны описываться как цельные лексические единицы. Оно организовано в виде упорядоченного по алфавиту списка кортежей словоформ словаря безусловных оборотов. Кроме того, все начальные элементы оборотов (первая словоформа оборота) получают в морфологическом словаре особую помету, которая при работе морфологического анализа служит сигналом к включению блока выделения безусловных оборотов. При появлении словоформы с данной пометой в тексте анализируемой фразы эта словоформа и ее ближайший правый контекст сличаются со словарем оборотов. В случае, если последовательность словоформ в тексте совпадает с одним из кортежей в словаре, она опознается как оборот и пробелы между отдельными словоформами заполняются вспомогательными знаками. В дальнейшем безусловный оборот интерпретируется уже как единый объект, который включается в комбинаторный словарь на тех же основаниях, что и обычная лексема, и снабжается информацией тех же типов. Т.е. в системе содержится словарь безусловных оборотов.
Морфологический анализ
Блок морфологического анализа состоит из словаря основ, списка окончаний, списка грамматических характеристик (приписываемых основе и/или окончаниям).
Словарь основ
Словарь основ в системе ЭТАП-2 содержит около 12 тыс. словарных статей. Словарная статья состоит из заголовка и одной или нескольких подстатей. Заголовок представляет собой основу, в частном случае совпадающую со словоформой, например CERTAINLY «конечно». Каждая подстатья включает в себя следующие три зоны:
1) номер подстатьи (NAR) пятизначное число, являющееся номером соответствующей единицы комбинаторного словаря;
2) перевод (TRS) - русский эквивалент данной лексемы, записанный в своей словарной форме (т.е. в именительном падеже единственного числа в случае существительного, в инфинитиве несовершенного вида в случае глагола и т.д.). В зоне перевода может быть записано несколько русских эквивалентов, соответствующих различным значениям данной лексемы. В частном случае зона перевода может оставаться незаполненной (например, в словарной статье артикля ТНЕ или других служебных слов, не имеющих соответствия в русском языке). Информация, записанная в этой зоне, используется только при работе системы в режиме пословного перевода;
3) зона морфологической информации, состоящая из строк, в которых приводятся морфологические характеристики основы и записываются сочетающиеся с ней окончания с их морфологическими характеристиками.
Список окончаний
Список окончаний представляет собой полный перечень словоизменительных окончаний английского языка. В общем случае они не совпадают с окончаниями, выделяемыми традиционной грамматикой. Это объясняется, в частности, тем, что в ЭТАПовском варианте морфологии не описывается чередование гласных на стыке морф. Поэтому для словоформ happy «счастливый», happier «счастливее», happiest «счастливейший» дается следующий морфологический разбор: основа: happ-,окончание: -y, -ier, -iest. Вот полный алфавитный список окончаний, действующий в системе ЭТАП-2: -а;-e;-еd;-еn;-er;-es;-est;-ied;-ing;.is;-on;-s; -s; -s; -t; -um; -y; -ying; -ies.
Процедура морфологического анализа
Блок морфологического анализа отличается своей организацией от всех остальных компонентов системы. Построение синтаксических структур и их последующие преобразования (нормализация, перевод, развертывание, синтаксический синтез) задаются динамически в виде лингвистических правил. Между тем характер морфологического материала навязывает нам статический способ его задания в виде списков.
На вход собственно морфологического анализа подается фраза, прошедшая предморфологический анализ и блок выделения безусловных оборотов. Конечный сегмент каждой словоформы фразы по очереди сличается со всем списком окончаний. Каждый раз, когда конечная часть словоформы совпадает с одним из окончаний списка, она отделяется, а начальная часть словоформы объявляется гипотетической основой. Например, словоформа caries получит следующие гипотетические интерпретации:
1) окончание: нулевое; гипотетическая основа: caries-;
2) окончание: -s (как, например, окончание множественного числа обычного существительного: boy - boys 'мальчик - мальчики', или окончание 3-го лица настоящего времени глагола: put - puts 'класть - кладет'); гипотетическая основа: carie-;
3) окончание: -es (как, например, окончание множественного числа существительного: bus - buses 'автобус - автобусы', или окончание 3-го лица настоящего времени глагола: push - pushes 'толкать - толкает'); гипотетическая основа: cari-;
4) окончание: -ies (как, например, окончание множественного числа существительного: berry -berries 'ягода - ягоды', или окончание 3-го лица настоящего времени глагола: carry - carries 'нести - несет'); гипотетическая основа: car-.
После этого происходит обращение к словарю основ, в котором отыскиваются словарные статьи с заголовками (основами), совпадающими с выделенными гипотетическими основами. Так, в разбираемом примере мы обнаружим в словаре словарные статьи с основой caries, представляющей лексему CARIES 'кариес', и с основой car, представляющей лексемы CAR 'автомобиль', CARE1 'забота' и CARE2 'заботиться', но не обнаружим словарных статей с основами carie и cari (второй и третий варианты анализа). Отобранные статьи прочитываются, чтобы установить, зафиксированы ли в их строках (приписанных им стандартных парадигмах или форматах) такие окончания, которые были выделены на предыдущем шаге. В результате этого просмотра полностью отсеется четвертый вариант анализа: ни у существительного CAR, ни у существительного CARE1 или глагола CARE2 нет словоформы caries. Тем самым остается только первый, правильный, вариант: основа caries + окончание # (ему приписана характеристика SG (ед.число)). (CARIESsg) и будет результатом морфологического анализа.