У вас вопросы?
У нас ответы:) SamZan.net

тема машинного перевода ЭТАП 2

Работа добавлена на сайт samzan.net: 2015-12-26

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 19.5.2025

Лекция 1

  1.  Общая характеристика системы машинного перевода ЭТАП-2
  2.  Морфологический анализ в ЭТАПе-2
  3.  Словари, используемые блоком морфологического анализа.

Система машинного перевода ЭТАП -2.

Этап-2 (Электро-Технический Автоматический Перевод, вторая очередь) – это экспериментальная система автоматического перевода второго с половиной поколения, предназначенная для перевода электротехнических текстов с английского языка на русский.

Входным языком в ЭТАПе-2 является английский. Это порождает некоторые трудности. Английский язык имеет слабую формальную маркировку семантических и синтаксических отношений между словами во фразе. Части речи в нем почти не имеют характерных парадигм, и одно орфографическое слово сплошь и рядом бывает существительным, прилагательным и глаголом, а иногда даже наречием и предлогом; ср. ROUND -'круг' (существительное),'круглый' (прилагательное), округлять' (глагол), 'кругом' (наречие) и 'вокруг' (предлог).

Окончания разных частей речи омонимичны, ср. ROUNDS - 'круги' или 'округляет'. Омонимичны и грамматические суффиксы, ср. ROUNDING - 'округляющий' или 'округляя', ROUNDED — 'округлил' или 'округленный'. Грамматические суффиксы омонимичны словообразовательным, ср. ROUNDING - 'округляющий' или 'округление'. Прилагательные и причастия не имеют никаких окончаний, и поэтому их согласование с существительными никак не выражено. Например: electric device - 'электрическое устройство' и electric devices — 'электрические устройства'.

Подчинительные союзы и союзные слова могут опускаться. Например: He claimed he was ill - 'Он утверждал, что был болен', буквально 'Он утверждал он был болен', или The man I saw yesterday - 'Человек, которого я видел вчера', буквально 'Человек я видел вчера'. Тем самым оказываются невыраженными подчинительные отношения.

           В лингвистическом обеспечении Этапа-2 выделяются следующие крупные блоки:

(1) — морфологический анализ исходного английского предложения;

(2) — синтаксический анализ английского предложения;

(3) — нормализация синтаксической структуры английского предложения;

(4) — преобразование нормализованной английской структуры в нормализованную русскую;

(5) — развертывание нормализованной структуры в синтаксическую структуру будущего русского предложения;

(6) — синтаксический синтез русского предложения;

(7) — морфологический синтез русского предложения,

Все семь блоков переработки фразы требуют обращения к словарям, На этапах (1) и (7) происходит обращение к морфологическим словарям системы — английскому и русскому соответственно. До начала этапа (2) происходит однократное обращение к комбинаторному словарю (КС) английского языка. Для каждой лексемы предложения (точнее, для множества омонимичных лексем в каждой позиции) из КС извлекается вся лексикографическая информация, необходимая для синтаксического анализа, нормализации и перевода английского предложения. На этапах (4) —(6) происходит обращение к русскому КС, откуда извлекается лексикографическая информация, необходимая для "доводки" русской синтаксической структуры и для ее морфологизации.

            Морфологический анализ

На вход морфологического компонента системы ЭТАП-2 поступает английское предложение. Задача морфологического анализа состоит в построении морфологической структуры этого предложения. До начала работы блока морфологического анализа происходит предморфологический анализ и выделение безусловных оборотов.

 Предморфологический анализ

На вход морфологического анализа должна поступать непрепарированная английская фраза. Это, в частности, означает, что в ней используются некоторые специфические для английского языка способы слитной записи отдельных словоформ при помощи апострофа и дефиса: I dont think hes written anything about the phrase-structure approach. 'Я не думаю, что он писал что-либо о методе непосредственных составляющих'.

До начала морфологического разбора необходимо произвести целый ряд мелких операций по расклейке словоформ, чтобы привести их к каноническому виду. Эту задачу и выполняет блок предморфологической обработки. Объекты, с которыми приходится иметь дело этому блоку, подразделяются на три категории:

1) записанная слитно словоформа cannot, которую необходимо просто расклеить, т.е. переписать в виде: can not;

2) словоформы, пишущиеся через дефис в композитной конструкции, например: high-frequency modulations 'высокочастотные колебания', sholder-fired rocket 'ракетный снаряд, запускаемый с плеча'. В принципе они должны быть разъединены. Однако поскольку в английском языке дефис ставится не только между разными словами, но и внутри одного слова (non-alignment 'неприсоединение', re-interpretation 'реинтерпретация' и т.д.), до расклейки необходимо убедиться в том, что обрабатываемая словоформа с дефисом не включена в словарь;

3) словоформы, записанные через апостроф:

а) личное, указательное или вопросительное местоимение + личная форма глагола: Im, theyve, were, whos, hed.

б) личная форма глагола + отрицательная частица not: isnt, wasnt, arent, werent, doesnt, havent, mustnt, mightnt, couldnt, shouldnt, wouldnt

Сложность обработки этих словоформ связана с двумя обстоятельствами. С одной стороны, их необходимо отличать от слов типа oclock 'часов' (в обозначении времени, ср. 5 oclock), hapenny 'полпенса' и т.п., у которых апостроф входит в состав слова. С другой стороны, их необходимо отличать от форм притяжательного падежа типа Johns, masters, authors’. Даже когда эта проблема решена, остается еще неоднозначность словоформ, оканчивающихся на 'd  и на 's и представляющих собой редуцированные формы соответственно had/would  и is/has.

Таким образом, при обработке слов с апострофом после целого ряда проверок от них отделяется их концевая часть, а именно: 'm 'ге, 've, 'll, nt, ‘d, ‘s.

Выделение безусловных оборотов

Задача блока выделения безусловных оборотов - собрать несколько изолированных словоформ в единое целое.

В английском, как и в любом другом, языке существует довольно большое количество устойчивых оборотов, которые в силу традиции пишутся раздельно, а, по существу, представляют собой одно слово. Вспомним, что между элементами безусловного оборота не могут вставляться посторонние слова, а сами эти элементы непереставимы и являются грамматически неизменяемыми формами, ср.: А FEW«несколько» АS IF «как если бы», BECAUSE OF «из-за», FOR INSTANCE «например» и т.д. Такими оборотами при синтаксическом анализе удобно оперировать как цельными объектами.

Выделение безусловных оборотов производится следующим образом. Имеется множество словосочетаний, которые должны описываться как цельные лексические единицы. Оно организовано в виде упорядоченного по алфавиту списка кортежей словоформ словаря безусловных оборотов. Кроме того, все начальные элементы оборотов (первая словоформа оборота) получают в морфологическом словаре особую помету, которая при работе морфологического анализа служит сигналом к включению блока выделения безусловных оборотов. При появлении словоформы с данной пометой в тексте анализируемой фразы эта словоформа и ее ближайший правый контекст сличаются со словарем оборотов. В случае, если последовательность словоформ в тексте совпадает с одним из кортежей в словаре, она опознается как оборот и пробелы между отдельными словоформами заполняются вспомогательными знаками. В дальнейшем безусловный оборот интерпретируется уже как единый объект, который включается в комбинаторный словарь на тех же основаниях, что и обычная лексема, и снабжается информацией тех же типов. Т.е. в системе содержится словарь безусловных оборотов.

Морфологический анализ

Блок морфологического анализа состоит из словаря основ, списка окончаний, списка грамматических характеристик (приписываемых основе и/или окончаниям).  

Словарь основ

Словарь основ в системе ЭТАП-2 содержит около 12 тыс. словарных статей. Словарная статья состоит из заголовка и одной или нескольких подстатей. Заголовок представляет собой основу, в частном случае совпадающую со словоформой, например CERTAINLY «конечно». Каждая подстатья включает в себя следующие три зоны:

1)  номер подстатьи (NAR) — пятизначное число, являющееся номером соответствующей единицы комбинаторного словаря;

2) перевод (TRS) - русский эквивалент данной лексемы, записанный в своей словарной форме (т.е. в именительном падеже единственного числа в случае существительного, в инфинитиве несовершенного вида в случае глагола и т.д.). В зоне перевода может быть записано несколько русских эквивалентов, соответствующих различным значениям данной лексемы. В частном случае зона перевода может оставаться незаполненной (например, в словарной статье артикля ТНЕ или других служебных слов, не имеющих соответствия в русском языке). Информация, записанная в этой зоне, используется только при работе системы в режиме пословного перевода;

3) зона морфологической информации, состоящая из строк, в которых приводятся морфологические характеристики основы и записываются сочетающиеся с ней окончания с их морфологическими характеристиками.

Список окончаний

Список окончаний представляет собой полный перечень словоизменительных окончаний английского языка. В общем случае они не совпадают с окончаниями, выделяемыми традиционной грамматикой. Это объясняется, в частности, тем, что в ЭТАПовском варианте морфологии не описывается чередование гласных на стыке морф. Поэтому для словоформ happy «счастливый», happier «счастливее», happiest «счастливейший» дается следующий морфологический разбор: основа: happ-,окончание: -y, -ier, -iest. Вот полный алфавитный список окончаний, действующий в системе ЭТАП-2: -а;-e;-еd;-еn;-er;-es;-est;-ied;-ing;.is;-on;-s; -s’; -‘s; -t; -um; -y; -ying; -ies.

Процедура морфологического анализа

Блок морфологического анализа отличается своей организацией от всех остальных компонентов системы. Построение синтаксических структур и их последующие преобразования (нормализация, перевод, развертывание, синтаксический синтез) задаются динамически в виде лингвистических правил. Между тем характер морфологического материала навязывает нам статический способ его задания в виде списков.

На вход собственно морфологического анализа подается фраза, прошедшая предморфологический анализ и блок выделения безусловных оборотов. Конечный сегмент каждой словоформы фразы по очереди сличается со всем списком окончаний. Каждый раз, когда конечная часть словоформы совпадает с одним из окончаний списка, она отделяется, а начальная часть словоформы объявляется гипотетической основой. Например, словоформа caries получит следующие гипотетические интерпретации:

1) окончание: нулевое; гипотетическая основа: caries-;

2) окончание: -s (как, например, окончание множественного числа обычного существительного: boy - boys 'мальчик - мальчики', или окончание 3-го лица настоящего времени глагола: put - puts 'класть - кладет'); гипотетическая основа: carie-;

3) окончание: -es (как, например, окончание множественного числа существительного: bus - buses 'автобус - автобусы', или окончание 3-го лица настоящего времени глагола: push - pushes 'толкать - толкает'); гипотетическая основа: cari-;

4) окончание: -ies (как, например, окончание множественного числа существительного: berry -berries 'ягода - ягоды', или окончание 3-го лица настоящего времени глагола: carry - carries 'нести - несет'); гипотетическая основа: car-.

После этого происходит обращение к словарю основ, в котором отыскиваются словарные статьи с заголовками (основами), совпадающими с выделенными гипотетическими основами. Так, в разбираемом примере мы обнаружим в словаре словарные статьи с основой caries, представляющей лексему CARIES 'кариес', и с основой car, представляющей лексемы CAR 'автомобиль', CARE1 'забота' и CARE2 'заботиться', но не обнаружим словарных статей с основами carie и cari (второй и третий варианты анализа). Отобранные статьи прочитываются, чтобы установить, зафиксированы ли в их строках (приписанных им стандартных парадигмах или форматах) такие окончания, которые были выделены на предыдущем шаге. В результате этого просмотра полностью отсеется четвертый вариант анализа: ни у существительного CAR, ни у существительного CARE1 или глагола CARE2 нет словоформы caries. Тем самым остается только первый, правильный, вариант: основа caries + окончание # (ему приписана характеристика SG (ед.число)). (CARIESsg) и будет результатом морфологического анализа.




1. Український прорив на сучасному розвитку України Причини характер ІІ Світової Війни
2. Творческая самореализация как проявление психологического здоровья студенческой молодежи
3. Статья должна иметь УДК
4. Взаимодействие государства и права
5. Воспитание детей искусством хореографии
6. на тему Финансирование инновационного предпринимательства дисциплина- Финансирование и кредитование и
7. а это расчет и обоснование стоимости предприятия на определенную дату
8. Ахияр Хаким
9. тематической модели Томсона корпускулы электроны были расположены не случайно а во вращающихся кольцах
10. Задача по бухучету