Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
ИНТЕЛЛЕКТУАЛЬНЫЕ ТЕХНОЛОГИИ И ПРЕДСТАВЛЕНИЕ ЗНАНИЙ
Лекция № 10. СИСТЕМЫ ПОНИМАНИЯ ЕСТЕСТВЕННОГО ЯЗЫКА
1. Возникновение систем понимания естественного языка
2. Примеры системы обработки естественного языка
3. Методы озвучивания речи и системы синтеза речи
1. ВОЗНИКНОВЕНИЕ СИСТЕМ ПОНИМАНИЯ ЕСТЕСТВЕННОГО
ЯЗЫКА
1.1.
Предпосылки возникновения систем пониманияестественного языка
Процесс общения с машиной долгое время оставался уделом специалистов и был недоступен для понимания обычным пользователям, которые, собственно говоря, и являлись потребителями компьютерных услуг. Пользователи первых ЭВМ общались с машиной только через посредника-программиста.
Компьютерный интерфейс на первых этапах развития вычислительной техники в качестве обязательного элемента непременно включал человека-специалиста.
Как же человек общался с первыми вычислительными машинами. Происходило это так:
- оператор, используя провода с разъемами на концах, соединял между собой триггеры (из которых, собственно, и состояла машина) таким образом, чтобы при запуске выполнялась нужная последовательность команд. Внешне это очень напоминало манипуляции телефонных АТС начала века, а по сути было очень квалифицированной работой. Можно сказать, программирование тогда осуществлялось даже не в машинных командах, а на аппаратном уровне;
- потом задача упростилась последовательность нужных команд стали записывать непосредственно в память машины. Для ввода информации стали применяться более производительные устройства. Сначала это были группы тумблеров, переключая которые, оператор или программист мог набрать нужную команду и ввести ее в память машины;
- затем появились перфокарты. Следом перфоленты. Скорость общения с машиной возросла, число ошибок, возникающих при вводе, резко уменьшилось. Но сущность этого общения, его характер не изменились.
Все это, по большому счету потребителей не очень-то устраивало.
Вот если бы можно было пообщаться с компьютером напрямую, не забивая голову всяческими техническими сведениями...
Возможность впервые пообщаться напрямую стала возможной на так называемых малых ЭВМ, когда появился диалоговый интерфейс. Т.е. возможность набрать на клавиатуре адресованную непосредственно машине команду и получить осмысленный отклик.
Скудный диалоговый режим командной строки в то время казался верхом совершенства. Именно ему сначала малые ЭВМ, а потом и ПК во многом обязаны своим триумфальным шествием. Любой потребитель компьютерных услуг мог, не вдаваясь в технические трудности и выучив всего пару десятков команд операционной системы, общаться с компьютером без посредников.
Тогда впервые возникло такое понятие, как "юзер", и именно появлению диалогового режима история приписывает взлет и расцвет многих компьютерных компаний, таких, например, как DEC.
А потом появился интерфейс графический отпала нужда в знании вообще каких-либо команд, и юзер стал общаться со своим ПК на интуитивно понятном языке жестов. (Слайд 1)
На горизонте замаячил призрак звукового интерфейса...
1.2. Понимание в диалоге
В настоящее время продолжаются поиски такого интерфейса, который устроил бы всех. На эту роль сейчас претендует интерфейс речевой.
Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером. Еще в эпоху перфокарт в научно-фантастических романах человек с компьютером именно разговаривал, как с равным себе. Тогда же, в эпоху перфокарт, или даже ранее, были предприняты первые шаги по реализации речевого интерфейса.
Работы в этом направлении велись еще в то время, когда о графическом интерфейсе никто даже и не помышлял. За сравнительно короткий период был выработан исчерпывающий теоретический базис, и практические достижения обуславливались только производительностью компьютерной техники.
Исследователи недалеко продвинулись за прошедшие десятки лет, что заставляет некоторых специалистов крайне скептически относиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практически решена. Впрочем, все зависит от того, что следует считать решением этой задачи.
Построение речевого интерфейса распадается на три составляющие.
Первая задача состоит в том, чтобы компьютер мог "понять" то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную информацию. Пока что, на нынешнем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть текст (понимание таких составляющих, как скажем, интонация, пока вообще не рассматривается). То есть эта задача сводится к замене клавиатуры микрофоном.
Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд (скажем, дублирующих пункты меню), ничего сложного в ее реализации нет. Однако вряд ли такой подход будет удобнее, чем ввод этих же команд с клавиатуры или при помощи мыши. Пожалуй, даже удобнее просто щелкнуть мышкой по иконке приложения, чем четко выговаривать (к тому же мешая окружающим): "Старт! Главное меню! Ворд!".
В идеале компьютер должен четко "осмысливать" естественную речь человека и понимать, что, к примеру, слова "Хватит!" и "Кончай работу!" означают в одной ситуации разные понятия, а в другой одно и то же.
Третья задача состоит в том, чтобы компьютер мог преобразовать информацию, с которой он оперирует, в речевое сообщение, понятное человеку.
Пока окончательное решение существует только для третьей задачи.
По сути, синтез речи это чисто математическая задача, которая в настоящее время решена на довольно хорошем уровне.
В ближайшее время, скорее всего, будет совершенствоваться только ее техническая реализация. Уже есть разного рода программы для чтения вслух текстовых файлов, озвучкой диалоговых окон, пунктов меню и с генерацией разборчивых текстовых сообщений они справляются без проблем.
Препятствием для окончательного решения первой задачи служит то, что никто до сих пор толком не знает, каким образом можно расчленить нашу речь, чтобы извлечь из нее составляющие, в которых содержится смысл.
В том звуковом потоке, который мы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов: даже, казалось бы, одинаковые буквы и слоги в разных словах на спектрограммах выглядят по-разному.
Тем не менее, многие фирмы уже имеют свои методики (увы, тщательно скрываемые), позволяющие худо-бедно решить эту задачу. Во всяком случае, после предварительной тренировки современные системы распознавания речи работают довольно сносно и делают ошибок не больше, чем делали оптические системы распознавания печатных символов лет пять-семь назад.
Что касается второй задачи, то она, по мнению большинства специалистов, не может быть решена без помощи систем искусственного интеллекта.
Большие надежды есть на появление так называемых квантовых компьютеров. Если же подобные устройства появятся, это будет означать качественный переворот в вычислительных технологиях.
Поэтому пока удел речевого интерфейса всего лишь дублирование голосом команд, которые могут быть введены с клавиатуры или при помощи мыши. А здесь его преимущества сомнительны.
Впрочем, есть одна область, которая для многих может оказаться очень привлекательной. Это речевой ввод текстов в компьютер.
Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер осмысливал услышанное, а задача перевода речи в текст более или менее решена. Недаром большинство выпускаемых ныне программ "речевого интерфейса" ориентированы именно на ввод речи.
Хотя и здесь есть место для скепсиса. Если читать вслух, четко выговаривая слова, с паузами, монотонно, как это требуется для системы распознавания речи, то на машинописную страничку уйдет минут пять.
В целом проблема речевого интерфейса, с одной стороны абсолютно не нова, с другой активное развитие и применение этой технологии только начинается (в который раз).
Первый и, пожалуй, основной вопрос касается области применения речевого интерфейса. Поиск приложений, где распознавание речи могло бы продемонстрировать все свои достоинства, вопреки устоявшемуся мнению, является задачей далеко не тривиальной. Сложившаяся практика применения компьютеров вовсе не способствует широкому внедрению речевого интерфейса.
Становление современной компьютерной индустрии проходило под флагом графического интерфейса, альтернативы которому в круге задач, решаемых сегодня компьютерами, не существует. Массовые приложения:
- САПР,
- офисные и издательские пакеты,
- СУБД
составляют основной объем интеллектуальной начинки компьютеров, оставляя в их нынешнем виде очень мало места для применения альтернативных моделей пользовательского интерфейса, в том числе и речевого.
Для подачи команд, связанных с позиционированием в пространстве, человек всегда пользовался и будет пользоваться жестами, то есть системой "руки глаза". На этом принципе построен современный графический интерфейс,
Перспектива замены клавиатуры и мыши блоком распознавания речи абсолютно отпадает. При этом выигрыш от возложения на него части функций управления настолько мал, что не смог предоставить достаточных оснований даже для пробного внедрения в массовых компьютерах на протяжении уже более тридцати лет. Именно таким сроком оценивается существование коммерчески применимых систем распознавания речи.
Для объективной оценки прогресса технологии распознавания речи можно сравнить характеристики систем, реализованных в рамках проекта к 1976 году и систем, продвигаемых на рынок в настоящее время.
Возникает два вопроса.
1) Почему не нашли достойного применения разработки двадцатилетней давности?
2) Почему за такой продолжительный период не произошло видимого качественного сдвига в характеристиках конкретных систем?
Ответ на первый вопрос частично изложен выше основная проблема в области применения. Можно добавить, что вопреки настойчиво навязываемому сегодня в маркетинговых целях мнению, высокие требования данной технологии к вычислительным ресурсам не являлись основным препятствиям к ее широкому внедрению.
Возникновение схожих проблем у разработчиков графических систем привело к созданию и массовому применению графических аппаратных ускорителей, а не отказу от оконного интерфейса. При этом разрабатываемые речевые адаптеры не превосходят по себестоимости графических.
Ответ на второй вопрос напрямую связан с первым. Технология, не находящая применения, не может себя прокормить и обеспечить свой рост.
Кроме того, вполне возможно, что ориентация большинства исследовательских центров на увеличение распознаваемого словаря является ошибочной как с точки зрения применимости, так и с точки зрения научной перспективности. Еще в 1969 году в своем знаменитом письме редактору журнала «Акустического общества Америки» Дж. Пиес, сотрудник фирмы Bell Laboratories, указал на отсутствие явного прогресса (в то время) технологии распознавания речи в связи с неспособностью компьютеров анализировать синтаксическую, семантическую и прагматическую информацию, содержащуюся в высказывании.
Имеющийся барьер может быть преодолен только с развитием систем искусственного интеллекта направлением, натолкнувшимся в 70-х на барьер сложности и только в настоящее время, практически возрождаемом.
Трудно надеяться на дальнейшее улучшение характеристик устройств речевого ввода, учитывая, что уже в 70-х годах их способность распознавать звуки речи превосходила человеческую. Данный факт был подтвержден серией экспериментов по сравнению уверенности распознавания человеком и компьютером слов иностранного языка из бессмысленных цепочек звуков. При отсутствии возможности подключения прагматических (смысловых), семантических и других анализаторов человек явно проигрывает.
Для иллюстрации приведенных выше возможно спорных утверждений рассмотрим перспективу и основные проблемы применения систем речевого ввода текстов, особенно активно продвигаемых в последнее время.
Для сравнения: (Слайд 2)
- спонтанная речь произносится со средней скоростью 2,5 слов в секунду,
- профессиональная машинопись 2 слова в секунду,
- непрофессиональная 0,4.
Таким образом, на первый взгляд, речевой ввод имеет (+) значительное превосходство по производительности. Однако оценка средней скорости диктовки в реальных условиях (-) снижается до 0,5 слова в секунду в связи с необходимостью четкого произнесения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждающихся в корректировке.
Речевой интерфейс (+) естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже профессионального диктора (-) может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому (к этому еще вернемся) компьютеру. Кроме того, имеющийся опыт эксплуатации подобных систем свидетельствует о высокой вероятности заболевания голосовых связок операторов, что связано с неизбежной при диктовке компьютеру монотонностью речи.
Часто к достоинствам речевого ввода текста относят (+) отсутствие необходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи (-) чувствительность к четкости произношения приводит к потере этого, казалось бы, очевидного преимущества.
Печатать на клавиатуре оператор учится в среднем 1-2 месяца, (-) постановка правильного произношения может занять несколько лет. Кроме того, (-) дополнительное напряжение следствие сознательных и подсознательных усилий по достижению более высокой распознаваемости совсем не способствует сохранению нормального режима работы речевого аппарата оператора и значительно увеличивает риск появления специфических заболеваний.
Существует и еще одно неприятное ограничение применимости систем речевого ввода. Оператор, взаимодействующий с компьютером через речевой интерфейс, (-) вынужден работать в звукоизолированном отдельном помещении либо пользоваться звукоизолирующим шлемом. Иначе он будет мешать работе своих соседей по офису, которые, в свою очередь, создавая дополнительный шумовой фон будут значительно затруднять работу речевого распознавателя.
Таким образом, речевой интерфейс вступает в явное противоречие с современной организационной структурой предприятий, ориентированных на коллективный труд. Ситуация несколько смягчается с развитием удаленных форм трудовой деятельности, однако еще достаточно долго самая естественная для человека производительная и потенциально массовая форма пользовательского интерфейса обречена на узкий круг применения.
Ограничения применимости систем распознавания речи в рамках наиболее популярных традиционных приложений заставляют сделать вывод о необходимости поиска потенциально перспективных для внедрения речевого интерфейса приложений за пределами традиционной офисной сферы, что подтверждается коммерческими успехами узкоспециализированных речевых систем.
2. ПРИМЕРЫ СИСТЕМ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА
Самый успешный на сегодня проект коммерческого применения распознавания речи телефонная сеть фирмы AT&.
Клиент может запросить одну из пяти категорий услуг, используя любые слова. Он говорит до тех пор, пока в его высказывании встретится одно из пяти ключевых слов. Эта система в настоящее время обслуживает около миллиарда звонков в год. Данный вывод находится в противоречии с устоявшимися широко распространенными стереотипами и ожиданиями. (Слайды 3, 4 Dragon…)
Наиболее перспективными направлениями для внедрения систем распознавания речи могут стать:
- компьютерные игры,
- узкоспециализированные реабилитационные программы для инвалидов,
- телефонные и информационные системы.
Однако ведущие разработчики речевого распознавания наращивают усилия по достижению универсализации и увеличения объемов словаря даже в ущерб сокращению процедуры предварительной настройки на диктора. А между тем, именно эти приложения предъявляют очень низкие требования к объему распознаваемого словаря, наряду с жесткими ограничениями, налагаемыми на предварительную настройку.
Более того распознавание спонтанной слитной речи практически топчется на месте с 70-х годов в силу неспособности компьютера эффективно анализировать неакустические характеристики речи.
Даже Билл Гейтс, являющий собой идеал прагматизма, оказался не свободен от исторически сложившихся стереотипов. Начав в 1995-1996 году с разработки собственной универсальной системы распознавания речи, он провозгласил очередную эру повсеместного внедрения речевого интерфейса.
Средства речевого интерфейса до сих пор планируется включить в стандартную поставку новых версий чисто офисной операционной системы. При этом руководитель Microsoft упорно повторяет фразу о том, что скоро можно будет забыть о клавиатуре и мыши. Вероятно, он планирует продавать вместе с коробкой Windows NT акустические шлемы вроде тех, которые используют военные летчики и пилоты "Формулы 1". Кроме того, неужели Microsoft в ближайшем будущем прекратит выпycк Word, Excel и т.д.? Управлять графическими объектами экрана голосом, не имея возможности помочь руками, более чем затруднительно.
Говоря о речевом интерфейсе, часто делают упор на распознавание речи, забывая о другой его стороне речевом синтезе. Заглавную роль в этом перекосе сыграло бурное развитие в последнее время систем, ориентированных на события, в значительной степени подавляющих отношение к компьютеру как активной стороне диалога.
Еще относительно недавно (лет тридцать назад) подсистемы распознавания и синтеза речи рассматривались как части единого комплекса речевого интерфейса. Однако интерес к синтезу пропал достаточно быстро.
Во-первых, разработчики не встретили даже десятой доли сложностей, с которыми они столкнулись при создании систем распознавания.
Во-вторых, в отличие от распознавания синтез речи не демонстрирует значительных преимуществ перед другими средствами вывода информации из компьютера. Практически вся его ценность заключается в дополнении речевого ввода.
Важным для разработки речевого интерфейса является учет того факта, что для человека естественным и привычным является именно диалог, а не монолог. Как следствие недооценки необходимости речевого ответа появляется повышенная утомляемость операторов, монотонность речи и ограниченность применимости речевого интерфейса.
Широко известен факт непроизвольной подстройки голоса под голос собеседника. Почему не использовать эту способность человека для увеличения безошибочности распознавания речи компьютером за счет корректировки произношения оператора с помощью двустороннего диалога?
Повсеместное проникновение графического пользовательского интерфейса было обеспечено за счет совместного применения графического монитора, как средства вывода графической информации, и мыши для ее ввода, а также, не в последнюю очередь, благодаря гениальным концептуальным находкам в области оконного интерфейса фирмы Xerox.
Будущее речевого интерфейса не в меньшей степени зависит от умения современных разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую логически завершенную систему взаимодействия "человек-компьютер".
3. МЕТОДЫ ОЗВУЧИВАНИЯ РЕЧИ И СИСТЕМЫ СИНТЕЗА РЕЧИ
3.1. Методы озвучивания речи
Рассмотрим наиболее распространенные методы озвучивания, то есть методы получения информации, управляющей параметрами создаваемого звукового сигнала, и способы формирования самого звукового сигнала.
Стратегии, применяемые при озвучивании речи, делятся на:
- стратегии построения действующей модели речепроизводящей системы человека, и
- стратегии моделирования акустического сигнала как такового.
Первый подход известен под названием артикуляторного синтеза.
Второй подход представляется на сегодняшний день более простым, поэтому он гораздо лучше изучен и практически более успешен. Внутри него выделяется два основных направления формантный синтез по правилам и компилятивный синтез.
Формантные синтезаторы используют возбуждающий сигнал, который проходит через цифровой фильтр, построенный на нескольких резонансах, похожих на резонансы голосового тракта. Разделение возбуждающего сигнала и передаточной функции голосового тракта составляет основу классической акустической теории речеобразования.
Компилятивный синтез осуществляется путем склейки нужных единиц компиляции из имеющегося инвентаря. На этом принципе построено множество систем, использующих разные типы единиц и различные методы составления инвентаря. В таких системах необходимо применять обработку сигнала для приведения частоты основного тона, энергии и длительности единиц к тем, которыми должна характеризоваться синтезируемая речь. Кроме того, требуется, чтобы алгоритм обработки сигнала сглаживал разрывы в формантной (и спектральной в целом) структуре на границах сегментов.
В системах компилятивного синтеза применяются два разных типа алгоритмов обработки сигнала:
- LР (сокр. англ. Linear Рreduction линейное предсказание) и
- РSOLA (сокр. англ. Рitch Sуnchronous Оvеrlap аnd Аdd).
LP-синтез основан в значительной степени на акустической теории речеобразования, в отличие от РSOLA-синтеза, который действует путем простого разбиения звуковой волны, составляющей единицу компиляции, на временные окна и их преобразования.
Алгоритмы РSOLA позволяют добиваться хорошего сохранения естественности звучания при модификации исходной звуковой волны.
3.2. Наиболее распространенные системы синтеза речи
Наиболее распространенными системами синтеза речи на сегодня являются системы, поставляемые в комплекте со звуковыми платами. Если компьютер оснащен какой-либо из них, существует значительная вероятность того, что на нем установлена система синтеза речи увы, не русской, а английской речи, точнее, ее американского варианта.
К большинству оригинальных звуковых плат Sound Blaster прилагается система Сreative ТехtАssist, а вместе со звуковыми картами других производителей часто поставляется программа Моnо1оgue компании First Byte.
TextAssist представляет собой реализацию формантного синтезатора по правилам и базируется на системе DECTalk, разработанной корпорацией Digital Eguipment при участии известного американского фонетиста Денниса Клана. DECTalk до сих пор остается своего рода стандартом качества для синтеза речи американского варианта английского.
Компания Сrеаtive Technologies предлагает разработчикам использовать ТехtАssist в своих программах с помощью специального ТехtАssistАpi (ААРI). Поддерживаемые операционные системы МS Windows и Windows 95. Для Windws NT также существует версия системы DЕСТаlk, изначально создававшейся для Digital Units.
Новая версия ТехtАssist, разработанная фирмой Аssotiative Computing с использованием технологий DЕСTа1k и Сrеаtivе, является в то же время многоязычной системой синтеза, поддерживая английский, немецкий, испанский и французский языки. Это обеспечивается прежде всего использованием соответствующих лингвистических модулей, разработчик которых фирма Lеrnout& Наuspie Sреесh Рrоducts, признанный лидер в поддержке многоязычных речевых технологий.
В новой версии имеется встроенный редактор словаря, а также специализированное устройство ТехtRеаdеr с кнопочным управлением работой синтезатора в разных режимах чтения текста.
Программа Моnо1оguе, предназначенная для озвучивания текста, находящегося в буфере обмена МS Windows, использует систему РrоVоiсе.
РrоVоiсе компилятивный синтезатор с использованием оптимального выбора режима компрессии речи и сохранения пограничных участков между звуками, разновидность ТD-РS0LА. Рассчитан на американский и британский английский, немецкий, французский, латино-американскую разновидность испанского и итальянский языки.
Компания First Вуtе позиционирует систему РrоVоicе и программные продукты, основанные на ней, как приложения с низким потреблением процессорного времени. FirstByte также предлагает рассчитанную на мощные компьютеры систему артикуляторного синтеза РrimoVox для использования в приложениях телефонии. Для разработчиков: Моnо1оguе Win32 поддерживает спецификацию Мicrosoft SAPI.
МВRОLA так называется система многоязычного синтеза, реализующая особый гибридный алгоритм компилятивного синтеза и работающая как под РС/ Windows 3.1, РС/Windows 95, так и под Sun4. Впрочем, система принимает на входе цепочку фонем, а не текст, и потому не является, строго говоря, системой синтеза речи по тексту.
Формантный синтезатор Тru-Voicе фирмы Сеntigram Cоmmunication Соrporation (США) близок к описанным выше системам по архитектуре и предоставляемым возможностям, однако он поддерживает больше языков: американский английский, латино-американский, испанский, немецкий, французский, итальянский.
Кроме того, в этот синтезатор включен специальный препроцессор, который обеспечивает быструю подготовку для чтения сообщений, получаемых по электронной почте, факсов и баз данных.
Слайд 1
Слайд 2
Слайд 3
Слайд 4