Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

Подписываем
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Предоплата всего
Подписываем
ИНФОРМАТИКА
Вопрос 22. Системы клонирования голоса
Системы клонирования голоса предназначены для замены параметров речевого сигнала, характеризующих тембр одного диктора, в параметры тембра другого диктора. При сохранении остальных характеристик речи неизменными. Эти системы очень сильно напоминают системы синтеза речи и по архитектуре и по исполнению.
Метод составления выдержек предполагает акцент на выделение характерных фрагментов (как правило, предложений). Для этого методом сопоставления фразовых шаблонов выделяются блоки наибольшей лексической и статистической релевантности. Создание итогового документа в данном случае просто соединение выбранных фрагментов.
В большинстве методов применяется модель линейных весовых коэффициентов. Основу аналитического этапа в этой модели составляет процедура назначения весовых коэффициентов для каждого блока текста в соответствии с такими характеристиками, как расположение этого блока в оригинале, частота появления в тексте, частота использования в ключевых предложениях, а также показатели статистической значимости. Сумма индивидуальных весов, как правило, определенная после дополнительной модификации в соответствии со специальными параметрами настройки, связанными с каждым весом, дает общий вес всего блока текста U:
Weight(U) := Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U)
Весовой коэффициент расположения (Location) в данной модели зависит от того, где во всем тексте или в отдельно взятом параграфе появляется данный фрагмент в начале, в середине или в конце, а также используется ли он в ключевых разделах, например, вводной части или в заключении.
Ключевые фразы представляют собой лексические или фразовые резюмирующие конструкции, такие как «в заключение», «в данной статье», «согласно результатам анализа» и так далее. Весовой коэффициент ключевой фразы может зависеть также и от принятого в данной предметной области оценочного термина, типа «отличный» (наивысший коэффициент) или «малозначащий» (значительно меньший коэффициент).
Кроме того, при назначении весовых коэффициентов в этой модели учитывается показатель статистической важности (StatTerm). Статистическая важность вычисляется на основании данных, полученных в результате анализа автоматической индексации, при котором исследователи выявляют и оценивают целый ряд метрик, определяющих весовые коэффициенты термина. Эти метрики позволяют выделить документ из числа других в определенном наборе документов.
Одна группа метрик, например, метрика tf.idf, характеризует баланс между частотой появления термина в документе и частотой его появления в наборе документов (как правило, используется с другими метриками частоты и средствами нормализации длины).
И, наконец, эта модель предполагает просмотр терминов в блоке текста и определение его весового коэффициента в соответствии с дополнительным наличием терминов (AddTerm) появляются ли они также в заголовке, в колонтитуле, первом параграфе и в пользовательском профиле запроса. Выделение приоритетных терминов, наиболее точно отражающих интересы пользователя, это один из путей настроить реферат или аннотацию на конкретного человека или группу.
На аналитическом этапе применяется модель линейных весовых коэффициентов, предполагающая выполнение последовательности вычислений частоты и операций сопоставления строк или шаблонов, которые для каждого блока исходного текста выдают весовые коэффициенты четырех типов (Location, CuePhrase, StatTerm, AddTerm). Затем эти коэффициенты суммируются для каждого блока, после чего выбираются n блоков, обладающих наивысшей суммой коэффициентов (значение n может быть определено на основании степени сжатия) для включения в реферат.
Этот метод был создан еще в 60 70-х годах, но большинство систем, подготавливающих такого рода конспект на основе выдержек, до их пор используют данный подход.
Конечно, главное преимущество линейной модели заключается в простоте ее реализации. Однако выделение предложений (или параграфов), не учитывающее взаимоотношений между ними, приводит к формированию бессвязных рефератов. Некоторые предложения могут оказаться пропущены, либо в них могут встречаться «висящие» слова или словосочетания (слово или фраза, которые невозможно понять без другого слова или фразы). Есть множество работ, в которых делаются попытки решить эту проблему, в основном за счет разного рода «заплаток». В ряде подходов создается специальное окно для предыдущего предложения реферата, с помощью которого можно определить наличие смыслового разрыва или «висящего» слова. В других случаях предложения, содержащие «висящие» слова, исключаются из реферата, либо делаются попытки разрешения ссылок, которые предполагают такие слова, или их сверки путем краткого лингвистического анализа. При таком подходе степень сжатия уменьшается, т. к. в реферат привносится посторонняя информация. Кроме того, когда основной реферат уже сформирован, трудно восстановить исходный процент сжатия.
Вопрос 31. Технология смысловой обработки текстов TextAnalyst
Первичная обработка
Формирование частотного портрета текста
Перенормировка
Функциональность
Вопрос 38. Уровни языка
Язык членится на участки (планы, ярусы, уровни). Уровень - это крупная часть языка, состоящая из однородных единиц и включающая набор правил, регулирующих использование этих единиц, их группировку в классы и разряды. Уровни автономны, каждый уровень характеризуется особой единицей, предельной и минимальной для каждого уровня.
Различают следующие уровни: 1)фонемный, 2)морфемный, 3) лексический, 4) синтаксический, 5) семантический, 6) прагматический.
Уровнеобразующие единицы - сущность, отражающая характеристики объекта. Они характеризуются особой субстанцией, функциями, (15) в зависимости от уровня выделяют следующие:
1.фонема неделимая, единица, класс класс вариантов звука (аллофонов), фонему можно представить в виде набора дифференциальных признаков.
Функции -1. строительная 2. смыслоразличительная.
2.морфема - полноценная двусторонняя (имеет план выражения и план содержания) знаковая единица. Морфема обладает значением (лексическое, словообразовательное, грамматическое), но не является целостной единицей, не обладает грамматической оформленностью и смысловой самостоятельностью.
Функции - 1. семасиологическая (может выражать значение, например, суффикс л в глаголах указывает на прошедшее время - «проходила») 2. строительная.
3. слово (лексема) - целостная единица, обладающая морфологической оформленностью и смысловой самостоятельностью. Лексема (от греч. lexis слово, выражение, оборот речи) слово как самостоятельная единица языка, рассматриваемая во всей совокупности своих форм и значений. В одну лексему объединяются разные словоформы одного слова (например, «словарь, словарём, словарю» и т. п.).
Функции - 1. минимальная номинативная единица (может называть вещи в отличие от морфемы) 2. строительная (входит в состав словосочетания и предложения).
4. предложение - минимальная коммуникативная единица языка (с помощью нее осуществляется общение). Предложение утверждает наличие объекта, оно обладает временной характеристикой, модальностью. Предложение отличается от слова по степени сложности выражаемого им смысла и функцией. Предложение -сочетание нескольких слов. Любое предложение строится на предикации (выделение какого-либо объекта и приписывание ему признака).
Функции - 1. номинативная 2, строительная.
5. текст - особая единица языка (не уровень, но единица), В тексте предложения связаны между собой по смыслу. Наличие связности - важное свойство.
Функции -1.коммуникативная 2. информативная.