Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

тематической лингвистики филологического факультета СанктПетербургского государственного университета.html

Работа добавлена на сайт samzan.net:

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 10.6.2024

При построении Принстонского WordNet использовались результаты психолингвистических экспериментов.

Авторы RussNet используют дефиниционный анализ, контекстный и статистический анализ (учитывают частоту появления анализируемых слов в некотором корпусе текстов).

В процессе дефиниционного анализа предполагается обращение к традиционным толковым словарям. Авторы RussNet используют МАС.

Какие слова отобрать для включения в RussNet?

В рамках проекта RussNet было принято решение о построении ядра компьютерного словаря на базе корпуса современных текстов. Этот период, по мнению авторов, начинается с середины 80-х годов (конца "советской эпохи") до настоящего времени. В отношении тематического распределения текстов была выбрана достаточно стандартная схема преобладания газетных текстов (40%) как жанра, наиболее быстро откликающегося на изменения в языке, достаточно экспрессивного и вариативного; большой доли (30%) научно-популярных текстов как экспрессивно нейтральных и описывающих реалии не только обыденной жизни, но и других сфер; небольшая часть (20%) отрывков из художественной литературы, причем важным является отсутствие произведений, взятых целиком, а также больших фрагментов текстов (свыше 5 тысяч словоупотреблений), которые могли бы создавать идиолектные «флуктуации» употребления значений слов в корпусе; небольшая часть (10%) текстов законов, договоров, инструкций и проч., обеспечивающая конструкциями современных клише делового употребления слов.

Имеющийся корпус текстов, состоящий из 21 миллиона словоупотреблений, используется для отбора единиц, которые соответствуют ядру общеупотребительной лексики русского языка. Предполагается, что эти слова задают верхние уровни гипонимической иерархии и вершины деревьев в RussNet. Первоначально были отобраны слова с частотой более 120 вхождений на 1 млн. словоупотреблений. В их число входят около 500 существительных, 200 глаголов, 200 прилагательных, и 100 наречий. Полученную совокупность была дополнена словами, соответствующими так называемому «ядру языкового сознания русских», т. е. словами, появляющимися в ответах испытуемых при ассоциативном эксперименте наиболее часто, и следовательно, связанными с наибольшим количеством других слов (более 100 обратных ассоциаций), например, человек, дом, жизнь, вода, день, лес, работа, книга, стол, город, друг, любовь, радость; есть, идти, думать, жить, большой, красивый, хороший; плохо, быстро, много и др.

Разбивая на классы полученную совокупность слов, можно получить  представление о количестве родовидовых деревьев в RussNet, однако выполнение этой задачи осложняется тем, что наиболее частотные слова русского языка являются и наиболее многозначными. Поэтому далее необходимо выделить наиболее употребительные значения этих слов. Для этой цели авторы используют корпус, из которого при помощи программы Бонито, разработанной сотрудниками Университета им. Масарика, извлекаются контексты употребления рассматриваемых лексем.

Набор извлеченных контекстов для каждой лексемы размечается относительно схемы значений, представленных в толковом словаре (МАС) – иерархизация значений по частотности. Анализ контекстов позволяет выявить набор значений, которые следует представлять в компьютерном тезаурусе. В частности, единичные случаи реализации значений считаются окказиональными. Для разделения значений на окказиональные и узуальные вводится пороговое значение (1%) от общего числа контекстов, которое должна составлять доля контекстов, реализующих значение в корпусе, для включения его в структуру лексикализованных понятий компьютерного тезауруса. Для разграничения значений также используется параметр частотного представительства в совокупности контекстов.

В дополнение к  анализу контекстов с целью выбрать наиболее частотные значения, используется еще рамка валентностей. При этом считается, что отдельное значение должно иметь отдельную схему валентностей или сочетаемости с контекстом. Сочетаемость предикативных и признаковых слов определяется набором обязательных и факультативных активных валентностей, причем обязательной считается валентность, реализующаяся с частотой более 70-85% в контекстах рассматриваемого слова в корпусе современных текстов, а факультативной – та, которая реализуется с частотой более 15-30%. Окказиональные валентности представлены, как правило, менее, чем в 15% контекстов рассматриваемого слова. Выделение валентностей осуществляется на основе функционально-синтаксических позиций при слове, которые фиксируются тремя параметрами: (1) функцией, определяемой вопросом, на который отвечает заполняющая форма; (2) формой поверхностного выражения валентности; (3) семантическим типом слова, занимающего валентную позицию. Например, для глагола направится в корпусе из 21 млн. словоупотреблений было найдено 358 контекстов употреблений в значении «двинуться в каком-л направлении», контексты составили практически 100% общего числа контекстов употребления данного слова, поскольку в другом значении это слово было употреблено лишь один раз. Употребление в этом значении предполагает 2 обязательные валентности: (1) упоминание лица (группы лиц), которое совершает движение, причем, как правило, конкретный способ передвижения указан в непосредственной близости от данного (часто в составе того же самого предложения); (2) направления движения, которое представлено конструкцией "к + N3" (44%) (к дивану, к другу, к спуску, к нему…), называющей чаще (36%) место локализации, а реже (8%) – лицо (лиц), по направлению к которым ориентировано движение; в небольшом числе случаев происходит сочетание этих частотных поверхностных структур (локализация + лицо); вторая частотная конструкция "в + N4" (27%) указывает на направление пространственной локализации движения (в комнату, в деревню, в угол гостиной…); окказионально встречаются конструкции "в сторону + N2", "на + N4", "по + N3".

Словарная дефиниция МАС «двинуться куда-л, в какую-л сторону, в каком-л направлении» перечисляет и частотные, и низкочастотные типы реализации валентности направления. Помимо лица, позицию первой валентности может занимать название транспортного средства и даже неодушевленного объекта, однако, такие примеры составляют 1% от общего числа контекстов. Окказиональные валентности (менее 10%) представлены также способом действия (решительно, прямо, напрямик и т.п.), указанием целевого действия (курить, изучать и т.п.), местом действия (по берегу, через парк, по суше и т.п.), начальной точкой движения (из Вифании).

Итак,

(1) Словарь опирается на сбалансированный корпус современных текстов; для RussNet он включает тексты 1985-2004 годов общим объемом около 21 млн. словоупотреблений, основу (60%) которого составляют газетные и журнальные статьи на темы повседневной жизни, экономики, политики, науки, культуры и спорта в сочетании с фрагментами литературно-художественных текстов (15%), деловыми текстами и законами (10%), фрагментами научных трудов (15%).

(2)  Ядерная структура тезауруса задается примерно двумя тысячами наиболее частотных слов (существительных, глаголов, прилагательных, наречий), которые встречаются более 100 раз на миллион словоупотреблений1 в корпусе современных текстов.

(3) Разные значения некоторого слова, представленные в тезаурусе, упорядочены в соответствии с частотностью их употребления в корпусе текстов.

(4) В wordnet-словарях представлена, как правило, общая, нетерминологическая лексика, хотя расширения базовой структуры будут включать терминологические элементы, которые тесно связаны с определенными тематическими областями.

(5) Элементы синонимического ряда различаются стилистической окраской и частотностью употребления в корпусе. При этом один из синонимов является доминантой синсета – наиболее частотным, нейтральным способом выражения лексического значения в данном языке; остальные элементы ряда значительно уступают доминанте в частотности и закреплены обычно за какой-либо функциональной сферой использования языка.

(6) Основным инструментом при разграничении значений слова в RussNet является контекстный анализ.

Анализируя структуру контекста слова в корпусе текстов, авторы выделяют статистически значимые маркеры, в качестве которых может выступать и определенная грамматическая форма, и принадлежность к некоторому семантическому дереву родовидовой иерархии RussNet, или оба этих показателя вместе. Эти признаки должны проявляться устойчиво: более чем в 33% контекстов для рассматриваемого значения в корпусе; контекстные маркеры задают рамку валентностей для некоторого значения слова.

(7) Значения слов, частотность появления которых в корпусе составляет менее 1% контекстов для слова, считаются окказиональными (неустойчивыми) и не включаются в тезаурусное описание.

1




1. Современные педагогические технологии
2. На тему- Вивчення спектральних закономірностей атома водню та визначення сталої Рідберга
3. тематические модели на 4 семестр очная форма обучения Рабочую про
4.  Все растения и животные организмы на Земле состоят из углерода и водорода т
5. Стебель
6. Мировые религии Отечественная культура XX века
7. за которых может тормозить компьютер- 1
8. тематика Способы питания растений Прокариоты и эвкариоты Отличия царства растения грибо
9. Журналистика на 1 семестр 2013-2014 уч
10. романтического ореола
11. Тема- Сервісні операції з дисками
12. Пенсионная реформа в Российской Федерации1
13. а экотоп переходит в биотоп
14. ТЕМА 6 ЭКОНОМИЧЕСКИЙ РОСТ Перед изучением данной темы внимательно прослушайте введение по теме
15. действенным приемам обучения
16. Хранение информации в персональном компьютере
17. распространяемая в любой форме с помощью любых средств информация о физическом или юридическом лице товар.html
18. Предмет и задачи политологии
19. Челябинский государственный педагогический университет ФГБОУ ВПО ЧГПУ Профессиональнопедагогиче
20. Реферат по курсу Административное право Вариант 27.html