У вас вопросы?
У нас ответы:) SamZan.net

ВВЕДЕНИЕ Становление современного информационного общества приводит к изменениям во всех сферах деятельн

Работа добавлена на сайт samzan.net:

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 29.12.2024


ВВЕДЕНИЕ

Становление современного информационного общества приводит к изменениям во всех сферах деятельности человека. Использование информационных технологий позволяет пользователю более быстро и эффективно получить необходимую информацию. Сегодня информационные технологии широко используются в отечественном и зарубежном литературоведении, открывают новые возможности для обработки и анализа текстов (в том числе и анонимных).

Актуальность нашей работы обусловлена недостаточным освещением данной проблемы в отечественной науке.

Цель реферата − ознакомить с современными информационными технологиями, которые используются в литературоведении.

Реализация поставленной цели требовала решения следующих задач:

  1.  изучить научную литературу по теме реферата;
  2.  описать современные информационные технологии, которые используются литературоведами;
  3.  установить основные направления использования информационных технологий в литературоведении.

Цель и задачи определили структуру реферата.

Реферат состоит из 1 главы, которая включает 5 разделов.

В первом разделе говорится о применении ЭВМ в стилистических исследованиях; о статистических методах, которые применяются в литературоведении; раскрывается понятие атрибуции текста и специфика программы «Лингвоанализатор», а также актуальность создания подобной программы на белорусском языке для применения в современном литературоведении.

Во втором разделе обращается внимание на создание частотных словарей (по отдельным авторам, целым произведениям или определённой эпохе) и их использование в современном литературоведении для установления авторства «спорных» текстов.

Третий раздел посвящен созданию обратных словарей и словарей рифм с помощью компьютерных технологий; нами также обосновывается необходимость создания подобных словарей на белорусском языке.

В четвёртом разделе раскрывается понятие компьютерной лексикографии, описаны её задачи; обосновывается необходимость создания электронных словарей и энциклопедий для современного литературоведения; подробно описывается первая русская электронная компьютерная энциклопедия в сфере литературоведения «Всё о Пастернаке».

В пятом разделе обращается внимание на использование ЭВМ для обработки древних текстов и создание информационно-поисковой системы на основе агиографического жанра.


  1.  Использование информационных технологий в литературоведении

В условиях информационного общества невозможно представить работу современного учёного (в том числе и литературоведа) без использования компьютерных технологий. Ознакомившись с литературой по информатике, мы пришли к выводу, что современные информационные технологии широко используются в литературоведческих исследованиях и значительно облегчают работу учёного-литературоведа. Подробно остановимся на описании некоторых из них.

  1.  Применение ЭВМ в стилистических исследованиях. Статистическая обработка текста

Оценка особенностей текстов, принадлежащих к различным стилям, выявление индивидуальных стилистических особенностей авторов представляют собой достаточно сложный процесс, поскольку для решения таких задач необходимо исследовать тексты большого объёма. Поэтому ЭВМ всё чаще используются для проведения таких исследований.

Научные работы по этой проблеме позволяю нам сделать вывод, что для оценки текстов, которые принадлежат к различным языковым, речевым и авторским стилям, могут быть использованы следующие текстовые характеристики:

  1.  длина слова в буквах;
  2.  длина предложения в словах;
  3.  частота употребления существительных;
  4.  частота употребления прилагательных;
  5.  частота употребления глагола;
  6.  частота употребления наречий;
  7.  структура предложения;
  8.  частота употребления подлежащего;
  9.  частота употребления сказуемого;
  10.  типы используемых придаточных предложений;
  11.  частота употребления временных форм глагола;
  12.  частота употребления отдельных служебных слов (частиц, союзов, предлогов):
  13.  частота употребления слов определённой семантической группы;
  14.  иные характеристики.

Статистические методы в языкознании − это методы использования счёта и измерений для изучения языка и речи. Объектом их применения обычно является текст (в первую очередь его лексический состав).

«Использование разных слов, с одной стороны, позволяет каждому человеку при построении предложений выдерживать индивидуальность, а с другой стороны, каждую индивидуальность речи можно отличить формальными математическими характеристиками текста» [1, p. 83]. На это обстоятельство впервые обратил внимание русский учёный Н.А. Морозов (1854−1946): «Каждый «литературно образованный» человек знает, что все оригинальные авторы отличаются своим складом речи, даже в том случае, если мы сравниваем их с писателями того же самого поколения. В английской литературе склад речи Теккерея совсем не похож на склад речи Диккенса. Возьмём хотя бы в нашем русском языке два легко заменяемых друг другом выражения: «так как» и «потому что»… В оригинале одни авторы могут машинально употреблять почти исключительно первую из этих «служебных частиц речи», редко вспоминая о существовании второй, другие же авторы поступят совершенно наоборот» [1, p. 83]. По мнению этого исследователя, служебные частицы распоряжаются нашей речью, поэтому он предлагает называть их распорядительными частицами (с их помощью различают индивидуальные особенности склада речи писателя). Для этого, по мнению Н.А. Морозова, надо перевести распорядительные частицы на графики, обозначая их на горизонтальной линии, а число их повторений − на вертикальной, и сравнить эти графики у различных авторов. Подобные графики были названы лингвистическими спектрами, а исследование различных текстов с их помощью − лингвистическим анализом. Предложенная им технология этого анализа заключена в следующем: отсчитывается первая тысяча слов любого текста и подсчитывается количество употреблений в этом фрагменте той или иной служебной частицы. По подсчётам Н.А. Морозова оказалось, что часто повторяющимися у русских авторов являются предлоги в, на, с. Современные же компьютерные технологии позволяют проверить результаты исследователя. Так, для произведений одного автора графики имеют одинаковый количественный и качественный характер, в то время как для произведений различных авторов графики резко отличаются (последнее характеризует индивидуальность каждого автора).

При машинных стилистических исследованиях определяется принадлежность текстов к разным языковым стилям и жанрам, выявляются индивидуально-авторские особенности стиля писателя путём анализа его текстов большого объёма. Так, по подсчётам А.В. Зубова и А.А. Лихтаровича, в процессе анализа трёх стилей русского языка (драматургия, публицистический и научный) средняя длина слова в текстах этих стилей оказалась равной 4,74; 5,6 и 6,46 буквы соответственно [2, p. 88]. Сравните: в немецкой художественной литературе среднее число слогов в слове 1,5−1,9; научной − 1,9−2,3 (английской 1,5−1,8). В то время как в английской литературе эти показатели следующие: 1,3−1,5 и 1,5−1,8 слогов в художественной и научной литературе соответственно [3, p. 37]. Результаты по авторам: самые скупые на слоги Райнер Мария Рильке, Эрнест Хемингуэй (в литературоведении его стиль определяется как «нулевой градус письма»), Чарльз Диккенс, самые щедрые Карл Маркс и Александр Гумбольдт [3, p. 37]. 

Отметим, что индивидуальность авторского стиля проявляется также в употребительности различных типов придаточных предложений. В таблице 1  приведены данные (в %) об употребительности различных типов придаточных предложений у различных авторов, полученные при помощи компьютера:

Тип придаточного предложения (в %)

Авторский стиль

подлежащное

условия

цели

времени

причины

Шолохов М.

4,7

1,9

5,6

18,7

3,3

Леонов Л.

6,7

4,9

6

9,6

6,4

Таблица

Однако компьютер по формам слов не может определить со 100-процентной вероятностью тип предложения. Поэтому использование компьютером стилевых показателей возможно только в том случае, если текст перед вводом специальным образом готовится. С помощью специальной системы индексов (помет) указывается часть речи, время глагола, тип придаточного предложения и так далее.

Для атрибуции1

текстов можно использовать программу «Лингвоанализатор», разработанную Дмитрием Хмелёвым, аспирантом кафедры теории вероятностей Московского государственного университета имени М.В. Ломоносова. По сути, «Лингвоанализатор» − это первая в мире программа, которая позволяет литературоведам и текстологам с большой вероятностью установить авторство текста. Программа определяет имена трёх возможных его авторов, однако её недостатки, на наш взгляд, заключаются в относительно небольшом количестве (128) авторов, занесённых в базу данных и в способности анализировать только тексты отдельного жанра. Кроме того, «Лингвоанализатор» находит три произведения каждого из авторов, которые наиболее близки данному тексту, что в литературоведении можно объяснить влиянием одного автора на творчество другого. Применяемая методика определения авторства произведений основана на математической модели, в которой учтены такие формальные характеристики языка автора, как:

  1.  число служебных слов (предлогов, союзов и частиц);
  2.  используемые в словах морфемы (приставки, корни, суффиксы, окончания) и их последовательности;
  3.  сложность используемых грамматических конструкций;
  4.  собственно словарь, используемый автором.

Программа выдаёт меньше ошибок при анализе текстов большого объёма [4]. Мы считаем, что создание подобной программы на белорусском языке очень важно для отечественного литературоведения, ибо это позволить, например, установить авторство анонимных бесед2 19 столетия.

Проведение атрибуции особенно важно при изучении так называемых «спорных» произведений. Например, статистический анализ был использован в исследовании «Илиады» Гомера. Чтобы доказать, что Гомера не было, и все 24 песни «Илиады» − это самостоятельные произведения, соединенные в эпос позднее без значительной переработки с целью унификации, Л.С. Клейном была использована статистическая методика. Окончательный вывод исследователя состоит в том, что разное употребление предлогов и частиц указывает на то, что эти 24 песни были созданы различными авторами и позже объединены в единое целое [5, p. 39].

В Эдинбурге (Англия) был разработан аналитический метод, основывающийся на учете зависимости частоты употребляемого слова и длины предложения, в котором оно появляется. Этот метод получил название «диаграммы накапливающихся сумм». С его помощью установлено, что каждому человеку свойствен неизменный индивидуальный стиль. Например, стиль В. Скотта в «Антикварии» (1816) полностью совпадает с его стилем в «Замке опасностей», написанном после перенесённых 3 инсультов, в результате чего у писателя была нарушена речь. Этот метод позволяет выявить «инородные» вставки, обнаруживает попытки «сымитировать» авторский стиль. Приведём другой пример: английская писательница Джейн Остин не окончила повесть «Сандиция», которая обрывается на 73 предложении 11 главы. Литературоведами было установлено, что повесть была дописана другой писательницей (подтверждается с помощью этого метода).

Долгое время в СССР велись споры об авторстве известного романа-эпопеи о жизни донского казачества «Тихий Дон». Дело в том, что литературоведы и писатели (например, А. Солженицын) усомнились в авторстве М. Шолохова из-за молодого возраста автора (роман глубоко раскрывает жизнь и характер донского казачества) и отсутствия рукописи. В работу включились скандинавские учёные под руководством Г. Хьетсо, которые взяли тексты, бесспорно принадлежащие М. Шолохову, и тексты другого донского писателя − Ф. Крюкова, которому приписывалось авторство названного выше романа, и проанализировали их, выявив особенности творческой манеры каждого писателя. Так, учёные сравнили длину предложений, распределение частей речи, сочетание частей речи в начале и в конце предложения, частоту применения союзов в начале предложений, лексические группы, повторяемость слов при помощи вычислительной техники. Математическая статистика при контрольной выборке на ЭВМ 12 тысяч фраз была представлена исследователями в 250 таблицах. Вывод, к которому пришли исследователи: из двух претендентов на авторство «Тихого Дона» Ф. Крюком обладает меньшим правом. Позднее, в 1999 году, была найдена рукопись первых двух книг знаменитого романа, написанная рукой М. Шолохова, что окончательно утвердило право этого писателя на авторство.

Тот факт, что объём активного лексикона Шекспира составляет от 15 до 24 тысяч слов и что количество новых слов, введённых Шекспиром, превышает 3200 единиц, свидетельствует о том, что Шекспир − это коллективный псевдоним, под которым писал произведения не один человек. Сравните: у современного англичанина с высшим образованием словарный запас включает около 4 тысяч лексем.

Нужно отметить, что статистическая обработка текста также используется для восстановления текстов по их фрагментам (описание структуры текста на основании очень ограниченной исходной информации), что очень важно для проведения литературоведческих и текстологических исследований.

  1.  Создание частотных словарей и их значение для


  1.  литературоведения

Статистическая обработка текста используется также для создания частотных словарей3 по текстам отдельных авторов, произведений, предметных областей. Они являются основой для создания электронных словарей, компьютерных переводчиков, систем семантического поиска, реферирования и аннотирования текстов, автоматизации изучения стилистических особенностей отдельных авторов и так далее.

Машинные частотные словари составляются по всем текстам отдельных авторов (например, такие словари составлены по произведениям А.С. Пушкина, С. Есенина) и по отдельным произведениям авторов (известны частотные словари по «Капитанской дочке» А.С. Пушкина, «Незнакомке» А. Блока). Подобные словари дают возможность изучать стилистические особенности автора в сравнении с другими авторами, позволяют проследить за изменением стилистических особенностей отдельных авторов в разные периоды их творчества.

Заметим, что компьютер не может объединить различные словоформы в каноническую (словарную) форму, поэтому с его помощью строят лишь частотные словари словоформ (ЭВМ рассортировывает список словоформ по частоте и алфавиту). Алгоритм построения частотного словаря приведен в приложении.

Надёжные выводы по словарям о лексике определенной предметной области, об авторской манере письма можно получить лишь в том случае, если соответствующий частотный словарь построен по текстам достаточно большого объёма. Однако процесс построения частотных словарей очень сложный. То, что человек делает в течение 2−3 лет, машина может сделать за несколько месяцев (с учётом кодирования текстов на машинные носители информации). Чтобы составить подобный словарь вручную, нужно выбрать все страницы, где употреблялось каждое слово, и указать его адрес: том, страницу, произведение. Затем подсчитать, сколько раз встречается каждое слово в текстах. Распределить их по периодам творчества, жанрам, отдельным произведениям. Известно, что коллектив научных сотрудников трудился 20 лет, чтобы составить частотный словарь по полному собранию сочинений А.С. Пушкина. Просчитать требовалось около 600 тысяч слов, причём свыше 21 тысячи слов в текстах были различны. В итоге, каждое слово было выписано на отдельную карточку, содержащую адрес слова. С помощью ЭВМ составлены частотные словари М. Лермонтова (за 600 часов), С. Есенина, Т.Г. Шевченко и других поэтов и писателей [6, p. 73].

Считаем нужным отметить, что создание частотных словарей имеет важное практическое значение для современного литературоведения, потому что их помощью определяется авторство «спорных» текстов. Общеизвестно, что в юношеском возрасте М.Ю. Лермонтов написал несколько «юнкерских» поэм, которые не были опубликованы (существовали в списках). Стиль поэм М.Ю. Лермонтова имитировали и другие писатели. Для того чтобы определить, какие из дошедших в списках поэм принадлежат М. Ю. Лермонтову, и используются литературоведами и текстологами частотные словари. Например, если в «спорном» тексте «лермонтовские» слова встречаются так же часто, как и в произведениях, бесспорно написанных М. Ю. Лермонтовым, то, скорее всего, и этот текст написан им.

Заметим, что текстов, авторство которых до конца не установлено, в истории мировой литературы достаточно много. Например, датский исследователь А. Кристенсен полагает, что не все рубаи4 (из 500 только 12) Омара Хайяма принадлежат этому поэту. В этом случае литературоведы и текстологи могут проверить авторство, в том числе с помощью частотных словарей.

Как нами уже отмечалось, у каждого писателя свой стиль, своя манера изложения материала, что, безусловно, находит отражение в частотных словарях. Частотные словари авторов определённой эпохи дают возможность языковедам и литературоведам проанализировать развитие литературного языка в этот период.

  1.  Создание обратных словарей. Словари рифм

С помощью ЭВМ составляются и обратные словари, в которых слова размещаются по алфавиту, однако сначала идут слова, которые оканчиваются на «а», в конце словаря − слова на «я» (например, «жаба», «раба», «последняя», «передняя»). Так, обратный словарь русского языка, составленный ЭВМ, включает 150 тысяч слов [6, p. 76].

С помощью компьютера составляются и словари рифм. Например, в США в 1974−1975 годах под руководством профессора Д.Т. Шоу были выпущены словари рифм Пушкина, Батюшкова, Баратынского. Отметим, что подобные словари важны не только для изучения творчества ранее названных поэтов, но и могут быть полезными, например, литературоведам при изучении поэзии и языка конкретной эпохи. Так, словарь рифм А.С. Пушкина включает 3 раздела: словарь концевых слов (нерифмованных и рифмованных), свод рифм (собственно словарь рифм), и указатель стихотворных произведений [7, pp. 196-201]. 

Считаем необходимым подробнее остановиться на описании структуры словаря рифм. Словарь концевых слов включает 3 части: первую (основную) − слова, написанные кириллицей, вторую − латиницей, третью − непечатные слова, представленные в словаре дефисами, заменяющими буквы. Слова приводятся в тех же формах, что и в базовом тексте (например, слово амура повторяется два раза − в родительном и винительном падеже) с грамматическими пометами. Около каждой лексемы указаны две цифры: первая обозначает число строк, где она является концевым срифмованным, вторая − число строк, где она концевое, но не срифмованное. Также в лексемах помечаются гласные последних слогов, а предударная часть отделена апострофом.

Свод рифм включает 4 части (соответственно типам клаузул): рифмы с мужскими, женскими, дактилическими и гипердактилическими клаузулами соответственно. Каждая часть делится на рифмованные гнёзда, в которых объединены слова с идентичными рифмованными сегментами. Рифмованный сегмент у большинства слов совпадает с заударной частью (в тех случаях, когда заударная часть состоит из одной гласной, рифмованный сегмент содержит предударную согласную: разорв’ал − очаров’ал, текл’и − дал’и). Рифменный сегмент выносится в заголовок с тремя цифрами, которые обозначают: число концевых слов, что сожержат этот сегмент; число рифмованных и не рифмованных строк, что оканчиваются этим сегментом. Например: (−’еком 4 4 1). Рифменные гнёзда построены в алфавитном порядке заударных частей сегментов.

Указатель произведений − это список с названиями произведений автора, расположенный по хронологическому принципу. У каждого заглавия указывается расположение произведения в исходном тексте, а также код и числовой порядковый номер, год и статистические показатели.

Отметим, что создание подобных словарей также занимает много времени, ведь сначала нужно обработать исходные тексты вручную. Позже в ходе машинной обработки выдаётся готовый свёрстанный текст, готовый к печати.

Однако словарь рифм Пушкина, выпущенный Д.Т. Шоу, имеет значительные недостатки: он основан на графических свойствах рифм, а не на фонетических. Вследствие такого подхода  лексемы, которые обладают идентичными рифменными сегментами, попадают в разные рифменные гнёзда. Например, поп − лоб, искусство − чувство. В то время как при фонетическом подходе учитываются: омонимичность, звуковые характеристики рифм. За разработку словаря рифм Пушкина, построенного по фонетическому принципу, взялся советский учёный В.Е. Холшевников. По замыслу этого ученого, второй раздел (свод рифм) включает 4 части (по типу клаузул), а каждая часть − рифменные гнёзда (соответствуют фонетическим рифменным сегментам). При этом должно учитываться правило оглушения согласных, что ярко отражает особенность произношения русских слов.

Создание словарей рифм классических белорусских поэтов (например, Я. Купалы, Я. Коласа, М. Богдановича), на наш взгляд, имеет важное практическое значение для отечественного и зарубежного литературоведения.

  1.  Значение создания электронных словарей и энциклопедий для современного литературоведения

Как известно, объёмы печатных текстов с каждым годом увеличиваются, и возникают проблемы хранения и поиска необходимой информации. Помочь решить подобные проблемы должна компьютерная лексикография. Компьютерная лексикография − это раздел прикладной лингвистики, который ставит целью создать компьютерные словари и лингвистические базы данных [8, p. 65]. К основным задачам компьютерной лексикографии относятся:

1) определение структуры словаря и зон словарной статьи;

2) разработка принципов составления различных видов словарей.

Энциклопедией называется научно-популярное или научное издание, которое содержит систематизированный блок знаний.

Отличие электронных словарей и энциклопедий заключается в гипертекстуальности. Например, гиперссылки могут быть заложены за любым элементом словарной статьи, что позволяет пользователю быстро осуществлять переход к необходимой информации, находить синонимы и антонимы к исходному слову, слова той же семантической группы и многое другое. Гиперссылки позволяют легко связать разные словари друг с другом. Получив некую информацию, например, о значении некой лексемы, пользователь может быстро перейти по ссылке к комментированию этой лексемы в других словарях (например, терминологических). Считаем необходимым подробнее остановиться на преимуществах электронных словарей и энциклопедий:

1) электронные словари и энциклопедии позволяют по-разному представить содержание словарной статьи, в том числе с помощью разных графических и мультимедийных средств;

2) можно быстро получить информацию, которая находится в «недрах» словаря, и отвечает определенному запросу;

3) электронные словари и энциклопедии быстро реагируют на изменения (например, языковые), поэтому внесение изменений в него не занимает много времени. Так, в результате реформы белорусского правописания 2008 года в Республике Беларусь возникла необходимость переиздавать научную литературу в области литературоведения: поэтические словари, словари литературоведческих терминов и так далее.

Поэтому мы считаем, что компьютерная лексикография является перспективным и очень важным направлением компьютерной лингвистики (в том числе и белорусской), ибо созданные ею продукты отличаются мультимедийностью, объединением новейших технологических решений и способностью дать пользователю доступ к необходимой информации.

Подробнее остановимся на описании первой русской электронной компьютерной энциклопедии в сфере литературоведении. Работа по созданию компьютерной энциклопедии Бориса Пастернака (ПИСК ПАСТЕРНАК, или Поисково-Информационная Система Компьютерная «Всё о Пастернаке») началась в 1997 году [9, p. 315]. Это объясняется тем, что Борис Пастернак является одним из наиболее изучаемых русских поэтов 20 века, о котором написано огромное количество трудов (возникла потребность в систематизации этого материала). Действительно, за период своего творчества гениальный поэт опубликовал роман в стихах, десять книг лирики, поэмы и статьи, перевёл огромное количество поэтических произведений с английского, французского, украинского немецкого и иных языков, чем и объясняется огромное количество критического материала об этом писателе.

Предполагается, что на компакт-дисках будет размещено полное собрание сочинений, а также критические и биографические материалы о гениальном русском писателе. В результате любой пользователь (в том числе и литературовед) может в кратчайший срок получить необходимую информацию, связанную с жизнью и творчеством Бориса Пастернака. Так, в системе имеются текст и словари (алфавитный и частотный). Например, в частотном словаре слова расположены таким образом, что сначала расположены наиболее частотные слова определённого произведения (то есть по убыванию). Так, не прочитав произведения, можно предполагать о теме того или иного произведения. Например, частотный словарь по очерку «Люди и положения» Бориса Пастернака (с указанием в скобках количества употребления) выглядит следующим образом: год (62), жизнь (38), человек (35), время (34), дом (32), Маяковский, новый (по 28), музыка (26), отец (24), большой, поэт, Цветаева (по 22), Блок, мир, Москва (по 21). На основании этих данных можно говорить, что в названный ранее очерк посвящен теме поэта и поэзии

Электронная энциклопедия включает следующие основные разделы: «Поэзия», «Проза», «Музыкальные произведения Пастернака», «Критика о Пастернаке», «События», «Спутники», «Иконография», «Звучащий Пастернак». Система позволяет прочесть на дисплее стихотворения и прозу, написанные в разное время, ознакомиться с частотным и алфавитным словарём, ознакомиться с биографией автора, стихотворными размерами, ритмом, поэтическим синтаксисом, системой рифм, строфикой, звуковым оформлением, критическими отзывами о любом произведении. Если возникнет необходимость, то пользователь может переписать интересующий его материал на дискету или вывести на печать.

Таким образом, ПИСК ПАСТЕРНАК совмещает черты собрания сочинений; факсимильного издания рукописей; алфавитного и частотного словарей; конкорданции (это значит, что выделив любое слово в словаре, читатель может увидеть в окне все случаи употребления этого слова в текстах поэта, а также название книги и произведения, с которого оно взято)

Считаем необходимым более подробно остановиться на описании структуры данной энциклопедии. Так, в разделе «Поэзия» читателю предложены тексты стихотворений, автографы, данные обо всех публикациях каждого поэтического произведения, алфавитный и частотный словари, словарь образов каждого стихотворения, метрические и ритмические характеристики, поэтический синтаксис и строфика.

Раздел «Проза» даёт возможность пользователю ознакомиться с текстом произведения, алфавитным и частотным словарями, данными о публикации прозаических текстов.

Раздел «Критика о Пастернаке» включает четыре окна, в одном из которых читатель видит название всех произведений. Пользователь должен навести курсор на то произведение, информацию о котором он хочет получить (1 окно). После этого в следующем (2) окне появляются фамилии критиков, которые проявляли интерес к его творчеству (насколько известно составителям энциклопедии). Следующее действие пользователя: навести курсор на имя того критика, который ему необходим. Тогда в (3) окне появляются названия, выходные данные критика об этом произведении. В (4) окне кратко излагается отзыв. Приведем пример:

ПРОИЗВЕДЕНИЯ: Когда разгуляется. АВТОР ОТЗЫВА: Баевский В. С. Данин Д. С., Иванова Т. В., Эткинд Е. Г. (Например, выбираем имена Данина и Эткинда). ВЫХОДНЫЕ ДАННЫЕ КНИГИ: Данин Д. С. Бремя стыда. М., 1996. О ЧЕМ ГОВОРИТСЯ: С. 6. О природе и истории. С. 152—153. О подмосковной природе. ВЫХОДНЫЕ ДАННЫЕ КНИГИ: Эткинд Е. Г. Материя стиха. М., 1998. О ЧЕМ ГОВОРИТСЯ: С. 353—354. О «звуковых метафорах».

Раздел «Музыкальные произведения Пастернака» содержит 3 нотных текста Бориса Пастернака, а их звучание − в разделе «Звучащий Пастернак». Данные, что содержатся в разделах «События» и «Спутники» дают дополнительную информацию о произведениях. Так, в разделе «События» описываются события, связанные с тем или иным произведением: Например, окно «СОБЫТИЯ» включает следующие данные о романе Бориса Пастернака «Доктор Живаго»: «Передача романа в «Новый мир» и «Знамя». В окне «КОГДА ПРОИЗОШЛО» размещена запись: «Март 1956 года». В окне «ПОЯСНЕНИЕ» появляются ссылки на страницы книг, в которых зарегистрирован этот факт.

Раздел «Иконография» включает рубрики: «Фотографии Пастернака», «Рисунки, гравюры, скульптуры», «Личные вещи», «По памятным местам». Например, в рубрике «Фотографии Пастернака» представлены снимки поэта и его родных. В раздел «Звучащий Пастернак» включены исполненные автором и артистами произведения.

Но всё же мы должны констатировать тот факт, что данная энциклопедия имеет некоторые недостатки. Основной её недостаток, на наш взгляд, заключается в том, что в данной энциклопедии освещены биографии и творчество Бориса Пастернака только 1950-х, поэтому ее нельзя считать завершенной.

Мы считаем, что опыт создания подобных энциклопедий должно перенять отечественное литературоведение. Например, в белорусском и мировом литературоведении накоплено достаточно много материала для создания энциклопедий Максима Богдановича, Василия Быкова и иных писателей, широко известных за рубежом. Например, с каждым годом увеличивается объём критического материала про Василия Быкова (его произведения переведены на 50 языков мира), в которых освещается его связь с французскими экзистенциалистами.

  1.  Автоматизация обработки древних текстов

Автоматическая обработка древних рукописей и подготовка их к последующему изданию привлекает сегодня специалистов из самых различных областей: литературоведов, текстологов, историков языка и так далее. Например, перед литературоведами и текстологами стоит задача объективно проанализировать текст с точки зрения языка, стилистических особенностей, установить авторство, место и время написания (по возможности).

При вводе древних текстов в компьютер исследователи могут столкнуться со следующей трудностью: нельзя использовать сканер, так как:

  1.  тексты древних рукописей нелинейные: имеются надстрочные знаки;
  2.  встречаются слитные написания 2 или более букв (лигатуры);
  3.  в самых ранних текстах нет деления на слова;
  4.  знаки препинания расставлены неверно;
  5.  нельзя использовать программу выявления опечаток и орфографических ошибок, так как одно и то же слово может иметь различные варианты написания.

После ввода текста его обязательно нужно выверить. Так, как в древних текстах отсутствуют орфографические нормы, то перед исследователем стоит ответственная задача: посимвольно сравнить введенный текст и исходный.

Затем на основании текста составляются конкордансы (для каждого слова приводятся все минимальные контексты), словоуказатели и индексы (слова расположены в алфавитном порядке с обязательным указанием адресов в тексте), словари (частотный, алфавитный или алфавитно-частотный). Например, в алфавитно-частотном словаре лексемы расположены в алфавитном порядке, причём для каждого из них указана частота в тексте.

Любая программа составления словарей включает 3 части:

  1.  ввод текста в оперативную память, выделение единиц текста и обязательное выделение их параметров (например, адресов);
  2.  сортировка единиц по определённому параметру (например, по частоте употребления);
  3.  вывод результата на экран, запоминающее устройство или принтер.

Важной проблемой, требующей решения, при составлении словарей является трудность определить грамматические характеристики словоформы а также отождествление разных графических вариантов лексемы.

Приведем пример разработки автоматизированного банка данных по памятникам русской агиографии (агиобиографиии)5 15−16 веков. Заметим, что русская филологическая школа достаточно долго исследовала древнеславянскую литературу конфессионального жанра. Исследования по автоматизации обработки древнерусских текстов начали проводиться в 1980 году на кафедре математической лингвистики ЛГУ, ИРЛИ АН СССР и ГПБ имени М.Е. Салтыкова-Щедрина [10, pp. 512-513]. Учёные обратились к изучению памятников агиографического жанра, потому что эти памятники были менее изученными и дают представление о развитии литературного языка 11−17 веков. Кроме того, создание подобного банка данных имеет большое значение для литературоведов, ибо он позволит проанализировать историю литературы и развитие литературного языка.

На первом этапе литературоведами была создана картотека канонизированных русских святых (причем были учтены разные издания текстов). Отметим, что работы по созданию электронного словаря на основе агиографического жанра на данный момент не окончены.

В процессе моделирования любого языка особое место занимают словоуказатели, ибо с их помощью можно получить ценную информацию о лексическом составе памятника. Планируется, что данный словоуказатель будет включать все словоформы одной лексемы с обязательным указанием её адреса. В дальнейшем информационно-поисковая система позволит пользователю ознакомиться:

  1.  с адресами словоформ;
  2.  с минимальным контекстом определённой словоформы;
  3.  с целым текстом памятника, в котором встречается запрашиваемая словоформа;
  4.  с грамматическими формами слова (это важная информация для историков языка);
  5.  с орфографическими нормами слова;

с обратным словарём словоформ.

В итоге пользователю необходимо будет указать словоформу, и компьютер выдаст для этого слова все контексты и адреса.

Отметим, что создание подобных информационно-поисковых систем важно для широкого круга пользователей: историков языка, текстологов, литературоведов, любителей языка.


Заключение

Как показало наше исследование, современные учёные-литературоведы широко используют в своей работе компьютерные технологии. Так, при машинных стилистических исследованиях определяется принадлежность текстов к разным языковым стилям и жанрам, выявляются индивидуально-авторские особенности стиля писателя путём анализа его текстов большого объёма. Для атрибуции же текстов литературоведы и текстологи могут использовать программу «Лингвоанализатор». Для восстановления текстов по их фрагментам (описание структуры текста на основании очень ограниченной исходной информации) литературоведами и текстологами может быть использована статистическая обработка текста.

Во всём мире ещё с 20 века создаются машинные частотные словари (отдельного произведения, языка писателя или определённой эпохи), с помощью которых литературоведы могут определить авторство «спорных» текстов или изучить стилистические особенности произведений по сравнению с произведениями других авторов, проанализировать эволюцию стилистических особенностей отдельных писателей в различные периоды их творчества.

Сегодня перспективным направлением прикладной лингвистики является компьютерная лексикография. Это, на наш взгляд, объясняется тем, что созданные ею продукты отличаются мультимедийностью, объединением новейших технологических решений и способностью дать пользователю доступ к необходимой информации. С помощью ЭВМ создаются обратные словари, словари рифм, электронные словари, энциклопедии, информационно-поисковые системы в области литературоведения. Мы считаем, что традиционная литература должна в скором времени перейти в электронную, ибо последняя имеет заметные преимущества над первой. Например, электронные словари и энциклопедии быстро реагируют на изменения (например, языковые), поэтому внесение изменений в него не занимает много времени.

На основе сказанного раннее, мы пришли к выводу, что в начале 21 века учёный-литературовед не может обойтись в своей исследовательской деятельности без информационных технологий.


БИБЛИОГРАФИЧЕСКИЙ СПИСОК

[1]

Бубнов, В.А. Формальный анализ авторской индивидуальности литературного произведения / А.В. Бубнов, А.В. Сурвило // Информатика и образование. −  2007. − № 8. − С. 83-87.

[2]

Зубов А.В. ЭВМ анализирует текст: Книга для учителя / А.В. Зубов, А.А. Лихтарович. − Минск: Народная асвета, 1989. − 159с.

[3]

Компьютерная обработка текста: учебно-методические указания для студентов филологического факультета и факультета иностранных языков / БрГУ имени А.С. Пушкина; составители М.П. Концевой, И.В. Секержицкий. − Брест: БрГУ имени А.С. Пушкина, 1999. −67 с.

[4]

http://rusf.ru.

[5]

Хроленко, А.Т. Современные информационные технологии для гуманитария: практическое руководство / А.Т. Хроленко, А.В. Денисов. − Москва: ФЛИНТА: Наука, 2007. − 128 с.

[6]

Кондратов, А.М. «Формулы чуда»: научно-художественная литература / А.М. Кондратов. − Москва: Детская литература, 1987. − 143 с.

[7]

Левин, М.Ю. Применение ЭВМ для составления словарей рифм / М.Ю. Левин // НТР и развитие художественного творчества: сборник / АН СССР, Научный совет по истории мировой культуры; редкол. Д,Д. Благой [и другие].−  Ленинград, Наука, 1980.− С. 198-202.

[8]

Щипицына, Л.Ю. Информационные технологии в лингвистике: учебное пособие / Л.Ю. Щипицына. − Москва: ФЛИНТА: Наука, 2013. − 128 с.

[9]

Баевский, В.С. Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы / В.С. Баевский. − Москва: Языки славянской культуры. − 336 с.

[10]

Аверина С.А. Автоматизация обработки древних текстов / С.А. Аверина, Е.Л. Алексеева, А.С. Герд // Прикладное языкознание: учебник / Санкт-Петербургский гос. ун-т; отв. редактор. А.С. Герд. − Сантк-Петербург: Издательство Санкт-Петербургского университета, 1996. − С. 509-513.

[11]

Баркоўская, Т. Сучасныя інфармацыйныя тэхналогіі ў літаратуразнаўстве / Т. Баркоўская // Роднае слова. − 2001. − № 4. − С. 78-83.

[12]

Зубов А.В. Информационные технологии в лингвистике: учебное пособие для студентов лингвистических факультетов высших учебных заведений / А.В. Зубов, И.И. Зубова. − Москва: Издательский центр «Академия», 2004. − 208 с.

1 Установление авторства анонимных текстов на основании неповторимого сочетания статистических параметров авторского текста.

2 Беседа − это один из з жанров фольклорной и авторской анонимной белорусской литературы 19 столетия; монолог или диалог (чаще стихотворный), в котором в форме беседы поднимались острые социально-политические (земля, воля, отмена крепостного права) и моральные (правда, обида, пьянство) проблемы.

3 Частотный словарь − это пронумерованный список слов какого-либо текста (множества текстов) с указанием абсолютной частоты (F) употребления этого слова во всем исследуемом тексте

4 Рубаи − четверостишия; форма лирической поэзии, широко распространённая на Ближнем и Среднем Востоке.

5 Жизнеописание святого.




1. установка-сброс Канал- 000 канал 011 102 113 Регистр запросов КПДП адрес 9h
2. сарматського часу
3. тема Перечислить органы государственного контроля торговли
4. темами образования стран Европы и Америки в университетах которых повсеместно используются доказавшие свою
5. Введение Производительность труда ~ основной показатель экономической эффективности производства отрасл
6. Причина сексуальных неудач у мужчин
7. Основные фонды1
8. Иван андреевич крылов как драматург, комедия трумф и её политический смысл
9. Курсовая работа- Учет и способы начисления амортизации основных средств
10. х годов он разработал модель спланированных изменений которая сегодня признана классической и используетс
11. Статья- Уход за ребенком
12. .1 Возникновение сюжетноролевой игры предпосылки ее возникновения В современной педагогике игра определя
13. Реферат- Особенности религиозной жизни османов
14. ПРПМатериальные ресурсы; Финансовые ресурсы; ПРП совокупность природных ресурсов территории необх
15. информационной экономики
16. контролю Необходимость планирования в бизнесе.1
17. Суздальская земля которая отделилась от Киева в 30х гг
18. гуманитарного образования- сравнительный анализ Беларусь Россия А
19. Метафизике и других трудах Аристотель развивает учение о причинах и первоначалах всего сущего
20. Конспект лекций ЛЕКЦИЯ 1 Предмет судебной медицины 1