У вас вопросы?
У нас ответы:) SamZan.net

Для представления текстовой информации достаточно 256 различных знаков

Работа добавлена на сайт samzan.net: 2016-03-30

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 7.3.2025

Информация, выраженная с помощью естественных и формальных языков в письменной форме, обычно называется текстовой информацией. Для представления текстовой информации  достаточно 256 различных знаков. По формуле можно вычислить, какое количество информации необходимо, чтобы закодировать каждый знак:

N = 2i => 256 = 2i => 28 = 2i => I = 8 битов.

Для обработки текстовой информации на компьютере необходимо представить ее в двоичной знаковой системе. Для кодирования каждого знака требуется количество информации, равное 8 битам, т. е. длина двоичного кода знака составляет восемь двоичных знаков. Каждому знаку необходимо поставить в соответствие уникальный двоичный код из интервала от 00000000 до 11111111.

Человек различает знаки по их начертанию, а компьютер - по их двоичным кодам. При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение знака преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу со знаком, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код знака). Код знака хранится в оперативной памяти компьютера.

Различные кодировки знаков. Присваивание знаку конкретного двоичного кода - это вопрос соглашения, которое фиксируется в кодовой таблице. В существующих кодовых таблицах первые 33 кода (десятичные коды с 0 по 32) соответствуют не знакам, а операциям (перевод строки, ввод пробела и т. д.).

Десятичные коды с 33 по 127 являются интернациональными и соответствуют знакам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Десятичные коды с 128 по 255 являются национальными, т. е. в различных национальных кодировках одному и тому же коду соответствуют разные знаки.

Текстовые редакторы. Для обработки текстовой информации на компьютере используются приложения общего назначения - текстовые редакторы. Текстовые редакторы позволяют создавать, редактировать, форматировать, сохранять и распечатывать документы.

Более совершенные текстовые редакторы, которые называют иногда текстовыми процессорами, имеют широкий спектр возможностей по созданию документов (вставка списков и таблиц, средства проверки орфографии, сохранение исправлений и др.).

Способы создания документов. В текстовых процессорах для создания документов многих типов со сложной структурой (письма, резюме, факсы и т. д.) используются мастера. Разработка документа с помощью мастера производится путем внесения необходимых данных в последовательно появляющиеся диалоговые панели.

Создание документов можно производить с помощью шаблонов. Они задают структуры документов, которые пользователь заполняет определенным содержанием. Текстовые процессоры имеют обширные библиотеки шаблонов для создания документов различного назначения (визитная карточка, реферат и др.)

Однако в большинстве случаев для создания документов используется пустой шаблон Новый документ, который пользователь заполняет содержанием по своему усмотрению.

Выбор параметров страницы. Любой документ состоит из страниц поэтому в начале работы над документом необходимо задать параметры страницы. Формат страниц документа определяет их размеры листа. Ориентация задает расположение страницы на экране монитора. Существуют две возможные ориентации страницы - книжная и альбомная. Для обычных текстов чаще всего используется книжная ориентация, а для таблиц с большим количеством столбцов - альбомная.

На странице можно установить требуемые размеры полей (верхнего и нижнего, правого и левого), которые определяют расстояния от краев страницы до границ текста.

Колонтитулы и номера страниц. Для вывода на каждой странице документа одинакового текста удобно использовать верхний и нижний колонтитулы. Расстояния от краев страницы до колонтитулов можно изменять. Страницы документа рекомендуется нумеровать, причем номера можно размещать вверху или внизу страницы по центру, справа или слева.

Ввод текста. Основой большинства документов является текст.  Для представления текстов могут использоваться 256 или 65 536 символов, однако не все эти символы возможно ввести с клавиатуры компьютера. Для ввода некоторых знаков математических операций букв греческого алфавита, денежных знаков и многих других символов используются таблицы символов.

Вставка изображений, формул и других объектов в документ. Большинство современных документов содержат не только текст, но и другие объекты (изображения, формулы, таблицы, диаграммы и т. д.). Текстовые редакторы позволяют вставлять в документ изображения, созданные в графических редакторах, таблицы и диаграммы, созданные в электронных таблицах, и даже звуковые и видеофайлы, созданные в соответствующих приложениях.

Копирование, перемещение и удаление фрагментов документа. 

  1.  Редактирование документа производится путем копирования, перемещения или удаления выделенных символов или фрагментов документа
  2.  Копирование позволяет размножить выделенный фрагмент документа, т. е. вставить его копии в указанные места документа:
  3.  Перемещение позволяет вставить копии выделенного фрагмента в указанные места документа, но удаляет сам выделенный фрагмент.
  4.  Удаление позволяет удалить выделенный фрагмент.

Поиск и замена. В процессе работы над документом иногда бывает необходимо заменить одно многократно встречающееся слово на другое. Если делать это вручную, то процесс замены отнимет много времени и сил.

К счастью, в большинстве текстовых редакторов существует операция найти и заменить, которая обеспечивает автоматический поиск и замену слов во всем документе.

Проверка правописания. Ошибки можно исправить, если запустить встроенную во многие текстовые редакторы систему проверки правописания, которая содержит орфографические словари и грамматические правила.  Система проверки правописания не только выделяет орфографические ошибки (красной волнистой линией) и синтаксические ошибки (зеленой волнистой линией), но и предлагает варианты их исправления. Проверку правописания текстовые редакторы могут проводить как непосредственно в процессе ввода текста, так и в готовом документе по команде пользователя.

Сохранение документов. В процессе сохранения документа необходимо, прежде всего, в иерархической файловой системе компьютера выбрать диск и папку, в которой файл документа необходимо сохранить.

Кроме того, необходимо выбрать формат файла, который определяет способ хранения текста в файле. Существуют универсальные форматы текстовых файлов, которые могут быть прочитаны большинством текстовых редакторов, и оригинальные форматы, которые используются только определенными текстовыми редакторами.

Современные текстовые редакторы обеспечивают автоматическое преобразование текстового файла из одного формата в другой при его открытии и сохранении.

Печать документа. Перед выводом документа на печать полезно выполнить предварительный просмотр документа, это позволяет увидеть, как будет выглядеть документ, напечатанный на бумаге с использованием подключенного к компьютеру принтера.

Вид напечатанного документа (например, распределение текста по страницам) может зависеть от используемого принтера, так как могут несколько различаться шрифты, используемые в разных принтерах

При выводе документа на печать необходимо установить параметры печати: задать номера выводимых на печать страниц, количество копий документа и др.

Форматирование текстового документа

Форматирование документа – это изменение его внешнего вида. WORD обеспечивает форматирование документов на пяти различных уровнях:

  1. на уровне символов (изменение гарнитуры, начертания, размера и цвета шрифта, межбуквенного интервала в слове, анимации и т.д.)
  2. на уровне абзацев (выравнивание по левому краю, по правому краю, по центру и по ширине; отступы справа и слева; отступ первой строки; отступы до и после абзаца; межстрочный интервал, управление разбивкой на страницы и т.д.)
  3. на уровне страниц (параметры страниц, ориентация страниц, рамка, колонтитулы первой страницы, четных и нечетных страниц и т.д.)
  4. на уровне разделов (формирование разделов со следующей страницы или на текущей странице, разбиение текста на колонки и т.д.)
  5. на уровне документа (номера страниц, оглавление и т.д.).

Стили

Стили предназначены для внешнего оформления документа и его абзацев.

Стиль – это набор форматирующих команд, сохраняемый под уникальным именем для многократного использования. Форматирование текста с помощью стиля значительно быстрее, чем форматировать вручную каждый элемент текста. Существует три основных типа стилей:

  1. Стиль символа содержит параметры форматирования символов, включая шрифт, размер, начертание, положение и интервалы
  2. Стиль абзаца содержит параметры форматирования абзацев, такие как междустрочные интервалы, отступы, выравнивание и позиции табуляции. Стили абзацев также могут содержать стили или параметры форматирования символов. Большинство стилей, используемых в Word, являются стилями абзацев.
  3. Стиль таблицы содержит параметры форматирования таблиц .

Стили можно изменять и создавать новые. Кроме того, можно применить другой стиль (наложить стиль) к уже отформатированному тексту, т.е. переформатировать его.

Стиль Обычный является основой для большинства других стилей абзаца, поэтому при изменении стиля Обычный изменятся все основанные на нем стили.

Системы компьютерного перевода. Процесс глобализации мира приводит к необходимости частого обмена документами между людьми и организациями, находящимися в разных странах мира и говорящими на различных языках.

В этих условиях использование традиционной технологии перевода "вручную" тормозит развитие межнациональных контактов.

Системы компьютерного перевода позволяют решить эту проблему. Они, с одной стороны, способны переводить многостраничные документы с высокой скоростью (одна страница в секунду), с другой стороны, переводить Web-страницы "на лету", в режиме реального времени.

Системы компьютерного перевода осуществляют перевод текстов, основываясь на формальном "знании": синтаксиса языка (правил построения предложений), правил словообразования и использовании словарей. Программа-переводчик сначала анализирует текст на одном языке, а затем конструирует этот текст на другом языке.

Современные системы компьютерного перевода позволяют достаточно качественно переводить техническую документацию, деловую переписку и другие специализированные тексты. Однако они не применимы для перевода художественных произведений, так как не способны адекватно переводить метафоры, аллегории и другие элементы художественного творчества человека.

Системы оптического распознавания символов. Системы оптического распознавания символов используются при создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат.

Сначала с помощью сканера необходимо получить изображение страницы текста в графическом формате. Далее для получения документа в текстовом формате необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательность текстовых символов.

Системы оптического распознавания символов сначала определяют структуру размещения текста на странице и разбивают его на отдельные области: колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы разделяются на изображения отдельных символов.

Для отсканированных документов типографского качества (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений) распознавание символов проводится путем их сравнения с растровыми шаблонами.

Растровое изображение каждого символа последовательно накладывается на растровые шаблоны символов, хранящиеся в памяти системы оптического распознавания.

При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется векторный метод распознавания символов. В распознаваемом изображении символа выделяются геометрические примитивы (отрезки, окружности и др.) и сравниваются с векторными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех геометрических примитивов и их расположение больше всего соответствует распознаваемому символу.

Системы оптического распознавания символов являются "самообучающимися" (для каждого конкретного документа они создают соответствующий набор шаблонов символов), и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.

Системы оптического распознавания форм. При заполнении документов большим количеством людей (например, при сдаче выпускником школы единого государственного экзамена (ЕГЭ)) используются бланки с пустыми полями. Данные вводятся в поля печатными буквами от руки. Затем эти данные распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных.

Сложность состоит в том, что необходимо распознавать символы, написанные от руки, которые довольно сильно различаются у разных людей. Кроме того, такие системы должны уметь определять, к какому полю относится распознаваемый текст.




1. Генерирование псевдослучайных чисел на примере создания игры Сапер
2. Зоренька Вальс цветов И
3. На тему - Изучение алгоритмов RS генерации секретного и открытого ключа По дисциплине- ldquo; Основы защит
4. на тему- Проблемы развития малого бизнеса в России Выполнил- студент группы ЗСБ08041232К
5. Продукты пчеловодства и их применение в косметике
6. София Ltd 1994. 320 с
7. Технология молока и молочных напитков (схема)
8. Исследование девиантного поведения в молодежной среде
9. БРЕСТ И МИНСК
10. . ТЕОРЕТИЧЕСКОЕ ВВЕДЕНИЕ [3] 1.