Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Представление текстовой информации в компьютере.
Текстовая информация, как и любая другая, хранится в памяти компьютера в двоичном виде. Для этого каждому символу ставится в соответствие некоторое неотрицательное число, называемое кодом символа, и это число записывается в память ЭВМ в двоичном виде. Конкретное соответствие между символами и их кодами называется системой кодировки.
В современных ЭВМ, в зависимости от типа операционной системы и конкретных прикладных программ, используются 8-разрядные и 16-разрядные коды символов.
Использование 8-разрядных кодов позволяет закодировать 256 различных знаков, этого вполне достаточно для представления многих символов, используемых на практике. При такой кодировке для кода символа достаточно выделить в памяти один байт.
В персональных компьютерах обычно используется система кодировки ASCII (American Standard Code for Information Interchange американский стандартный код для обмена информации). Он введен в 1963 г. и ставит в соответствие каждому символу семиразрядный двоичный код. Легко определить, что в коде ASCII можно представить 128 символов.
В системе ASCII закреплены две таблицы кодирования базовая и расширенная. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.
Первые 32 кода базовой таблицы, начиная с нулевого, отданы производителям аппаратных средств. Начиная с 32 по 127 код размещены коды символов английского алфавита, знаков препинания, арифметических действий и некоторых вспомогательных символов. Например, 32 - код пробела; 48-57 коды цифр 0..9; 65-90 коды заглавных латинских букв A-Z; 97-122 коды строчных латинских букв a-z.
Расширенная таблица, как правило содержат коды символов русского языка и в качестве расширенной части выступают кодировочные таблицы Windows 1251, КОИ-8, ISO, DOS и др.
Кодировка символов русского языка, известная как кодировка Windows-1251, была введена “извне” - компанией Microsoft, но, учитывая широкое распространение операционных систем и других продуктов этой компании в России, она глубоко закрепилась и нашла широкое распространение.
Другая распространённая кодировка носит название КОИ-8 (код обмена информацией, восьмизначный) её происхождение относится к временам действия Совета Экономической Взаимопомощи государств Восточной Европы.
Международный стандарт, в котором предусмотрена кодировка символов русского языка, носит названия ISO (International Standard Organization Международный институт стандартизации).
Универсальная система кодирования текстовых данных
По причине ограниченности набора кодов (256)возникла система, основанная на 16-разрядном кодировании символов, получила название универсальной UNICODE. Шестнадцать разрядов позволяют обеспечить уникальные коды для 65 536 различных символов этого поля вполне достаточно для размещения в одной таблице символов большинства языков планеты. Сегодня это самая распространенная текстовая кодировочная система.
Пример. Объем сообщения, содержащего 2048 символов, составил 1/512 часть Мбайта. Определить мощность алфавита.
Решение.
I = 1/512 * 1024 * 1024 * 8 = 16384 бит. - перевели в биты информационный объем сообщения.
а = I / К = 16384 /1024 =16 бит - приходится на один символ алфавита.
216 = 65536 символов - мощность использованного алфавита.
Именно такой алфавит используется в кодировке Unicode, который должен стать международным стандартом для представления символьной информации в компьютере.
Пример 1. Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке, первоначально записанного в 16-битном коде Unicode, в 8-битную кодировку КОИ-8. При этом информационное сообщение уменьшилось на 480 бит. Какова длина сообщения в символах?
Если обозначим количество символов через k, то при 16-битной кодировке объем сообщения составит 16k бит. Если его перекодировать в 8-битный код, его объем станет 8k бит. Таким образом, сообщение уменьшилось на 16k 8k = 8k = 480 бит. Следовательно, k = 60 символов.
Пример 2. Считая, что каждый символ кодируется 16-ю битами, оцените информационный объем в битах следующей фразы в кодировке Unicode:
Истина только одна
Текст содержит 20 символов. Если один символ кодируется 16 битами, то в сообщении 2016=320 бит информации.
Пример 3. В таблице ниже представлена часть кодовой таблицы ASCII:
Символ |
1 |
5 |
A |
B |
Q |
a |
b |
Десятичный код |
49 |
53 |
65 |
66 |
81 |
97 |
98 |
Шестнадцатеричный код |
31 |
35 |
41 |
42 |
51 |
61 |
62 |
Каков шестнадцатеричный код символа «q»?
Так как в кодовой таблице ASCII все заглавные латинские буквы A-Z расположены по алфавиту. Следовательно, разница кодов букв «q» и «a» равна разнице кодов букв «Q» и «A», то есть, 5116 4116=1016. Тогда шестнадцатеричный код символа «q» равен коду буквы «a» плюс 1016. Следовательно, имеем 6116 + 1016=7116.
Задания
Я мыслю, следовательно, существую.
Символ |
С |
Т |
У |
Я |
с |
т |
у |
Десятичный код |
145 |
146 |
147 |
159 |
225 |
226 |
227 |
Шестнадцатеричный код |
91 |
92 |
93 |
9F |
E1 |
E2 |
E3 |
Каков шестнадцатеричный код символа «я»?