Кодирование и хранение символьной информации символов и строк. Кодировка символов ASCII

Автор работы: Пользователь скрыл имя, 10 Февраля 2012 в 19:53, курсовая работа

Описание работы

Объект исследования - символьная и строковая информация.
Предмет - кодирование и хранение символьной информации символов и строк. Кодировка символов ASCII.
Цель – проанализировать кодирование, хранение символьной информации символов и строк и кодировку символов ASCII в учебной литературе по информатике.

Содержание работы

Введение…………………………………………………………………………...3
Глава 1. Информация……………………………………………………………..6
Понятие информации и данных………………………………………...6
Виды и свойства информации…………………………………………11
Информационные процессы…………………………………………...15
Информационные технологии…………………………………………17
Информационные системы…………………………………………….21
Обработка информации. Алгоритмы.…………………………...…….25
Глава 2. Кодирование и хранение символьной информации……………...…31
2.1. Кодирование информации………………………………………………..31
2.2. Классификация кодов……………………………………………………..32
2.3. Кодирование символьной информации…….……………………………34
2.4. Способы представления символьных данных в ЭВМ………………….41
2.5. Кодирование текстовой информации……………………………………43
2.6. Хранение символьной информации……………………………………..46
Заключение……………………………………………………………………….49
Глоссарий………………………………………………………………………...50
Список используемой литературы……………………………………………...54

Файлы: 1 файл

Курсовая работа по предмету Архитектура компьютера на тему Кодирование и хранение символьной информации символов и строк. Кодировка символов ASCII.docx

— 149.42 Кб (Скачать файл)
 

Рисунок 7:  ГОСТ-альтернативная кодировка

    Другая распространённая кодировка  носит название КОИ-8 (код обмена информацией, восьмизначный) – её происхождение относится ко временам действия Совета Экономической Взаимопомощи государств Восточной Европы (рисунок 8). Сегодня кодировки КОИ-8 имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернета.

Код   Код   Код   Код   Код   Код   Код   Код  
128   144 160 176 192 ю 208 п 224 Ю 240 П
129 ││ 145 161 Ё 177 193 а 209 я 225 А 241 Я
130 146 162 г 178 194 б 210 р 226 Б 242 Р
131 147 163 ё 179 Ё 195 ц 211 с 227 Ц 243 С
132 148 164 180 196 д 212 т 228 Д 244 Т
133 149 165 181 197 е 213 у 229 Е 245 У
134 150 166 182 198 ф 214 ж 230 Ф 246 Ж
135 151 167 183 199 г 215 в 231 Г 247 В
136 152 168 184 200 х 216 ь 232 Х 248 Ь
137 153 169 185 201 и 217 ы 233 И 249 Ы
138 154   170 186 202 й 218 з 234 Й 250 З
139 155 171 187 203 к 219 ш 235 К 251 Ш
140 156 ۬ 172 188 204 л 220 э 236 Л 252 Э
141 157 ² 173 189 205 м 221 щ 237 М 253 Щ
142 158 · 174 190 206 н 222 ч 238 Н 254 Ч
143 159 ÷ 175 191 ё 207 о 223 ъ 239 О 255 Ъ
 

Рисунок 8:  Кодировка КОИ-8

    Международный стандарт, в котором  предусмотрена кодировка символов  русского алфавита, носит название  кодировки ISO (International Standard Organization –Международный институт стандартизации). На практике данная кодировка используется редко (рисунок 9).

 

 
 
 
 
 
В ISO не определены
Код   Код   Код   Код   Код   Код  
160   176 А 192 Р 208 а 224 р 240
161 Ё 177 Б 193 С 209 б 225 с 241 ё
162 Ђ 178 В 194 Т 210 в 226 т 242 ђ
163 Ѓ 179 Г 195 У 211 г 227 у 243 ѓ
164 Є 180 Д 196 Ф 212 д 228 ф 244 є
165 Ѕ 181 Е 197 Х 213 е 229 х 245 ѕ
166 І 182 Ж 198 Ц 214 ж 230 ц 246 і
167 Ї 183 З 199 Ч 215 з 231 ч 247 ї
168 Ј 184 И 200 Ш 216 и 232 ш 248 ј
169 Љ 185 Й 201 Щ 217 й 233 щ 249 љ
170 Њ 186 К 202 Ъ 218 к 234 ъ 250 њ
171 Ћ 187 Л 203 Ы 219 л 235 ы 251 ћ
172 Ќ 188 М 204 Ь 220 м 236 ь 252 ќ
173 - 189 Н 205 Э 221 н 237 э 253 §
174 Ў 190 О 206 Ю 222 о 238 ю 254 ў
175 Џ 191 П 207 Я 223 п 239 я 255 џ
 

          Во многих странах Азии 256 кодов  явно не хватило для кодирования  их национальных алфавитов. В  1991 году производители программных  продуктов и организаций, утверждающие  стандарты, пришли к соглашению  о выработке единого стандарта.  Этот стандарт построен по 16 битной  схеме, кодирования и получил  название UNICODE. Он позволяет закодировать 216=65536 символов, которых достаточно для кодирования всех национальных алфавитов в одной таблице. Так как каждый символ этой кодировки занимает два байта (вместо одного, как раньше), все текстовые документы, представленные в UNICODE, стали длиннее в два раза. Современный уровень технических средств нивелирует этот недостаток UNICODE. Кодировка UNICODE используется в программе MS Office. Существует 4 основных способа кодировки байтами в формате UNICODE:

  • UTF-8: 128 символов кодируются одним байтом (формат ASCII), 1920 символов кодируются 2-мя байтами ((Roman, Greek, Cyrillic, Coptic, Armenian, Hebrew, Arabic символы), 63488 символов кодируются 3-мя байтами (Китайский, японский и др.) Оставшиеся 2 147 418 112 символы (еще не использованы) могут быть закодированы 4, 5 или 6-ю байтами.
  • UCS-2: Каждый символ представлен 2-мя байтами. Данная кодировка включает  лишь первые 65 535 символов из формата Unicode.
  • UTF-16: Является расширением UCS-2, включает 1 114 112 символов формата Unicode. Первые 65 535 символов представлены 2-мя байтами, остальные - 4-мя байтами.
  • USC-4: Каждый символ кодируется 4-мя байтами.

   Текстовые строки. Текстовая (символьная) строка – это конечная последовательность символов. Это может быть осмысленный текст или произвольный набор, короткое слово или целая книга. Длина символьной строки – это количество символов в ней. Записывается в память символьная строка двумя способами: либо число, обозначающее длину текста, затем текст, либо текст, затем разделитель строк.

    Текстовые документы. Текстовые документы используются для хранения и обмена данными, но сплошной, не разбитый на логические фрагменты текст воспринимается тяжело. Структурирование теста достигается форматированием – специфическим расположением текста при подготовке его к печати. Для анализа структуры текста были разработаны языки разметки, которые устанавливают текстовые метки (маркеры или теги), используемые для обозначения частей документа, записывают вместе с основным текстом в текстовом формате. Программы, анализирующие текст, структурируют его, считывая теги.

2.4. Способы представления  символьных данных  в ЭВМ

    В отличие от обычной словесной формы,  принятой в письменном виде, символьная информация хранится  и обрабатывается в памяти ЭВМ в форме цифрового кода. Например, можно обозначить каждую букву числами, соответствующими её порядковому номеру в алфавите: А – 01, Б – 02, В – 03, Г – 04, …, Э – 30, Ю – 31, Я – 32. Точно также можно договориться обозначать точку числом 33, запятую – числом 34 и т. д. Так как в устройствах автоматической обработки информации используются двоичные коды, обозначения букв надо перевести в двоичную систему. Тогда буквы будут обозначаться следующим образом: А - 000001, Б - 000010, В - 000011, Г - 000100, ... , Э - 011110, Ю - 011111, Я - 100000. При таком кодировании любое слово можно представить в виде последовательности кодовых групп, составленных из О и 1. Например, слово «ЭВМ» выглядит так: О 1111 О 000011 00111 о.

  При преобразовании символов (знаков) в  цифровой код между множествами  символов и кодов должно иметь  место взаимнооднозначное соответствие, т. е. разным символам должны быть назначены разные цифровые коды, и наоборот. Это условие является единственным необходимым требованием при построении схемы преобразования символов в числа. Однако существует ряд практических соглашений, принимаемых при построении схемы преобразования исходя из соображений наглядности, эффективности, стандартизации. Например, какое бы число ни назначили коду для знака О (не следует путать с числом о), знаку 1 удобно назначить число, на единицу большее, чем код 0, и так далее до знака 9. Аналогичная ситуации возникает и при кодировке букв алфавита: код для Б на единицу больше кода для А, а код для В - на единицу больше кода для Б и так далее. Таким образом, из соображений наглядности и легкости запоминания целесообразно множества символов, упорядоченных по какому-либо признаку (например, лексико-графическому), кодировать также с помощью упорядоченной последовательности чисел.

    Другой важный момент при организации кодировки символьной информации - эффективное использование оперативной памяти ЭВМ. Так как общеупотребительными являются примерно 100 знаков (сюда, помимо цифр, букв русского и английского алфавитов, знаков препинания, арифметических знаков, входят знаки перевода строки, возврата каретки, возврата на шаг и т. п.), то для взаимнооднозначного преобразования всех знаков в коды достаточно примерно сотни чисел. Значение этого выбора заключается в том, что для размещения числа из этого диапазона в оперативной памяти достаточно одного байта, а не машинного слова. Следовательно, при такой организации кодировки достигается существенная экономия объема памяти.

    При назначении кодов знакам надо также учитывать соглашения, касающиеся стандартизации кодировки. Можно назначить знаковые коды по своему выбору, но при этом возникнут трудности, связанные с необходимостью обмена информацией с другими организациями, использующими кодировку, отличную от нашей. В настоящее время существует несколько широко распространенных схем кодирования. Например, двоичнодесятичный код BCD (Binaгy-Coded Decimal) используется для представления чисел, при котором каждая десятичная цифра записывается своим четырехбитовым двоичным эквивалентом. Этот код может оказаться полезным, когда нужно преобразовать строку числовых знаков, например строку из числовых знаков 2537 в число 2537, над которым затем будут производиться арифметические действия. Расширением кода BCD является EBCDIC (Extended Binaгy-Coded Decimal Interchange Code) - расширенный двоично-десятичный код обмена информацией, который преобразует как числовые, так и буквенные строки.

    В ЭВМ применяется код ASCII (American Standaгt Code foг Infoгmation Interchange) - Американский стандартный код обмена информацией. Этот код генерируется некоторыми внешними устройствами - принтером, алфавитно-цифровым печатающим устройством (АЦПУ) - и используется для обмена данными между ними и оперативной памятью ЭВМ. Например, когда нажимаем на терминале клавишу <G>, то в результате этого действия код ASCII для символа G (1000111) передается в ЭВМ. А если надо этот символ распечатать на АЦПУ, то его код ASCII должен быть послан на печатающее устройство.

    Отечественной версией кода ASCII является код КОИ-7 (двоичный семибитовый код обмена информацией), который совпадает с ним, за исключением букв русского алфавита.

 

2.5. Кодирование текстовой  информации

  Начиная с конца 60х годов, компьютеры всё  больше стали использоваться для  обработки текстовой информации и в настоящее время большая  часть персональных компьютеров  в мире занято обработкой именно текстовой  информации.

    Традиционно для кодирования  одного символа используется  количество информации, равное  1 байту, то есть I = 1 байт = 8 битов.

    Для кодирования одного символа требуется 1 байт информации.

    Если рассматривать символы как  возможные события, то по формуле  можно вычислить какое количество различных символов можно закодировать.

Информация о работе Кодирование и хранение символьной информации символов и строк. Кодировка символов ASCII