Автор работы: Пользователь скрыл имя, 10 Февраля 2012 в 19:53, курсовая работа
Объект исследования - символьная и строковая информация.
Предмет - кодирование и хранение символьной информации символов и строк. Кодировка символов ASCII.
Цель – проанализировать кодирование, хранение символьной информации символов и строк и кодировку символов ASCII в учебной литературе по информатике.
Введение…………………………………………………………………………...3
Глава 1. Информация……………………………………………………………..6
Понятие информации и данных………………………………………...6
Виды и свойства информации…………………………………………11
Информационные процессы…………………………………………...15
Информационные технологии…………………………………………17
Информационные системы…………………………………………….21
Обработка информации. Алгоритмы.…………………………...…….25
Глава 2. Кодирование и хранение символьной информации……………...…31
2.1. Кодирование информации………………………………………………..31
2.2. Классификация кодов……………………………………………………..32
2.3. Кодирование символьной информации…….……………………………34
2.4. Способы представления символьных данных в ЭВМ………………….41
2.5. Кодирование текстовой информации……………………………………43
2.6. Хранение символьной информации……………………………………..46
Заключение……………………………………………………………………….49
Глоссарий………………………………………………………………………...50
Список используемой литературы……………………………………………...54
Рисунок 7: ГОСТ-альтернативная кодировка
Другая распространённая
Код | Код | Код | Код | Код | Код | Код | Код | ||||||||
128 | 144 | ░ | 160 | ─ | 176 | ╟ | 192 | ю | 208 | п | 224 | Ю | 240 | П | |
129 | ││ | 145 | ▒ | 161 | Ё | 177 | ╠ | 193 | а | 209 | я | 225 | А | 241 | Я |
130 | ┌ | 146 | ▓ | 162 | г | 178 | ╡ | 194 | б | 210 | р | 226 | Б | 242 | Р |
131 | ┐ | 147 | ⌠ | 163 | ё | 179 | Ё | 195 | ц | 211 | с | 227 | Ц | 243 | С |
132 | └ | 148 | ■ | 164 | ╓ | 180 | ╢ | 196 | д | 212 | т | 228 | Д | 244 | Т |
133 | ┘ | 149 | ∙ | 165 | ╔ | 181 | ╣ | 197 | е | 213 | у | 229 | Е | 245 | У |
134 | ├ | 150 | √ | 166 | ╕ | 182 | ╤ | 198 | ф | 214 | ж | 230 | Ф | 246 | Ж |
135 | ┤ | 151 | ≈ | 167 | ╖ | 183 | ╥ | 199 | г | 215 | в | 231 | Г | 247 | В |
136 | ┬ | 152 | ≤ | 168 | ╗ | 184 | ╦ | 200 | х | 216 | ь | 232 | Х | 248 | Ь |
137 | ┴ | 153 | ≥ | 169 | ╘ | 185 | ╧ | 201 | и | 217 | ы | 233 | И | 249 | Ы |
138 | ┼ | 154 | 170 | ╙ | 186 | ╨ | 202 | й | 218 | з | 234 | Й | 250 | З | |
139 | ▀ | 155 | ⌡ | 171 | ╚ | 187 | ╩ | 203 | к | 219 | ш | 235 | К | 251 | Ш |
140 | ▄ | 156 | ۬ | 172 | ╛ | 188 | ╪ | 204 | л | 220 | э | 236 | Л | 252 | Э |
141 | █ | 157 | ² | 173 | ╜ | 189 | ╫ | 205 | м | 221 | щ | 237 | М | 253 | Щ |
142 | ▌ | 158 | · | 174 | ╝ | 190 | ╬ | 206 | н | 222 | ч | 238 | Н | 254 | Ч |
143 | ▐ | 159 | ÷ | 175 | ╞ | 191 | ё | 207 | о | 223 | ъ | 239 | О | 255 | Ъ |
Рисунок 8: Кодировка КОИ-8
Международный стандарт, в котором
предусмотрена кодировка
В ISO не определены |
Код | Код | Код | Код | Код | Код | ||||||
160 | 176 | А | 192 | Р | 208 | а | 224 | р | 240 | № | ||
161 | Ё | 177 | Б | 193 | С | 209 | б | 225 | с | 241 | ё | |
162 | Ђ | 178 | В | 194 | Т | 210 | в | 226 | т | 242 | ђ | |
163 | Ѓ | 179 | Г | 195 | У | 211 | г | 227 | у | 243 | ѓ | |
164 | Є | 180 | Д | 196 | Ф | 212 | д | 228 | ф | 244 | є | |
165 | Ѕ | 181 | Е | 197 | Х | 213 | е | 229 | х | 245 | ѕ | |
166 | І | 182 | Ж | 198 | Ц | 214 | ж | 230 | ц | 246 | і | |
167 | Ї | 183 | З | 199 | Ч | 215 | з | 231 | ч | 247 | ї | |
168 | Ј | 184 | И | 200 | Ш | 216 | и | 232 | ш | 248 | ј | |
169 | Љ | 185 | Й | 201 | Щ | 217 | й | 233 | щ | 249 | љ | |
170 | Њ | 186 | К | 202 | Ъ | 218 | к | 234 | ъ | 250 | њ | |
171 | Ћ | 187 | Л | 203 | Ы | 219 | л | 235 | ы | 251 | ћ | |
172 | Ќ | 188 | М | 204 | Ь | 220 | м | 236 | ь | 252 | ќ | |
173 | - | 189 | Н | 205 | Э | 221 | н | 237 | э | 253 | § | |
174 | Ў | 190 | О | 206 | Ю | 222 | о | 238 | ю | 254 | ў | |
175 | Џ | 191 | П | 207 | Я | 223 | п | 239 | я | 255 | џ |
Во многих странах Азии 256 кодов
явно не хватило для
Текстовые строки. Текстовая (символьная) строка – это конечная последовательность символов. Это может быть осмысленный текст или произвольный набор, короткое слово или целая книга. Длина символьной строки – это количество символов в ней. Записывается в память символьная строка двумя способами: либо число, обозначающее длину текста, затем текст, либо текст, затем разделитель строк.
Текстовые документы. Текстовые документы используются для хранения и обмена данными, но сплошной, не разбитый на логические фрагменты текст воспринимается тяжело. Структурирование теста достигается форматированием – специфическим расположением текста при подготовке его к печати. Для анализа структуры текста были разработаны языки разметки, которые устанавливают текстовые метки (маркеры или теги), используемые для обозначения частей документа, записывают вместе с основным текстом в текстовом формате. Программы, анализирующие текст, структурируют его, считывая теги.
2.4. Способы представления символьных данных в ЭВМ
В отличие от обычной словесной формы, принятой в письменном виде, символьная информация хранится и обрабатывается в памяти ЭВМ в форме цифрового кода. Например, можно обозначить каждую букву числами, соответствующими её порядковому номеру в алфавите: А – 01, Б – 02, В – 03, Г – 04, …, Э – 30, Ю – 31, Я – 32. Точно также можно договориться обозначать точку числом 33, запятую – числом 34 и т. д. Так как в устройствах автоматической обработки информации используются двоичные коды, обозначения букв надо перевести в двоичную систему. Тогда буквы будут обозначаться следующим образом: А - 000001, Б - 000010, В - 000011, Г - 000100, ... , Э - 011110, Ю - 011111, Я - 100000. При таком кодировании любое слово можно представить в виде последовательности кодовых групп, составленных из О и 1. Например, слово «ЭВМ» выглядит так: О 1111 О 000011 00111 о.
При преобразовании символов (знаков) в цифровой код между множествами символов и кодов должно иметь место взаимнооднозначное соответствие, т. е. разным символам должны быть назначены разные цифровые коды, и наоборот. Это условие является единственным необходимым требованием при построении схемы преобразования символов в числа. Однако существует ряд практических соглашений, принимаемых при построении схемы преобразования исходя из соображений наглядности, эффективности, стандартизации. Например, какое бы число ни назначили коду для знака О (не следует путать с числом о), знаку 1 удобно назначить число, на единицу большее, чем код 0, и так далее до знака 9. Аналогичная ситуации возникает и при кодировке букв алфавита: код для Б на единицу больше кода для А, а код для В - на единицу больше кода для Б и так далее. Таким образом, из соображений наглядности и легкости запоминания целесообразно множества символов, упорядоченных по какому-либо признаку (например, лексико-графическому), кодировать также с помощью упорядоченной последовательности чисел.
Другой важный момент при организации кодировки символьной информации - эффективное использование оперативной памяти ЭВМ. Так как общеупотребительными являются примерно 100 знаков (сюда, помимо цифр, букв русского и английского алфавитов, знаков препинания, арифметических знаков, входят знаки перевода строки, возврата каретки, возврата на шаг и т. п.), то для взаимнооднозначного преобразования всех знаков в коды достаточно примерно сотни чисел. Значение этого выбора заключается в том, что для размещения числа из этого диапазона в оперативной памяти достаточно одного байта, а не машинного слова. Следовательно, при такой организации кодировки достигается существенная экономия объема памяти.
При назначении кодов знакам надо также учитывать соглашения, касающиеся стандартизации кодировки. Можно назначить знаковые коды по своему выбору, но при этом возникнут трудности, связанные с необходимостью обмена информацией с другими организациями, использующими кодировку, отличную от нашей. В настоящее время существует несколько широко распространенных схем кодирования. Например, двоичнодесятичный код BCD (Binaгy-Coded Decimal) используется для представления чисел, при котором каждая десятичная цифра записывается своим четырехбитовым двоичным эквивалентом. Этот код может оказаться полезным, когда нужно преобразовать строку числовых знаков, например строку из числовых знаков 2537 в число 2537, над которым затем будут производиться арифметические действия. Расширением кода BCD является EBCDIC (Extended Binaгy-Coded Decimal Interchange Code) - расширенный двоично-десятичный код обмена информацией, который преобразует как числовые, так и буквенные строки.
В ЭВМ применяется код ASCII (American Standaгt Code foг Infoгmation Interchange) - Американский стандартный код обмена информацией. Этот код генерируется некоторыми внешними устройствами - принтером, алфавитно-цифровым печатающим устройством (АЦПУ) - и используется для обмена данными между ними и оперативной памятью ЭВМ. Например, когда нажимаем на терминале клавишу <G>, то в результате этого действия код ASCII для символа G (1000111) передается в ЭВМ. А если надо этот символ распечатать на АЦПУ, то его код ASCII должен быть послан на печатающее устройство.
Отечественной версией кода ASCII является код КОИ-7 (двоичный семибитовый код обмена информацией), который совпадает с ним, за исключением букв русского алфавита.
2.5. Кодирование текстовой информации
Начиная с конца 60х годов, компьютеры всё больше стали использоваться для обработки текстовой информации и в настоящее время большая часть персональных компьютеров в мире занято обработкой именно текстовой информации.
Традиционно для кодирования одного символа используется количество информации, равное 1 байту, то есть I = 1 байт = 8 битов.
Для кодирования одного символа требуется 1 байт информации.
Если рассматривать символы