История кодировки информации

Автор работы: Пользователь скрыл имя, 20 Декабря 2010 в 07:07, реферат

Описание работы

Важнейшей для большинства людей возможностью компьютерной техники является не то, что эта техника может просто быстро производить математические вычисления - ведь множество людей до сих пор ведут финансовые расчёты, используя микрокалькуляторы, а не ПК, - а то, что компьютерная техника может быть использована для работы с текстовыми данными. Вероятно, каждый должен согласиться с тем, что подавляющее большинство пользователей ПК используют программы для обработки текстов чаще, чем программы какого-либо другого назначения.

Содержание работы

Введение

1. Кодирование символов: основа для обеспечения возможности работы компьютеров с текстовыми данными

2. Ранняя история кодирования символов естественных языков

3. Таблицы символов и методы кодирования, применяемые для работы с многоязычными текстами

Заключение

Библиографический список

Скачать архив (14.88 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Копия Реф по информ.doc

— 59.50 Кб (Скачать файл)

Министерство образования и науки

Российской Федерации

Федеральное агентство по образованию

АМУРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

(ГОУВПО «АМГУ»)

Факультет математики и информатики

Реферат по дисциплине:

«Информатика»

Тема: «История кодировки информации»

Выполнил: студент группы

Проверил: ____

г. Благовещенск, 2010

СОДЕРЖАНИЕ

Введение

1. Кодирование символов: основа для обеспечения возможности работы компьютеров с текстовыми данными

2. Ранняя история кодирования символов естественных языков

3. Таблицы символов и методы кодирования, применяемые для работы с многоязычными текстами

Заключение

Библиографический список

ВВЕДЕНИЕ

1 КОДИРОВАНИЕ СИМВОЛОВ: ОСНОВА ДЛЯ ОБЕСПЕЧЕНИЯ ВОЗМОЖНОСТИ РАБОТЫ КОМПЬЮТЕРОВ С ТЕКСТОВЫМИ ДАННЫМИ.

В современных компьютерных системах символы, которые люди используют для записи и передачи текстов на своём языке, кодируются с помощью чисел, записанных в двоичной системе счисления. Это делается потому, что микропроцессоры, лежащие в основе современных компьютерных систем, могут делать, по сути, лишь две вещи: производить действия двоичной арифметики и выполнять Булевы логические операции.

Поэтому когда ПК, к примеру, записывает букву "A" на дискету, он не создаёт изображения буквы "A" на магнитном носителе, а записывает на него двоичное число (состоящее из нолей и единиц), соответствующее букве "A" в специальной таблице символов. Вы спросите: но ведь ПК создаёт изображение буквы "A" на дисплее, когда я нажимаю клавишу "A"!? Конечно. Когда Вы нажимаете клавишу с буквой "A", первая вещь, которая при этом происходит - в клавиатуре генерируется число, соответствующее букве "A". ПК использует это число для выборки изображения буквы "A" из файла шрифта, в котором изображение каждой буквы пронумеровано в порядке, определяемом той или иной таблицей символов. Лишь после этого соответствующее изображение появляется на экране. То же самое происходит при печати текста, с той лишь разницей, что изображение буквы "A" оказывается на бумаге, а не на дисплее. Такая система, использующая а) пронумерованные таблицы символов и б) числа (двоичные коды) для внутреннего представления в компьютерах символов естественных языков, позволяет ПК гибко и эффективно делать такие вещи, которые невозможно было реализовать на простой пишущей машинке. ПК может не только распечатывать текст на бумаге, но позволяет также хранить, модифицировать, сортировать, принимать и передавать текстовые данные с умопомрачительно высокой скоростью. Наконец, при наличии соответствующего ПО ПК может быть использован для работы с текстами не на каком-то строго заданном одном, а сразу на многих языках.

2. РАННЯЯ ИСТОРИЯ КОДИРОВАНИЯ СИМВОЛОВ ЕСТЕСТВЕННЫХ ЯЗЫКОВ.

Телеграфия и начало электронной обработки данных

Каждый, кто когда-нибудь смотрел кино об американском Западе XIX-го века, знает, что первым методом кодирования, широко применяемым для преобразования символов и текстов в электронный вид, был метод, предложенный Морзе. То, что этот метод кодирования был изобретён для передачи сообщений по телеграфным линиям, а не для обработки текстов в компьютерах, общеизвестно. Однако гораздо меньшее количество людей знает, что его изобретатель, американец Сэмюэл Финли Бриз Морзе (1791-1872), был также известным художником. В своё время он изучал рисование в Лондоне и там узнал об исследованиях электромагнетизма, проводимых британскими учёными. Возвращаясь по морю в США в 1832-м году, он задумал создать свою собственную систему телеграфа. Именно с этой системы началось движение в сторону того мира электронных сетей, в котором мы сейчас живём, и именно за её разработку Морзе снискал славу "американского Леонардо да Винчи". Морзе изобрёл метод кодирования, который он использовал для посылки своего исторического сообщения, в 1838-м году. Метод кодирования Морзе напоминает двоичный код, используемый в современных компьютерах, тем, что он тоже базировался на двух возможных значениях - в случае метода кодирования Морзе, это были точка или тире. Однако в отличие от современных методов кодирования, используемых для нумерации символов в современных компьютерах, комбинации точек и тире, используемые для представления символов в методе кодирования Морзе, были разной длины. Морзе использовал принцип, по которому наиболее часто употребляемым буквам ставились в соответствие наиболее короткие последовательности из точек и тире, что существенно сокращало длину сообщения. Например, наиболее часто используемой в английском языке букве "E" в методе кодирования Морзе соответствует одна точка; второй по частоте использования букве английского языка - "T" - одно тире. Интересно, что Морзе подсчитывал частоту использования букв не путём изучения текстов, а путём подсчёта литер каждого типа в типографском наборе. Результатом его поистине каторжного труда стал высокоэффективный метод кодирования, который с некоторыми изменениями используется до сих пор, хотя с момента его изобретения прошло уже более 160 лет.

Следующим существенным прорывом вперёд в технологии телеграфа был примитивный печатающий телеграфный аппарат, или "телетайп"; его запатентовал во Франции в 1874-м году Жан Морис Эмиль Бодо (1845-1903). Как и телеграф Морзе, это изобретение привело к созданию новой системы кодирования символов - 5-битного метода кодирования Бодо. Метод кодирования Бодо стал первым в мире методом кодирования текстовых данных с помощью двоичных последовательностей. Сообщения, для передачи которых использовалась система кодирования Бодо, распечатывались операторами на узкие ленты для двухканальной связи с помощью специальных 5-клавишных клавиатур. В более поздних версиях устройства использовались клавиатуры с буквами, которые уже автоматически генерировали соответствующую той или иной букве 5-битную последовательность. Другой особенностью телетайпа Бодо было мультиплексирование, обеспечивающее возможность одновременной работы до 6-ти операторов благодаря применению системы временного распределения. Это позволило значительно увеличить пропускную способность телеграфной линии. Предложенная Бодо аппаратура зарекомендовала себя весьма положительно и оставалась в широком применении в XX-м веке, пока её не вытеснили телефоны и персональные компьютеры.

1890-й год: американское Бюро статистики и появление в нём новой системы для кодирования символов

Конец XIX-го века ознаменовался изобретением ещё одной системы для кодирования символов естественных языков. Он была создана в США для обработки данных, собираемых во время переписей населения, молодым американским* изобретателем, которого звали Герман Холлерит (1860-1929). После окончания Нью-Йоркской Колумбийской школы горного дела в 1879-м году, в 1880-м Холлерит устроился на работу в Бюро статистики при Министерстве внутренних дел США. Последствия этого, казалось бы, незначительного события сказывались впоследствии вплоть до 1970-х годов, "золотой эры" больших вычислительных машин. Герман Холлерит был ни кем иным, как изобретателем кода Холлерита, использовавшегося для записи алфавитно-цифровой информации на бумажных перфорированных картах. С появлением перфокарт в американских массах возникло шуточное выражение 'do not fold, spindle, or mutilate' ("не гнуть, не тянуть, не мять"), которое оставляло у многих американцев впечатление, что компьютеры скоро будут полностью контролировать их общество.

В системе кодирования Холлерита, на первый взгляд, двоичная последовательность, соответствующая одному алфавитно-цифровому символу, регистрировалась в 12-ти горизонтальных рядах перфокарты, и поскольку каждый из рядов мог быть перфорирован или не перфорирован (содержать 1 или 0), это давало бы 12-битный метод кодирования. Максимально возможное количество элементов, которое могло бы быть представлено с помощью такого метода кодирования - 212, то есть 4096. На самом же деле таблица символов, используемая в системе Холлерита, содержала только 69 символов - это были заглавные латинские буквы, арабские цифры, знаки препинания и некоторые другие символы. Таким образом, реальные возможности системы кодирования Холлерита по представлению текстовых данных были сравнимы даже с таковыми возможностями системы кодирования Бодо. Зачем же тогда, спросит читатель, на перфокарте было предусмотрено так много горизонтальных рядов? Одной из причин этому является тот факт, что большее количество рядов позволяет кодировать данные, производя меньшее количество перфораций, а это было критично, так как работа с перфораторами карт в течение многих лет производилась вручную. Поскольку рядов было много, для кодирования каждой из 10 арабских цифр (а также 2-х букв латинского алфавита) было достаточно сделать всего одну перфорацию на один вертикальный ряд. Оставшиеся 24 буквы латинского алфавита кодировались с помощью двух перфораций. Для кодирования знаков препинания и прочих символов требовалось сделать 2 или больше перфораций, поэтому нередко они вообще не использовались.

3. ТАБЛИЦЫ СИМВОЛОВ И МЕТОДЫ КОДИРОВАНИЯ, ПРИМЕНЯЕМЫЕ ДЛЯ РАБОТЫ С МНОГОЯЗЫЧНЫМИ ТЕКСТАМИ

Ранние многоязычные таблицы символов и методы кодирования

Изначально таблицы символов применялись только для удовлетворения нужд по обмену информацией и редактированию текстов на национальных языках конкретных государств, однако в реальном мире нередко бывает необходимо использовать в одном документе символы нескольких разных языков одновременно. Так, книгоиздательской промышленности нужно использовать множество символов иностранных языков при выпуске словарей иностранных слов или, например, книг иностранных авторов на языке оригинала. А с тех пор, как появилась сеть Internet, похоже, каждый человек по мере работы в ней будет сталкиваться с данными на иностранном языке, написанными набором символов, используемых другими нациями.

По этой причине эффективные многоязычные таблицы символов и методы для кодирования этих символов совершенно необходимы для жизни в XXI-м веке, но проблема в том, что они слишком долго не являлись предметом научных исследований и разработок. Самые первые такие таблицы и методы кодирования появились в первой половине 1980-х, в те времена, когда большинство компьютеров были 8-битными и 16-битными.

Наиболее достойными внимания среди них были рабочие станции Star, производимые корпорацией Xerox и имеющие программу для обработки многоязычных текстов, называемую ViewPoint, а также офисные компьютеры модели 5550, производимые корпорацией IBM. Обе эти системы позволяли работать с большим количеством азиатских языков, в дополнение к большому количеству языков, использующих латинский алфавит, но они так никогда и не вошли в широкое употребление из-за дороговизны. Однако многоязычная таблица символов, предложенная корпорацией Xerox, была взята на вооружение специалистами по компьютерной технике и лингвистами в США. Это в конце концов привело к созданию движения Unicode, предложившего свою многоязычную таблицу символов (и методы кодирования этих символов), которая сейчас является одним из главных соперников в борьбе за международное признание.

Проект TRON - многоязычная таблица символов и многоязычное окружение.

Таблица символов и метод кодирования TRON, а также многоязычное окружение TRON были впервые описаны на английском языке во время проведения 3-го симпозиума по проекту TRON в 1987-м году. В применённом в TRON подходе к обработке многоязычных документов существует ряд особенностей, делающих его уникальным. Одна из них состоит в том, что таблица символов TRON расширяема практически до бесконечности, что позволяет включить в нес символы всех без исключения языков, когда-либо использовавшихся (и используемых сейчас) человечеством, и даже символы тех языков, которые ещё не изобретены. Это реализовано с помощью escape-последовательностей, которые используются для переключения между очень большим количеством ("внутренних") таблиц, которые содержат символы, кодируемые с помощью 8-ми и 16-ти бит. Кроме того, в TRON имеются коды для идентификации языка, которые необходимы, например, для возможности реализации программ для правильной сортировки текстовых данных, содержащих символы разных языков.

Unicode и ISO 10646

Как уже было сказано выше, американские компьютерные корпорации начали в первой половине 1980-х гг. работу над созданием многоязычной таблицы символов и методов для кодирования этих символов. Результаты исследовательских работ в данной области, проведённых корпорациями Xerox и IBM, были успешно воплощены этими корпорациями в своих компьютерных системах. Исследователи из Xerox в последующем "обратили в свою веру" представителей других компьютерных корпораций США, и в конце концов они вместе начали проект американской индустрии, названный Unification Code, или Unicode, главной задачей которого было сведение всех существующих в мире таблиц символов в единую таблицу символов.
ЗАКЛЮЧЕНИЕ

Как знает каждый, кто имеет хотя бы самое общее представление о мире компьютерной техники, будущее компьютеров начинает обращаться вокруг компьютерных сетей мирового масштаба. Сегодняшняя сеть Internet представляет из себя эту глобальную общемировую сеть пока в эмбриональном состоянии. Тем не менее, эти компьютерные сети мирового масштаба не смогут стать эффективными до тех пор, пока не будет проложено больше высокоскоростных линий связи, пока они не будут подключены к заводам, офисам и жилищам, и пока не будет создано новых стандартов, регламентирующих процессы обмена информацией. Среди прочих стандартов этого рода, одним из наиболее важных будет стандарт, определяющий многоязычную таблицу символов и способ для кодирования этих символов, используемые для обеспечения обработки данных на всех языках мира.

На данный момент для решения этой задачи предложено два стандарта. Один из них - это TRON, включающий в себя таблицу символов TRON и многоязычное окружение TRON, а другой - это Unicode. Тем временем многоязычный текстовый редактор Mule, работающий в UNIX и Unix-совместимых ОС, представляет собой временное решение.

Что произойдёт в будущем? Это сложно предсказать, но поскольку американские корпорации-поставщики компьютерной техники и ПО с помощью правительства США или без таковой пытаются внедрить Unicode в окружающий их мир своими традиционными методами, в виде открытия рыночной кампании, наиболее вероятным исходом будет битва между соперничающими стандартами, один из которых в конце концов будет решено использовать в качестве базового. И это будет тот стандарт, который, подчеркнём, выберут пользователи (а не производители) компьютерных систем.

Коммерчески доступная, базированная на BTRON операционная система работает на том же самом аппаратном обеспечении, что и базированная на Unicode Microsoft Windows NT, поэтому в Японии всем пользователям достаточно всего лишь переключиться с одной используемой на жёстком диске файловой системы на другую, для того, чтобы сделать выбор по своему усмотрению. Более того, поскольку протоколы Internet, как было сказано выше, позволяют использовать любые таблицы символов и методы кодирования символов, эта битва стандартов окажет лишь незначительное влияние на строение сетей передачи данных.

Информация о работе История кодировки информации