Автор работы: Пользователь скрыл имя, 20 Ноября 2010 в 12:01, Не определен
Реферат
Введение
Понятие информация
является одним из фундаментальных
в современной науке вообще и
базовым для информатики. Информацию
наряду с веществом и энергией
рассматривают в качестве важнейшей
сущности мира, в котором мы живем.
Однако, если задаться целью формально
определить понятие «информация», то сделать
это будет чрезвычайно сложно.
В простейшем бытовом
понимании с термином «информация»
обычно ассоциируются некоторые
сведения, данные, знания и т.п. Информация
передается в виде сообщений, определяющих
форму и представление передаваемой информации.
Примерами сообщений являются музыкальное
произведение; телепередача; команды регулировщика
на перекрестке; текст, распечатанный
на принтере; данные, полученные в результате
работы составленной вами программы и
т.д. При этом предполагается, что имеются
«источник информации» и «получатель
информации».
Сообщение от источника
к получателю передается посредством
какой-нибудь среды, являющейся в таком
случае «каналом связи». Так, при передаче
речевого сообщения в качестве такого
канала связи можно рассматривать воздух,
в котором распространяются звуковые
волны, а в случае передачи письменного
сообщения (например, текста, распечатанного
на принтере) каналом сообщения можно
считать лист бумаги, на котором напечатан
текст.
Человеку свойственно
субъективное восприятие информации через
некоторый набор ее свойств: важность,
достоверность, своевременность, доступность,
«больше-меньше» и т.д. Использование
терминов «больше информации» или
«меньше информации»
Чтобы сообщение
было передано от источника к получателю
необходима некоторая материальная субстанция
— носитель информации. Сообщение, передаваемое
с помощью носителя — сигнал. В общем случае
сигнал — это изменяющийся во времени
физический процесс. Та из характеристик
процесса, которая используется для представления
сообщений, называется параметром сигнала.
В случае, когда
параметр сигнала принимает
Непрерывное сообщение
может быть представлено непрерывной
функцией, заданной на некотором интервале.
Непрерывное сообщение можно преобразовать
в дискретное (такая процедура называется
дискретизацией). Из бесконечного множества
значений параметра сигнала выбирается
их определенное число, которое приближенно
может характеризовать остальные значения.
Для этого область определения функции
разбивается на отрезки равной длины и
на каждом из этих отрезков значение функции
принимается постоянным и равным, например,
среднему значению на этом отрезке. В итоге
получим конечное множество чисел. Таким
образом, любое непрерывное сообщение
может быть представлено как дискретное,
иначе говоря, последовательностью знаков
некоторого алфавита.
Возможность дискретизации
непрерывного сигнала с любой желаемой
точностью (для возрастания точности достаточно
уменьшить шаг) принципиально важна с
точки зрения информатики. Компьютер —
цифровая машина, т.е. внутреннее представление
информации в нем дискретно. Дискретизация
входной информации (если она непрерывна)
позволяет сделать ее пригодной для компьютерной
обработки.
Единицы количества
информации: вероятностный и объемный
подходы
Определить понятие
«количество информации»
Вероятностный
подход
Рассмотрим в
качестве примера опыт, связанный
с бросанием правильной игральной
кости, имеющей N граней. Результаты данного
опыта могут быть следующие: выпадение
грани с одним из следующих
знаков: 1, 2, . . . N.
Введем в рассмотрение
численную величину, измеряющую неопределенность
— энтропию (обозначим ее H). Согласно
развитой теории, в случае равновероятного
выпадания каждой из граней величины
N и H связаны между собой формулой
Хартли H = log2 N.
Важным при
введении какой-либо величины является
вопрос о том, что принимать за
единицу ее измерения. Очевидно, H будет
равно единице при N = 2. Иначе говоря,
в качестве единицы принимается
количество информации, связанное с проведением
опыта, состоящего в получении одного
из двух равновероятных исходов (примером
такого опыта может служить бросание монеты
при котором возможны два исхода: «орел»,
«решка»). Такая единица количества информации
называется «бит».
В случае, когда
вероятности Pi результатов опыта (в
примере, приведенном выше — бросания
игральной кости) неодинаковы, имеет
место формула Шеннона . В случае
равновероятности событий, и формула
Шеннона переходит в формулу
Хартли.
В качестве примера
определим количество информации, связанное
с появлением каждого символа в сообщениях,
записанных на русском языке. Будем считать,
что русский алфавит состоит из 33 букв
и знака «пробел» для разделения слов.
По формуле Хартли H = log2 34 ~ 5.09 бит.
Однако, в словах
русского языка (равно как и в словах других
языков) различные буквы встречаются неодинаково
часто. Ниже приведена табл. 3 вероятностей
частоты употребления различных знаков
русского алфавита, полученная на основе
анализа очень больших по объему текстов.
Воспользуемся
для подсчета H формулой Шеннона: H ~
4.72 бит. Полученное значение H, как и
можно было предположить, меньше вычисленного
ранее. Величина H, вычисляемая по формуле
Хартли, является максимальным количеством
информации, которое могло бы приходиться
на один знак.
Аналогичные подсчеты
H можно провести и для других
языков, например, использующих латинский
алфавит — английского, немецкого,
французского и др. (26 различных букв
и «пробел»). По формуле Хартли получим
H = log2 27 ~ 4.76 бит.
Таблица 1
Частотность букв русского языка
i
Символ
P(i)
I
Символ
P(i)
I
Символ
P(i)
1
_
0.175
12
Л
0.035
23
Б
0.014
2
О
0.090
13
К
0.028
24
Г
0.012
3
Е
0.072
14
М
0.026
25
Ч
0.012
4
Ё
0.072
15
Д
0.025
26
Й
0.010
5
А
0.062
16
П
0.023
27
Х
0.009
6
И
0.062
17
У
0.021
28
Ж
0.007
7
T
0.053
18
Я
0.018
29
Ю
0.006
8
H
0.053
19
Ы
0.016
30
Ш
0.006
9
C
0.045
20
З
0.016
31
Ц
0.004
10
P
0.040
21
Ь
0.014
32
Щ
0.003
11
B
0.038
22
Ъ
0.014
33
Э
0.003
34
Ф
0.002
Рассмотрим алфавит,
состоящий из двух знаков 0 и 1. Если
считать, что со знаками 0 и 1 в двоичном
алфавите связаны одинаковые вероятности
их появления (P(0)=P(1)= 0.5), то количество
информации на один знак при двоичном
кодировании будет равно H = log2 2 = 1 бит.
Таким образом,
количество информации (в битах), заключенное
в двоичном слове, равно числу
двоичных знаков в нем.
Объемный
подход
В двоичной системе
счисления знаки 0 и 1 называют битами
(от английского выражения Binary digiTs — двоичные
цифры). В компьютере бит является наименьшей
возможной единицей информации. Объем
информации, записанной двоичными знаками
в памяти компьютера или на внешнем носителе
информации, подсчитывается просто по
количеству требуемых для такой записи
двоичных символов. При этом, в частности,
невозможно нецелое число битов (в отличие
от вероятностного подхода).
Для удобства использования
введены и более крупные, чем
бит, единицы количества информации.
Так, двоичное слово из восьми знаков содержит
один байт информации. 1024 байта образуют
килобайт (Кбайт), 1024 килобайта — мегабайт
(Мбайт), а 1024 мегабайта — гигабайт (Гбайт).
Между вероятностным
и объемным количеством
Информация о работе Единицы количества информации: вероятностный и объёмный подходы