Единицы количества информации: вероятностный и объёмный подходы

Автор работы: Пользователь скрыл имя, 20 Ноября 2010 в 12:01, Не определен

Описание работы

Реферат

Файлы: 1 файл

1.doc

— 56.50 Кб (Скачать файл)

Введение 

  

Понятие информация является одним из фундаментальных  в современной науке вообще и  базовым для информатики. Информацию наряду с веществом и энергией рассматривают в качестве важнейшей  сущности мира, в котором мы живем. Однако, если задаться целью формально определить понятие «информация», то сделать это будет чрезвычайно сложно.  

В простейшем бытовом  понимании с термином «информация» обычно ассоциируются некоторые  сведения, данные, знания и т.п. Информация передается в виде сообщений, определяющих форму и представление передаваемой информации. Примерами сообщений являются музыкальное произведение; телепередача; команды регулировщика на перекрестке; текст, распечатанный на принтере; данные, полученные в результате работы составленной вами программы и т.д. При этом предполагается, что имеются «источник информации» и «получатель информации».  

Сообщение от источника  к получателю передается посредством  какой-нибудь среды, являющейся в таком  случае «каналом связи». Так, при передаче речевого сообщения в качестве такого канала связи можно рассматривать воздух, в котором распространяются звуковые волны, а в случае передачи письменного сообщения (например, текста, распечатанного на принтере) каналом сообщения можно считать лист бумаги, на котором напечатан текст. 

Человеку свойственно  субъективное восприятие информации через  некоторый набор ее свойств: важность, достоверность, своевременность, доступность, «больше-меньше» и т.д. Использование  терминов «больше информации» или  «меньше информации» подразумевает некую возможность ее измерения (или хотя бы количественного соотнесения). При субъективном восприятии измерение информации возможно лишь в виде установления некоторой субъективной порядковой шкалы для оценки «больше-меньше». При объективном измерении количества информации следует заведомо отрешиться от восприятия ее с точки зрения субъективных свойств, примеры которых перечислены выше. Более того, не исключено, что не всякая информация будет иметь объективно измеряемое количество. 

Чтобы сообщение  было передано от источника к получателю необходима некоторая материальная субстанция — носитель информации. Сообщение, передаваемое с помощью носителя — сигнал. В общем случае сигнал — это изменяющийся во времени физический процесс. Та из характеристик процесса, которая используется для представления сообщений, называется параметром сигнала.  

В случае, когда  параметр сигнала принимает последовательное во времени конечное число значений (при этом все они могут быть пронумерованы), сигнал называется дискретным, а сообщение, передаваемое с помощью таких сигналов — дискретным сообщением. Если же источник вырабатывает непрерывное сообщение (соответственно параметр сигнала — непрерывная функция от времени), то соответствующая информация называется непрерывной. Примеры дискретного сообщения — текст книги, непрерывного сообщения — человеческая речь, передаваемая модулированной звуковой волной; параметром сигнала в этом случае является давление, создаваемое этой волной в точке нахождения приемника — человеческого уха.  

Непрерывное сообщение может быть представлено непрерывной функцией, заданной на некотором интервале. Непрерывное сообщение можно преобразовать в дискретное (такая процедура называется дискретизацией). Из бесконечного множества значений параметра сигнала выбирается их определенное число, которое приближенно может характеризовать остальные значения. Для этого область определения функции разбивается на отрезки равной длины и на каждом из этих отрезков значение функции принимается постоянным и равным, например, среднему значению на этом отрезке. В итоге получим конечное множество чисел. Таким образом, любое непрерывное сообщение может быть представлено как дискретное, иначе говоря, последовательностью знаков некоторого алфавита.  

Возможность дискретизации  непрерывного сигнала с любой желаемой точностью (для возрастания точности достаточно уменьшить шаг) принципиально важна с точки зрения информатики. Компьютер — цифровая машина, т.е. внутреннее представление информации в нем дискретно. Дискретизация входной информации (если она непрерывна) позволяет сделать ее пригодной для компьютерной обработки.  

 

Единицы количества информации: вероятностный и объемный подходы 

  

Определить понятие  «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу. 

Вероятностный подход 

Рассмотрим в  качестве примера опыт, связанный  с бросанием правильной игральной  кости, имеющей N граней. Результаты данного  опыта могут быть следующие: выпадение  грани с одним из следующих  знаков: 1, 2, . . . N.  

Введем в рассмотрение численную величину, измеряющую неопределенность — энтропию (обозначим ее H). Согласно развитой теории, в случае равновероятного  выпадания каждой из граней величины N и H связаны между собой формулой Хартли  H = log2 N.                                                          

Важным при  введении какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Очевидно, H будет  равно единице при N = 2. Иначе говоря, в качестве единицы принимается  количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты при котором возможны два исхода: «орел», «решка»). Такая единица количества информации называется «бит».  

В случае, когда  вероятности Pi результатов опыта (в  примере, приведенном выше — бросания игральной кости) неодинаковы, имеет  место формула Шеннона . В случае равновероятности событий, и формула  Шеннона переходит в формулу  Хартли. 

В качестве примера  определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли H = log2 34 ~ 5.09 бит. 

 Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена табл. 3 вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов. 

Воспользуемся для подсчета H формулой Шеннона: H ~ 4.72 бит. Полученное значение H, как и  можно было предположить, меньше вычисленного ранее. Величина H, вычисляемая по формуле  Хартли, является максимальным количеством  информации, которое могло бы приходиться на один знак.  

Аналогичные подсчеты H можно провести и для других языков, например, использующих латинский  алфавит — английского, немецкого, французского и др. (26 различных букв и «пробел»). По формуле Хартли получим H = log2 27 ~ 4.76 бит.  

Таблица 1 

Частотность букв русского языка

Символ 

P(i) 

Символ 

P(i) 

Символ 

P(i) 

0.175 

12 

Л 

0.035 

23 

Б 

0.014 

О 

0.090 

13 

К 

0.028 

24 

Г 

0.012 

Е 

0.072 

14 

М 

0.026 

25 

Ч 

0.012 

Ё 

0.072 

15 

Д 

0.025 

26 

Й 

0.010 

А 

0.062 

16 

П 

0.023 

27 

Х 

0.009 

И 

0.062 

17 

У 

0.021 

28 

Ж 

0.007 

0.053 

18 

Я 

0.018 

29 

Ю 

0.006 

0.053 

19 

Ы 

0.016 

30 

Ш 

0.006 

0.045 

20 

З 

0.016 

31 

Ц 

0.004 

10 

0.040 

21 

Ь 

0.014 

32 

Щ 

0.003 

11 

0.038 

22 

Ъ 

0.014 

33 

Э 

0.003 

  

  

  

  

  

  

34 

Ф 

0.002 
 

  

Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности  их появления (P(0)=P(1)= 0.5), то количество информации на один знак при двоичном кодировании будет равно H = log2 2 = 1 бит. 

Таким образом, количество информации (в битах), заключенное  в двоичном слове, равно числу  двоичных знаков в нем. 

  

 Объемный  подход 

В двоичной системе  счисления знаки 0 и 1 называют битами (от английского выражения Binary digiTs — двоичные цифры). В компьютере бит является наименьшей возможной единицей информации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода).  

Для удобства использования  введены и более крупные, чем  бит, единицы количества информации. Так, двоичное слово из восьми знаков содержит один байт информации. 1024 байта образуют килобайт (Кбайт), 1024 килобайта — мегабайт (Мбайт), а 1024 мегабайта — гигабайт (Гбайт). 

 Между вероятностным  и объемным количеством информации  соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в вероятностном (кибернетическом) смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускают измеримость количества информации в обоих смыслах, то это количество не обязательно совпадает, при этом кибернетическое количество информации не может быть больше объемного.  

Информация о работе Единицы количества информации: вероятностный и объёмный подходы