Измерение информации. Задачи ЕГЭ на измерение информации

Автор работы: Пользователь скрыл имя, 24 Ноября 2011 в 08:24, курсовая работа

Описание работы

Часто приходится слышать, что сообщение или несет мало информации или, наоборот, содержит исчерпывающую информацию. В информатике используются различные подходы к измерению информации. Задача данного реферата – осветить основные подходы к измерению информации.

Содержание работы

Введение 3
§ 1. Объемный способ измерения информации 4
Таб. 1 пример объемного измерения 4
Таб. 2 Единицы измерения информации в вычислительной технике 5
§ 2. Алфавитный подход 5
§ 3. Вероятностный подход к измерению информации 6
Таб. 3 Частотный словарь русского языка 8
§ 4. Теория разнообразия Р. Эшби 8
§ 5. Алгоритмический подход А. Н. Колмогорова 10
§ 6. Другие подходы к измерению информации 14
§ 7. Единицы измерения информации. 20
Таб. 4 Таблица логарифмов 23
§ 8. Задачи ЕГЭ по измерению информации…………………………………24
Заключение 28
Список использованной литературы: 30

Файлы: 1 файл

курсовая к.doc

— 307.00 Кб (Скачать файл)

     Однако, несмотря на определенные достижения, концепция Карнапа – Бар-Хиллела  оказалась малопригодной для  анализа содержания естественного  языка. Эта теория, основанная на вероятностной  логике, неприменима к анализу  основного массива научного знания – достоверного знания. С точки зрения указанной теории, например, высказывание «На Луне есть нефть» содержит информацию, а высказывание «На Земле есть нефть» лишено информации, поскольку это достоверное знание. Такая ситуация представлялась довольно парадоксальной!

     Подчеркнем  еще раз в связи с этим, что  семантическая теория информации еще  молода и делает лишь первые шаги. Некоторые  исследователи, например, советский  ученый Е.К. Войшвилло, становятся на путь синтеза статистического (Шеннон) и логико-семантического (Карнап, Бар-Хиллел) подходов к информации.

     Об  одной очень интересной модели семантической  информации мы расскажем ниже, а  сейчас рассмотрим прагматические концепции  информации.

     Изучение  отношений между знаками и  их потребителями с точки зрения использования получаемой информации и влияния знаков на поведение систем составляет основу прагматической теории информации. Для всех подходов здесь характерно стремление связать понятие прагматической информации с целью, целенаправленным поведением и выдвинуть те или иные количественные меры ценности информации.

     Исходя  из этих соображений, А.А. Харкевич предложил связать меру ценности информации с изменением вероятности достижения цели при получении этой информации:

     I = log (p1/p0) = log p1 – log p0,

где р0 и р1 – вероятность достижения цели соответственно до и после получения информации.

     А.А. Харкевич первым подчеркнул фундаментальный характер связи прагматических свойств информации с категорией цели, понимаемой как опережающее отражение, модель будущего результата деятельности.

     Другой  подход к проблеме ценности информации осуществлен М.М. Бонгардом. Он вводит понятие «полезная информация», связывая сообщение с тем, какую задачу решает получатель, что он знает до прихода сообщения и как его истолковывает. Этот подход имеет вероятностно-алгебраическую сущность и носит более общий характер, чем подход, предложенный А.А. Харкевичем.

     Значительную  роль в развитии прагматической теории информации сыграли работы американского  логика Д. Харраха, поставившего перед собой цель показать, как символическая логика и теория семантической информации могут быть использованы для анализа некоторых аспектов человеческой коммуникации. Эту цель он пытается достигнуть путем создания «модели того, как разумный получатель оценивает последовательность сообщений на основе определенных семантических и прагматических свойств». Харрах предлагает обеспечить получателя «программой обработки сообщений», с помощью которой извлекается из получаемых сообщений «годная к употреблению сумма сообщений». Именно к этому результату переработки сообщений, а не к сообщениям в их первоначальной форме могут быть применены количественные меры информации. Созданная Харрахом логическая модель коммуникации служит тем языковым каркасом, в рамках которого программа может быть образована и применена.

     Следует отметить, что прагматические и семантические  оценки зачастую трудно разделить. В  некоторых случаях они сливаются. В самом деле, семантические оценки характеризуют смысл, содержательность сообщений, а прагматические – их ценность, полезность. Но совершенно очевидно, что бессодержательные сообщения не могут быть полезными.

     Как семантические, так и прагматические теории информации могут быть практически  применены пока только к очень  небольшому числу явлений реальной действительности. Но не следует забывать, что они имеют еще и теоретическое значение. В борьбе идей, мнений, гипотез и выводов, в их соперничестве и сотрудничестве рождается истина.

     По  каждому из перечисленных направлений  исследований в теории информации написано много трудов. Несмотря на это, фронт наступления на понятие информации широк: его пристально изучают философы, биологи, физики, математики. Исследования, проводимые в разных направлениях, способствуют углублению понятия информации, подчеркивая в нем оттенки, специфичные для той или иной области знаний Огромна практическая ценность полученных результатов.

 

§ 7. Единицы измерения информации

     Решая различные задачи, человек вынужден использовать информацию об окружающем нас мире. И чем более полно и подробно человеком изучены те или иные явления, тем подчас проще найти ответ на поставленный вопрос. Так, например, знание законов физики позволяет создавать сложные приборы, а для того, чтобы перевести текст на иностранный язык, нужно знать грамматические правила и помнить много слов.

     Часто приходится слышать, что сообщение  или несет мало информации или, наоборот, содержит исчерпывающую информацию. При этом разные люди, получившие одно и то же сообщение (например, прочитав статью в газете), по-разному оценивают количество информации, содержащейся в нем. Это происходит оттого, что знания людей об этих событиях (явлениях) до получения сообщения были различными. Поэтому те, кто знал об этом мало, сочтут, что получили много информации, те же, кто знал больше, чем написано в статье, скажут, что информации не получили вовсе. Количество информации в сообщении, таким образом, зависит от того, насколько ново это сообщение для получателя.

     Однако  иногда возникает ситуация, когда  людям сообщают много новых для них сведений (например, на лекции), а информации при этом они практически не получают (в этом нетрудно убедиться во время опроса или контрольной работы). Происходит это оттого, что сама тема в данный момент слушателям не представляется интересной.

     Итак, количество информации зависит от новизны  сведений об интересном для получателя информации явлении. Иными словами, неопределенность (т.е. неполнота знания) по интересующему нас вопросу  с получением информации уменьшается. Если в результате получения сообщения будет достигнута полная ясность в данном вопросе (т.е. неопределенность исчезнет), говорят, что была получена исчерпывающая информация. Это означает, что необходимости в получении дополнительной информации на эту тему нет. Напротив, если после получения сообщения неопределенность осталась прежней (сообщаемые сведения или уже были известны, или не относятся к делу), значит, информации получено не было (нулевая информация).

     Если  подбросить монету и проследить, какой  стороной она упадет, то мы получим определенную информацию. Обе стороны монеты "равноправны", поэтому одинаково вероятно, что выпадет как одна, так и другая сторона. В таких случаях говорят, что событие несет информацию в 1 бит. Если положить в мешок два шарика разного цвета, то, вытащив вслепую один шар, мы также получим информацию о цвете шара в 1 бит. Единица измерения информации называется бит (bit) - сокращение от английских слов binary digit, что означает двоичная цифра.

     В компьютерной технике бит соответствует  физическому состоянию носителя информации: намагничено - не намагничено, есть отверстие - нет отверстия. При этом одно состояние принято обозначать цифрой 0, а другое - цифрой 1. Выбор одного из двух возможных вариантов позволяет также различать логические истину и ложь. Последовательностью битов можно закодировать текст, изображение, звук или какую-либо другую информацию. Такой метод представления информации называется двоичным кодированием (binary encoding).

     В информатике часто используется величина, называемая байтом (byte) и равная 8 битам. И если бит позволяет выбрать один вариант из двух возможных, то байт, соответственно, 1 из 256 (28). В большинстве современных ЭВМ при кодировании каждому символу соответствует своя последовательность из восьми нулей и единиц, т. е. байт. Соответствие байтов и символов задается с помощью таблицы, в которой для каждого кода указывается свой символ. Так, например, в широко распространенной кодировке Koi8-R буква "М" имеет код 11101101, буква "И" - код 11101001, а пробел - код 00100000.

     Наряду  с байтами для измерения количества информации используются более крупные единицы:  
     1 Кбайт (один килобайт) = 210 байт = 1024 байта;  
     1 Мбайт (один мегабайт) = 210 Кбайт = 1024 Кбайта;  
     1 Гбайт (один гигабайт) = 210 Мбайт = 1024 Мбайта.

     В последнее время в связи с  увеличением объёмов обрабатываемой информации входят в употребление такие  производные единицы, как:  
     1 Терабайт (Тб) = 1024 Гбайта = 240 байта,  
     1 Петабайт (Пб) = 1024 Тбайта = 250 байта.

     Рассмотрим, как можно подсчитать количество информации в сообщении, используя содержательный подход.

     Пусть в некотором сообщении содержатся сведения о том, что произошло  одно из N равновероятных событий. Тогда  количество информации х, заключенное  в этом сообщении, и число событий N связаны формулой: 2x = N. Решение такого уравнения с неизвестной х имеет вид: x=log2N. То есть именно такое количество информации необходимо для устранения неопределенности из N равнозначных вариантов. Эта формула носит название формулы Хартли. Получена она в 1928 г. американским инженером Р. Хартли. Процесс получения информации он формулировал примерно так: если в заданном множестве, содержащем N равнозначных элементов, выделен некоторый элемент x, о котором известно лишь, что он принадлежит этому множеству, то, чтобы найти x, необходимо получить количество информации, равное log2N.

     Если N равно целой степени двойки (2, 4, 8, 16 и т.д.), то вычисления легко  произвести "в уме". В противном  случае количество информации становится нецелой величиной, и для решения задачи придется воспользоваться таблицей логарифмов либо определять значение логарифма приблизительно (ближайшее целое число, большее ).

     При вычислении двоичных логарифмов чисел  от 1 до 64 по формуле x=log2N поможет следующая таблица.

N x N x N x N x
1 0,00000 17 4,08746 33 5,04439 49 5,61471
2 1,00000 18 4,16993 34 5,08746 50 5,64386
3 1,58496 19 4,24793 35 5,12928 51 5,67243
4 2,00000 20 4,32193 36 5,16993 52 5,70044
5 2,32193 21 4,39232 37 5,20945 53 5,72792
6 2,58496 22 4,45943 38 5,24793 54 5,75489
7 2,80735 23 4,52356 39 5,28540 55 5,78136
8 3,00000 24 4,58496 40 5,32193 56 5,80735
9 3,16993 25 4,64386 41 5,35755 57 5,83289
10 3,32193 26 4,70044 42 5,39232 58 5,85798
11 3,45943 27 4,75489 43 5,42626 59 5,88264
12 3,58496 28 4,80735 44 5,45943 60 5,90689
13 3,70044 29 4,85798 45 5,49185 61 5,93074
14 3,80735 30 4,90689 46 5,52356 62 5,95420
15 3,90689 31 4,95420 47 5,55459 63 5,97728
16 4,00000 32 5,00000 48 5,58496 64 6,00000

Таб.4 Таблица логарифмов

Таб.4 Таблица логарифмов

     При алфавитном подходе, если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ (информационный вес одного символа), вычисляется по формуле: x=log2N, где N - мощность алфавита (полное количество символов, составляющих алфавит выбранного кодирования). В алфавите, который состоит из двух символов (двоичное кодирование), каждый символ несет 1 бит (21) информации; из четырех символов - каждый символ несет 2 бита информации(22); из восьми символов - 3 бита (23) и т.д. Один символ из алфавита мощностью 256 (28) несет в тексте 8 битов информации. Как мы уже выяснили, такое количество информации называется байт. Алфавит из 256 символов используется для представления текстов в компьютере. Один байт информации можно передать с помощью одного символа кодировки ASCII. Если весь текст состоит из K символов, то при алфавитном подходе размер содержащейся в нем информации I определяется по формуле: , где x - информационный вес одного символа в используемом алфавите. 

     Например, книга содержит 100 страниц; на каждой странице - 35 строк, в каждой строке - 50 символов. Рассчитаем объем информации, содержащийся в книге.

     Страница  содержит 35 x 50 = 1750 байт информации. Объем всей информации в книге (в разных единицах):  
     1750 x 100 = 175000 байт.  
     175000 / 1024 = 170,8984 Кбайт.  
     170,8984 / 1024 = 0,166893 Мбайт.

§ 8.  Задачи  ЕГЭ по измерению информации

Задание № 1   Считая, что каждый символ кодируется двумя байтами, оцените информационный объем следующего предложения в кодировке Unicode: Один пуд — около 16,4 килограмм.

1) 32Кбайта 2) 512 бит  3) 64 бита 4) 32 байта

Решение задания № 1

Считаем количество символов в предложении, учитывая знаки препинания и пробелы. Получаем 32 символа. Так как каждый символ кодируется двумя байтами, то информационный объем предложенной фразы 64 байта. Если байты перевести в биты, то есть умножить на 8, то получим 512 бит.

Правильный ответ № 2. 
 

Задание № 2   Сколько мегабайт информации содержит сообщение объемом 223 бит?

1)1 2)8

3)3 4)32

Решение задания № 2

Информация о работе Измерение информации. Задачи ЕГЭ на измерение информации