Машинное представление знаний и данных. Методы хранения, поиска и обработки данных, методы естественно-языкового человеко-машинного общен

Автор работы: Пользователь скрыл имя, 11 Мая 2013 в 14:35, контрольная работа

Описание работы

Машинное представление знаний и данных.
Для представления информации в памяти ЭВМ (как числовой так и не числовой) используется двоичный способ кодирования.
Элементарная ячейка памяти ЭВМ имеет длину 8 бит (1 байт). Каждый байт имеет свой номер (его называют адресом). Наибольшую последовательность бит, которую ЭВМ может обрабатывать как единое целое, называют машинным словом. Длина машинного слова зависит от разрядности процессора и может быть равной 16, 32 битам и т.д.
Для кодирования символов достаточно одного байта. При этом можно представить 256 символов (с десятичными кодами от 0 до 255). Набор символов персональных компьютеров чаще всего является расширением кода ASCII (American Standart Code of Information Interchange - стандартный американский код для обмена информацией).

Содержание работы

1 Машинное представление знаний и данных. Методы хранения, поиска и обработки данных, методы естественно-языкового человеко-машинного общения.
2 Системы счисления
2.1 Задача 1
2.2 Задача 2
2.3 Задача 3
2.4 Задача 4
2.5 Задача 5

3 Основы алгоритмизации и программирования 3.1 Задача 1
3.2 Задача 2
3.3 Задача 3


4 Формы представления информации в ЭВМ
5 Алгебра логики
Библиографический список

Файлы: 1 файл

Ростовский Государственный Экономический Университет.docx

— 812.29 Кб (Скачать файл)

Ростовский государственный экономический  университет (РИНХ)

 

Кафедра экономической  информатики и автоматизации управления

 

ИНДИВИДУАЛЬНОЕ    ЗАДАНИЕ

 

На тему: Машинное представление знаний и данных. Методы хранения, поиска и обработки данных, методы естественно-языкового человеко-машинного общения.

 

Факультет:                    Учетно-экономический

 

По дисциплине:            Информатика

 

Курс:                              1

 

Группа:                          412

 

Направление подготовки:    

 

Вариант:                         6

 

Выполнила:

студентка                     Зламан Анастасия Геннадьевна

 

Проверил:

Старший преподаватель            И.И.Мирошниченко

 

 

 

 

                              Город Ростов-на-Дону

                                    2012 г.

 

Содержание

1        Машинное представление знаний и данных. Методы хранения, поиска и обработки данных, методы естественно-языкового человеко-машинного общения.

2       Системы счисления          

2.1    Задача 1  

2.2    Задача 2  

2.3    Задача 3  

2.4    Задача 4  

2.5    Задача 5  

        

3       Основы  алгоритмизации и программирования                3.1     Задача 1            

3.2     Задача 2            

3.3     Задача 3            

 

 

4        Формы  представления информации в ЭВМ                                           

5        Алгебра  логики            

Библиографический список            

Приложения

Машинное представление  знаний и данных.

Для представления информации в  памяти ЭВМ (как числовой так и  не числовой) используется двоичный способ кодирования.

Элементарная ячейка памяти ЭВМ  имеет длину 8 бит (1 байт). Каждый байт имеет свой номер (его называют адресом). Наибольшую последовательность бит, которую  ЭВМ может обрабатывать как единое целое, называют машинным словом. Длина  машинного слова зависит от разрядности  процессора и может быть равной 16, 32 битам и т.д.

Для кодирования символов достаточно одного байта. При этом можно представить 256 символов (с десятичными кодами от 0 до 255). Набор символов персональных компьютеров чаще всего является расширением кода ASCII (American Standart Code of Information Interchange - стандартный американский код для обмена информацией).

В некоторых случаях при представлении  в памяти ЭВМ чисел используется смешанная двоично-десятичная система  счисления, где для хранения каждого  десятичного знак нужен полубайт (4 бита) и десятичные цифры от 0 до 9 представляются соответствующими двоичными  числами от 0000 до 1001. Например, упакованный  десятичный формат, предназначенный  для хранения целых чисел с 18-ю  значащими цифрами и занимающий в памяти 10 байт (старший из которых  знаковый), использует именно этот вариант.

Другой способ представления целых  чисел - дополнительный код. Диапазон значений величин зависит от количества бит  памяти отведенных для их хранения. Например, величины типа Integer лежат  в диапазоне от

-32768 (-215) до 32677 (215-1) и для их хранения  отводится 2 байта: типа LongInt - в  диапазоне от -231 до 231-1 и размещаются  в 4 байтах: типа Word - в диапазоне  от 0 до 65535 (216-1) используется 2 байта  и т.д.

Как видно из примеров, данные могут  быть интерпретированы как числа  со знаком, так и без знаков. В  случае представления величины со знаком самый левый (старший) разряд указывает  на положительное число, если содержит нуль, и на отрицательное, если - единицу.

Вообще, разряды нумеруются справа налево, начиная с нуля.

Дополнительный код положительного числа совпадает с его прямым кодом. Прямой код целого числа может  быть представлен следующим образом: число переводиться в двоичную систему  счисления, а затем его двоичную запись слева дополняют таким  количеством незначащих нулей, сколько  требует тип данных, к которому принадлежит число. Например, если число 37(10) = 100101(2) объявлено величиной типа Integer, то его прямым кодом будет 0000000000100101, а если величиной типа LongInt, то его  прямой код будет 00000000000000000000000000100101. Для более компактной записи чаще используют шестнадцатеричный код. Полученные коды можно переписать соответственно как 0025(16) и 00000025(16).

 

Дополнительный код целого отрицательного числа может быть получен по следующему алгоритму:

записать прямой код модуля числа;

инвертировать его (заменить единицы  нулями, нули - единицами);

прибавить к инверсионному коду единицу.

Например, запишем дополнительный код числа -37, интерпретируя его  как величину типа LongInt:

прямой код числа 37 есть 000000000000000000000000000100101

инверсный код 11111111111111111111111111011010

дополнительный код 11111111111111111111111111011011 или FFFFFFDB(16)

При получении по дополнительному  коду числа, прежде всего, необходимо определить его знак. Если число окажется положительным, то просто перевести его код в  десятичную систему исчисления. В  случае отрицательного числа необходимо выполнить следующий алгоритм:

вычесть из кода 1;

инвертировать код;

перевести в десятичную систему  счисления. Полученное число записать со знаком минус.

Несколько иной способ применяется  для представления в памяти персонального  компьютера действительных чисел. Рассмотрим представление величин с плавающей  точкой.

Любое действительное число можно  записать в стандартном виде M*10p, где 1 ≤ M < 10, р- целое число. Например, 120100000 = 1,201*108. Поскольку каждая позиция  десятичного числа отличается от соседней на степень числа 10, умножение  на 10 эквивалентно сдвигу десятичной запятой  на 1 позицию вправо. Аналогично деление  на 10 сдвигает десятичную запятую на позицию влево. Поэтому приведенный  выше пример можно продолжить: 120100000 = 1,201*108 = 0,1201*109 = 12,01*107... Десятичная запятая  плавает в числе и больше не помечает абсолютное место между  целой и дробной частями.

В приведённой выше записи М называют мантиссой числа, а р - его порядком. Для того чтобы сохранить максимальную точность, вычислительные машины почти  всегда хранят мантиссу в нормализованном  виде, что означает, что мантисса в данном случае есть число, лежащее  между 1(10) и 2(10) (1 ≤ М < 2). Основные системы  счисления здесь, как уже отмечалось выше,- 2. Способ хранения мантиссы с  плавающей точкой подразумевает, что  двоичная запятая находится на фиксированном  месте. Фактически подразумевается, что  двоичная запятая следует после  первой двоичной цифры, т.е. нормализация мантиссы делает единичным первый бит, помещая тем самым значение между  единицей и двойкой. Место, отводимое  для числа с плавающей точкой, делится на два поля. Одно поле содержит знак и значение мантиссы, а другое содержит знак и значение порядка.

Персональный компьютер IBM PC с математическим сопроцессором 8087 позволяет работать со следующими действительными типами (диапазон значений указан по абсолютной величине):

Тип  Диапазон   Мантисса Байты

Real  2,9*10-39..1,7*1038  11-12  6

Single  1,5*10-45..3,4*1038  7-8  4

Double   5,0*10-324..1,7*10308 15-16   8

Extended   3,4*10-4932..1,1*104932 19-20  10

 

 

 

 

 

 

Методы хранения, поиска и обработки данных

    Как только вычислительные  машины начали использоваться  для обработки экономической  информации, разработчики обнаружили, что под каждую программу (или  комплекс программ) разрабатывается  своя структура данных, позволяющая  оптимизировать вычислительный  процесс (выполнить его быстрее,  использовать меньший объём памяти  и т.д.). Очень скоро выяснилось, что это неудобно, так как одни  и те же данные приходится  дублировать (и даже неоднократно), занимая память машины из-за  необходимости представления одинаковых  данных в различных структурах. Например, информация о сотрудниках,  необходимая отделу кадров и  бухгалтерии, почти одна и та  же. Но обрабатывается она, естественно,  по разным алгоритмам. Поэтому  с точки зрения разработчиков  программ «кадры» и «бухгалтерия»  было бы хорошо в каждой  системе иметь свою структуру  данных, учитывающую специфику работы  кадровика или бухгалтера из  одной базы данных, где данные  представлены с учётом особенностей  этих программ.

    База данных (БД) - это  хранящаяся во внешней памяти  ЭВМ совокупность взаимосвязанных  данных, организованных по определенным  правилам, предусматривающим общие  принципы описания, хранения и  обработки данных.

    Информация, хранящаяся  в БД, как правило, относится  к какой-то определенной предметной  области. 

    Базы данных бывают  фактографическими и документальными.  В фактографических БД содержатся  краткие сведения об описываемых  объектах, представленные в строго  определенном формате. Из приведенных  выше примеров две первые БД, скорее всего, будут организованы  как фактографические. В БД библиотеки  о каждой книге хранятся библиографические  сведения: год издания, автор,  название и пр. Разумеется, текст  книги в ней содержаться не  будет. В БД отдела кадров  учреждения хранятся анкетные  данные сотрудников: фамилия,  имя, отчество, год и место рождения  и пр.

    Базы данных в третьем  и четвертом примерах наверняка  будут организованы как документальные. Первая из них будет включать  в себя тексты законов; вторая - тексты и ноты песен, биографическую  и творческую справочную информацию  о композиторах, поэтах, исполнителях, звуковые записи и видео клипы.  Следовательно, документальная БД  содержит обширную информацию  самого разного типа: текстовую,  графическую, звуковую, мультимедийную.

    Сама по себе база  данных не может обслужить  запросы пользователя на поиск  и обработку информации. БД - это  только "информационный склад". Обслуживание пользователя осуществляет  информационная система. 

Информационная система (ИС) - это  совокупность базы данных и всего  комплекса аппаратно-программных  средств для ее хранения, изменения  и поиска информации, для взаимодействия с пользователем. Примерами информационных систем являются системы продажи  билетов на пассажирские поезда и  самолеты. База данных – основной компонент  этих систем.

    Устройства внешней памяти, на которых хранятся БД, должны  иметь высокую информационную  емкость и малое время доступа  к хранимой информации. Для хранения БД может использоваться как один компьютер, так и множество взаимосвязанных компьютеров.

    Если различные части  одной базы данных хранятся  на множестве компьютеров, объединенных  между собой сетью, то такая  БД называется распределенной  базой данных. Очевидно, информацию  в сети Интернет, объединенную  паутиной WWW, можно рассматривать  как распределенную базу данных. Распределенные БД создаются  также и в локальных сетях. 

    Известны три основных  типа организации данных и  связей между ними:

-иерархический (в виде дерева)

-сетевой 

-реляционный. 

    В иерархической БД  существует упорядоченность элементов  в записи, один элемент считается  главным, остальные - подчиненными. Поиск какого-либо элемента данных  в такой системе может оказаться  довольно трудоемким из-за необходимости  последовательно проходить несколько  иерархических уровней. Иерархическую  БД образует, например, каталог файлов, хранимых на диске, а дерево  каталогов, доступное для просмотра  - наглядная демонстрация структуры  такой БД и поиска в ней  нужного элемента. Такой же БД  является родовое генеалогическое  дерево.

Сетевая БД отличается большей гибкостью, так как в ней существует возможность  устанавливать дополнительно к  вертикальным иерархическим связям горизонтальные связи. Это облегчает  процесс поиска нужных элементов  данных, так как уже не требует  обязательного прохождения нескольких иерархических ступеней.

    Наиболее распространенным  способом организации данных  является реляционный способ. Реляционными  БД (от английского слова relation - "отношение") называются БД, содержащие  информацию, организованную в виде  прямоугольных таблиц. Согласно  этому подходу, такая таблица  называется отношением. Каждая строка  таблицы содержит информацию  об одном отдельном объекте  описываемой в БД системы (о  конкретной книге, сотруднике  учреждения и пр.), а каждый  столбец - определенные характеристики (свойства, атрибуты) этих объектов. Например, атрибутами объектов могут  быть автор книги, должность  сотрудника, отдел, в котором он  работает, и пр. Строки такой таблицы  называются записями, а столбцы  - полями. Каждая запись должна  отличаться от других значением  главного ключа - определенного  поля или совокупности полей,  идентифицирующих запись. Для каждого  поля определяется тип и формат. Чаще всего реляционная база  данных - это множество таблиц, и  поэтому на диске - это множество  файлов. Различные таблицы связаны  между собой через общие поля.

 

 

 

Методы естественно-языкового человеко-машинного  общения

Развитие языков человеко-машинного  общения началось в 40-х гг. вместе с появлением ЭВМ. Первыми языками  этого типа были языки описания вычислит, процессов путем задания машинных команд и данных в двоичном коде. В нач. 50-х гг. создаются системы  символического кодирования (ассемблеры), в которых используются мнемонические  символьные обозначения операций (глаголов) и операндов (объектов, дополнений); в 1957 в США был разработан язык программирования фортран, в 1960 группа европейских ученых предложила язык алгол-60. Обычно текст на языке программирования состоит из заголовка программы, описательной (декларативной) и процедурной  части; в декларативной части  описываются объекты (величины), над  которыми будут производиться действия, в процедурной части в императивной или сентенциальной (повествовательной) форме задаются вычисления. Вычисления на языках программирования задаются в виде операторов (предложений), в  состав которых входят операнды (переменные и константы) и символы, обозначающие арифметические, логические, символьные, теоретико-множественные и др. операции и вычислит, функции; имеются особые грамматические конструкции для  задания логических условий, циклов, составных операторов (аналоги сложных  предложений), конструкции для задания  и использования процедур и функций, операторы ввода и вывода данных, операторы для обращения к  транслятору и к операционной системе, т. е. к программам, интерпретирующим текст на языке программирования и следящим за его правильным исполнением (пониманием). Из искусственных языков языки программирования наиболее близки к естественным языкам по составу  выполняемых ими лингвистических  функций (имеют место коммуникативная, репрезентативная, конативная, фатическая и металингвистическая функции). Для языков программирования, как  и для естественного языка, обычна асимметрия плана выражения и  плана содержания (имеется синонимия, многозначность, омонимия). Они служат не только для собственно программирования, но и для профессионального общения  программистов; существуют спец. версии языков для публикации алгоритмов.

Информация о работе Машинное представление знаний и данных. Методы хранения, поиска и обработки данных, методы естественно-языкового человеко-машинного общен