Прогнозирование результатов учебы студентов с помощью методов ИИ

Автор работы: Пользователь скрыл имя, 09 Декабря 2010 в 08:40, курсовая работа

Описание работы

РО, ЭС. Анализ результатов тестирования. Прогнозирование результатов тестирования, объяснение результатов прогноза, оценка знаний студентов.

Файлы: 1 файл

Курсовая работа.doc

— 662.50 Кб (Скачать файл)

Оглавление

 

  1. ВВЕДЕНИЕ

     Распознавание образов представляет собой раздел кибернетики, связанный с моделированием некоторых творческих аспектов мыслительной деятельности человека, таких, в частности, как способность узнавать (классифицировать) предметы и явления окружающего мира, формировать новые понятия и т. д. Методы распознавания образов получают широкое распространение как при решении чисто «человеческих» задач, таких, как распознавание зрительных, речевых и слуховых образов, так и для задач, нетривиальных для человека. Чаще всего эти задачи связаны с обработкой ряда измерений (параметров), зависимость между которыми неизвестна и число которых достигает десятка и более. К числу таких задач относятся, в частности, задачи технической и медицинской диагностики, некоторые задачи прогнозирования. Наибольшую трудность при их решении составляет, по-видимому, форма представления информации в виде чисел, которая неудобна и непривычна для человека

     Целью данной курсовой работы является прогнозирование результатов учебы студентов с помощью методов ИИ. Для достижения цели необходимо решить следующие задачи:

  • Изучить теоретический материал по данной теме;
  • Собрать данные и проанализировать их с помощью программы «КВАЗАР»;
  • Составить прогноз об успеваемости студентов.

     Входными  данными являются результаты тестирований студентов и материалы практического занятия на данную тему задания.

 

    2ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

    2.1. История развития.

       Распознавание образов представляет собой раздел кибернетики, связанный с моделированием некоторых творческих аспектов мыслительной деятельности человека, таких, в частности, как способность узнавать (классифицировать) предметы и явления окружающего мира, формировать новые понятия и т.д. 

       Методы  распознавания образов получают широкое распространение как при решении чисто «человеческих» задач, таких, как распознавание зрительных, речевых и слуховых образов, так и для задач, нетривиальных для человека. Чаще всего эти задачи связаны с обработкой ряда измерений (параметров), зависимость между которыми неизвестна и число которых достигает десятка и более. Наибольшую трудность при их решении составляет, по-видимому, форма представления информации в виде чисел, которая неудобна и непривычна для человека.

       На  начальном этапе работы над проблемой  распознавания было потрачено много  усилий на попытки построить процесс  распознавания, используя понятие  «образ». Они сводились, сознавая условность классификаций, к следующим направлениям:

  1. Изучение образа как такового с целью выяснить, что представляют собой образы разных типов, какова их структура;
  2. Построение системы распознавания на основе имитации способностей человека.

       В первом подходе основной массив составили работы, авторы которых считали, что процесс решения плохо формализованных задач на ЭВМ должен моделировать основные аспекты процесса мышления. Представители второго подхода исходили из посылки, что, несмотря на отсутствие модели того, как человек решает задачу, и несмотря на отсутствие адекватной математической модели реальной ситуации, можно, опираясь на здравый смысл, строить алгоритмы, которые реализуют нужный процесс преобразования информации. К середине 1970-х годов сформировались параметрические семейства алгоритмов, которые принято называть моделями алгоритмов распознавания. Решение практических задач свелось к «настройке параметров», т.е. к решению проблемы выбора значений параметров, выделяющих из семейства оптимальный для данной задачи алгоритм. В настоящее время сформировались общие для обоих подходов задачи и принципы их решения.

    2.2. Основные понятия.

       Распознавание образов, научное направление, связанное  с разработкой принципов и  построением систем, предназначенных  для определения принадлежности данного объекта к одному из заранее выделенных классов объектов. Под объектами в Р. о. понимают различные предметы, явления, процессы, ситуации, сигналы. Каждый объект описывается совокупностью основных характеристик (признаков, свойств) Х =(x1, ..., x i , ..., x n), где i-я координата вектора Х определяет значения i характеристики, и дополнительной характеристикой S, которая указывает на принадлежность объекта к некоторому классу (образу).

       Одним из основных понятий в теории распознавания  является образ. Образ (класс) – множество всех объектов, сходных друг с другом в каком-либо фиксированном отношении. Распознать объект или образ объекта – значит указать, к какому образу он относится. Методы распознавания образов получают широкое распространение как при решении чисто «человеческих» задач, таких, как распознавание зрительных, речевых и слуховых образов, так и для задач, нетривиальных для человека. Чаще всего эти задачи связаны с обработкой ряда измерений (параметров), зависимость между которыми неизвестна и число которых достигает десятка и более. Наибольшую трудность при их решении составляет, по-видимому, форма представления информации в виде чисел, которая неудобна и непривычна для человека. Распознавание объекта производится при помощи решающего правила, которое может быть получено на этапе обучения, предшествующем распознаванию. Решающее правило может представлять собой некоторую разделяющую (дискриминантную) функцию или систему дискриминантных функций (в случае числа образов k>2). Обучающая выборка — это множество объектов, которыми образы представлены при обучении, т. е. это объединение некоторых подмножеств рассматриваемых образов. Экзаменующая (проверочная) выборка — множество объектов, на которых  проверяются  результаты  обучения.

       Признак — описание того или иного свойства объекта. Признаки могут быть как  количественными, так и качественными. При решении задачи распознавания имеют дело не непосредственно с реальными объектами, а с векторами из Rn, моделирующими эти объекты. При этом каждая компонента моделирующего вектора представляет собой значение соответствующего признака. В геометрической интерпретации образ отождествляется с областью многомерного пространства признаков, каждая точка которой соответствует конкретной реализации этого образа.

    2.3. Основные задачи.

       Одна  из основных задач Р. о. - выбор правила (решающей функции) D, в соответствии с которым по значению контрольной реализации Х устанавливается её принадлежность к одному из образов, т. е. указываются "наиболее правдоподобные" значения характеристики S для данного Х. Выбор решающей функции D требуется произвести так, чтобы стоимость самого распознающего устройства, его эксплуатации и потерь, связанных с ошибками распознавания, была минимальной. Примером задачи Р. о. этого типа может служить задача различения нефтеносных и водоносных пластов по косвенным геофизическим данным. По этим характеристикам сравнительно легко обнаружить пласты, насыщенные жидкостью. Значительно сложнее определить, наполнены они нефтью или водой. Требуется найти правило использования информации, содержащейся в геофизических характеристиках, для отнесения каждого насыщенного жидкостью пласта к одному из двух классов - водоносному или нефтеносному. При решении этой задачи в обучающую выборку включают геофизические данные вскрытых пластов.

       В соответствии с большинством классификаций можно выделить три наиболее распространенных типа задач распознавания образов:

  1. Задачи обучения по прецедентам, называемые также задачами «обучения с учителем», или дискриминантного анализа:

       Имеется множество объектов (ситуаций) и  множество возможных ответов (откликов, реакций). Существует некоторая зависимость  между ответами и объектами, но она  не известна. Известна только конечная совокупность прецедентов — пар  «объект, ответ», называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость, то есть построить алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения точности ответов определённым образом вводится функционал качества;

  1. Задачи таксономии (автоматической классификации, кластер - анализа):

       Предположим, что известны n1 наблюдений из генеральной  совокупности A1, n2 наблюдений из генеральной  совокупности А2 и т.д., nm наблюдений из генеральной совокупности Am, m³ 2. Дана также выборка z = (z1, ..., z). Задача Р. о. состоит в определении, какой из генеральных совокупностей A j, j = 1, 2,..., m , принадлежит выборка z. При этом обычно принимается предположение о том, что распределения P (Ї) совокупностей A j принадлежат некоторому семейству {P (Q, ’)} распределений, зависящих от векторного параметра Q, так что P j (’) = Р (Q j,Ї), где Q j неизвестны.

       Если  заданы потери L i j, которые несёт наблюдатель, относя выборку 2 к совокупности (образу) A j, когда она на самом деле принадлежит A i, то сформулированная задача может рассматриваться и решаться с помощью методов теории статистических игр [стратегией природы здесь является набор (Q1, ..., Q m, j), где j указывает номер совокупности, к которой относится z]. В этом случае возможно отыскание оптимальных "решающих функций", минимизирующих в том или ином смысле потери наблюдателя;

  1. Задачи выбора информативных признаков из заданной системы описания объектов.

       Успех в решении задачи распознавания образов зависит в значительной мере от того, насколько удачно выбраны признаки Х. Исходный набор характеристик часто бывает очень большим. В то же время приемлемое правило должно быть основано на использовании небольшого числа признаков, наиболее важных для отличения одного образа от другого. Так, в задачах медицинской диагностики важно определить, какие симптомы и их сочетания (синдромы) следует использовать при постановке диагноза данного заболевания. Поэтому проблема выбора информативных признаков - важная составная часть проблемы распознавания образов.

    2.4. Пакет Квазар.

      2.4.1. Подготовка данных для пакета КВАЗАР.

     Файл  данных обычно бывает подготовлен в  символьном виде массива – матрица  “ объект  - признаки”. При решении задачи обучения по прецедентам (фактам) в входном файле должен соблюдаться следующий порядок векторов – объектов:

  1. векторы известной принадлежности, представленные на обучение (из них пакет автоматически или на основе указаний пользователя может сформировать обучающую и проверочные выборки); при этом сначала следуют векторы 1 класса – образа, затем второго и т.д.;
  2. векторы, предъявленные для рабочего распознавания (при наличии)

     Работая с пакетом КВАЗАР, нумеровать векторы  не следует. Номер вектора определяется его местом в файле  (массиве) обрабатываемых данных.

      1. Структура входного файла.

     Каждая запись – объект  “ n”- мерный вектор состоит из признаков вещественных чисел, которые разделяются пробелом или запятой, в конце описания вектора ставится символ “;”. Набор следующего вектора  новая запись, т.е. новая строка. В начале вектора можно указывать имена векторов, которые отделяются от признаков символом “:”.

     Данные  должны быть набраны в “DOS” кодировке в любом редакторе, например БЛОКНОТ шрифт Terminal. Имя файла должно состоять из 8 латинских символов – “ группа и ваш номер по списку”. Тип файла обязательно должен быть DAT и записан для удобства работы в каталог DATA пакета КВАЗАР.

Пример:

     Файл -  I1601001.dat, I16010 – группа, 01- ваш номер по списку.

     ИМЯ : 2  2  9  1. 1. 6. 1. 2.;

     3. 9. 8. 7. 6. 5. 3. 2.;

     0. 0. 7. 9. 0. 8. 7. 8.;

     3. 4. 6. 7. 5. 6. 9. 6.;

    2.4.3. Методические рекомендации по решению задач с помощью пакета КВАЗАР.

     1. Получить пароль у преподавателя  и загрузить пакет - KVAZAR.exe

     2. Набрать имя сеанса - “ группа и ваш номер по списку”  Пример - I1601001

     3. Подготовленные ваши данные анализируются средствами пакета. Если в данных обнаружены будут ошибки в этом случае будут выданы соответствующие диагностические сообщения, например:

В строке n неразрешенный символ x, K-й вводимый вектор содержит чисел вместо . В строке десятичная точка не на месте, в строке число не содержит десятичной точки, и т.д.

     Устранив  ошибки, выявленные программой ввода, можно повторно обратиться к пакету с тем же заданием. Поскольку программа ввода осуществляет лишь самый простой контроль. состоящий в основном в выявлении синтаксических ошибок и проверки длины векторов рекомендуется перед работой с пакетом еще раз проверить входные данные.

      1. Формирование обучающей и проверочной выборок.

     Задача  формирования обучающей и проверочной  выборок тесно связана с задачей  обучения по прецедентам и обусловлена ею. Действительно, для качественного (с точки зрения пригодности результатов для практического использования) решения задачи обучения по прецедентам необходимо производить оценку качества дискриминантных функций, получаемых в результате обучения. С этой целью можно, например, распознать с помощью полученной дискриминантной функции некоторое количество векторов из проверочной выборки, классификация которых априори известна, но которые не участвовали в обучении. На практике проверочную выборку формируют в лучшем случае исходя из каких-либо практических соображений на основе чисто визуального анализа всей имеющейся совокупности векторов, а чаще — случайным образом. При этом в проверочную выборку могут оказаться включенными векторы из областей признакового пространства, не представленных в обучающей выборке, что, естественно, может повлечь плохое качество обучения распознаванию векторов из этой области. В предлагается воспользоваться для формирования обучающей и проверочной выборок результатами таксономии множества объектов, представленных для обучения. Данный подход позволяет получать достаточно прецедентные (т. е. отражающие основные особенности описания объектов) обучающие и проверочные выборки.

Информация о работе Прогнозирование результатов учебы студентов с помощью методов ИИ