Cоздание моделей свойств двухслойных пленочных структур на основе линейно-цепочечного углерода с помощью Data Mining

Автор работы: Пользователь скрыл имя, 29 Сентября 2011 в 16:28, дипломная работа

Описание работы

Целью данной работы является создание вычислительных моделей по свойствам продуктов нанотехнологий. В частности, объектом исследований мы выбрали линейно-цепочечный углерод.

В задачи работы входили:

- Аналитический обзор возможностей методов интеллектуального анализа данных.

-Сбор данных по электрическим свойствам нанопленок ЛЦУ, подготовка баз данных.

- Создание моделей свойств нанопленок с помощью искусственных нейронных сетей, позволяющих прогнозировать их свойства в зависимости от различных параметров.

Содержание работы

Введение……………………………………………………………………….…3

Глава 1 Литературный обзор

1.1. Что такое Data Mining ……………………….………………...……….....4

1.2. Методы и стадии Data Mining……………………………………………...5
1.3. Классификация задач Data Mining………………………………………...8
1.4. Модели Data Mining………………………………………………………..11

1.5. Теория нейронных сетей………………………………………………….14

1.6.Классификация нейронных сетей…………………………………………18

1. 7.Подготовка данных для обучения ……………..…………………………20

1.8. Выбор структуры нейронной сети……………………………………….21

1.9. кратко о ЛЦУ…………………………………………………………….22

Глава 2. Методика исследования и результаты работы

2.1. Вычислительная модель электрических пленок ЛЦУ……………….…25

2.2. Предобработка данных………………………………………………..…26

2.4. Структура и обучение нейронной сети…………...……………………...36

2.5. Анализ качества обучения нейронной сети………………………………42

2.6. Проверка и оценка моделей……………...……………………………….45

Заключение…………………………………………………………………..…49

Список использованных источников …………………………………….......50

Приложение № 1………………………………………………………………52

Файлы: 1 файл

1 диплом-2003.doc

— 998.50 Кб (Скачать файл)

                    ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ

     Федеральное государственное образовательное  учреждение высшего профессионального  образования

     «Чувашский  государственный университет им. И. Н. Ульянова»

Физико-математический факультет

                                                Кафедра теплофизики

                                          

ДИПЛОМНАЯ РАБОТА 

     на  тему: « Cоздание моделей свойств двухслойных пленочных структур на основе линейно-цепочечного углерода с помощью Data Mining»

студентки 5 курса специальности «Физика наноструктур»

     Хытовой Анны Николаевны 
 
 
 

Научный руководитель: профессор, доктор ф.м. н.,

Абруков Виктор Сергеевич _____________________________________

Зав. кафедрой теплофизики: профессор, доктор ф. м. н,

Абруков Виктор Сергеевич_______________________________________

Руководитель  специализации: профессор, к. т.н.,

Кочаков Валерий  Данилович______________________________________

Рецензент: профессор, доктор ф.м. н.,

Телегин Геннадий Гаврилович ____________________________________ 

г. Чебоксары  2011 г.

Оглавление

Введение……………………………………………………………………….…3

Глава 1 Литературный обзор

1.1.  Что такое Data Mining ……………………….………………...……….....4

1.2.  Методы и стадии Data Mining……………………………………………...5

1.3.  Классификация задач Data Mining………………………………………...8

1.4.  Модели  Data Mining………………………………………………………..11

1.5.  Теория нейронных сетей………………………………………………….14

1.6.Классификация нейронных сетей…………………………………………18

1. 7.Подготовка данных для обучения ……………..…………………………20

1.8. Выбор структуры нейронной сети……………………………………….21

1.9. кратко  о ЛЦУ…………………………………………………………….22

Глава 2. Методика исследования и результаты работы

2.1. Вычислительная модель электрических пленок  ЛЦУ……………….…25

2.2. Предобработка данных………………………………………………..…26

2.4. Структура и обучение нейронной сети…………...……………………...36

2.5. Анализ качества обучения нейронной сети………………………………42

2.6. Проверка и оценка моделей……………...……………………………….45

Заключение…………………………………………………………………..…49

Список  использованных источников …………………………………….......50

Приложение  № 1………………………………………………………………52

                            

                                      1.ВВЕДЕНИЕ 

       В настоящее время развитие  нанотехнологий  является приоритетным  направлением в науке и технике.  Проводится все больше исследований, экспериментов. Соответственно появляется огромное количество информации на эту тему. Исследователю крайне трудно разобраться в потоке информации, тратя много времени и сил на обобщение полученных данных. Все дело в том, что информация по нанотехнологиям несистематизированна и разобщена.

     В  нашем университете проводятся исследования нанопленок линейно-цепочечного углерода (ЛЦУ), полученных методом импульсно-плазменного ионно-стимулированного осаждения,  интеркалированных  и легированных различными химическими элементами. Исследованны оптические и электрические свойства нанопленок.

     Целью данной работы является создание  вычислительных моделей по свойствам продуктов  нанотехнологий. В частности, объектом исследований мы выбрали линейно-цепочечный углерод.

     В задачи работы входили:

     - Аналитический обзор возможностей методов интеллектуального анализа данных.

      -Сбор данных по электрическим  свойствам нанопленок ЛЦУ, подготовка баз данных.

     - Создание моделей свойств нанопленок с помощью искусственных нейронных сетей, позволяющих прогнозировать их свойства в зависимости от различных параметров.

     Актуальность  темы: в настоящее время накоплено  много экспериментальных данных о свойствах и характеристиках различных наноматериалов. Вопрос состоит в том, что можно ли их обобщить и представить в виде модели, позволяющей предсказывать  характеристики ранее не исследованных наноматериалов

                   Глава 1 Литературный обзор 

                     1.1 Что такое DATA MINING 

     Основной  задачей аналитика является генерация  гипотез. Он решает ее, основываясь на своих знаниях и опыте. Однако знания есть не только у человека, но и в накопленных данных, которые подвергаются анализу. Такие знания часто называют "скрытыми", т.к. они содержатся в гигабайтах и терабайтах информации, которые человек не в состоянии исследовать самостоятельно, В связи с этим существует высокая вероятность пропустить гипотезы, которые могут принести значительную выгоду.

           Очевидно, что для  обнаружения скрытых знаний необходимо применять специальные методы автоматического анализа, при помощи которых приходится практически добывать знания из "завалов" информации. За этим направлением прочно закрепился термин добыча данных или Data Mining. Классическое определение этого термина дал в 1996 г. один из основателей этого направления Пятецкий-Шапиро.

     Data Mining - исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.

  • Знания должны быть новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
  • Знания должны быть нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов Data Mining.
  • Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
  • Знания должны быть доступны для понимания человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде.
 

 

1.2 Методы и стадии Data Mining 

            Основная особенность Data Mining - это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий. В технологии Data Mining гармонично объединились строго формализованные методы и методы неформального анализа, т.е. количественный и качественный анализ данных.

          К методам и алгоритмам Data Mining относятся следующие: искусственные нейронные сети, деревья решений, символьные правила, методы ближайшего соседа и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно- регрессионный анализ; иерархические методы кластерного анализа, неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы; методы поиска ассоциативных правил, в том числе алгоритм Apriori; метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, разнообразные методы визуализации данных и множество других методов.

          Большинство аналитических методов, используемые в технологии Data Mining – это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств. Следует отметить, что большинство методов Data Mining были разработаны в рамках теории искусственного интеллекта.

          Понятие алгоритма появилось задолго до создания электронных вычислительных машин. Сейчас алгоритмы являются основой для решения многих прикладных и теоретических задач в различных сферах человеческой деятельности, в большинстве - это задачи, решение которых предусмотрено с использованием компьютера. Алгоритм - точное предписание относительно последовательности действий преобразующих исходные данные в искомый результат.

          Data Mining может состоять из двух  или трех стадий.

          Стадия 1. Выявление закономерностей (свободный поиск).

     На  стадии свободного поиска осуществляется исследование набора данных с целью  поиска скрытых закономерностей. Предварительные  гипотезы относительно вида закономерностей здесь не определяются. Система Data Mining на этой стадии определяет шаблоны, для получения которых в

     системах OLAP, например, аналитику необходимо обдумывать и создавать множество запросов. Здесь же аналитик освобождается от такой работы - шаблоны ищет за него система. Особенно полезно применение данного подхода в сверхбольших базах данных, где уловить закономерность путем создания запросов достаточно сложно, для этого требуется перепробовать множество разнообразных вариантов.

          Стадия 2. Использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование).

     В дополнение к этим стадиям иногда вводят стадию валидации , следующую  за стадией свободного поиска. Цель валидации - проверка достоверности  найденных закономерностей. Однако, мы будем считать валидацию частью первой стадии, поскольку в реализации многих методов, в частности, нейронных сетей и деревьев решений, предусмотрено деление общего множества данных на обучающее и проверочное, и последнее позволяет проверять достоверность полученных результатов. Вторая стадия Data Mining - прогностическое моделирование - использует результаты работы первой стадии. Здесь обнаруженные закономерности используются непосредственно для прогнозирования. Прогностическое моделирование включает такие действия:

       - предсказание неизвестных значений ;

       - прогнозирование развития процессов .

     В процессе прогностического моделирования  решаются задачи классификации и прогнозирования. При решении задачи классификации результаты работы первой стадии (индукции правил)используются для отнесения нового объекта, с определенной уверенностью, к одному из известных, предопределенных классов на основании известных значений. При решении задачи прогнозирования результаты первой стадии используются для предсказания неизвестных (пропущенных или же будущих) значений целевой переменной .

     Стадия 3. Анализ исключений - стадия предназначена для выявления и объяснения аномалий, найденных в закономерностях. На третьей стадии Data Mining анализируются исключения или аномалии, выявленные в

     найденных закономерностях. Действие, выполняемое на этой стадии, - выявление отклонений. Для выявления отклонений необходимо определить норму, которая рассчитывается на стадии свободного поиска.

          Все методы Data Mining подразделяются на две большие группы по принципу работы с исходными обучающими данными. В этой классификации верхний уровень определяется на основании того, сохраняются ли данные после Data Mining либо они дистиллируются для последующего использования.

          1. Непосредственное использование данных, или сохранение данных.

     В этом случае исходные данные хранятся в явном детализированном виде и

     непосредственно используются на стадиях прогностического моделирования и/или анализа исключений. Проблема этой группы методов - при их использовании могут возникнуть сложности анализа сверхбольших баз данных.

Информация о работе Cоздание моделей свойств двухслойных пленочных структур на основе линейно-цепочечного углерода с помощью Data Mining