Автор работы: Пользователь скрыл имя, 29 Сентября 2011 в 16:28, дипломная работа
Целью данной работы является создание вычислительных моделей по свойствам продуктов нанотехнологий. В частности, объектом исследований мы выбрали линейно-цепочечный углерод.
В задачи работы входили:
- Аналитический обзор возможностей методов интеллектуального анализа данных.
-Сбор данных по электрическим свойствам нанопленок ЛЦУ, подготовка баз данных.
- Создание моделей свойств нанопленок с помощью искусственных нейронных сетей, позволяющих прогнозировать их свойства в зависимости от различных параметров.
Введение……………………………………………………………………….…3
Глава 1 Литературный обзор
1.1. Что такое Data Mining ……………………….………………...……….....4
1.2. Методы и стадии Data Mining……………………………………………...5
1.3. Классификация задач Data Mining………………………………………...8
1.4. Модели Data Mining………………………………………………………..11
1.5. Теория нейронных сетей………………………………………………….14
1.6.Классификация нейронных сетей…………………………………………18
1. 7.Подготовка данных для обучения ……………..…………………………20
1.8. Выбор структуры нейронной сети……………………………………….21
1.9. кратко о ЛЦУ…………………………………………………………….22
Глава 2. Методика исследования и результаты работы
2.1. Вычислительная модель электрических пленок ЛЦУ……………….…25
2.2. Предобработка данных………………………………………………..…26
2.4. Структура и обучение нейронной сети…………...……………………...36
2.5. Анализ качества обучения нейронной сети………………………………42
2.6. Проверка и оценка моделей……………...……………………………….45
Заключение…………………………………………………………………..…49
Список использованных источников …………………………………….......50
Приложение № 1………………………………………………………………52
Методы этой группы: кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа, рассуждение по аналогии.
2. Выявление и использование формализованных закономерностей, или дистилляция шаблонов. При технологии дистилляции шаблонов один образец (шаблон) информации извлекается из исходных данных и преобразуется в некие формальные конструкции, вид которых зависит от используемого метода Data Mining. Этот процесс выполняется на стадии
свободного поиска, у первой же группы методов данная стадия в принципе отсутствует. На стадиях прогностического моделирования и анализа исключений используются результаты стадии свободного поиска, они значительно компактнее самих баз данных. Методы этой группы: логические методы; методы визуализации; методы кросс-табуляции; методы, основанные на уравнениях.
Различные методы Data Mining характеризуются определенными свойствами, которые могут быть определяющими при выборе метода анализа данных. Методы можно сравнивать между собой, оценивая характеристики их свойств.
Среди основных свойств и характеристик методов Data Mining рассмотрим следующие: точность, масштабируемость, интерпретируемость, проверяемость, трудоемкость, гибкость, быстрота и популярность.
Методы Data Mining помогают решить многие задачи, с которыми сталкивается аналитик. Из них основными являются: классификация, регрессия, поиск ассоциативных правил и кластеризация. Ниже приведено краткое описание основных задач анализа данных.
· Задача классификации сводится к определению класса объекта по его характеристикам. Необходимо заметить, что в этой задаче множество классов, к которым может быть отнесен объект, заранее известно.
· Задача регрессии, подобно задаче классификации, позволяет определить по известным характеристикам объекта значение некоторого его параметра. В отличие от задачи классификации значением параметра является не конечное множество классов, а множество действительных чисел.
· При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Найденные зависимости представляются в виде правил и могут быть использованы как для лучшего понимания природы анализируемых данных, так и для предсказания появления событий.
· Задача кластеризации заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных. Решение этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.
Перечисленные задачи по назначению делятся на описательные и предсказательные.
Описательные (descriptive) задачи уделяют внимание улучшению понимания анализируемых данных. Ключевой момент в таких моделях — легкость и прозрачность результатов для восприятия человеком. Возможно, обнаруженные закономерности будут специфической чертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно. К такому виду задач относятся кластеризация и поиск ассоциативных правил.
Решение предсказательных (predictive) задач разбивается на два этапа. На первом этапе на основании набора данных с известными результатами строится модель. На втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, чтобы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть использованы для предсказания появления некоторых событий.
По способам решения задачи разделяют на supervised learning (обучение с учителем) и unsupervised learning (обучение без учителя). В первом случае, задача анализа данных решается в несколько этапов. Сначала с помощью какого-либо алгоритма Data Mining строится модель анализируемых данных - классификатор. Затем классификатор подвергается обучению. Другими словами, проверяется качество его работы и, если оно не удовлетворительно, происходит дополнительное обучение классификатора. Так продолжается до тех пор, пока не будет достигнут требуемый уровень качества или не станет ясно, что выбранный алгоритм не работает корректно данными, либо же сами данные не имеют структуры, которую можно выявить. К этому типу задач относят задачи классификации и регрессии.
Обучение без
Цель технологии Data Mining – нахождение в данных таких моделей, которые не могут быть найдены обычными методами. Существуют два вида моделей: предсказательные и описательные.
Предсказательные(
Предсказательные модели строятся на основании выбора данных с известными результатами. Они используются для предсказания результатов на основании других наборов данных. При этом, естественно, требуется, чтобы модель работала максимально точно, была статистически значима и оправданна и т.д.
К
ним относятся следующие
· классификации — описывают правила или набор правил, в соответствии с которыми можно отнести описание любого нового объекта к одному из классов. Такие правила строятся на основании информации о существующих объектах путем разбиения их на классы;
· закономерности
последовательностей — описывают функции,
позволяющие прогнозировать изменение
непрерывных числовых параметров. Они
строятся на основании данных об изменении
некоторого параметра за прошедший период
времени.
Описательные (descriptive) модели
Описательные модели уделяют внимание сути зависимостей в наборе данных взаимному влиянию различных факторов, т.е. на построении эмпирических моделей различных систем. Ключевой момент в таких моделях— легкость и прозрачность для восприятия человеком. Возможно, обнаруженные закономерности будут специфической чертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно.
К ним относятся следующие виды моделей:
· регрессионные — описывают функциональные зависимости между зависимыми и независимыми показателями и переменными в понятной человеку форме. Необходимо заметить, что такие модели описывают функциональную зависимость не только между непрерывными числовыми параметрами, но и между категориальными;
· кластеризации — описывают группы (кластеры), на которые можно разделить объекты, данные о которых подвергаются анализу. Группируются объекты (наблюдения, события) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть "похожими" друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация;
· исключений – описывают исключительные ситуации в записях (например, отдельных пациентов), которые резко отличаются чем-либо от основного множества записей (группы больных). Знание исключений может быть использовано двояким образом. Возможно, что эти записи представляют собой случайный сбой, например ошибки операторов, вводивших данные в компьютер. С другой стороны, отдельные, исключительные записи могут представлять самостоятельный интерес для исследования, т. к. они могут указывать на некоторые редкие, но важные аномальные заболевания. Даже сама идентификация этих записей, не говоря об их последующем анализе и детальном рассмотрении, может оказаться очень полезной для понимания сущности изучаемых объектов или явлений.
Для построения рассмотренных
моделей используются различные методы
и алгоритмы Data Mining. Ввиду того, что
технология Data Mining развивалась и развивается
на стыке таких дисциплин, как статистика,
теория информации, машинное обучение,
теория баз данных, вполне закономерно,
что большинство алгоритмов и методов
Data Mining были разработаны на основе различных
технологий и концепций. Одной из технологий,
часто реализуемой методами Data
Mining , является технология нейронных
сетей.
1.5 Теория нейронных сетей
Затем построенная сеть подвергается процессу обучения. На этом этапе нейроны сети итеративно обрабатывают входные данные и корректируют свои веса так, чтобы сеть наилучшим образом прогнозировала (в традиционных терминах следовало бы сказать "осуществляла подгонку") данные, на которых выполняется "обучение". После обучения на имеющихся данных сеть готова к работе и может использоваться для построения прогнозов.
Нейронная сеть, полученная в результате "обучения", выражает закономерности, присутствующие в данных. При таком подходе она оказывается функциональным эквивалентом некоторой модели зависимостей между переменными, подобной тем, которые строятся в традиционном моделировании. Однако, в отличие от традиционных моделей, в случае нейронных сетей эти зависимости не могут быть записаны в явном виде, подобно тому как это делается в статистике (например, "А положительно коррелированно с В для наблюдений, у которых величина С мала, а D велика"). Иногда нейронные сети выдают прогноз очень высокого качества; однако они представляют собой типичный пример нетеоретического подхода к исследованию (иногда это называют "черным ящиком"). При таком подходе сосредотачиваются исключительно на практическом результате, в данном случае на точности прогнозов и их прикладной ценности, а не на сути механизмов, лежащих в основе явления .или соответствии полученных результатов какой-либо имеющейся теории.
Следует, однако, отметить, что методы нейронных сетей могут применяться и в исследованиях, направленных на построение объясняющей модели явления, поскольку нейронные сети помогают изучать данные с целью поиска значимых переменных или групп таких переменных, и полученные результаты могут облегчить процесс последующего построения модели. Более того, сейчас имеются нейросетевые программы, которые с помощью сложных алгоритмов могут находить наиболее важные входные переменные, что уже непосредственно помогает строить модель.
Одно из главных преимуществ нейронных сетей состоит в том, что они, по крайней мере теоретически, могут аппроксимировать любую непрерывную функцию, и поэтому исследователю нет необходимости заранее принимать какие-либо гипотезы относительно модели и даже, в ряде случаев, о том, какие переменные действительно важны. Однако существенным недостатком нейронных сетей является то обстоятельство, что окончательное решение зависит от начальных установок сети и, как уже отмечалось, его практически невозможно интерпретировать в традиционных аналитических терминах, которые обычно применяются при построении теории явления.
К настоящему времени известно большое количество моделей нейроподобных элементов и нейронных сетей, некоторые из них рассмотрены в данной главе.
Некоторые проблемы, решаемые в контексте НС и представляющие интерес для пользователей: