Cоздание моделей свойств двухслойных пленочных структур на основе линейно-цепочечного углерода с помощью Data Mining

Автор работы: Пользователь скрыл имя, 29 Сентября 2011 в 16:28, дипломная работа

Описание работы

Целью данной работы является создание вычислительных моделей по свойствам продуктов нанотехнологий. В частности, объектом исследований мы выбрали линейно-цепочечный углерод.

В задачи работы входили:

- Аналитический обзор возможностей методов интеллектуального анализа данных.

-Сбор данных по электрическим свойствам нанопленок ЛЦУ, подготовка баз данных.

- Создание моделей свойств нанопленок с помощью искусственных нейронных сетей, позволяющих прогнозировать их свойства в зависимости от различных параметров.

Содержание работы

Введение……………………………………………………………………….…3

Глава 1 Литературный обзор

1.1. Что такое Data Mining ……………………….………………...……….....4

1.2. Методы и стадии Data Mining……………………………………………...5
1.3. Классификация задач Data Mining………………………………………...8
1.4. Модели Data Mining………………………………………………………..11

1.5. Теория нейронных сетей………………………………………………….14

1.6.Классификация нейронных сетей…………………………………………18

1. 7.Подготовка данных для обучения ……………..…………………………20

1.8. Выбор структуры нейронной сети……………………………………….21

1.9. кратко о ЛЦУ…………………………………………………………….22

Глава 2. Методика исследования и результаты работы

2.1. Вычислительная модель электрических пленок ЛЦУ……………….…25

2.2. Предобработка данных………………………………………………..…26

2.4. Структура и обучение нейронной сети…………...……………………...36

2.5. Анализ качества обучения нейронной сети………………………………42

2.6. Проверка и оценка моделей……………...……………………………….45

Заключение…………………………………………………………………..…49

Список использованных источников …………………………………….......50

Приложение № 1………………………………………………………………52

Файлы: 1 файл

1 диплом-2003.doc

— 998.50 Кб (Скачать файл)

           Глава 2. Методика исследования и результаты работы

 

2.1 Вычислительная модель электрических свойств  двухслойных пленок лцу.

      

     Анализ  является неотъемлемой частью научных  исследований. При этом в подавляющем  большинстве случаев анализ сводится к применению одних и тех же базовых механизмов. Они являются универсальными и применимы к любой предметной области, благодаря чему имеется возможность создания унифицированной программной платформы, в которой реализованы основные механизмы анализ, такой как Deductor.

     Deductor  5 предназначен для эффективного решения проблемы тиражирования знаний. Это аналитическая платформа, основа для создания законченных прикладных решений в области анализа данных. Реализованные в Deductor  технолгии, позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов.

             В настоящее время накоплено много экспериментальных данных о свойствах и характеристиках различных пленок ЛЦУ. Очевидно, что характеристики пленок связаны с составом и видом компонентов наноматериала, технологией изготовления, формой и размером. Задачей являлось собрать экспериментальные данные по электрофизическим свойствам легированных и интеркалированных трехслойных пленок ЛЦУ, в единую базу знаний,  характеризующую связь между различными параметрами.

           Параметры пленок ЛЦУ используемые в базе знаний:

         1 номер элемента  слоя

         2 группа элемента  слоя

         3 толщина пленки ЛЦУ

         4 напряжение

         5 сила тока

     Для создания базы данных использовались собственные экспериментальные данные, полученные в Чувашском государственном университете.  Результаты приведены в Приложениях

     На  данном этапе создано  несколько  вычислительных моделей , которые позволяют прогнозировать электрофизические свойства пленок ЛЦУ в зависимости от атомов, внедренных в ЛЦУ, и толщины пленки:  1. Модель “Параметры вольт-амперной характеристики в зависимости от внедренных химических элементов - атомов”. Позволяет оценить силу тока для различных пленок ЛЦУ в зависимости от внедренного элемента  2. Модель “Параметры вольт-амперной характеристики в зависимости от толщины пленки ЛЦУ”. Позволяет оценить силу тока для пленок ЛЦУ различной толщины  3. Обобщенная модель “Вольт-амперной характеристики ЛЦУ”. Последняя модель позволяет предсказывать вольт-амперную характеристику любого нового сорта ЛЦУ.

     Ниже  приведено краткое описание моделей  и их рисунки, иллюстрирующие полученные результаты. Все модели были получены с помощью аналитической платформы «Deductor Studio 5.2» c использованием средств Data Mining. 

     2.2.  Предобработка данных 

           Предобработка данных - процедура  подготовки данных к анализу  в процессе которой они приводятся  в соответствие с требованиями, определяемыми спецификой решаемой задачи.

          Предобработка данных включает  два направления: очистку и  оптимизацию. Очистка производится с целью исключения факторов, снижающих качество данных и мешающих работе аналитических алгоритмов. Она включает обработку дубликатов, противоречий и фиктивных значений, восстановление и заполнение пропусков, сглаживание и очистку данных от шума, подавление и редактирование аномальных значений. Кроме этого, в процессе очистки восстанавливаются нарушения структуры, полноты и целостности данных, преобразуются некорректные форматы. Оптимизация данных, как элемент предобработки, включает снижение размерности входных данных, выявление и исключение незначащих признаков. Основное отличие оптимизации от очистки в том, что факторы, устраняемые в процессе очистки, существенно снижают точность решения задачи или делают работу аналитических алгоритмов невозможной. Проблемы, решаемые при оптимизации, адоптируют данные к конкретной задаче и повышают эффективность их анализа.

                Очистка данных производится  как перед их загрузкой в  хранилище , так и в аналитическом приложении непосредственно перед анализом. При этом основная очистка производится в аналитическом приложении, поскольку некоторые проблемы (например, дубликаты и противоречия) невозможно выявить до завершения консолидации данных. Кроме этого, требования к качеству данных могут быть различными для различных методов и алгоритмов анализа.  

     Дубликаты и противоречия

        

       В процессе анализа иногда  возникает проблема выявления  дубликатов и противоречий в данных. В Deductor Studio для автоматизации этого процесса есть соответствующий инструмент «Дубликаты и противоречия».

     Противоречия - ситуация, когда в двух записях (обучающих примерах) одному и тому же набору значений входных атрибутов (признаков) соответствуют различные наборы значений выходных. Так, в задаче классификации это означает, что два объекта с абсолютно одинаковыми признаками относятся к различным классам. Наличие противоречивых записей является одним из факторов, ухудшающих качество данных. Противоречия искажают закономерности в данных, поиск которых и является целью анализа, что приводит к снижению точности аналитических моделей. Поэтому их исключение является одной из наиболее важных задач очистки данных. При обработке противоречий возможны два подхода. Первый предполагает, что противоречие вызвано ошибкой (например, неправильно указана метка класса). В этом случае запись с ошибкой достаточно просто удалить. Второй подход допускает, что записи, хотя и являются противоречивыми, но тем не менее отражают реальные события. В этом случае обычно производят объединение записей с агрегированием числовых значений выходных атрибутов.

          Две или более записи называются  дубликатами, если они содержат  идентичные наборы значений всех  признаков. Дублирующие записи (кроме  одной) не несут никакой полезной  информации и бесполезны с  точки зрения обучения моделей. Большое количество дубликатов обедняет обучающее множество в информационном плане. Однако в некоторых случаях добавление дубликатов в обучающую выборку позволяет повысить эффективность обучения модели. Например, увеличивая или уменьшая число положительных или отрицательных примеров для бинарной классификационной модели путем дублирования, можно управлять соотношением ложно положительных и ложно отрицательных исходов классификации.

          При использовании обработчика  «Дубликаты и противоречия» возможно отображение результатов обработки с помощью одноименного визуализатора- таблицы. В результирующей таблице будут добавлены два поля логического типа "Противоречие" и "Дубликат", где для каждой записи исходных полей будет указан признак дубликата или противоречия. Кроме того, в набор будут включены два столбца целого типа "Группа противоречий" и "Группа дубликатов", содержащие номер группы для противоречивых и дублирующихся записей соответственно.

       

     Рис 3. Таблица отображения дубликатов и противоречий

          В большинстве случаев дубликаты  и противоречия рассматриваются как негативный фактор, и в процессе очистки данных от них стремятся избавиться. По этому используя обработчик данных “ Фильтрация” , удаляем отмеченные строки из таблицы.  

     Парциальная обработка

           В процессе парциальной обработки  восстанавливаются пропущенные данные, редактируются аномальные значения, проводится спектральная обработка. В Deductor Studio при этом используются алгоритмы, в которых каждое поле анализируемого набора обрабатывается независимо от остальных полей, то есть данные обрабатываются по частям. По этой причине такая предобработка получила название парциальной. В числе процедур предобработки данных, реализованных в Deductor Studio, входят сглаживание, удаление шумов, редактирование аномальных значений, заполнение пропусков в рядах данных. Парциальная обработка выполняется для каждого поля независимо, и параметры обработки настраиваются для каждого поля отдельно. Парциальная обработка включает три алгоритма, каждому из которых соответствует свой шаг:

          1) Восстановление пропущенных данных, который включает

             - Аппроксимация - пропущенные данные  восстанавливаются методом аппроксимации.
             

            - Максимальное правдоподобие - алгоритм подставляет наиболее вероятные значения вместо пропущенных данных.

          2) Редактирование аномальных данных. Эта функция позволяет выбрать из списка возможную степень подавления аномальных значений - малую, среднюю или большую. Степень подавления определяет допустимую величину отклонения от нормы.

          3)  Спектральная обработка. Разновидность обработки данных, связанная с преобразованием их частотного представления или спектра. Спектр получается в результате разложения исходной функции, зависящей от времени или пространственных координат, в базис некоторой периодической функции. Наиболее часто для спектральной обработки используется спектр Фурье, получаемый на основе базиса синуса. В основе спектральной обработки лежит манипулирование спектром. Для манипуляций со спектрами используются фильтры – алгоритмы, способные управлять формой спектра, подавлять или усиливать его составляющие. Главным свойством любого фильтра является его амплитудно-частотная характеристика (АЧХ), от формы которой зависит преобразование спектра. Подбирая тип и форму частотной характеристики фильтра, можно добиться желаемого преобразования исходных данных путем спектральной обработки.

          Спектральная обработка включает  три способа обработки

           - Сглаживание данных. Выполняя частотную фильтрацию данных с целью сглаживания необходимо правильно указать полосу пропускания ФНЧ. Если ее выбрать слишком большой, то степень сглаживания будет недостаточной, а шум будет подавлен не полностью. Если она будет слишком узкой, то вместе с шумом могут оказаться подавленными и изменения, несущие полезную информацию.

          - Вычитание шума. Эта функция позволяет выбрать из списка возможную степень подавления шума - малую, среднюю или большую.

         - Вейвлет преобразование - если выбран данный метод, то необходимо задать глубину разложения и порядок вейвлета. Глубина разложения определяет "масштаб" отсеиваемых деталей: чем больше эта величина, тем более "крупные" детали в исходных данных будут отброшены. При достаточно больших значениях параметра выполняется не только очистка данных от шума, но и их сглаживание ("отрезаются" резкие выбросы). Использование слишком больших значений глубины разложения может привести к потере полезной информации из-за слишком большой степени "огрубления" данных. Порядок вейвлета определяет гладкость восстановленного ряда данных: чем меньше значение параметра, тем ярче будут выражены "выбросы", и, наоборот, при больших значениях параметра "выбросы" будут сглажены.

          Полученная таблица в результате  парциальной обработки будет  отличается от первоначальной.

     

     Рис 4. таблица данных после парциальной  обработки 

     Очистка данных является важнейшим этапом аналитического процесса и от того, насколько эффективно она произведена, во многом зависит корректность результатов анализа и точность построенных аналитических моделей.

 

     Рис 5. Моделируемая ВАХ до проведения предобработки данных 

     Рис 6. моделируемая ВАХ после сглаживания и удаления негативных факторов

     Корреляционный  анализ

         

     Корреляционный  анализ применяется для оценки зависимости  выходных полей данных от входных факторов и устранения незначащих факторов. Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррелированы (взаимосвязаны) с выходным результатом. Такие факторы могут быть исключены из результирующего набора данных практически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если корреляция между входным и выходным факторами меньше порога значимости, то соответствующий фактор отбрасывается как незначащий.

     Корреляция  может быть положительной и отрицательной . Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен. Исключение незначащих факторов производится на основании рассчитанной корреляции.

     Связь между признаками может быть сильной, средней и слабой.

     Тесноту связи определяют по величине коэффициента корреляции, который может принимать  значения от -1 до +1 включительно. 

     

     Рис 7. Критерии оценки тесноты связи 

          Поле может быть использовано  в корреляционном анализе, если  выполнено несколько условий:

Информация о работе Cоздание моделей свойств двухслойных пленочных структур на основе линейно-цепочечного углерода с помощью Data Mining