Автор работы: Пользователь скрыл имя, 29 Сентября 2011 в 16:28, дипломная работа
Целью данной работы является создание вычислительных моделей по свойствам продуктов нанотехнологий. В частности, объектом исследований мы выбрали линейно-цепочечный углерод.
В задачи работы входили:
- Аналитический обзор возможностей методов интеллектуального анализа данных.
-Сбор данных по электрическим свойствам нанопленок ЛЦУ, подготовка баз данных.
- Создание моделей свойств нанопленок с помощью искусственных нейронных сетей, позволяющих прогнозировать их свойства в зависимости от различных параметров.
Введение……………………………………………………………………….…3
Глава 1 Литературный обзор
1.1. Что такое Data Mining ……………………….………………...……….....4
1.2. Методы и стадии Data Mining……………………………………………...5
1.3. Классификация задач Data Mining………………………………………...8
1.4. Модели Data Mining………………………………………………………..11
1.5. Теория нейронных сетей………………………………………………….14
1.6.Классификация нейронных сетей…………………………………………18
1. 7.Подготовка данных для обучения ……………..…………………………20
1.8. Выбор структуры нейронной сети……………………………………….21
1.9. кратко о ЛЦУ…………………………………………………………….22
Глава 2. Методика исследования и результаты работы
2.1. Вычислительная модель электрических пленок ЛЦУ……………….…25
2.2. Предобработка данных………………………………………………..…26
2.4. Структура и обучение нейронной сети…………...……………………...36
2.5. Анализ качества обучения нейронной сети………………………………42
2.6. Проверка и оценка моделей……………...……………………………….45
Заключение…………………………………………………………………..…49
Список использованных источников …………………………………….......50
Приложение № 1………………………………………………………………52
Глава 2. Методика исследования и результаты работы
2.1 Вычислительная модель электрических свойств двухслойных пленок лцу.
Анализ является неотъемлемой частью научных исследований. При этом в подавляющем большинстве случаев анализ сводится к применению одних и тех же базовых механизмов. Они являются универсальными и применимы к любой предметной области, благодаря чему имеется возможность создания унифицированной программной платформы, в которой реализованы основные механизмы анализ, такой как Deductor.
Deductor 5 предназначен для эффективного решения проблемы тиражирования знаний. Это аналитическая платформа, основа для создания законченных прикладных решений в области анализа данных. Реализованные в Deductor технолгии, позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов.
В настоящее время накоплено много экспериментальных данных о свойствах и характеристиках различных пленок ЛЦУ. Очевидно, что характеристики пленок связаны с составом и видом компонентов наноматериала, технологией изготовления, формой и размером. Задачей являлось собрать экспериментальные данные по электрофизическим свойствам легированных и интеркалированных трехслойных пленок ЛЦУ, в единую базу знаний, характеризующую связь между различными параметрами.
Параметры пленок ЛЦУ используемые в базе знаний:
1 номер элемента слоя
2 группа элемента слоя
3 толщина пленки ЛЦУ
4 напряжение
5 сила тока
Для создания базы данных использовались собственные экспериментальные данные, полученные в Чувашском государственном университете. Результаты приведены в Приложениях
На данном этапе создано несколько вычислительных моделей , которые позволяют прогнозировать электрофизические свойства пленок ЛЦУ в зависимости от атомов, внедренных в ЛЦУ, и толщины пленки: 1. Модель “Параметры вольт-амперной характеристики в зависимости от внедренных химических элементов - атомов”. Позволяет оценить силу тока для различных пленок ЛЦУ в зависимости от внедренного элемента 2. Модель “Параметры вольт-амперной характеристики в зависимости от толщины пленки ЛЦУ”. Позволяет оценить силу тока для пленок ЛЦУ различной толщины 3. Обобщенная модель “Вольт-амперной характеристики ЛЦУ”. Последняя модель позволяет предсказывать вольт-амперную характеристику любого нового сорта ЛЦУ.
Ниже
приведено краткое описание моделей
и их рисунки, иллюстрирующие полученные
результаты. Все модели были получены
с помощью аналитической платформы «Deductor
Studio 5.2» c использованием средств Data Mining.
2.2.
Предобработка данных
Предобработка данных - процедура
подготовки данных к анализу
в процессе которой они
Предобработка данных включает два направления: очистку и оптимизацию. Очистка производится с целью исключения факторов, снижающих качество данных и мешающих работе аналитических алгоритмов. Она включает обработку дубликатов, противоречий и фиктивных значений, восстановление и заполнение пропусков, сглаживание и очистку данных от шума, подавление и редактирование аномальных значений. Кроме этого, в процессе очистки восстанавливаются нарушения структуры, полноты и целостности данных, преобразуются некорректные форматы. Оптимизация данных, как элемент предобработки, включает снижение размерности входных данных, выявление и исключение незначащих признаков. Основное отличие оптимизации от очистки в том, что факторы, устраняемые в процессе очистки, существенно снижают точность решения задачи или делают работу аналитических алгоритмов невозможной. Проблемы, решаемые при оптимизации, адоптируют данные к конкретной задаче и повышают эффективность их анализа.
Очистка данных производится
как перед их загрузкой в
хранилище , так и в аналитическом приложении
непосредственно перед анализом. При этом
основная очистка производится в аналитическом
приложении, поскольку некоторые проблемы
(например, дубликаты и противоречия) невозможно
выявить до завершения консолидации данных.
Кроме этого, требования к качеству данных
могут быть различными для различных методов
и алгоритмов анализа.
Дубликаты и противоречия
В процессе анализа иногда возникает проблема выявления дубликатов и противоречий в данных. В Deductor Studio для автоматизации этого процесса есть соответствующий инструмент «Дубликаты и противоречия».
Противоречия - ситуация, когда в двух записях (обучающих примерах) одному и тому же набору значений входных атрибутов (признаков) соответствуют различные наборы значений выходных. Так, в задаче классификации это означает, что два объекта с абсолютно одинаковыми признаками относятся к различным классам. Наличие противоречивых записей является одним из факторов, ухудшающих качество данных. Противоречия искажают закономерности в данных, поиск которых и является целью анализа, что приводит к снижению точности аналитических моделей. Поэтому их исключение является одной из наиболее важных задач очистки данных. При обработке противоречий возможны два подхода. Первый предполагает, что противоречие вызвано ошибкой (например, неправильно указана метка класса). В этом случае запись с ошибкой достаточно просто удалить. Второй подход допускает, что записи, хотя и являются противоречивыми, но тем не менее отражают реальные события. В этом случае обычно производят объединение записей с агрегированием числовых значений выходных атрибутов.
Две или более записи
При использовании обработчика
«Дубликаты и противоречия»
Рис 3. Таблица отображения дубликатов и противоречий
В большинстве случаев
Парциальная обработка
В процессе парциальной
1) Восстановление пропущенных
- Аппроксимация - пропущенные данные восстанавливаются методом аппроксимации. |
- Максимальное правдоподобие - алгоритм подставляет наиболее вероятные значения вместо пропущенных данных.
2) Редактирование аномальных данных. Эта функция позволяет выбрать из списка возможную степень подавления аномальных значений - малую, среднюю или большую. Степень подавления определяет допустимую величину отклонения от нормы.
3) Спектральная обработка. Разновидность обработки данных, связанная с преобразованием их частотного представления или спектра. Спектр получается в результате разложения исходной функции, зависящей от времени или пространственных координат, в базис некоторой периодической функции. Наиболее часто для спектральной обработки используется спектр Фурье, получаемый на основе базиса синуса. В основе спектральной обработки лежит манипулирование спектром. Для манипуляций со спектрами используются фильтры – алгоритмы, способные управлять формой спектра, подавлять или усиливать его составляющие. Главным свойством любого фильтра является его амплитудно-частотная характеристика (АЧХ), от формы которой зависит преобразование спектра. Подбирая тип и форму частотной характеристики фильтра, можно добиться желаемого преобразования исходных данных путем спектральной обработки.
Спектральная обработка
- Сглаживание данных. Выполняя частотную фильтрацию данных с целью сглаживания необходимо правильно указать полосу пропускания ФНЧ. Если ее выбрать слишком большой, то степень сглаживания будет недостаточной, а шум будет подавлен не полностью. Если она будет слишком узкой, то вместе с шумом могут оказаться подавленными и изменения, несущие полезную информацию.
- Вычитание шума. Эта функция позволяет выбрать из списка возможную степень подавления шума - малую, среднюю или большую.
- Вейвлет преобразование - если выбран данный метод, то необходимо задать глубину разложения и порядок вейвлета. Глубина разложения определяет "масштаб" отсеиваемых деталей: чем больше эта величина, тем более "крупные" детали в исходных данных будут отброшены. При достаточно больших значениях параметра выполняется не только очистка данных от шума, но и их сглаживание ("отрезаются" резкие выбросы). Использование слишком больших значений глубины разложения может привести к потере полезной информации из-за слишком большой степени "огрубления" данных. Порядок вейвлета определяет гладкость восстановленного ряда данных: чем меньше значение параметра, тем ярче будут выражены "выбросы", и, наоборот, при больших значениях параметра "выбросы" будут сглажены.
Полученная таблица в
Рис
4. таблица данных после парциальной
обработки
Очистка данных является важнейшим этапом аналитического процесса и от того, насколько эффективно она произведена, во многом зависит корректность результатов анализа и точность построенных аналитических моделей.
Рис
5. Моделируемая ВАХ до проведения предобработки
данных
Рис 6. моделируемая ВАХ после сглаживания и удаления негативных факторов
Корреляционный анализ
Корреляционный анализ применяется для оценки зависимости выходных полей данных от входных факторов и устранения незначащих факторов. Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррелированы (взаимосвязаны) с выходным результатом. Такие факторы могут быть исключены из результирующего набора данных практически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если корреляция между входным и выходным факторами меньше порога значимости, то соответствующий фактор отбрасывается как незначащий.
Корреляция может быть положительной и отрицательной . Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен. Исключение незначащих факторов производится на основании рассчитанной корреляции.
Связь между признаками может быть сильной, средней и слабой.
Тесноту
связи определяют по величине коэффициента
корреляции, который может принимать
значения от -1 до +1 включительно.
Рис
7. Критерии оценки тесноты связи
Поле может быть использовано
в корреляционном анализе,