Автор работы: Пользователь скрыл имя, 04 Декабря 2012 в 21:18, курсовая работа
Изучение конкретного пространства - привилегия не только ГИС. Изначально изучение пространственных форм объектов реального мира относится к основным задачам математики. Космическое и земное пространство исследуется также физическими науками. Изучение пространственных представлений действительности входит в задачи математико-картографического моделирования. Специфика геоинформационного изучения пространства состоит в использовании геоинформационных моделей действительности и в их разработке в комплексе с методами других наук. Но изучение только пространственного расположения - сильное сужение задачи, важен учет существа явлений, их пространственного состояния, структуры, взаимосвязей и функционирования.
Необходимо каждый раз рассматривать два вопроса:
- насколько правильно представляемые в БД цифровые структуры отражают реальный мир;
- насколько точно алгоритмы позволяют рассчитать истинное значение результата.
Методы расчета точности определений по картам рассматриваются в курсе картографии, с понятиями надежности и качества географических данных полезно ознакомиться в работе.
Показатели качества данных определяются стандартами. Основные из них: позиционная точность и точность атрибутов объектов, а также логическая непротиворечивость, полнота, происхождение, относящиеся к базе данных в целом.
Позиционная точность данных и типы ошибок.[4],[5],[10]
Позиционная точность определяется как величина отклонения измерения данных о местоположении от истинного значения. При ее определении, как правило, исходят из масштаба исследования или первичного материала, например, в данных о природных ресурсах стремятся достичь точности карты заданного масштаба. Обеспечение большей точности требует более качественных исходных материалов, но всегда следует задаться вопросом, оправданы ли дополнительные затраты задачами исследования. Точность координат определяется по-разному в растровом и векторном представлении. Точность растра зависит от размера ячеек сетки. Для избежания потери информации можно использовать ячейки меньшего размера. В большинстве случаев неясно, относятся ли координаты, представленные в растровом формате, к центральной точке ячейки или к одному из ее углов; точность привязки, таким образом, составляет 1/2 ширины и высоты ячейки.
Координаты в векторном формате могут кодироваться с любой мыслимой степенью точности; она ограничивается возможностями внутреннего представления координат в памяти компьютера. Обычно для представления используется 8 или 16 десятичных знаков (одинарная или двойная точность), что соответствует ограничению по точности соответственно до 1/108 и 1/1016 измерения на местности. Для получения такой же точности растра необходимо, соответственно, 108х108 или 1016х1016 ячеек, что невозможно даже при специальном сжатии данных. Но лишь некоторые классы данных соответствуют такой точности векторного представления: данные, полученные точной съемкой, карты небольших участков, составленные на основе крупномасштабных топографических карт; лишь для немногих природных явлений характерны четкие границы, которые можно представить в виде математически определенных линий. Поэтому можно утверждать, что тонкие линии в векторном формате дают ложное ощущение точности. Обычно на карте толщина линии отражает неопределенность положения объекта. Поэтому в векторной системе фиксируется неопределенность положения векторного объекта. В растровой системе эта неопределенность автоматически выражается размером ячейки, который и дает действительное представление о точности.
Точность базы данных. Почти каждый этап создания БД чреват внесением ошибок. Карты не свободны от погрешностей, которые при цифровании автоматически переносятся в базу данных; из-за генерализации они не всегда точно фиксируют информацию о местоположении объекта; несоответствия на границах листов могут обусловить несоответствия в базе данных.Ошибки характерны для данных, взятых из некартографических источников. Они могут появиться и при проведении инвентаризации по аэрофотоснимкам, если изображения дешифрированы неверно, часто возникают потому, что слишком велико доверие к базовым картам. Другие ошибки связаны с проблемой границ и погрешностями классификации. Многие ошибки обусловлены особенностями сбора данных. Ручной ввод цифровых данных весьма утомителен и трудно сохранять качество работы на протяжении долгого времени. Для снижения ошибок в измерении местоположения используют геодезический контроль и системы спутникового позиционирования, а также создание массивов данных географической привязки. К последним предъявляют особенно высокие требования по точности и достоверности еще на этапе сбора исходной информации. Их применение в качестве основы для интеграции данных в известных оригинальных масштабах и проекциях не вызывает затруднений. Во всех других случаях требуется преобразование информации, которое должно выполняться по правилам картографической генерализации и согласования. Большая часть данных о местоположении берется с аэроснимков, при этом точность зависит от правильного размещения контрольных точек.
На весь набор данных влияют: ошибки регистрации и определения контрольных точек, преобразования координат, особенно когда неизвестна проекция исходного документа; ошибки обработки данных, неправильный логический подход, генерализация и проблемы интерпретации; математические ошибки; потеря точности представления из-за невысокой точности вычислений; перевод векторных данных в растровый формат.
В БД обычно используются данные из разных источников с разной степенью точности. При наложении множества карт точность результирующего материала может оказаться очень низкой. Однако больший интерес представляет показатель пригодности полученной карты. Для некоторых типов операций степень пригодности карт определяется точностью наименее точного слоя БД. Показатель пригодности можно оценить также по его устойчивости при смене порядка ввода данных или изменении веса атрибута. Часто возникают искусственные признаки ошибок (артефакты) - это нежелательные последствия применения высокоточных процедур для обработки пространственных данных, имеющих небольшую точность. Использование растровых данных позволяет застраховаться от артефактов до тех пор, пока размер элемента растра больше или равен позиционной точности данных. При работе с векторными данными артефакты возникают при кодировании (цифровании) и наложении полигонов.
Чтобы проверить позиционную точность, нужно использовать независимый, более точный источник, например, карту более крупного масштаба, данные спутникового позиционирования, первичные ("сырые") данные съемки. Для контроля можно использовать и внутренние признаки: незамкнутые полигоны, линии, проходящие выше или ниже узловых точек, и т. п. Величина этих погрешностей может служить мерой позиционной точности. Наиболее надежным путем создания качественных
БД, особенно для ее многократного и многопользовательского применения, является хранение информации о точности в самой БД в виде атрибутов или метаданных.
Точность атрибутивных данных.[4],[5]
Точность атрибутов определяется как близость их к истинным показателям (на данный момент времени). В зависимости от природы данных точность атрибутов может быть проанализирована разными способами.
Для непрерывных атрибутов, представляющих модель поверхности, например, ЦМР, точность определяется как погрешность измерений по этой модели. Для атрибутов объектов, выделяемых в результате классификации, точность выражается в оценках соответствия, определенности или правдоподобия. В случае двух объектов ситуация, в которой они представлены сочетанием 70% атрибута объекта А и 30% атрибута В, лучше, чем когда объекты А и В недостаточно определены, что не позволяет четко разграничить их. В общем случае для оценки точности атрибутов полезно составить матрицу ошибок классификации. Для этого нужно взять несколько случайных точек, определить их категорию по базе данных, затем на местности определить истинный класс и заполнить матрицу классификации (соответствия). Если, например, число классов 4, а число обследованных точек 100, из них на местности определено 25 точек класса А, 18 точек - В, 24 - С и 33 - О (табл. 1).
Класс на местности |
Класс в БД | ||||
| А |
В |
С |
0 |
Всего |
А |
12 |
7 |
3 |
3 |
25 |
В |
3 |
10 |
3 |
2 |
18 |
С |
3 |
5 |
15 |
1 |
24 |
0 |
4 |
4 |
4 |
21 |
33 |
Всего |
22 |
26 |
25 |
27 |
100 |
Таблица 1
В идеале все точки должны располагаться по диагонали матрицы; это показывает, что на местности и в базе данных зафиксирован один и тот же класс. Ошибка пропуска возникает тогда, когда точки класса на местности неправильно зафиксированы в базе данных.
Матрица классификации класса В равно сумме записей в столбцах А, С и О строки В (числу точек, относящихся на местности к классу В, а в базе данных - к другим классам). Ошибка добавления(ложного класса) имеет место в случаях, когда в базе данных зафиксирован класс, которого нет на местности, например, для класса А - это сумма записей в строках В, С и О столбца А (соответствует числу точек, неправильно отнесенных к классу А в базе данных).
Для обобщения матрицы соответствия используют такой показатель достоверности классификации, как количество правильно классифицированных точек, расположенных по диагонали матрицы (в %). На самом деле это число может быть случайным.
Чтобы учесть этот факт часто при обобщении результатов используют так называемый индекс к каппа Коэна, вносящий поправку на случайность. Он вычисляется по формуле:
K=(d-q)/(N-q)
где d - число случаев
правильного получения
Для абсолютно точных результатов (все N точек на диагонали) каппа равна 1, а при чисто случайном попадании - О.
q= (22x25/100 + 26x18/100 + 25x24/100 + 27x33/100) = 25,09;
K= (58-25)/(100-25) = 0,44;
В приведенном примере показатель достоверности классификации равен 44%, что меньше значения, полученного по диагональным элементам (58%).
Неопределенность атрибутов каждого элемента растра постоянна для каждого из представленных классов объектов, а позиционная неопределенность постоянна для всего растра - фиксируется один раз для всей карты.
Для социальных данных основной источник неточности в атрибутах - недоучет данных. Например, при проведении переписи в некоторых районах и по некоторым социальным группам недоучет может быть очень высоким (>10%).
Логическая непротиворечивость, полнота, происхождение.[4]
Эти элементы качества данных относятся к базе данных в целом, а не к объектам, атрибутам или координатам.
Логическая непротиворечивость связана с внутренней непротиворечивостью структуры данных, с топологическим представлением данных, что означает наличие исчерпывающего списка взаимоотношений между связными геометрическими представлениями данных без измерения хранимых координат пространственных объектов. Она обычно заключается в ответах на вопросы: замкнуты ли полигоны, нет ли полигонов без меток или с несколькими метками, есть ли узлы на всех пересечениях дуг. Логические противоречия могут быть связаны с проблемами согласования информации и географических границ при совмещении данных из разных источников.
Полнота связана со степенью охвата данными множества объектов, необходимых для представления реальности или отображения на результирующей карте (все ли соответствующие объекты включены в базу данных?). Она зависит от правил отбора объектов или явлений, генерализации и масштаба.
Происхождение включает сведения об источниках данных, времени сбора данных, точности источников и цифровых данных, организации, которая их собирала, об операциях по созданию базы данных (как кодировались данные и с какого исходного материала, как происходила их обработка). Обычно эта информация содержится в специальных файлах метаданных.
Особенности
интеграции разнотипных данных.[1],[2],[
Новые виды и типы цифровых данных требуют разработки методов их совместного использования, оценки пригодности для создания ГИС и составления карт. Создание проблемно-ориентированных банков географических и картографических данных и знаний способствует не только накоплению и обмену информацией, но и повышению качества и достоверности результатов, получаемых ГИС. Особенно возрастает роль таких банков для интеграции, пространственного и тематического согласования информации.
Проблемы интеграции данных особенно остро встали в связи с широким использованием уже существующих цифровых карт, содержащихся в разнообразных базах пространственных данных и распространяемых по телекоммуникационным сетям. Они могут быть слоями проблемно-ориентированных ГИС, представлять результаты компьютерного дешифрирования аэро и космических снимков, цифрового моделирования объектов или явлений. Информация относительно их происхождения, методов создания, точности и достоверности часто отсутствует или недоступна. Совокупность цифровых данных о пространственных объектах, составляющих содержание баз географических данных ГИС, по существу, еще не является цифровой картой. На картах, созданных на основе данных дистанционного зондирования, "пиксельные" разрешение и генерализация могут не соответствовать показателям картографической точности и генерализации для выбранных масштаба и проекции. Особенно сложна интеграция данных, представляемых на карте условными знаками, из-за их внемасштабности и уникальности.
Технология создания цифровых карт часто определяется временными, не устоявшимися, разрозненными, не всегда профессионально составленными инструкциями и техническими заданиями, разработанными производителем или заказчиком работ, ведомственными инструкциями. Все чаще появляются в публикациях сообщения об ошибках в цифровых картах, а иногда об их полной непригодности к использованию или ненадежности как источников данных.