Архив без пыльных полок или способы организации архива предприятия
Автор работы: Пользователь скрыл имя, 20 Декабря 2014 в 20:31, курсовая работа
Описание работы
Основная Проблема неуклонного увеличения бумажных документов актуальна для всех предприятий, организаций и учреждений. В своей курсовой работе я рассмотрю методы внедрения и содержания современного архива предприятия.
Содержание работы
Вступление Описание проблемы архивного хранения информации История развития решения Основная часть Что же такое "Электронный архив предприятия"? Различные взгляды на состав решения С чего начать? Заключение
Для организации просмотра
и редактирования файлов "внутри навигатора",
форматы которых навигатор "не понимает",
можно создать так называемый "сервер
просмотра" — специальное приложение.
Необходимо определить разрешение,
с которым должна сканироваться информация.
Если речь не идет о произведениях
искусства, то, поверьте, 300dpi, ну от силы
400 будет больше чем достаточно (иногда
для документов достаточно и 150 — 200 dpi).
При таком разрешении всегда сможете
получить отличное изображение документа
на экране или результат его печати на
бумаге и производить дальнейшую обработку
(например, распознавание).
Использование документов в
новых проектах
Следующим этапом является,
если так можно разиться, "осмысление"
дальнейшего использования сканированных
документов. Понятно, что их необходимо
занести в систему, дающую возможность
поиска и вода на экран и принтер или плоттер.
Остановимся подробнее на другой функции
создаваемой системы — создании новых
документов на основе использования ранее
зарегистрированных. Понятно, что лучше
создать новую версию документа и производить
все работы с ней. Но это задача непосредственно
программного продукта — системы архива
и документооборота.
У Microsoft существует такой механизм
ShellAPI1, при использовании которого
при помощи, например, функции Delphi ShellExecute2, одним из аргументов которой
является название файла, система сама
"подсовывает" для открытия
файла в режиме просмотра или редактирования
то или иное приложение. Учетная запись
может быть ведена на экран либо в табличном
виде, либо в другом виде (например, в виде
карточки документа). Для поиска учетной
записи среди тысяч, а может и миллионов
используется механизм запросов к СУБД.
Запросы формируются через интерфейс
системы архива при помощи доступных и
наглядных для пользователя элементов
(полей, кнопок и т. д.). Учетной записи соответствует
реальный документ в электронном виде.
нажимаете кнопку или набираете из меню
(все зависит от реализации системы) пункт
"открыть документ". Сканированный
документ откроется приложением, проинсталлированным
в системе для работы с файлами, например,
формата TIFF, офисный документ откроется
соответствующим приложением, например,
MS Word.
В системах 3 типа (в них отсутствуют
средства маршрутизации, управления разработкой),
нет необходимости позволять вносить
изменения в документ. Он может быть открыт
программой — "просмотрщиком", не
позволяющей вносить изменения или все-таки
программой, позволяющей вносить изменения,
но при этом система не позволит записать
эти изменения.
В случае же, если используется
система архива 4 типа, то, как правило,
существует возможность указать для разных
пользователей разные права по открытию
файлов разных разделов хранения. Например
в современных системах можно указать,
что конструктор Сидоров может открывать
файлы раздела "Проект №12345 1981 года"
только в режиме просмотра соответствующей
программой. А что если ему необходимо
внести изменения в какой-нибудь компонент,
пусть тот же компонент используется в
проекте №54321 2002 года с небольшими изменениями,
зачем разрабатывать ной? Все глядит приблизительно
следующим образом: поскольку пользователю
Сидорову разрешено создавать версии
документов и помещать их в раздел "компоненты
проекта №54321 2002 года, разрабатываемые
на основе проекта №12345 1981 года", он
просто создаст новую версию, и она автоматически
разместится в этом разделе.
Кроме того, для Сидорова также
определена возможность редактирования
версий в разделе "компоненты проекта
№54321 2002 года, разрабатываемые на основе
проекта №12345 1981 года". Поэтому он открывает
созданную им версию, но уже в режиме редактирования
соответствующим приложением и вносит
изменения. При этом могут производиться
необходимые действия — новая версия
рассылается другим пользователям, например,
для проверки, дальнейшей доработки, может
быть автоматически создано и разослано
извещение об изменении и т. д.
Если данные в архиве, не
нужно использовать при разработке новых
документов, задача упрощается. При этом
просто реализуется третий способ создания
системы архива. Еще раз хочется напомнить,
что в материале описывается четвертый,
совсем не по той причине, что он лучше.
Просто при описании такого способа создания
архива, волей-неволей приходится описывать
все остальные: файлое масси; картотеки;
архив, обобщающий файлой массив и картотеку
со средст просмотра, сканирования, тиражирования
и хранения.
В каких форматах хранить и
использовать переведенные в электронный
вид документы
Перед созданием электронного
архива (части касающейся сканированных
документов), стоит, прежде всего, определиться
с тем, что предполагается делать впоследствии
с электронными документами. Существует
несколько путей, "правильность"
следования которым определять только
:
Внесение в единую базу документов
в графических форматах после соответствующей
обработки. В этом случае используете
электронные образы Ваших "бумаг".
Можно быстро найти необходимый документ,
просмотреть, тиражировать (распечатать).
При необходимости использования
этого документа для создания нох, возможно
создание его новой версии, изменение
при помощи растрох и гибридных редакторов,
распознавание текстов и т. д.
В любом случае при описываемом
подходе, в электронном архиве хранятся
документы в графических форматах. Для
удобства поиска используется индексация3
Внесение в базу документов
в текстох форматах. Хранение в текстовом
формате позволяет в дальнейшем производить
поиск документов не только по полям СУБД,
но и по ключем значениям "внутри текста"
самого документа. Такой способ поиска
информации возможно более эффективен,
но имеет следующие недостатки:
для поиска по тексту "внутри
документа" чаще всего нужно записать
текст в ячейку таблицы СУБД, что приводит
при большом объеме к очень "неповоротлим
решениям". Физический объем таблиц
СУБД увеличивается, быстродействие системы
снижается, ресурсоемкость увеличивается,
а создание подсистемы хранения становится
проблематичным. Для того, чтобы избежать
перечисленных явлений, проще производить
запись не самого файла, а ссылки на него
в ячейку таблиц СУБД. Сам же файл "извлекается"
по ссылке и хранится в отдельном архивном
"накопителе". Подробнее подсистема
хранения описывается ниже. Но при такой
организации подсистемы хранения полнотекстой
поиск "внутри" самого документа
средст системы архива, как правило, невозможен.
С другой стороны, для нахождения документа,
как правило, "хватает" поиска по
полям СУБД — "карточке" документа
и при использовании других механизмов,
не требующих полнотекстового поиска
"внутри" самого документа; другой
особенностью поиска "внутри" документа,
полученного при сканировании, является
необходимость его предварительного распознавания.
Дело в том, что растрое форматы,
получаемые "на ходе" сканера, не
содержат "причных" для SQL - запросов
символов (букв, цифр и т. д.). Поэтому, эти
символы необходимо "извлечь" из
изображения и сохранить в текстовом формате.
Информация в текстовом формате
может быть записана в ячейку таблицы
СУБД (например, имеющую формат TEXT для
MsSQL).
Теперь запрос, например, вида
select texts from articles where text like '%архив%', произведет
бор всех текстов статей (хранящихся в
поле texts таблицы articles), в которых встречается
ключевое значение "архив".
На перй взгляд достаточно привлекательно,
но в свою очередь особенностью процесса
распознавания ("извлечения" из графического
формата символов и сохранения их в текстовом
формате), является достаточная трудоемкость,
и, не в обиду сказано производителям соответствующего
ПО, большое количество ошибок, особенно
при распознавании старых документов.
Процесс имеет наиболее низкую эффективность,
если применялись разные шрифты, не говоря
уже о рукописных документах, которые
распознавать крайне неэффективно, а чаще
— невозможно.
Внесение в базу чертежей после
их векторизации. Опять же такой способ
связан с определенными (и не малыми) затратами,
целесообразность которых определять
только .
При определении целесообразности
того или иного пути, стоит помнить о шесказанном
и прибегать к "тотальному" распознаванию
и "векторизации" только лишь в том
случае, если затраты на эти действия экономически
оправдывают себя.
Определение групп документов.
Подбор сканирующего оборудования. Классификация
документов и сканеров. Производительность
оборудования
После проведения всех шеперечисленных
пунктов, наконец, мы подошли к решению
еще "более практических" вопросов
— бору сканирующего оборудования. При
боре оборудования необходимо учитывать
все шеизложенные требования к сканированным
документам.
Учет физических особенностей
бумажных носителей, с одной стороны, и
невозможность качественной реализации
"универсального" устройства "все
в одном", которое сканирует быстро
и качественно любые документы, с другой
стороны, привели к созданию нескольких
основных групп оборудования. Например,
листы формата A0 можно сканировать со
скоростью до 15 метров/минуту при помощи
одних устройств, листы формата A4 можно
сканировать со скоростью 180 страниц/минуту
при помощи других устройств, а сброшюрованные,
ветхие, неконтрастные документы невозможно
сканировать ни теми, ни другими устройст.
Для сканирования подобных типов "бумажных
носителей информации" существует совершенно
другое оборудование.
Исходя из шесказанного, сначала
необходимо провести классификацию подлежащих
сканированию бумажных документов по
форматам и определить число бумажных
носителей каждого формата. Немного успокою
Вас, поскольку с точностью до листа считать
нет необходимости. Измерять документы,
особенно нестандартные, при помощи линейки
также не стоит. Условно, все документы
по форматам можно разбить на 2 большие
группы — узкоформатные (до A3 включительно)
и широкоформатные ("больше" формата
A3). Такая классификация связана с четким
делением оборудования на "узкоформатное"
и "широкоформатное". Это деление
произведено не по чьей-либо прихоти, а
связано с тем, что чисто "механические"
принципы сканирования для узкоформатных
и широкоформатных документов разные.
Невозможно пока, например, сканировать
формат A1 со скоростью 180 страниц/минуту,
а формат A4 — можно.
"Внутри" каждой из
групп стоит провести дополнительную
классификацию по форматам. Приведем
пример. Если у Вас в "узкоформатной"
группе содержатся документы
форматов от А4 и "меньше", то
максимальный формат сканера
должен быть А4. Зачем эти "прописные
истины"? Дело в том, что большинство
производителей сканирующего оборудования
пускает целые модельные ряды.
Причем, как правило, предоставляется
возможность бора сканера с
максимальным форматом A3 или A4. Часто
бывает, что качество, скорость сканирования
обеих моделей (А3 и А4) одинакова,
а стоимость существенно отличается
(сканер, имеющий максимальный формат
А3 дороже). Того же принципа придерживаются
производители широкоформатного оборудования,
пуская, например, сканеры с максимальным
форматом А1 и А0. Но может оказаться, что
при наличии "подавляющего" числа
документов формата A4, все-таки встречаются
А3 или "чуть большие, чем А4". Как сканировать
их? Об этом позже, а пока стоит посчитать
количество материала и все записать.
Следующим шагом является определение
"внутри" каждой группы форматов
числа ветхих, поврежденных материалов
и листов бумаги низкой плотности. Дело
в том, что при использовании документного
сканера, возможно повреждение таких листов.
Записав результаты обследования
по предыдущему пункту, "внутри" каждого
формата определяем количество "бликующих"
и неконтрастных листов. Например, результат
сканирования "блестящих" калек советского
производства и неконтрастных "синек"
может быть неудовлетворительным, и необходимо
будет решать проблемы их сканирования
путями, описанными ниже.
Стоить отметить, что каждая
группа может и должна классифицироваться
на односторонние и двусторонние документы.
Теперь стоит остановиться
на определении количества сброшюрованных
документов (папок, книг). И их классификации
по следующим признакам:
Часть документов, которые могут
быть расшиты перед сканированием;
Часть документов, которые расшивать
нежелательно;
Форматы;
Состояние (часть неконтрастных
и часть бликующих носителей).
Ну вот, пожалуй, приблизительно
и все. Почему опять "приблизительно"?
Дело в том, что очень сложно "воочию"
не посмотрев на Ваши документы сказать,
что все учтено. При классификации документов
по различным признакам внутри каждого
формата следует придерживаться следующего
правила: чем больше признаков классификации,
тем лучше! Например, если видите, что
группа документов "формата А4, хорошего
качества, контрастных, не ветхих" содержит
на некоторых листах пометки карандашом,
которые несут важную информацию, стоит
внутри этой группы обязательно создать
две подгруппы: "документы, имеющие
полезные дополнения, дописанные карандашом"
и "прочие документы". Зачем? Все достаточно
банально — одно оборудование хорошо
отсканирует весь документ, а другое отсканирует
так, что карандашные пометки, несущие
полезную информацию, не отобразятся.
Причем сможете и не заметить отсутствие
карандашной пометки на электронном изображении,
поскольку все остальное видно отлично.
При этом смысл документа может измениться.
Такую же классификацию можно
провести "внутри" любой группы, например,
чисто визуально разбить неконтрастные
материалы по любому признаку, например,
"совсем не контрастные", "неконтрастные"
и "не очень контрастные".
Результатом всей предыдущей
деятельности (не только по исследованию
бумажных носителей!) перед последующим
бором оборудования должны быть следующие
вещи:
Необходимость дальнейшего
пополнения архива вновь отсканированными
документами;
Окончательное решение о формате
электронного изображения;
Классификация документов по
форматам, ветхости, состоянию, "сброшюрованности"
и всем явленным при обследовании дополнительным
признакам. Эту классификацию лучше всего
составить в виде таблицы с указанием
"класса" документов и их количества;
Реальные "борки" документов
каждого определенного класса в виде
пачек, папок, рулонов, книг и т. д,
Оборудование подсистемы узкоформатного
сканирования
Теперь перейдем непосредственно
к бору оборудования. Начнем с узкоформатного
сканирования. Конечно, если речь идет
о тысячах, сотнях тысяч или даже миллионах
листов, применение обычного планшетного
сканера невозможно. Думаю, не можете
не согласиться с этим, посмотрев на планируемые
сроки сканирования. Проблема решается
при помощи специальных документных и
промышленных сканеров.
Существует достаточное число
производителей подобных аппаратов, например,
BancTec, Bell&Howell, Fujitsu и другие.
Все устройства делятся по максимальному
формату сканируемого документа — A3 или
A4, формату получаемого файла (в основном,
это TIFF одностраничный и многостраничный).
Сканеры классифицируются по признаку
"цветности": цветные (16, 24, 36 bit), GrayScale
(256 градаций серого, как на хорошей черно
— белой фотографии) или монохромные.
Возможности по "цвету" прямо пропорциональны
стоимости сканирующих устройств. С другой
стороны, цветной сканер может "давать"
и монохромные и "серые" изображения.
Причем иногда экономически оказывается
годнее использовать цветной сканер для
получения черно-белых изображений, если,
например, Ваши документы лучше сканируются
именно таким устройством.
Для сканирования двусторонних
документов можно конечно использовать
и односторонний сканер, но тогда время
работ увеличится в 2 раза. В связи с этим,
все устройства делятся по возможности
сканирования одновременно двух сторон
документа за один проход. В этом случае,
как правило, лист протягивается между
двумя сканирующим камерами, каждая из
которых производит сканирование "своей"
стороны.
Как правило, все устройства
имеют минимум 2 режима подачи документов
— автоматический и ручной. В автоматическом
режиме на приемный лоток сканера кладется
пачка документов, осуществляется автоматическая
протяжка всех листов. В ручном режиме
документы подаются по 1 листу. Все промышленные
и документные сканеры делятся по производительности.
Например, "младшая" модель ряда Fujitsu
позволяет сканировать со скоростью ~
15 листов/минуту, а самая "старшая"
— до 90 листов/минуту в режиме одностороннего
сканирования или до 180 страниц/минуту
в режиме двустороннего сканирования.
Каждая модель, как правило, имеет конструктивные
особенности и дополнительные решения,
позволяющие влиять на качество сканирования
разных групп документов.