Автор работы: Пользователь скрыл имя, 05 Февраля 2011 в 17:27, курс лекций
В работе рассматриваются основные вопросы в виде лекций по предмету "Программное обеспечение".
Распознавание текста и изображений. Переключатели клавиатуры. Распознавание и синтез речи
Любое сканированное изображение представляет собой графический файл. Но в графическом формате страница занимает слишком много места, и главное, такой текст нельзя редактировать. Существуют программы, способные перевести сканированный текст из графического в текстовый формат.
Программа распознавания текста обращается к той программе, которая используется для работы со сканером. Файл рисунка попадает прямо в распознавалку, которая выводит результаты в виде текста, причем воспроизводит в нем шрифтовое и абзацное оформление, разбиение на колонки, вставляет в текст иллюстрации, взятые со сканируемой страницы.
Текст можно править тут же, во встроенном редакторе программы – для этого в программу встраивается также проверка правописания. Можно удалять или перемещать рисунки.
Желательно научиться
подбирать параметры
Подобрав настройки сканера, можно уменьшить количество неверно распознанных букв до вполне приемлемой цифры.
История создания
В 1929 году Густав Таущек получил патент на метод оптического распознавания текста в Германии, после чего за ним последовал Гендель, получив патент на свой метод в США в 1933. В 1935 Таущек также получил патент США на свой метод. Машина Таущека представляла собой механическое устройство, которое использовало шаблоны и фотодетектор.
В 1950 году Дэвид Х. Шепард, криптоаналитик из агентства безопасности вооружённых сил Соединённых Штатов, проанализировав задачу преобразования печатных сообщений в машинный язык для обработки компьютером, построил машину, решающую данную задачу. После того как он получил патент США, он сообщил об этом в «Вашингтон Дэйли Ньюз» (27 Апреля 1951) и в «Нью-Йорк Таймс» (26 декабря 1953). Затем Шепард основал компанию, разрабатывающую интеллектуальные машины, которая вскоре выпустила первые в мире коммерческие системы оптического распознавания символов.
Первая коммерческая система была установлена на «Ридерс Дайджест» в 1955 году. Вторая система была продана компании «Стэндарт Ойл» для чтения кредитных карт для работы с чеками. Другие системы, поставляемые компанией Шепарда, были проданы в конце 1950-х годов, в том числе сканер страниц для национальных воздушных сил США, предназначенный для чтения и передачи по телетайпу машинописных сообщений. IBM позже получила лицензию на использование патентов Шепарда.
Примерно в 1965
«Ридерс Дайджест» и «Ар-Си-Эй»
Почтовая служба Соединённых Штатов с 1965 года для сортировки почты использует машины, использующие оптическое распознавание текста, созданные на основе технологий, разработанных исследователем Яковом Рабиновым. В Европе первой организацией, использующей машины с оптическим распознаванием текста, был британский почтамт. Почта Канады использует системы оптического распознавания символов с 1971 года. На первом этапе в центре сортировки системы оптического распознавания символов считывают имя и адрес получателя и печатают на конверте штрих-код. Он наносится специальными чернилами, которые отчётливо видимы в ультрафиолетовом свете. Это делается, чтобы избежать путаницы с полем адреса, заполненным человеком, которое может быть в любом месте на конверте.
В 1974 году Рэй Курцвейл создал компанию «Курцвейл Компьютер Продактс», и начал работать над развитием первой системы оптического распознавания символов, способной распознать текст, напечатанный любым шрифтом. Курцвейл считал, что лучшее применение этой технологии — создание машины чтения для слепых, которая позволила бы слепым людям иметь компьютер, умеющий читать текст вслух. Данное устройство требовало изобретения сразу двух технологий — ПЗС планшетного сканера и синтезатора, преобразующего текст в речь. Конечный продукт был представлен 13 января 1976 во время пресс-конференции, возглавляемой Курцвейлом и руководителями национальной федерации слепых.
В 1978 году компания «Курцвейл Компьютер Продактс» начала продажи коммерческой версии компьютерной программы оптического распознавания символов. Два года спустя Курцвейл продал свою компанию корпорации «Ксерокс», которая были заинтересована в дальнейшей коммерциализации систем распознавания текста. «Курцвейл Компьютер Продактс» стала дочерней компанией «Ксерокс», известной как «Скансофт».
Точное распознавание латинских символов в печатном тексте в настоящее время возможно только если доступны чёткие изображения, такие как сканированные печатные документы. Точность при такой постановке задачи превышает 99 %, абсолютная точность может быть достигнута только путем последующего редактирования человеком. Проблемы распознавания рукописного «печатного» и стандартного рукописного текста, а также печатных текстов других форматов (особенно с очень большим числом символов) в настоящее время являются предметом активных исследований.
Точность работы методов может быть измерена несколькими способами и поэтому может сильно варьироваться. К примеру, если встречается специализированное слово, не используемое для соответствующего программного обеспечения, при поиске несуществующих слов, ошибка может увеличиться.
Распознавание символов он-лайн иногда путают с оптическим распознавания символов. Последний - это офф-лайн метод, работающий со статической формой представления текста, в то время как он-лайн распознавание символов учитывает движения во время письма. Например, в он-лайн распознавании, использующем PenPoint OS или планшетный ПК, можно определить, с какой стороны пишется строка: справа налево или слева направо.
Он-лайн системы для распознавания рукописного текста «на лету» в последнее время стали широко известны в качестве коммерческих продуктов. Алгоритмы таких устройств используют тот факт, что порядок, скорость и направление отдельных участков линий ввода известны. Кроме того, пользователь научится использовать только конкретные формы письма. Эти методы не могут быть использованы в программном обеспечении, которое использует сканированные бумажные документы, поэтому проблема распознавания рукописного «печатного» текста по-прежнему остается открытой. На изображениях с рукописным «печатным» текстом без артефактов может быть достигнута точность в 80 % — 90 %, но с такой точностью изображение будет преобразовано с десятками ошибок на странице. Такая технология может быть полезна лишь в очень ограниченном числе приложений.
Ещё одной широко исследуемой проблемой является распознавание рукописного текста. На данный момент достигнутая точность даже ниже, чем для рукописного «печатного» текста. Более высокие показатели могут быть достигнуты только с использованием контекстной и грамматической информации. Например, в процессе распознания искать целые слова в словаре легче, чем пытаться проанализировать отдельные символы из текста. Знание грамматики языка может также помочь определить, является ли слово глаголом или существительным. Формы отдельных рукописных символов иногда могут не содержать достаточно информации, чтобы точно (более 98 %) распознать весь рукописный текст.
Для решения более сложных проблем в сфере распознавания используются, как правило, интеллектуальные системы распознавания, такие как искусственные нейронные сети.
Программа FineReader фирмы ABBYY – наиболее распространенная OCR-программа (Optical Character Recognition – оптическое распознавание символов) на нашем рынке.
Помимо 176 обычных языков (включая искусственные вроде эсперанто), FineReader понимает также основные языки программирования и простые химические формулы, причем умеет распознавать разноязычный текст. Имеет функцию обучения.
OCR CuneiForm один из главных конкурентов FineReader как на российском, так и на мировом рынке. Производителем является российский разработчик программного обеспечения Cognitive Technologies. По словам производителей, OCR CuneiForm выгодно отличается уровнем распознавания, особенно текстов низкого качества; удобным интерфейсом с наличием встроенных мастеров помощников в работе; встроенным текстовым редактором, не уступающим по своей функциональности популярным текстовым процессорам, и многими другими возможностями.
OCR CuneiForm способна
распознавать любые
Также программа
снабжена возможностями массового
ввода возможностью пакетного сканирования,
включая круглосуточное, сканирования
с удаленных компьютеров
О высокой конкурентоспособности
этой системы говорит тот факт,
что ведущие мировые
Ведущие производители программного обеспечения также лицензировали российскую информационную технологию для применения со своими продуктами. Популярные программные пакеты Corel Draw (Corel Corporation), FaxLine/OCR&Business Card Wizard (Inzer Corporation) и многие другие встроена OCR-библиотека CuneiForm. Хочется отметить, что эта программа стала первой в России OCR-системой, получившей MS Windows Compatible Logo.
Readiris Pro7 профессиональная
программа распознавания
OmniPage11 продукт
компании ScanSoft. Ограниченная версия
этой программы (OmniPage11 Limited Edition, OmniPage
Lite) обычно поставляется в
AfterScan программа для чистки отсканированного текста. Борется с лишними пробелами между словами, в конце строки и в начале абзацев. Исправляет разнобой с длинными и короткими тире, а также с открывающими и закрывающими кавычками и многое другое.
Переключатели клавиатуры
Эти программы связаны с переключением и исправлением клавиатурной раскладки (в том числе, позволяют исправлять текст, введенный не в той клавиатурной раскладке).
SwitchIt – драйвер
клавиатуры способный
Punto Switcher – при вводе невозможных в русском или английском языке сочетаний букв (например, Цштвщцы), производится перекодировка и переключение раскладки.
Распознавание и синтез речи