Автор работы: Пользователь скрыл имя, 05 Февраля 2011 в 17:27, курс лекций
В работе рассматриваются основные вопросы в виде лекций по предмету "Программное обеспечение".
Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.
Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.
Главным фактором, ускорившим развитие программ распознавания речи, было совершенствование компьютеров.
Эти программы требуют большой вычислительной мощности и значительных объемов памяти. Чтобы использовать программы распознавания речи с полной отдачей, рекомендуется РС с процессором Pentium MMX/166 или аналогичным и жестким диском не менее 2 Гбайт. Перед его покупкой следует убедиться, что используемая программа распознавания речи поддерживает имеющуюся в РС звуковую карту.
Программы распознавания речи требуют всю эту мощь, поскольку они выполняют сложную работу. Сначала произносимые вами слова захватываются микрофоном и обрабатываются звуковой картой.
Затем программа анализирует звук, чтобы отличить низкочастотные гласные от высокочастотных согласных. После этого результаты сравниваются с фонемами (частями слов), группами фонем и словами, чтобы подобрать наиболее точный эквивалент.
Этот алгоритм должен быть не только аккуратным и быстрым, но пластичным, чтобы учитывать особенности произношения, модуляции голоса, скорость речи. После подбора наиболее точного слова программа анализирует контекст, что предугадать следующее слово. Это позволяет различить слова-омонимы, например, коса (вид прически), коса (береговая отмель), коса (сельскохозяйственный инструмент).
NaturallySpeaking и ViaVoice
могут работать сразу после
того, как вы прочтете несколько
предложений. Чтобы добиться
Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.
Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность подобных решений.
Прогресс, однако,
не стоит на месте и в последнее
время в телефонных интерактивных
приложениях все чаще стали использоваться
системы автоматического
Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.
На сегодняшний день существует два типа систем распознавания речи - работающие "на клиенте" (client-based) и по принципу "клиент-сервер" (client-server). Второй вариант более популярен и прост в разработке: речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.). Второй вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки "на клиенте" в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая "на клиенте" кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.