Автор работы: Пользователь скрыл имя, 13 Февраля 2016 в 21:46, реферат
Датой рождения машинного перевода (МП) принято считать 1947 г., и все началось с письма Уоррена Уивера, директора отделения естественных наук Рокфеллеровского фонда, к Норберту Винеру в марте того же года, в котором задача перевода сравнивалась с задачей дешифровки текстов.
В 1952 году знаменитый математик Бар-Хиллель организовал первую конференцию, посвященную машинному переводу. Исследователи, собравшиеся на конференцию, смогли обменяться мыслями по поводу структур словарей для машинного перевода, организации синтаксических правил языков, способов описания семантики.
Министерство Науки и Образования Российской Федерации
ФГБОУ ИПО
Липецкий Государственный Педагогический Университет
Факультет Иностранных Языков
Кафедра Английского Языка
РЕФЕРАТ на тему:
Машинный перевод
Выполнила :
студентка ФИЯ гр. А-44
Елена Афанасова
Липецк 2015 г.
Содержание
Появление и развитие Машинного Перевода
Датой рождения машинного перевода (МП) принято считать 1947 г., и все началось с письма Уоррена Уивера, директора отделения естественных наук Рокфеллеровского фонда, к Норберту Винеру в марте того же года, в котором задача перевода сравнивалась с задачей дешифровки текстов.
В 1952 году знаменитый математик Бар-Хиллель организовал первую конференцию, посвященную машинному переводу. Исследователи, собравшиеся на конференцию, смогли обменяться мыслями по поводу структур словарей для машинного перевода, организации синтаксических правил языков, способов описания семантики.
Фирма IBM совместно с Джорджтаунским университетом в США в 1954 г. сумела показать первую систему, базирующуюся на словаре из 250 слов и 6 синтаксических правил и обеспечивающую перевод 49 заранее отобранных предложений. Этот эксперимент положил начало исследовательскому буму: в следующие 10 лет правительство и военные ведомства США затратили на исследования в области МП около 40 млн. долларов.
Через восемь лет специальным комитетом по прикладной лингвистике (ALPAC) Национальной Академии наук США было признано отрицание осуществимости МП, поэтому были практически прекращены какие бы то ни было исследования из-за отсутствия финансирования, по крайней мере, в США и Европе.
Только с начала 80-х годов исследование МП наконец-то стал экономически выгодным из-за внедрения ПК во многие сферы деятельности человека. МП вновь стал привлекательной областью вложения капиталов как для частных инвесторов, так и для государственных структур. Совершенствование программ позволило достаточно точно переводить многие виды текстов.
Переводом называется процесс и результат создания на основе исходного текста на одном языке равноценного ему в коммуникативном отношении текста на другом языке. При этом коммуникативная равноценность, или эквивалентность, понимается как такое качество текста перевода, которое позволяет ему выступать в процессе общения носителей разных языков в качестве полноправной замены исходного текста (оригинала) в сфере действия языка перевода.
Коммуникативная эквивалентность нового текста по отношению к оригиналу обеспечивается выполнением трех основных требований:
-текст перевода должен в
-текст перевода должен соответствовать нормам языка перевода, так как их нарушение, по меньшей мере, создает помехи для восприятия информации, а иногда ведет и к ее искажению;
-текст перевода должен быть
примерно сопоставим с
Машинный перевод – это перевод текстов (письменных и устных) с одного естественного языка на другой при помощи компьютера.
Машинный перевод – это направление научных исследований, связанных с построением переводческих систем[6].
Обеспечение систем МП
Технология машинного перевода, изобретенная в 50-х годах, существенно не изменилась до наших дней. Все развитые системы перевода работают по схеме, состоящей из двух основных стадий: анализ текста на входящем языке и синтез перевода на выходном языке.
Этапы первой стадии: ввод фразы в машину, лексический анализ (на уровне слов и частей речи), поверхностный синтаксический анализ (определение членов предложения), глубинный синтаксический анализ (определение всех связей между словами и группами слов предложения). Результат — внутреннее представление фразы, учитывающее все особенности ее построения и взаимосвязи элементов.
При переводе с родного языка на иностранный редактор заменяет в исходном тексте сложные для перевода конструкции более простыми, раскрывает сокращения, приводит текст к формату, исключающему неоднозначное восприятие системой машинного перевода. В случае использования двунаправленного переводчика можно проверять успешность прередактирования методом обратного перевода: если фраза, переведенная системой на иностранный язык и обратно, близка по смыслу к исходной, то, вероятно, и перевод выполнен адекватно.
Система перевода имеет три основных составляющих: лингвистическое обеспечение (словари, данные о грамматике), математико-алгоритмическое обеспечение (формальные теоретические модели представления данных и алгоритмы переработки данных) и программное обеспечение (реализующее вышеозначенные алгоритмы). На более поздней стадии развития систем МП появляется еще информационное обеспечение (базовые сведения о предметной области перевода) и логическое обеспечение (правила логического вывода, используемые при анализе и синтезе текста для работы со знаниями из предметной области).
В целом можно следующим образом описать работу машины-переводчика: она прочитывает очередную фразу, формулирует для себя ее смысл и передает ее на другом языке, пытаясь сохранить лексические и структурные особенности исходного текста. При этом задействуются данные из той области знания, к которой принадлежит текст. Также во время перевода используется опыт перевода предыдущих частей этого текста.
Электронные словари
Электронные словари (ЭС) в настоящее время на рынке программного обеспечения представлены достаточно широко — от самых простейших (например, DIC) до мощных систем, объединяющих в одной программной оболочке несколько лексических баз данных — специализированных тематических словарей, последовательность подключения которых определяется пользователем (LINGVO).
Потенциальная аудитория этих программ – учащиеся и студенты, использующие словарь как одно из пособий при изучении иностранного языка, а также домашние и бизнес-пользователи, которым нужен универсальный словарь-справочник.
Когда мы переводим текст, например с английского языка на русский, и находим в словаре незнакомое нам слово, например «computer», то, узнав, что по-русски это значит «компьютер», мы уже безошибочно напишем в зависимости от контекста: «на компьютере», «с компьютером» и т.д. То есть поставим в соответствие не ту совокупность символов, которые прочитали в словаре, а другую!
Это связано с тем, что существительные в русском языке изменяются по падежам и по числам, у одного существительного может существовать до 12 разных форм, а у глаголов и прилагательных количество различных форм, как правило, еще больше. Это означает, что в системе должен существовать некоторый формальный метод описания морфологии, на котором основывается выбор единицы словаря. И соответственно, чем больше словоформ распознает система при меньшем объеме записей в словаре, тем она совершеннее. Чтобы оценить, насколько это сложная задача, скажем, что в системе PROMT морфологическое описание, разработанное только для русского языка, содержит более 800 типов словоизменений.
Известно, что в различных тематиках одно и то же слово переводится совершенно по-разному. Например, английское слово «ram» может переводиться и как «козел», и как «паровой молот» — в зависимости от того, о чем идет речь. Поэтому, видимо, для перевода текстов, имеющих отношение к разным сферам, отраслям и т.д., нужны разные электронные словари.
Как переводит машина. О системах перевода Transfer и Interlingua
Во-первых, всем ясно, что чем больше словарь, тем лучше перевод, значит, первая проблема – проблема создания больших словарей для систем.
Во-вторых, ясно, что система должна переводить такие предложения: «Привет, как дела?». Значит, еще одна проблема - научить систему распознавать устойчивые обороты.
В-третьих, понятно, что предложение для перевода пишется по определенным правилам, по определенным правилам переводится, а значит, есть еще одна проблема: записать все эти правила в виде программы. Вот, собственно, и все.
Для качественного перевода очень важно, чтобы практически все слова исходного текста легко было найти и в словаре системы. Если значение хотя бы одного слова в словаре нет, то это может исказить анализ всего предложения. Также существует вопрос - большой словарь – это словарь, который содержит много словарных статей, или словарь, который позволяет распознать много слов из текста?
Принято делить системы перевода на системы типа TRANSFER и системы типа INTERLINGUA. Это разделение основано на особенностях архитектурных решений для лингвистических алгоритмов.
В системах типа transfer после морфологического анализа следует синтаксический анализ (САн), в ходе которого выстраивается синтаксическая структура входного предложения в виде размеченного дерева. В качестве узлов дерева выступают слова или словосочетания, а связи между ними отражают синтаксические связи внутри предложения. Процесс перевода делится на три этапа. Сначала выполняется анализ предложения в терминах лингвистических структур входного языка (МАн+САн), затем построенная структура преобразуется в аналогичную структуру для выходного языка, то есть на основе дерева входной фразы строится дерево выходной. И, наконец, по полученной структуре производится синтез выходного предложения, который подразделяется на синтаксический синтез (перевод синтаксического дерева фразы в цепочке морфологических представлений слов) и морфологический синтез (создание нужных форм из основ и аффиксов).
Классификация систем МП (FAMT, HAMT, MANT)
В современных продуктах в основном используются архитектурные и идейные наработки, созданные еще в период первой волны. Новые подходы проникают на этот рынок довольно медленно. Так, еще в 1990 году Ларри Чаилдс предложил классификацию систем машинного перевода по принципу «независимости» машины от действий человека, ставшую сейчас общепринятой:
МП в Internet
Можно сказать, что интеграция Интернета и систем машинного перевода идет по двум направлениям:
Такие фирмы, как Systran, Transparent Language (www.transparent.com), Globalink (www.lhsl.com/mt), уже включили в состав своих пакетов программы просмотра и перевода веб-страниц, а также обеспечили интеграцию с электронной почтой и ПО групповой работы. Российские разработчики – «ПРОМТ» (www.promt.ru), «Арсеналъ» (www.socrat.ru) – тоже не отстают по части перевода веб-страниц «на лету». Наиболее универсальным из них является пакет программ PROMT Internet. Программа WebTranSite 98, входящая в него, подходит не только для перевода Web-страниц. Она достаточно универсальна и позволяет обрабатывать фрагменты текста из любых приложений, в том числе из текстовых редакторов, электронных таблиц, органайзеров, броузеров.
Socrat Internet – это аналог "переводящего броузера" WebView. С ее помощью можно выполнять "синхронный" перевод Web-страниц с сохранением их форматирования. Однако если WebView по возможностям настройки опций перевода ничем не уступает профессиональной системе PROMT 98, то в Socrat Internet никаких средств управления этими функциями нет вообще. Броузер от компании "Арсеналъ" не позволяет подключать тематические словари, что сильно ухудшает качество перевода специальных текстов. В итоге Socrat Internet существенно уступает продуктам "ПРОМТ" по многим параметрам, в том числе и по самому важному – качеству выходного текста.
Заключение
Таким образом, параметры системы МП должны удовлетворять четырем основным требованиям:
• оперативность;
• гибкость;
• скорость;
• точность.
Оперативность машинных систем — это возможность постоянного пополнения словарного запаса и создания новых тематических словарей. В этом параметре они значительно опережают привычные типографские издания различных словарей.
Гибкость — это возможность "грубой настройки" на конкретную предметную область (для этой цели служат специализированные словари) и "тонкой настройки" на конкретный текст, книгу или группу документов (модифицируемые пользовательские словари).
Скорость — возможность автоматического ввода и обработки текстовой информации с бумажных носителей. Только одна система оптического ввода текстов (OCR-System) ежедневно заменяет более десяти классных машинисток.