Сравнительный анализ программ машинного перевода

Автор работы: Пользователь скрыл имя, 02 Июня 2013 в 10:15, курсовая работа

Описание работы

Современный мир предъявляет повышенные требования к человечеству в связи с образованием единого информационного пространства. Отсутствие знания иностранного языка больше не является препятствием для международной коммуникации. Благодаря повсеместному распространению доступа к сети интернет роль перевода в жизни человечества неуклонно возрастает, в связи с тем, что в настоящее время почти все сферы человеческой деятельности сталкиваются с необходимостью перевода. Переводу с одного языка на другой подвергаются деловая и личная корреспонденция, художественные произведения, стихи, проза, тексты песен, научные книги, дипломатические документы, газетные материалы, интервью и т.д.

Содержание работы

1.Введение....................................................................................................3
2.История развития машинного перевода ................................................5
3.Механизм машинного перевода ...........................................................12
4.Машинный перевод: миф или реальность ...........................................16
5. Сравнительный анализ программ машинного перевода.……….......25
6.Заключение ..............................................................................................33
7.Список используемой литературы ........................................................35

Файлы: 1 файл

машинный перевод.doc

— 196.50 Кб (Скачать файл)

 

 

2. Механизм машинного перевода

 

Под машинным переводом  понимается выполняемое на компьютере действие по преобразованию текста с одного естественного языка в эквивалентный по содержанию текст на другом языке, а также результат такого действия. Современный машинный перевод осуществляется с помощью человека, который тем или иным образом предварительно обрабатывает подлежащий переводу текст, или исправляет ошибки и недочеты в переведенном машиной тексте12.

Для осуществления машинного  перевода в компьютер устанавливается  специальная программа, реализующая  алгоритм перевода, под которым понимается последовательность определенных действий над текстом для нахождения переводных соответствий или эквивалентов в паре языков.

Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией для обеспечения передачи эквивалентных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными.

Наиболее распространенной является следующая последовательность операций, обеспечивающих анализ и  синтез в системе машинного перевода:

 На первом этапе  осуществляется ввод текста и  поиск входных словоформ (слов  в конкретной грамматической  форме, например предложного падежа  множественного числа) во входном  словаре (словаре языка, с которого  производится перевод) с сопутствующим  морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенному слову. В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы13.

 Второй этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа according to, in case of получают единый эквивалент и исключаются из дальнейшего грамматического анализа). Затем происходит определение основных грамматических (морфологических, синтаксических) характеристик элементов входного текста (например, числа существительных, времени глагола и т.д.), лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, по которым производится поиск слов в контексте для определения смысла слова14.

Последующий грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа брюки, ножницы глагол должен стоять в форме множественного числа, несмотря на то, что в оригинале может быть и единственное число).

На завершающем этапе  происходит соединение выходных словоформ  в предложения в целом на выходном языке.

В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как по-фразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей (такова, например, связь местоимения с замещаемым им существительным).

Действующие системы  машинного перевода ориентированы  на конкретные пары языков (например, английский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в описательной, так и в процедурной форме, то есть учитывающей потребности алгоритма.

Современный машинный перевод  следует отличать от использования  компьютеров в помощь человеку-переводчику. В последнем случае имеется в  виду автоматизированный словарь, помогающий переводчику быстрее подбирать нужный переводной эквивалент. Хотя и в том, и в другом случае компьютер работает вместе с человеком, в содержание термина «машинный перевод» входит представление о том, что основную часть работы по переводу и отысканию переводных эквивалентов компьютер берет на себя, оставляя человеку лишь контроль и исправление ошибок, в то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий; при этом, однако, в такого рода словарях в ограниченной степени могут быть реализованы и некоторые функции, присущие системам машинного перевода. Эффективность работы современной системы машинного перевода в решающей степени зависит от ее удачной настройки на конкретный подъязык естественного языка, на определенную лексику и ограниченный набор грамматических средств, характерных для текстов данной предметной области, а также на определенные типы документов. Учение о подъязыках15 с точки зрения машинного перевода было впервые сформулировано Н.Д.Андреевым (Ленинградский университет) в 1967, хотя представления о языковых регистрах, стилях, жанрах письменного текста и т.п. были хорошо известны и в традиционной лингвистике.

 Подъязык, с точки  зрения машинного перевода, определяется в первую очередь некоторым исходным набором текстов, в рамках которого определяется входной и выходной словари, степень распространения и характер лексической неоднозначности лексем, характер и распространенность синтаксических конструкций, способы их перевода в данной языковой паре и пр. Статистические характеристики подъязыков помогают упорядочить структуру соответствующих алгоритмов анализа и синтеза. Выходной словарь, ориентированный на потребности синтеза и передачи основных видов соответствий в конкретной языковой паре, обеспечивает приемлемый выходной текст. В любом из современных видов машинного перевода необходимо участие человека-редактора, удобство работы которого обеспечивается качеством и надежностью соответствующего программного обеспечения.

В настоящее время  существует две концепции развития систем машинного перевода: модель «большого словаря со сложной структурой», которая заложена в большинство современных программ-переводчиков и модель «смысл-текст», впервые сформулированная А.А. Ляпуновым, но не реализованная, ни в одной конкретной программе. На сегодняшний день наиболее известны такие системы машинного перевода, как PROMT2000/XT, Retrans Vista компаний Vista Advantis, Сократ – набор программ компании Арсеналъ.

3. Машинный перевод: миф или реальность

 

Осуществление перевода компьютером – сложная, но интересная научная задача. Основная ее сложность  состоит в том, что естественные языки плохо поддаются формализации. При машинном переводе компьютеры лишь производят замену слов переводимого языка на язык перевода. Отсюда и невысокое качество текста, получаемого с помощью систем машинного перевода, содержание и форма которого подвергается постоянной критике.

В нашей стране разработка систем машинного перевода ведется уже  более 45 лет, однако до сих пор эта сфера компьютерной индустрии вызывает огромное количество различных дискуссий. Часто приходится слышать от критиков систем машинного перевода, что программы-переводчики переводят плохо, непонятно кому они вообще нужны. Гораздо проще отдать текст «живому» переводчику или выучить язык самому»16. Подобные резкие высказывания наводят на вопросы, а есть ли необходимость в машинном переводе? Будет ли когда-нибудь машинный перевод выполнен на уровне квалифицированного специалиста? Является ли машинный перевод мифом или реальностью? Данная делема особенно остро стоит перед заказчиками, стоящими перед выбором приема в штат своей организации профессионального переводчика, или использования для этих же целей машинного перевода. Для некоторых заказчиков такой уровень перевода просто неприемлем. «Машинный перевод - это миф, - считает Линн Сешедри, консультант одной из служб корпорации Electronic Data Systems (г. Плейно, штат Техас, США), принимавший участие в создании глобальной интрасети компании. - Возможно, он годится для технической документации, но во всех остальных случаях вы получаете пятнадцать процентов смысла и восемьдесят пять процентов ерунды». Линн Сешедри для перевода содержания своей интрасети EDS пользуется услугами профессиональных переводчиков на контрактной основе17. Однако других машинный перевод вполне устраивает, в значительной степени потому, что часто просто нет реальных альтернатив и возможностей. Парижский фонд «За развитие гуманизма» в свое время также стоял перед выбором: тратить ли существенную часть своего бюджета на профессионалов - переводчиков или испробовать средства машинного перевода. Данная организация, финансируется из частных источников, выпускает доклады по экологии, экономике и ряду других областей, привлекая для их создания интернациональные коллективы ученых. Ее выбор пал на технологию машинного перевода, а точнее, на продукт фирмы Глобалинк, представляющий собой вполне качественное и недорогое приложение для персонального компьютера. Работники Парижского фонда установили систему автоматического перевода на сервер электронной почты, чтобы общение специалистов, говорящих на разных языках, было проще и эффективнее.

«Это хорошее решение, - считает  Марина Урквиди, консультант из Парижского фонда. - Многие люди предпочли бы работать не на английском, а на своем родном языке. Теперь у них есть такая возможность». Она не отрицает, что машинный перевод имеет свои недостатки, однако убеждена, что если человек захочет, он сможет понять перевод, сделанный машиной. «Если вы немного подумаете, то сумеете понять, о чем идет речь». Таким образом, если не требовать от машинного перевода слишком многого, то, возможно, обещание Бэббиджа о машинном переводе все же исполнится18.

Для того чтобы принять чью-либо позицию, необходимо обозначить достоинства и недостатки исследуемого объекта.

Первый источник проблем машинного  перевода - это многозначность слов в любом естественном языке, а  также существование, а в некоторых  случаях обилие устойчивых словосочетаний и фразеологических оборотов. Причем, эти явления существуют как в языке, с которого делается перевод, так и в том языке, на который переводится. Ведь ни для кого не секрет, что даже квалифицированному переводчику, постоянно пополняющему свой запас устойчивых словосочетаний, выражений, фразеологических оборотов необходимо время для поиска правильного переводческого решения той или иной фразы, заключающей в себя весь смысл предложения, а компьютер-переводчик это делает за доли секунд, просто заменив слова одного языка, словами другого19.

Второй источник проблем - невозможность  передать ассоциативный ряд, который  у нас связан с каждым словом. Пользуясь машинными средствами, мы получаем буквальный перевод, в котором  не учтено ни использование слова  в переносном значении, ни второй или третий смысл, который мозг человека вычленяет автоматически, основываясь на данных, полученных при постоянном общении с другими людьми, информации получаемой из средств массовой информации и т.д. Такого опыта компьютер не имеет, а смоделировать его невозможно из-за бесконечно большого количества возможных вариантов. Также компьютер является всего лишь машиной, для которой смысл текста не имеет никакого значения, а значит, и подобрать слово соответствующее контексту ему не под силу. В результате возникают ошибки, искажение смысла вплоть до замены его на противоположный и множество забавных казусов20.

Третьим источником погрешностей при  переводе являются требования языка  к соблюдению определенного порядка  слов в предложениях, то есть к способу  объединения отдельных слов в связный текст. Принято считать, что в русском языке порядок слов свободный, и существует возможность переставлять слова в словосочетаниях и предложениях как угодно, и собеседник вас поймет однозначно. Исключения бывают, но сравнительно редко. В то же время, в английском, да и в большинстве европейских (германских и романских) языков, соблюдение прямого порядка слов жизненно важно для того, чтобы ваш собеседник смог понять, что же вы ему пытались сообщить.

Четвертым источником лингвистических затруднений является невозможность формально описать лингвистические закономерности. Например, школьные представления о том, что в русском языке существует всего 36 категорий имени существительного (три рода, три склонения, две категории одушевленности, имена собственные/нарицательные), увы, совершенно не подтверждаются живым языком. Слова "глаз", "луч", "матрац", "стул" и "стол" любой школьник отнесет к нарицательным существительным мужского рода, второго склонения, неодушевленным. Однако в именительном падеже множественного числа будут «глазА», «лучИ», «матрацЫ», «стулЬЯ», а в родительном падеже множественного числа разнообразие вариантов еще больше: «глаз», «лучЕЙ», «матрацЕВ», «стулЬЕВ», «столОВ», и все эти закономерности трудны как для человека  изучающего язык, так и для компьютера переводящего текст21.

Очень часто причиной неправильного  перевода являются опечатки в оригинале, в особенности это касается отсканированных  и распознанных текстов. Слова с  орфографическими ошибками в большинстве  случаев помечаются системой перевода как незнакомые, поскольку в исковерканном виде они в словарях отсутствуют. Сложнее, если опечатка превращает одно слово в другое, которое также существует в иностранном языке, – программа переведет его, но смысл текста будет искажен. Но самыми серьезными «подводными камнями» являются ошибки в пунктуации. Одна неправильно поставленная запятая способна серьезно исказить перевод предложения.

Компьютер-переводчик также не распознает никаких сокращений, а точка после  сокращенного слова наведет его на мысль о том, что предложение закончилось, и, следовательно, предложение будет неправильно разобрано, и в результате неправильно переведено.

Еще одним источником неправильной интерпретации текста в исполнении машинного перевода является отсутствие скрупулезной внимательности человека-профессионала. Электронный переводчик способен более или менее адекватно передать определенные категории текста на другом языке. Прежде всего, это относится к документам, где в большом количестве используются стойкие лексические обороты (особенно к юридическим документам). К сожалению, даже в этом случае не удается избежать ошибок. Перевод будет достаточен для понимания общих положений, но почти наверняка он будет неточен в деталях, а ведь каждый понимает, к чему может привести, например, неверное употребление предлога в важном контракте.

Что касается документов свободного стиля, в особенности художественных произведений, в которых помимо качественного  перевода необходимо передать стиль  и манеру автора, то здесь машинный перевод ничем не сможет вам помочь. При переводе любой сложной фразы, даже если сохранится смысл, то стилистически тексту однозначно  потребуется качественное редактирование22.

Информация о работе Сравнительный анализ программ машинного перевода