Состав и структура автоматических переводных словарей

Автор работы: Пользователь скрыл имя, 16 Ноября 2015 в 01:37, курсовая работа

Описание работы

Цель исследования: изучить состав и структуру автоматических переводных словарей.
Задачи исследования:
1) проанализировать существующие определения словаря
2) дать определение переводному словарю, привести его характеристику
3) проанализировать лексический состав и объём автоматического переводного словаря
4) изучить динамичность автоматического переводного словаря
5) проанализировать состав и структуру словарных статей автоматического переводного словаря

Файлы: 1 файл

Курсовая333.docx

— 65.18 Кб (Скачать файл)

Подобный состав, как и идеальная словарная статья филологического словаря, ориентирован на одноязычные словари. Требования переводной лексикографии требуют расширения этого формата. В этом случае статья, также идеальная, должна включать переводной эквивалент, фонетическую и грамматическую характеристики, пометы сфер употребления.

В практике создания общефилологических и терминологических словарей эти идеальные варианты существенно упрощаются. В настоящее время нет универсальных общефилологических словарей, хотя статьи некоторых толковых словарей обладают весьма богатой информацией. Однако в количественном отношении все-таки пока преобладают словари с ограниченным составом словарных статей Большинство переводных терминологических словарей не включают и половины указанных в идеальном случае характеристик и чаще всего ограничиваются краткой грамматической информацией, переводным эквивалентом и определением[1].

Упрощения словарных статей для практики создания словарей в книжной форме стало естественными. Причины этого кроются и в трудностях совмещения в пределах одной словарной статьи всех сведений о слове, и в огромной трудоемкости подбора такого материала. Словарная статья, охватывающая все языковые и неязыковые сведения о слове, может сделать словарь столь сложным, что для массового читателя он будет практически бесполезным.

Подобные же явления наблюдаются и в словарных компонентах различных систем автоматической обработки текстов. Создатели некоторых автоматизированных систем, предусматривающих общение с компьютером на естественном языке, систем машинного перевода и автоматических словарей разработали для них довольно сложные и глубокие по содержанию словарные статьи. К числу постоянных параметров, характерных для всех частей речи, отнесены следующие лингвистические компоненты[7]:

  1. орфографический, т. е. сама словарная единица;
  2. часть речи;
  3. семантическое поле;
  4. словарная дефиниция;
  5. нерегулируемая словоизменительная форма;
  6. словообразовательная морфология;
  7. синонимы, включая синонимические отсылки;
  8. антонимы;
  9. примеры употребления для каждого случая, имеющего дефиницию.

Структура, состав и объем словарной статьи переводных автоматических словарей и терминологических банков довольно четко отражают то промежуточное положение, которое они занимают между системами машинного перевода и традиционными словарями в книжной форме. В разных автоматических переводных словарях эти параметры весьма различны. Словарные статьи могут содержать в вариативных сочетаниях следующие сведения [1][7]: заглавное слово, один или несколько его иноязычных эквивалентов, тематическую принадлежность заглавного слова и его иноязычных эквивалентов, грамматическую информацию, неформализованные толкования или стандартизованные дефиниции, контексты, лексическую сочетаемость, семантические иерархические связи заглавного слова, сокращения, стилистическую окрашенность, лингвогеографические ограничения, ключевые слова (если заглавная лексическая единица является словосочетанием), источник и дату поступления, фамилию автора словарной статьи, различную служебную информацию и неформальные комментарии.

Колебания в составе словарных статей в разных автоматических переводных словарях весьма велики. Общими компонентами фактически являются только само заглавное слово, его тематическая принадлежность и иноязычный переводной эквивалент[7]. Что же касается способов и глубины описания всех лексикографических параметров, то в этом мнения разработчиков разных автоматических переводных словарей расходятся еще больше.

 

3. Отечественные автоматические переводные словари

Обзор четырех продуктов, выпускающихся отечественными компаниями.

Abbyy Lingvo

В большом электронном словаре Lingvo есть и переведенные в цифровой вид лицензированные бумажные словари – это политехнический, юридический, экономический, финансовый, медицинский и динамично пополняемый компьютерный словарь. Но основу Lingvo составляет электронный словарь собственной разработки. Каждая новая версия Lingvo дополняется актуальной лексикой, и в ней исправляются найденные ошибки и неточности.[4]

Не стала исключением и последняя на данный момент версия этой программы - ABBYY Lingvo x5 . В этой версии поддержаны 9 дополнительных языков (казахский, татарский, норвежский, датский, финский, греческий, венгерский, польский, нидерландский), появились 75 новых словарей и еще 7 были обновлены. Итого в «Lingvo x5 Pro 20 языков» входят 220 общих и тематических словарей на 12,6 млн. статей.

Словарь ABBYY Lingvo x5 можно выбрать в одном из трех языковых вариантов: [4] Английский язык, 9 языков и 20 языков. Каждая версия отличается составом языков и словарей. В ABBYY Lingvo x5 Английский язык – 74 словаря для русского и английского языков. ABBYY Lingvo x5 9 языков включает 162 словаря для английского, русского, немецкого, французского, испанского, итальянского, греческого, португальского и финского языков. ABBYY Lingvo x5 20 языков – это наиболее полная версия.

Если говорить о мгновенном переводе, то в Lingvo x5 эта функция выведена на качественно новый уровень. Теперь, если программа не может уверенно извлечь нужный текст, она просто делает снимок области экрана под курсором и выполняет для него оптическое распознавание, в котором ABBYY не менее сильна, чем в лингвистике.

 

Таким образом, благодаря лексикографическим исследованиям англо-русский словарь фирмы Abbyy близок к языковой практике.

Компания ABBYY, в своей предыдущей версии словаря Lingvo x3, обозначила курс на интеграцию с различными онлайновыми лингвистическими и информационными сервисами. В Lingvo x5 движение в том же направлении продолжилось за счет подключения ресурса Lingvo.Pro[2]. Это не просто еще один вариант онлайнового словаря — сайт позволяет зарегистрированным пользователям предлагать собственные варианты перевода, обсуждать их, и тем самым актуализировать словарную базу. Кроме того, он обеспечивает доступ к так называемой памяти переводов (Translation Memory), билингвальному массиву фрагментов текста (как правило, из реальных документов, книг и пр.), хранящему «эталонные» переводы. Такие базы применяются в промышленных системах перевода, и их создание — недешевое удовольствие (в частности, в этом состоит одна из дополнительных услуг ABBYY), в данном же случае они являются источником качественных примеров использования слов в английском, французском и немецком языках. Lingvo x5 автоматически предлагает переводы из Lingvo.Pro, чтобы просмотреть примеры употребления любого из вариантов перевода, достаточно щелкнуть по нему мышью.

Конечно, самое главное преимущество хороших электронных словарей - одновременный поиск не только по названию словарной статьи, но и по всему огромному объему словарей, что просто нереально в бумажном варианте. Такой поиск создает многомерный портрет слова, при этом извлекаются из глубин словарной статьи не только конкретные примеры его использования и устойчивые выражения, в которых слово встречается, но и обнажаются, становятся явными языковые законы, которым подчиняются правила словообразования.

Даже мобильный электронный словарь не может отразить все сиюминутные движения языка, но он может дать ключ для расшифровки и понимания этих изменений, делая пользователя соавтором лексикографа. Что очень важно, когда требуется точный смысловой перевод, ведь это не задача подбора подходящего выражения, а в широком смысле отображение одной культуры с помощью языка другой. Поэтому в Lingvo можно строить и свой собственный словарь.

В программе реализован принцип морфологичности, то есть распознавания слова в разных грамматических формах. При вводе любой словоформы словарь выдает карточку с начальной формой слова. Парадигма заполнена почти для всех слов основных словарей Lingvo за исключением, может быть, узкопрофессиональных терминов. Кроме того, при вводе в пользовательский словарь нового слова предлагается выбрать для него тип парадигмы, которая автоматически генерируется словарем. Нужно только определить часть речи, некоторые признаки (имя собственное, аббревиатура и т. п.) и начальную форму. Дальше остается выбрать правильный вариант[4].

Хорошо разработана зона примеров. Приведены типичные случаи употребления, а также фразеологизмы и устойчивые словосочетания. Каждая зона словарной статьи имеет свой образец форматирования, благодаря чему в статье очень легко ориентироваться. Lingvo можно использовать для перевода не только отдельных слов, но и словосочетаний и даже целых предложений.

В целом, Lingvo представляет собой очень удобный профессиональный словарь. Простота в обращении и объем словарной базы делают его надежным помощником и для профессиональных переводчиков, и для студентов, и для людей, только начинающих изучать иностранные языки.

МультиЛекс

«МультиЛекс» - это не один словарь, а целое семейство. Кроме английского, в продаже есть словари немецкого, французского, испанского и итальянского языков, парные к русскому. Для английского и немецкого языков существует по две версии словарей - «Популярные» и «Большие». Первые, где собраны наиболее употребительные слова и выражения и даны лишь основные их значения, рекомендуются начинающим изучать язык. Вторые же, предназначенные для профессиональных переводчиков, в них более полно отражены смысловые оттенки слов. Кроме того, выпущено несколько специализированных словарей.

Компания МедиаЛингва придерживается при создании словарей МультиЛекс довольно простой стратегии. Она создает цифровую копию известных книжных изданий. На сайте фирмы можно найти формулировку этого принципа[4]: «В основу электронных словарей заложены словарные базы книжных изданий, уже завоевавших популярность и признание среди переводчиков, преподавателей иностранных языков, студентов и школьников». С точки зрения МедиаЛингва, задача электронной лексикографии - как можно точнее перевести традиционный словарь в электронную форму.

За основу словаря МультиЛекс взят «Новый большой англо-русский словарь» под редакцией А.Д. Апресяна. Есть и расширенная версия, где к основному словарю добавлены экономико-финансовый, юридический, строительный, политехнический словари и словарь по полиграфии и издательскому делу[2].

Конечно, словарь Апресяна – выдающееся достижение лексикографии, но подход МедиаЛингва имеет и недостатки. Первое, традиционные словари довольно серьезно отстают от языковой реальности. Обычно это не менее десяти лет. А электронные словари можно пополнять чуть ли не ежедневно. Второе, словари, содержащие сотни тысяч словарных статей, какими бы квалифицированными лексикографами они не составлялись, всегда содержат ошибки и неточности, не говоря уже о возникновении дополнительных значений слов. Жесткая привязка к бумажному прототипу не дает возможности исправлять и дополнять электронный, изменять структуру построения словарной статьи.

Обычная словарная статья содержит[4]:

    • заглавное слово;
    • фонетическую транскрипцию (для англ. -рус.);
    • грамматическую характеристику;
    • пометы, характеризующие область употребления лексической единицы и ее стилистическую окраску;
    • русский (английский) перевод всех значений лексической единицы, примеры и иллюстрации (основная часть статьи);
    • фразеологию.

Уникальная черта «МультиЛекса» – его фонетическая программа. Технология синтеза речи позволяет прослушивать любое английское слово, словосочетание или даже несколько фраз, введенных в строку запроса[4].

К сожалению, отсутствует поиск по корням. Например, в словаре есть слово «спонсор», но нет «спонсорский». Поэтому в ответ на запрос «спонсорский» программа сообщает, что слово не найдено, хотя существительное и прилагательное очевидным образом связаны и в английском языке обозначаются одним словом («sponsor»).

В «МультиЛексе» предусмотрен перевод по горячим клавишам из любого приложения, поддерживающего буфер обмена. Выделяешь нужное слово, нажимаешь F10, и на экране появляется окошко с переводом (взятым из словаря с высшим приоритетом). Перевод в окне одновременно является гиперссылкой, по которой можно вызвать основное окно «МультиЛекса» с более полной информацией по интересующему слову.

Кроме словарей английского языка, в серию МультиЛекс входят испанско-русский (100.000 слов), итальянско-русский (300.000), немецко-русский (200.000), немецко-русский "популярный" (45.000), французско-русский (40.000) и русско-французский (60.000)[2].

Контекст 7.0

«Контекст» обладает одним из самых больших наборов специализированных словарей (46, из них 44 работают в обе стороны). В максимальной комплектации - все словари - она составляет 4 млн. статей. При установке «Контекста» в этом расширенном варианте (а также в специальной комплектации «Русская коллекция») в вашем распоряжении окажутся, в частности, словари синонимов и антонимов, географических названий и иностранных слов.  Коллекцию словарей можно разделить на следующие группы[2]:

    • Англо-русско-английские словари. В основной набор включены: «Большой словарь общей лексики», словари компьютерных терминов, коммерческих терминов, медицинских терминов, юридических терминов и словарь «Трудности английского языка».
    • Словари русского языка: «Русские синонимы», «Толковый словарь русского языка», «Фразеологический словарь», «Словарь иностранных слов».
    • Словари других языковых пар: англо-итальянский, англо-испанский, англо-немецкий, англо-португальский, англо-сербский, англо-французский, англо-хорватский, франко-итальянский, франко-немецкий.

Часть словарей «Контекст» являются электронными версиями бумажных словарей (например, «Толковый словарь» сделан на основе нескольких изданий – словаря С. И. Ожегова, «Словаря иностранных слов», фразеологических словарей), но есть и словари, изначально созданные для представления в электронном виде.

Словарная статья состоит из входа (слово, которое надо перевести), зоны перевода, транскрипции (при переводе с английского), зоны грамматических комментариев (часть речи, вид глагола и др.), зоны примеров и зоны толкований (пояснений). Стилистические и отраслевые пометы как таковые отсутствуют. Ударение, как и транскрипция, дается только при переводе с английского на русский.

Словарная статья в «Контексте» не отображается целиком в одном окне, а как бы разбита по двум закладкам: «Перевод» (здесь пишется слово и список его значений на другом языке) и «Фразы» (даются многочисленные примеры употребления введенного словосочетания и слова, на котором стоит курсор, а также фразеологизмы и устойчивые словосочетания). Это очень удобно: статья не загромождается примерами, которые приводятся для каждого варианта перевода, и можно сразу увидеть весь «мир» слова и все контексты, в котором оно употребляется[2].

Информация о работе Состав и структура автоматических переводных словарей