1 / 11

Логико-статистические методы представления языковых структур в машинном переводе

Логико-статистические методы представления языковых структур в машинном переводе. Елена Борисовна Козеренко Институт проблем информатики РАН kozerenko @ mail . ru. Лингвистические знания в системах машинного перевода.

morton
Télécharger la présentation

Логико-статистические методы представления языковых структур в машинном переводе

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Логико-статистические методы представления языковых структур в машинном переводе Елена Борисовна Козеренко Институт проблем информатики РАН kozerenko@mail.ru

  2. Лингвистические знания в системах машинного перевода • Моделирование внутренних логико-семантических закономерностей языкового строя и функционирования языка на основе эвристических правил различной степени детализации • Методы разрешения неоднозначности языковых структур на основе условных правил

  3. Машинное обучение • Истоки метода: алгоритмы распознавания речи и символов, коррекция орфографии • Цель: автоматический вывод модели для некоторой области на основании выборки данных из этой области • Системе, обучаемой правилам синтаксиса, должен быть предъявлен набор правил (фразовых структур) для обучения

  4. Стохастические методы и модели • N-граммы, N-граммы переменной длины • Правило Байеса • Вероятностные контекстно-свободные грамматики • Вероятностные грамматики подстановки деревьев • Вероятностные грамматики подстановки функциональных деревьев

  5. Системы машинного перевода: современное состояние • Рынок систем МП достиг зрелости в 2002-2004 годах • Появление больших корпусов параллельных текстов стимулировало развитие статистических методов обработки естественного языка • Вероятностные расширения основных подходов к разработке систем МП, таких как • Прямой перевод • Трансфер (перенос) • Интерлингва (семантический субстрат) • Современные вычислительные ресурсы позволяют использовать ПЕРЕВОДЧЕСКУЮ ПАМЯТЬ (прецедентные переводы)

  6. Основные классы систем МП • Системы с доминированием статистического подхода и автоматическим формированием правил SDLX(SDL International) использует переводческую память и поддерживает все языки на основе латинского и арабского алфавитов, а также иврита DIPLOMAT: осуществляет перевод на основе прецедентов (example-based translation), разрешение неоднозначности на основе статистики

  7. 2. Системы с доминированием логико-лингвистических эвристик, использующие глубинную семантику и развитые лексико-семантические модели • KANT Center for Machine Translation (CMT), Carnegie Mellon University

  8. 3. Системы, исходно базирующиеся на гибридной логико-статистической модели Matador: испанско-английский МП 4. Системы – рабочие места переводчиков Наш подход относится к 3-й группе • Используется механизм сегментации языковых структур на основе функционально-семантического переноса и ряда приемов синхронного перевода • Разрешение неоднозначности языковых структур на основе весов, задаваемых для деревьев разбора • Включение механизмов обучения для формирования новых лингвистических знаний

  9. Вероятностная контекстно-свободная грамматика, ее определение - G = (N,T,P,S,D), где N – это множество нетерминальных символов, T – множество терминальных символов, P – множество продукций вида A -> b, где A – это нетерминальный символ, b– это цепочка символов, S – специальный исходный симвло, D – это функция, приписывающая значения вероятности каждому правилу из множества P. • Вероятностная грамматика замещения деревьев: ее определение то же, что и для вероятностной контекстно-свободной грамматики, но здесь мы имеем дело c фрагментами деревьев произвольной глубины, при этом значения вероятности приписываются этим фрагментам.

  10. Новый синтетический подход к формированию грамматики системы МП • семантическое выравнивание структур для ряда европейских языков • разрешение неоднозначности с использованием стохастических методов • усвоение системой новых структур и шаблонов с помощью методов машинного обучения

More Related