Анализ статистических алгоритмов снятия морфологической омонимии в русском языке

Анализ статистических алгоритмов снятия морфологическойомонимии в русском языке Егор Лакомкин Иван Пузыревский Дарья Рыжова

Морфологическая разметка • Начальная форма (лемма) • грамматические характеристики Я иду по улице. Улице:lex=“улица” gr=“S,f,sg,dat” набор тегов

Автоматический морфологический анализ Мама мыла раму • lex=«мыть» gr=“V,act,f,indic,ipf,norm,praet,sg,tran” • lex=«мыло» gr=“S,inan,n,nom,norm,pl” • lex=«мыло» gr=“S,gen,inan,n,norm,sg” • lex=«мыло» gr=“S,acc,inan,n,norm,pl” задача выбора правильного варианта (дизамбигуация)

Дизамбигуация в текстах на английском языке • Методы: Как правило, статистические алгоритмы на основе марковских моделей • Точность:~96%

Особенности английского языка • Бедная морфология морфологическая разметка фактически сводится к POS-теггингу • Фиксированный порядок слов можно опираться только на локальный контекст слова (ближайших соседей) без учёта дальних зависимостей (т.е. достаточно марковских моделей первого порядка)

Задача исследования: Проверить экспериментально, применимы ли статистические алгоритмы, основанные на марковских моделях, к задаче морфологической дизамбигуации текстов на русском языке

Параметры эксперимента • Корпус: подкорпус НКРЯ со снятой омонимией (~6 млн словоупотреблений) • Морфологический анализатор:Mystem • 4 серии экспериментов (2 по 2): • Набор частей речи – как в НКРЯ: • Только POS • POS, род, число, падеж, лицо, наклонение, время • Изменённый набор частей речи: • Только POS • POS, род, число, падеж, лицо, наклонение, время • 2 алгоритма: HMM и MEMM

Алгоритмы • Набор скрытых величинY (состояний модели = наборов грамматических тегов); составляют марковскую цепь первого порядка • Набор наблюдаемых величинX (наблюдений) ~ словоформ Словоформы заменяем на 3-буквенные окончания: • Сокращаем количество наблюдаемых состояний • Практически не теряем полезную информацию (поскольку в РЯ почти вся морфологическая информация сосредоточена в окончании)

HMM • Обучение: Сбор статистик по корпусу: • P(yi|yj) – матрица переходов • P(xk|yi) – вероятности наблюдений прил сущ глаг -ные -ают -чки

MEMM • Обучение: • Восстановление условного распределения P(yt+1|yt, x) • Сбор по корпусу некоторых статистик (=признаков) + применение принципа максимальной энтропии Yt-1 Yt Yt+1 Xt-1 Xt Xt+1

MEMM: признаки • наличие у текущего слова фиксированного трехбуквенного окончания, • тег, приписанный предыдущему слову, • наличие у текущего слова фиксированного разбора, выданного морфологическим анализатором, • наличие предлога в окрестности текущего слова, • согласованность по роду/числу/падежу с двумя предыдущими словами.

Задача алгоритмов: Вычисление наиболее вероятной последовательности скрытых величин

Деление выборки на обучающую и тестирующую: • Кросс-валидация (5 фолдов): • Деление выборки на 5 частей: 4 обучающие + 1 тестирующая • 5 серий подсчётов • Усреднение результата

Оценка качества • Определение верхней и нижней границы: • Верхняя граница: процент случаев, когда среди гипотез Mystem’а есть правильная; • Нижняя: «частотная снималка» (слову приписывается наиболее частотный вариант разбора, без учёта контекста) • Качество работы алгоритма (= точность): Сравнение с «золотым стандартом» - с эталонным разбором НКРЯ: • общая точность • точность по знакомым словам • точность по незнакомым словам • Не учитывались: • Инициалы, аббревиатуры, цифры; • Сложные слова с дефисом (ср. бело-кремовый)

Результаты

Выводы • POS-теггинг – на приличном уровне, причём MEMM чуть лучше, чем HMM • Дизамбигуация по расширенным тегам – довольно низкий уровень точности. Случаи, особенно часто разбираемые ошибочно: • Местоимения • Имена собственные • Субстантивация прилагательных • Омонимия падежных форм (номинатив vs. аккузатив) • Изменение набора частей речи почти не влияет на результат

Дальнейшие направления исследования • HMM второго порядка • Эксперименты с признаками MEMM • CRF • Возможно, ввод локальных правил Конечная цель: Создание открытого инструмента достаточно высокого качества

Спасибо за внимание!

Анализ статистических алгоритмов снятия морфологической омонимии в русском языке

Анализ статистических алгоритмов снятия морфологической омонимии в русском языке

Presentation Transcript

НОМЕНКЛАТУРА И ИЗОМЕРИЯ ПРЕДЕЛЬНЫХ ОДНОАТОМНЫХ СПИРТОВ

Множественный линейный корреляционно-регрессионный анализ

Обзор статистических ресурсов

АНАЛИЗ ПРОИЗВОДСТВА И РЕАЛИЗАЦИИ ПРОДУКЦИИ

Финансовый анализ

кандидат технических наук, доцент Поляков Константин Львович

Технический анализ

Сложность алгоритмов

ВЕЙВЛЕТ-АНАЛИЗ ВРЕМЕННЫХ РЯДОВ

Использование MC# для реализации параллельных алгоритмов в 3D-графике.

Реализация алгоритмов WFQ в маршрутизаторах Cisco

«Опыт Кировстата по созданию историко-статистических публикаций»

Химический анализ чипсов

Анализ деятельности предприятия

Анализ данных в программных продуктах линейки Далион: Управление Магазином

13. Синтаксический анализ

ЗАПИСЬ ВСПОМОГАТЕЛЬНЫХ АЛГОРИТМОВ НА ЯЗЫКЕ Паскаль

АНАЛИЗ ФИНАНСОВОГО СОСТОЯНИЯ И ДЕЛОВОЙ АКТИВНОСТИ ПРЕДПРИЯТИЯ

Определение возраста по морфологической структуре внутренних органов и мягких тканей.

Тема

ПАКЕТ ИНТЕРВАЛЬНЫХ АЛГОРИТМОВ ДЛЯ ШИРОКОГО ПОЛЬЗОВАТЕЛЯ Юлдашев З.Х., Ибрагимов А.А.,

Методы построения и анализа алгоритмов