1 / 28

Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Курсовая работа. Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования. Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич. Задача реферирования.

Télécharger la présentation

Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Курсовая работа Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

  2. Задача реферирования • Реферирование - составление краткого изложения материала одного или нескольких информационных источников • В данной работе • источники и реферат – текстовые документы • только один источник • рассматриваются общие рефераты • не имеют специализированного назначения • в равной степени покрывают содержание исходных документов

  3. Риторическая структура • Rhetorical Structure Theory (Mann, Thompson, 1988) • Текст – иерархия риторических отношений • В листьях обычно клаузы • Два вида отношений: • симметричные (многоядерные) • асимметричные (ядро – спутник) • Ядро имеет смысл без спутника, обратное неверно => ядровые сегменты предпочтительнее для включения в реферат

  4. Пример

  5. Система автоматического реферирования отдела Информационных систем ИСП РАН • Синтаксический анализатор – ABBYY Compreno • Подсистема взвешивания – алгоритм из статьи W. Bosma • Свой эвристический алгоритм построения риторического дерева. В основе: • Кореферентность • Сигнальные фразы • Ключевые слова

  6. Система автоматического реферирования отдела Информационных систем ИСП РАН • Демонстрирует неудовлетворительное качество рефератов Baseline – по первому предложению с каждого абзаца

  7. Цель работы разработка и реализация алгоритма построения риторического дерева текста на основе машинного обучения

  8. Постановка задачи • Исследовать известные подходы к построению риторических деревьев, в том числе на основе машинного обучения • Реализовать подход к построению RST-деревьев на основе машинного обучения в исходной системе • должен обрабатывать текст за линейное от его длины время • Сравнить качество работы ML-подхода с текущим алгоритмом • Качество деревьев (PARSEVAL) • Качество рефератов (ROUGE)

  9. Алгоритм построения RST-дерева • Основан на работе duVerleи Predinger (2009) • Пусть S – множество сегментов текста • Сегмент – непрерывная последовательность клауз • Характеризуется своим RST-поддеревом • Два классификатора: • Оценивает вероятность наличия риторической связи между двумя сегментами • Определяет тип отношения между сегментами • Для реализации классификаторов использованы линейные SVM

  10. Алгоритм построения RST-дерева

  11. Признаки • Длины сегментов • Сигнальные фразы • присутствие/отсутствие в первых/последних 3 словах сегмента • Синтаксические признаки • части речи, синтаксические функции, … • первые/последние 3 слова сегмента, верхние 5 слов при обходе в ширину синтаксического дерева • Лексические классы • Риторическая структура • Типы верхних отношений в сегментах • Все предыдущие признаки для наиболее важных клауз сегментов

  12. Обучение и тестирование • Риторическая структура • Discourse Relation Reference Corpus • 65 текстов, аннотированных экспертами в соответствии с RST • Распространяется свободно через сайт RST • Оценка качества - PARSEVAL • Рефераты • Материалы конференции DUC-2001 • 311 статей с abstract-аннотациями (~100 слов) • 147 статей с extract-аннотациями (~160 слов) • Оценка качества – ROUGE • ROUGE-1,2 • ROUGE-L • ROUGE-W

  13. Feature Selection • Необходимо отсеять неинформативные признаки • Ранжирование признаков с помощью статистики хи-квадрат • Подбор оптимального порога посредством кросс-валидации • Размерность признакового пространства после бинаризации – 19 325 признаков • Было отобрано 465 признаков для первого классификатора и 72 для второго • Наиболее информативные признаки связаны с лексическими классами

  14. Тестирование • Качество деревьев

  15. Тестирование • Качество рефератов

  16. Тестирование • Время работы

  17. Заключение • Исследованы существующие подходы к построению риторических деревьев на основе машинного обучения • Реализован и встроен в исходную систему алгоритм построения RST-деревьев на основе SVM-классификации • Показывает линейное время работы по результатам тестов • Проведено тестирование алгоритма • Улучшилось как качество построения риторических деревьев, так и качество рефератов

  18. Заключение • Тем не менее, новый подход • Слабо справляется с определением типов риторических отношений • В половине случаев работает хуже baseline-алгоритма реферирования

  19. Спасибо за внимание!Вопросы?

  20. Классификаторы • Линейные SVM • Хорошо зарекомендовали себя в данной задаче (Reitter, duVerle) • Возможность оценки вероятности принадлежности объекта классу • Возможность мультиклассовой классификации • Хорошо справляются с большим количеством взаимосвязанных признаков при малой размерности обучающей выборки • Линейное время классификации

  21. PARSEVAL • Пусть P – множество составляющих (узлов) сгенерированного дерева, Q – экспертного. Тогда

  22. Хи-квадрат • Для данных признака fи класса c • где A – число примеров класса c, где f =1; • B – число примеров, не принадлежащих c, где f =1; • C – число примеров класса c, где f =0; • D – число примеров, не принадлежащих c, где f =0; • m = A+B+C+D – общее число примеров • Оценка признака fотносительно всех классов

More Related