1 / 21

Система TAGME

Система TAGME. подготовил Сергей Рябов. Постановка задачи. Рассмотреть систему автоматического аннотирования коротких текстовых фрагментов TAGME Привести оценки её эффективности по сравнению с аналогичными системами. TAGME. Предварительная обработка Устранение многозначности

kalila
Télécharger la présentation

Система TAGME

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Система TAGME подготовил Сергей Рябов

  2. Постановка задачи • Рассмотреть систему автоматического аннотирования коротких текстовых фрагментов TAGME • Привести оценки её эффективности по сравнению с аналогичными системами

  3. TAGME

  4. Предварительная обработка • Устранение многозначности • Удаление несущественных анкеров • Обзор аналогичных работ • Оценка

  5. Предварительная обработка • Словарь анкеров (3M) • является ли токен анкером? • Каталог страниц (2.7M) • пары страница-набор анкеровиз ведущих на неё ссылок • Граф ссылок (147M)

  6. Предварительная обработка • Устранение многозначности • Удаление несущественных анкеров • Обзор аналогичных работ • Оценка

  7. Устранение многозначности • precision = |retrieved  relevant| / |retrieved| • recall = |retrieved  relevant| / |relevant|

  8. Устранение многозначности • если для p Pg(a) выполняется Pr(p|a) < ,то это значение удаляется • при слишком больших , уменьшается precision • при слишком маленьких – скорость

  9. Устранение многозначности • relatedness • подсчет «голосов» • commonness

  10. Устранение многозначности • Disambiguation by Classifier (DC) • классификатор на основе relatedness и commonness выбирает одно значение • Disambiguation by Threshold (DT) • для каждого анкера aотбирается eзначений p с наилучшими показателями relatedness • из этих eзначений выбирается одно с максимальным показателем commonness

  11. Предварительная обработка • Устранение многозначности • Удаление несущественных анкеров • Обзор аналогичных работ • Оценка

  12. Удаление несущественных анкеров • link-probability анкера - lp(a) • coherence значения (смысла) a  p с остальными уникальными значениями

  13. Удаление несущественных анкеров • (a  p) – итоговая оценка • либо среднее арифметическое • либо линейная комбинация • если выполняется (a  p) < (NA), то аннотация удаляется

  14. Предварительная обработка • Устранение многозначности • Удаление несущественных анкеров • Обзор аналогичных работ • Оценка

  15. Milne & Witten • выделение контекста • мера связности страниц • когерентность страницы с контекстом

  16. Chakrabarti • оценка аннотации a  pдвумя методами - локальная и глобальная оценки • аннотирование – поиск такого соответствия анкеров и страниц, которое максимизирует суммарную оценку

  17. Предварительная обработка • Устранение многозначности • Удаление несущественных анкеров • Обзор аналогичных работ • Оценка

  18. Оценка • Wiki-Disamb30 • 1.4M коротких фрагментов, около 30 слов в каждом • 400K для обучения и 1M для тестов • Wiki-Annot30 • 150K фрагментов, в среднем по 10 анкеров • 50 K – обучение, 100K - тестирование

  19. Оценка Производительность DT в зависимости от значений eи  MC – Most Common (e = 100%) MR – Most Related(e = 0%) Производительность алгоритма устранения многозначности

  20. Оценка Оценка производительности всей системы: аннотирование Оценка производительности всей системы: определение тем

  21. Спасибо за вниманиеВопросы?

More Related