1 / 24

Извлечение объектов из поисковых запросов

Извлечение объектов из поисковых запросов. Михаил Обухов, Михаил Долинин. Что такое объекты?. ООО « Мэйл.Ру ». Названия организаций Имена людей Названия должностей Адреса Названия программ и т.д. Яхрома. 15-18 февраля 2012 г. ISBN: 978-1405187848. ГОСТ 2.001-93.

fathi
Télécharger la présentation

Извлечение объектов из поисковых запросов

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Извлечение объектов из поисковых запросов Михаил Обухов, Михаил Долинин

  2. Что такое объекты? ООО «Мэйл.Ру» • Названия организаций • Имена людей • Названия должностей • Адреса • Названия программ • и т.д. Яхрома 15-18 февраля 2012 г. ISBN:978-1405187848 ГОСТ 2.001-93

  3. детский нафтизин инструкция Справочники Парсер запросов

  4. Для чего нужны объекты? • Классификация поисковых запросов • Вопросно-ответные задачи • Переформулировки • Индексация • Обогащение поисковых запросов • …

  5. Задача Лог поисковых запросов NEX* Объекты Парсинг запросов Индексация *NEX – Named Entity eXtraction

  6. Какие решения существуют? • Машинное обучение • Классификаторы (Naïve Bayes, ME Models, …) • Последовательные модели (HMM, CRF, …) • Системы основанные на правилах • Ручное составление • Автоматическое • Использование онтологий • Wikipedia, DbPedia • Imdb

  7. Особенности поисковых запросов • Малая длина (в среднем 3слова) • Слабая грамматическая структура • Не являются текстом на ЕЯ • Отражают потребности пользователей Купить квартиру бесплатно Е мобиль когда начнут продавать Мать и сын Кино где купить История происхождения шотландских вислоухих

  8. Основные предположения • Объекты одного типа встречаются в одинаковых контекстах • Объект является самостоятельным поисковым запросом

  9. Общая структура метода Фаза извлечения шаблонов Лог запросов Шаблоны Seed Лог запросов Лог запросов Фаза генерации объектов Лог запросов Фаза генерации объектов Фаза извлечения объектов Объекты

  10. Фаза извлечения шаблонов Фаза извлеченияшаблонов Лог запросов Шаблоны Seed Лог запросов Лог запросов Фаза генерации объектов Лог запросов Фаза генерации объектов Фаза извлечения объектов Объекты

  11. Фаза извлечения шаблонов • Исходные данные: • Лог поисковых запросов • Начальный список шаблонов (1-2 шаблона) • Результат: список шаблонов с весами

  12. Шаг 1:извлечение начальных объектов • Для каждого запроса из лога • Пробуем извлечь объект • Если получилось, сохраняем • Очистка извлеченных объектов • Не встречающихся как самостоятельный запрос смотреть <название> смотреть сериал <название>\d+ сезон \d+ серия онлайн бесплатно в хорошем качестве Начальные шаблоны должны быть точными!

  13. Шаг 2: извлечение кандидатов • Для каждого начального объекта • Из каждого запроса, где он встречается • Создаем шаблон смотреть сериал счастливы вместе онлайн серия 2 смотреть сериал <название>онлайн серия \d+

  14. Шаг 3: Взвешивание кандидатов • Рассчитываем вес для каждого кандидата • Удаляем кандидатов имеющих низкий вес кол-во извлеченных начальных объектов Полнота (кандидат) = общее кол-во начальных объектов кол-во извлеченных доверенных*объектов Точность (кандидат) = общее кол-во извлеченных объектов *Доверенный – объект извлеченный N и более различными шаблонами

  15. сериал (.+) \d+ сезон смотреть онлайнбесплатно:0.95 сериал (.+) \d+ сезон \d+ серия смотреть онлайн:0.93 (.+) \d+ сезон смотреть онлайн:0.90 … (.+)смотреть:0.07 скачать (.+):0.03 …

  16. Фаза извлечения объектов Фаза извлечения шаблонов Лог запросов Шаблоны Seed Лог запросов Лог запросов Фаза генерации объектов Лог запросов Фаза генерации объектов Фаза извлеченияобъектов Объекты

  17. Фаза извлечения объектов • Исходные данные: • Лог поисковых запросов • Список шаблонов (полученный ранее) • Результат: список объектов с весами

  18. Шаг 1: извлечение кандидатов • Для каждого шаблона из списка • Сохраняем все объекты, которые он может извлечь • Очистка извлеченных объектов • Не встречающихся как самостоятельный запрос • Не частотные объекты • Содержащие слова из списка шаблонов

  19. Шаг 2: Взвешивание объектов • Рассчитываем вес для каждого объекта в списке • Удаляем объекты имеющие низкий вес Log(сколько раз объект был извлечен) Вес (объект) = Log(кол-во уникальных запросов содержащих объект)

  20. Метод оценки результата • Точность первых N объектов (10, 50, 100 …) • Точность случайной выборки (100)

  21. Результаты:

  22. Достоинства и недостатки • Достоинства • Простая реализация • Масштабируемость • Хорошая точность • Недостатки • Требует ручного вмешательства (начальный список шаблонов) • Требует задания порогов

  23. СПАСИБО! ВОПРОСЫ? Михаил Обуховobuhov@corp.mail.ru Михаил Долинин dolinin@corp.mail.ru

More Related