1 / 26

Навигационные запросы

Навигационные запросы. от простого к сложному и обратно. Михаил Долинин. Что такое навигационный запрос. Навигационный запрос – запрос, целью которого является точно определенный сайт или часть сайта. форум велосипедистов – не навигация велофорум ру – навигация

temple
Télécharger la présentation

Навигационные запросы

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Навигационные запросы от простого к сложному и обратно Михаил Долинин

  2. Что такое навигационный запрос • Навигационный запрос –запрос, целью которого является точно определенный сайт или часть сайта. форум велосипедистов – не навигация велофорумру– навигация • Целью поиска следует считать сам объект в Интернете, а не его содержимое • собственный контент страницы малозначим

  3. Почему навигация - это просто • Просто классифицировать запрос • навигационные запросы короткие • и потому менее разнообразные • имеют чёткие маркеры (сайт, блог, форум) • Просто оценить результат • либо да, либо нет • не бывает «слаборелевантных» результатов • Предсказуемое поведение пользователя • если искомое найдено

  4. Почему навигация - это важно • Примерно 20-30% потока запросов – навигация • Почти весь топ запросов – навигация • исключения: «порно», «игры», «окна» • Крайне важна для пользователей • Многие используют поиск как адресную строку • Поиск как «вход в интернет» • Правильный результат единственен и незаменим

  5. Ручной список, топ-120 вконтакте одноклассники яндекс google ютуб майл авито фейсбук зайцев нет гисметео рамблер авто ру натрибу omgwtf … vk.com odnoklassniki.ru yandex.ru google.com youtube.com mail.ru avito.ru facebook.com zaycev.net gismeteo.ru rambler.ru auto.ru natribu.org Gtfo … • Благодаря перекосу распределения навигов в сторону топа • вконтакте + одноклассники~20-25% всей навигации • полнота такого списка ~60%. • нормально для каталога, но мало для поиска

  6. Как мы считаем полнотуи точность • Cлучайная выборка из лога • Размечаем вручную vs прогоняем через классификатор • Qmanual– количество ручных навигов // relevant entries • Qauto– количество автонавигов // retrieved entries • Qgotcha! – из них совпавших с ручными // relevant retrievedentries Qgotcha! Qgotcha! Recall = Precision = Qmanual Qauto

  7. Цель – полнота без потери точности • Точность топ-120 – 100% • Как продолжать список автоматически? • опасность в «почти релевантных» результатах - как правило, дорвей или сателлит • Как отличить «вконтакте» от «порно»? • анализируя поведение пользователей

  8. Анализ пользовательского поведения • Навигационные запросы характерны малым разбросом кликов • т.е. все пользователи склонны кликать в один и тот же результат • однако этим же свойством обладают высокорелевантные ненавигационные результаты • но они, как правило, ведут внутрь сайта • самый типичный пример: почти что-угодновикипедия

  9. Метрика на основе поведения • Группируем все клики по каждому запросу • Считаем клики для каждого результата – Ci • Навигационность пары запрос – результат: • При N> Nmin считаем запрос навигационным • Nmin=0.9, или даже 0.99 log Ci N = log ΣC

  10. Свойства метрики • Pros: • для запроса либо нет навигационного урла, либо он единственен • одно и то же значение порога Nmin для редких и для частотных запросов • Cons: • необходима запросная статистика • результат должен быть найден и показан • не работает с геозависимой навигацией • высокорелевантные ненавигационные результаты проходят порог

  11. А если поведенческих данных нет, то используем то, что есть: • Индекс • Текст документа • Ссылки и заголовки • URL документов • Cтруктура, сравнение с запросом • Запрос • Регионпользователя • Маркеры • Организации (ооо, зао, министерство, университет…) • Веб (сайт, блог, форум, твиттер) • Антимаркеры • купить, скачать, смотреть

  12. + ML • Строим и балансируем обучающие выборки • Обучаемся • наивный Байес для анализа запроса • деревья решений для всего остального • Получаем значительный рост полноты • и новый ворох проблем

  13. Пример полученных данных (hh.ru) • HH; HH МОСКВА; HH RU РАБОТА В МОСКВЕ; ХЕДХАНТЕР; HH RU РАБОТА; HH RU ВАКАНСИИ В МОСКВЕ; HEADHUNTER; HEADHUNTER РАБОТА; ХХ; ХАНТЕР; ХЭДХАНТЕР; HH RU В МОСКВЕ; HH РАБОТА; ХХ РУ; WWW HH; ХЕНД ХАНТЕР; HH RU КАЗАНЬ; ХЕДХАНТЕР РАБОТА; WWW HH RU ВАКАНСИИ МОСКВА; HH RU МОСКВА; ХЭД ХАНТЕР RU; HH RU ВАКАНСИИ В СПБ; HH KZ; HH RU ВАКАНСИИ; ХЭД ХАНТЕР; ХЭД ХАНТЕР ПОИСК РАБОТЫ; HEADHANTER; РАБОТА HH; ХЭНД ХАНТЕР; H H RU; H H; ХАНТЕР ПОИСК РАБОТЫ; HANTER ПОИСК РАБОТЫ; HAD HUNTER; ХЕДХАНТЕР;ПОИСК РАБОТЫ; ХЕД ХАНТЕР; ХИТ ХАНТЕР; ХЕДХАНТЕР МОСКВА; HANDHANTER; ХЕТХАНТЕР; WWW HH RU В МОСКВЕ; HEDHANTER; HEAD HUNTER; ХЭДХАНТЕР РУ; ПОИСК HH; ХЕТ ХАНТЕР РУ; H H RU РАБОТА; ХЕАДХАНТЕР; ХЕДХАНТЕР РУ; ХЭД; HEAD HANTER; ХЕД; WWW HH RU ПОИСК ВАКАНСИЙ; РАБОТА HH МОСКВА; ХХ RU; ХЕАД ХАНТЕР; ХЕНДХАНДЕР; РАБОТА НА HH RU; РАБОТА ХЕДХАНТЕР; HATHANTER; ХЕНД ХАНТЕР МОСКВА; HH RU НИЖНИЙ НОВГОРОД; РАБОТА В МОСКВЕ HH RU; РАБОТА HH RU; НЕД ХАНТЕР; WW HH RU; WWW HEADHUNTER; HH РУ; HH РУ МОСКВА; HH HEADHUNTER; NOREPLY HH RU; HH HUNTER; THEADHUNTER; TL FYNTH; ХЕДХАНТЕР RU; WWW HH RU В МОСКВЕ РЕЗЮМЕ ДОЛЖНОСТЬ ГЛЮЭНЕРГЕТИК; HH RU РАБОТА В МОСКВЕ ВОДИТЕЛЬ; РАБОТА НА HH; САЙТ ХЕДХАНТЕР; НЕНД ХАНТЕР; РАБОТА В МОСКВЕ HH; WWW HH RU МОСКВА; ХИД ХАНТЕР; РР КГ; ХИТХАНТЕР; INFO SITE HH RU; HH RU ВАКАНСИИ МОСКВА; ХЭДХАНТЕР МОСКВА; WWW HH RU ВАКАНСИИ В МОСКВЕ; ВАКАНСИИ HH; NO REPLY HH RU; ХЭНДХАНТЕР; HUNTER ПОИСК РАБОТЫ; МОЕ РЕЗЮМЕ НА HH RU; РР РУ; ХХ РУ ВАКАНСИИ; ПОИСК HEADHUNTER; ХХ РУ РАБОТА; ПОИСК РАБОТЫ В МОСКВЕ HH; HTTP HH RU APPLICANT RESUMES; HED HANTER; WWWW HH RU; САЙТ HH; HEAND HUNTER; HH RU РАБОТА МОСКВА; HH RU МОСКВА ВАКАНСИИ; HED HUNTER; HANT HUNTER; ХЭДХ; HEADHUNTER NOREPLY HH RU … Всё ок, но отсутствует РАБОТА ХЕДХАНТЕР «омоним» опечатка мусор

  14. Новые проблемы при росте базы • Омонимичность • несколько сайтов для одного запроса • Фрагментарность • не ловим малопопулярные разделы сайтов • неуверенная региональность • Мусор • опечатки • запросы на грани навигации • случайные аккаунтысоцсетей, блоги/твиттеры • динамические страницы сайтов (поиски, темы на форумах)

  15. Решение проблем: запрос «изнутри» авито купить собаку в самаре Шум Корень сайта Регион Характерное слово Внутрисайтовый путь http://www.avito.ru/samara/sobaki

  16. авито купить собаку в самаре • Наблюдения: • Запросы имеют повторяющиеся общие фрагменты • Смысл запроса не зависит от порядка слов в нём • Некоторые слова («купить») не меняют смысла запроса • Некоторые слова («собаку») ведут внутрь указанного сайта • в Самаре этот запрос должен давать тот же результат без слов «в самаре»

  17. Конкатенация и факторизация списков A B c A A e A B f B cdef A B • Конкатенация списков строк – список конкатенаций всевозможных наборов строк этих списков • Факторизация списка – его разложение, обратная процедура: • Сортируем строки по длине • Ищем каждую строку во всех последующих • «Вырезаем» её из них x = A B c A d B B B A c B e f A c d B e f A c f e c A B A c A c B d A e B f …

  18. Ядро запроса главная видео ролики смотреть приколы онлайн клипы … • Ядро – минимальный фрагмент запроса, определяющий навигационную цель • «Хвосты» отбрасываем • там залежи опечаток и низкочастотного мусора ютуб видео на ютубе youtubeсмотреть ролики youtube ютуб видео онлайн … ютуб youtube = x

  19. Путь внутрь сайта maps.yandex.ru • Путь – фрагмент запроса, смещающий навигационную цель внутрь сайта • Получаем его, вычитая ядро сайта из внутрисайтовых запросов Все запросы, ведущие на картыяндекс yandexmaps яндекспробки … карты пробки maps = x yandex.ru

  20. Региональные страницы gismeteo.ru + Ижевск = gismeteo.ru/city/daily/4508/ + Воркута = gismeteo.ru/city/daily/12972/ + Омск = gismeteo.ru/city/daily/4578/ • Если путь – географический объект, то считаем, что запрос геозависим • При отсутствии геопути в запросе используем геоданные, полученные на основе IP пользователя

  21. Для борьбы с фрагментарностью используем алгоритмы выделения навигационной обвязки • тексты внутренних ссылок используем как путь запроса

  22. Выбираем оптимальную цель • Итого: находим все фрагменты, взвешиваем все цели и выбираем победителя • В случае неразрешимых противоречий – запрос не навигационен • или … тут зайцев нет tutu.ru zaycev.fm zaitsev.info zaycev.net

  23. … или Динамическая навигация • Если фрагменты запроса противоречивы или незнакомы: • либо ищем по упомянутому сайту • либо возвращаем ссылку на его собственный поиск • либо отдаём всё ранжированию как есть Q либрусек + = http://lib.rus.ec/search?ask=Q =

  24. Зачем всё это? • Дополнительный фактор для ранжирования • Визуализация • Расширенный сниппет • Сайтлинки • Показ нескольких результатов с сайта • Статистика и мониторинг • Метод «факторизации» списков применим и для других классов запросов • например, картиночных и музыкальных

  25. Немного статистики Навигационные Весь поток запросов ok+vk 24% Прочие 38% Навигация 24% Гео 9% Внутрисайт 29% Динамические 7% Все остальные 69%

  26. СПАСИБО! ВОПРОСЫ? Михаил Долинин dolinin@corp.mail.ru

More Related