1 / 16

RCO на РОМИП 200 8

RCO на РОМИП 200 8. Плешко В.В. , Поляков П.Ю. ООО «ЭР СИ О» info @ rco . ru. Дорожки. Классификация Веб - страниц Классификация Веб - сайтов Кластеризация новостей. Классификация Веб-страниц. Метод опорных векторов Отбор терминов Однословные / Однословные + многословные

emile
Télécharger la présentation

RCO на РОМИП 200 8

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. RCO на РОМИП 2008 Плешко В.В., Поляков П.Ю. ООО «ЭР СИ О» info@rco.ru RCO на РОМИП 2008

  2. Дорожки • Классификация Веб-страниц • Классификация Веб-сайтов • Кластеризация новостей RCO на РОМИП 2008

  3. Классификация Веб-страниц • Метод опорных векторов • Отбор терминов • Однословные / Однословные + многословные • Фильтрация по информационной значимости • Веса терминов • Частотные • Тип ядра • Линейное RCO на РОМИП 2008

  4. Отбор терминов • Многословные термины • эксплицирование элементов смысла (Ермаков А.Е.) • Фильтрация • Информационная значимость RCO на РОМИП 2008

  5. Прогоны • L – только однословные слова (леммы) • Lpos – L с положительными весами • LT – леммы + многословные термины • LTpos – LT с положительными весами • LTfilter – LT + ручная фильтрация первых 50 терминов RCO на РОМИП 2008

  6. Результаты F1(micro) и F1(macro) веб-страниц по матрицам релевантности 2005-2008 с сильными требованиями к релевантности F1(micro) и F1(macro) веб-страниц по матрицам релевантности 2005-2008 со слабыми требованиями к релевантности RCO на РОМИП 2008

  7. Профили, составленные вручную vs Автоматические профили (2007) F1 рубрик с сильными и со слабыми требованиями к релевантности. Рубрики упорядочены по убыванию качества LTpos. RCO на РОМИП 2008

  8. Эффект фильтрации «мусорных» слов RCO на РОМИП 2008

  9. Классификация Веб-сайтов • Способ представления • конкатенация всех страниц • Метод классификации • как Веб-страницы • Прогоны • L, LT, LTpos RCO на РОМИП 2008

  10. Профили, составленные вручную vs Автоматические профили (2007) RCO на РОМИП 2008

  11. Результаты (2008) RCO на РОМИП 2008

  12. Выводы • Способ улучшения работы SVM – отбрасывание терминов с отрицательными весами • Способ повышения качества на зашумленных обучающих выборках – фильтрация верхних (в смысле весов SVM) терминов из профиля RCO на РОМИП 2008

  13. Кластеризация новостей • Идентификационные признаки • Синтактико-семантический анализ • Результат разбора первых 3-х предложений • Именованные объекты имеют больший вес • Построение topic-кластеров – 1 вариант • Все документы за неделю • Агломеративная процедура (порог по «размеру» кластера) • Построение topic-кластеров – 2 вариант • Документы за сутки (окно) • Агломеративная процедура • Сдвиг окна на 1 час • Склейка с кластерами из предыдущего шага • Построение event-кластеров • Документы из кластера • Агломеративная процедура с большим порогом RCO на РОМИП 2008

  14. Результаты RCO на РОМИП 2008

  15. Выводы • Эталонная разметка в целом выглядит логичной (как использовался в оценках misc?) • Первый шаг сделан – есть размеченный корпус и много идей для экспериментов RCO на РОМИП 2008

  16. Планы • Дальнейшие эксперименты по ручной коррекции автоматически созданных профилей и обучающих выборок • Эксперименты по кластеризации новостей с учетом размеченной коллекции RCO на РОМИП 2008

More Related