1 / 49

Варианты классификациии

10.2. Технология автоматической рубрикации текстов с использованием тезауруса для автоматического концептуального индексирования. Варианты классификациии. Рубрицирование текстов. вид общей задачи классификации / организации информации ( спам, гармонизация законодательства …)

odetta
Télécharger la présentation

Варианты классификациии

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 10.2. Технология автоматической рубрикации текстов с использованием тезауруса для автоматического концептуального индексирования

  2. Варианты классификациии

  3. Рубрицирование текстов • вид общей задачи классификации / организации информации (спам, гармонизация законодательства …) • обмен информацией • иерархия анализа • замена сложного запроса

  4. Каким ДОЛЖЕН быть рубрикатор? • покрытие предметной области • пересечение смысла рубрик? • иерархия анализа • замена сложного запроса

  5. Субъективизм экспертов Совпадение при ручной рубрикации между разными экспертами 60%

  6. Автоматическое рубрицирование

  7. Методы автоматической рубрикации vинженерный подход или подход, основанный на знаниях vмашинное обучение • Коллекция Reuters-21548: • 135 рубрик, • короткие однородные документы; • точность и полнота > 80% SIGIR 2001, SIGIR 2002 Operational Text Categorization Workshop

  8. Методы машинного обучения в задачах рубрикации

  9. Положительные/отрицательные примеры

  10. Как лучше отделить

  11. Отсечение по центрам тяжести

  12. Отсечение по ближайшим соседям(kNN)

  13. d c Отсечение по ближайшим точкам(SVM) d c

  14. Оптимальный линейный сепараторSVM (Support Vector Machines) Максимизация расстояния между двумя параллельными поддерживающими плоскостями

  15. Нелинейная отделимость

  16. DOC_CNT NAME PRECISION RECALL (P+R)/2 Joachims P/R b.p. Dumais et.al. P/R b.p. 3964 earn 97,79 97,79 97,79 98,20 98,00 2369 acq 95,82 95,55 95,69 92,60 93,60 717 money-fx 73,03 72,63 72,83 66,90 74,50 582 grain 92,09 85,91 89,00 91,30 94,60 578 crude 84,15 81,48 82,82 86,00 88,90 486 trade 77,12 77,78 77,45 69,20 75,90 478 interest 75,57 75,57 75,57 69,80 77,70 286 ship 87,30 61,80 74,55 82,00 85,60 283 wheat 84,81 94,37 89,59 83,10 91,80 237 corn 88,68 83,93 86,31 86,00 90,30 Reuters-21578, SVM, (P+R)/2  max(J)(ModApte split)

  17. Примеры документов из Reuters-21548 CHINA'S HEILONGJIANG PROVINCE BOOSTS GOLD OUTPUT Gold output in the northeast China province of Heilongjiang rose 22.7 pct in 1986 from 1985's level, the New China News Agency said. It gave no figures. It said the province, China's second largest gold producer after Shandong, plans to double gold output by 1990 from the 1986 level. China does not publish gold production figures. However, industry sources estimate output at about 65 tonnes a year, with exports put between 11 and 31 tonnes. China is selling more gold abroad to offset large trade deficits in recent years, western diplomats said. REUTER CONSOLIDATED TVX TO BUY BRAZIL GOLD MINE STAKES <Consolidated TVX Mining Corp> said it agreed to issue 7.8 mln treasury shares to acquire interests in three gold mining companies in Brazil and an option to increase the company's interest in a platinum property. The company said the transactions will bring immediate production and earnings to Consolidated TVX, enhance its precious metal potential and is expected to improve cash flow and earnings on a per share basis. The company did not give specific figures. Consolidated TVX said it will acquire 29 pct of CMP, a public gold mining company in which TVX already holds a 15 pct interest, making TVX the largest single shareholder. The company also agreed to acquire a 19 pct stake in Novo Astro, a private company, and a 16 pct interest in Teles Pires Mining, increasing the TVX's ownership to 51 pct. In addition, Consolidated TVX said it will acquire the right to add a 10 pct interest to a platinum property in which it already owns a 29.4 pct stake. CMP earned 11 mln Canadian dlrs in 1986 and expects to produce 42,000 ounces of gold in 1987 at a cost of 160 U.S. dlrs an ounce, Consolidated TVX

  18. Сложные случаи Пересечение выпуклых оболочек

  19. Сложные задачиавтоматическойрубрикации текстов • размер рубрикатора больше 300-500 рубрик, обычно со сложной иерархией; • трудно обеспечить достаточную по качеству и количеству обучающую коллекцию, субъективизм ручного индексирования (обучающей коллекции) значительно возрастает; • документы могут иметь несколько рубрик

  20. Множество примеров отсутствует и не может быть создано в короткое время • Российский социологический архив (www.socialpolicy.ru) • Данные соцопросов разных организаций • 350 рубрик, 4 уровня иерархии • Новый проект => отсутствие примеров

  21. Множество примеров существует, но отсутствовали требования к качеству • Международное научное сообщество RePec (www.repec.org), SocioNet (www.socionet.ru) • Архив исследовательских материалов по экономике и социологии • Рубрикатор: Journal of Economic Literature Classification System (JEL ) • Более 700 рубрик • Автор сам приписывает рубрики к своей работе

  22. Множество примеров противоречиво и недостаточно для большинства рубрик(очень большие классификаторы) • Российские правовые документы • Президентский классификатор (Указ №511 15.03.2000) - 1168 рубрик • Множество примеров – 10,000 документов классифицированных вручную • Толькодля 47 рубрик – более чем 100 док., только для 200 рубрик – более чем 20 док. • Inconsistency: мало отличающиеся документы имеют разные наборы рубрик

  23. Множество примеров для обучения из другой коллекции • Примеры: документы федерального уровня • Проблема: рубрицирование 600,000 региональных документов • Тот же рубрикатор • Похожие документы, похожая проблема НО!!! • Стандартный метод SVM-light, обученный на федеральных документах не приписывает ни одной рубрики для 50% документов

  24. Применение тезауруса для решения сложных задач рубрикации

  25. Разработаны различные системы автоматической рубрикации: по общему тематическому правовому классификатору Центральной избирательной комиссии РФ (450 рубрик, 4 уровня) по терминам верхнего уровня тезауруса Исследовательской службы Конгресса США (80 рубрик) по правовому рубрикатору Центра информационных исследований (180 рубрик, 3 уровня) Системы автоматической рубрикации Автоматическая рубрикация по Классификатору правовых актов РФ (Указ Президента РФ N511 от 15 марта 2000 г., 1169 рубрик) Автоматическая рубрикация по Классификатору НПП «Гарант» (3200 рубрик) Новые системы автоматической рубрикации

  26. Технология автоматического рубрицирования • Опора на знания, описанные в Общественно-политическом Тезаурусе • Представление рубрики в виде логической формулы для небольшого числа ОПОРНЫХ концептов, затем автоматическое расширение с использованием иерархической структуры Тезауруса • Независимый от конкретного рубрикатора (изменения состава рубрикатора) автоматический тематический анализ текста – выявление в тексте совокупностей близких терминов, выявление терминов, характеризующих основную тему и подтемы документов

  27. Схема описания рубрики Рубрика Альтернатива2 Альтернатива1 ИЛИ У11 И У12 И У13 У21 И Условие22 ИЛИ ИЛИ + + - +

  28. Тезаурус по общественно-политической жизни 27 тысяч понятий, 64 тысячи терминов 105 тысяч отношений • предметная область – проблемы современного общества; • состав - терминология таких областей как экономика, финансы, оборона, законодательство, научная политика, спорт, искусство, военные конфликты и др.; • типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения

  29. Программное обеспечение для описания отношений«рубрика – понятие тезауруса» • описание смысла рубрики как булевской формулы над понятиями тезауруса • генерация расширенной булевской формулы на основе иерархии тезауруса: С => дизъюнкция понятий из дерева С; • управление расширением: параметрыЕ – полное, L – по видам, N – без расширения: (Государственные символы) L(Российской Федерации) N • просмотр тезаурусной окрестности понятий для определения пропусков; • специальные средства вычеркивания лишнего: отдельными понятиями и поддеревьями

  30. Представление смысла рубрики опорными понятиями

  31. Расширенное представление рубрики понятиями тезауруса

  32. Рубрикатор СОФИСТ. Представление рубрики • 040000000 ЖЕНЩИНЫ • … • 040050000 Семейные роли /ЖЕНЩИНЫ/ • ИЛИ • {ЖЕНЩИНА} • И{СЕМЬЯ} • И{РОЛЬ,ПОЛОЖЕНИЕ||ОБЯЗАННОСТЬ||СТАТУС||…} • ИЛИ • {ЧЛЕН СЕМЬИ[L]} //жена,дочь,мать,бабушка,… • И{ОБЯЗАННОСТЬ||ОТВЕТСТВЕННОСТЬ||ПРАВО||…} • ИЛИ • {СЕМЬЯ} • И{ДОВЕРИЕ||ГЛАВНЫЙ||ЗАВИСЕТЬ||СЛУШАТЬСЯ||}

  33. Рубрикатор СОФИСТ. Представление рубрики • 380000000 ЭКОНОМИЧЕСКАЯ РЕФОРМА • … • 380020000 ОТНОШЕНИЕ К РЕФОРМЕ /ЭКОНОМИЧЕСКАЯ РЕФОРМА/ • { {ЭКОНОМИКА[E]||ЭКОНОМИЧЕСКАЯ РЕФОРМА[E]} • И НЕ{МИРОВАЯ ЭКОНОМИКА[E]|| ОТРАСЛЬ ЭКОНОМИКИ[E]||ФИНАНСЫ[E]} • И{РЕФОРМА||ЭКОНОМИЧЕСКАЯ РЕФОРМА[E]||}} • И{НЕУДАЧНЫЙ||НУЖНЫЙ||ОДОБРИТЬ||ОПАСНЫЙ[L]||ОТВРАТИТЕЛЬНЫЙ||ОТРИЦАТЕЛЬНЫЙ||ПЛОХОЙ|| ПОДДЕРЖАТЬ||ПОЛЕЗНЫЙ||ПРИВЕТСТВОВАТЬ…} ОПАСНЫЙ => авантюрный, вредный, гибельный, гиблый, злокачественный, пагубный…

  34. Отношение рубрика – понятие. Вес или …? • Отношение рубрика-понятие: • без подтверждения • с подтверждением • вес=1 • Рубрика «Машиностроение» - авиастроение (без подтверждения) – самолет (с подтверждением) • Понятие с подтверждением учитывается для вывода рубрики только тогда, когда в тексте есть хотя бы одно понятие, относящееся к этой рубрике без подтверждения • Подтверждение может быть выведено по связям тезауруса или проставлено вручную

  35. Сеть тематических узлов (Постановление Правительства РФ от 26 июня 1995 г. N 604) СОБСТВЕННОСТЬ(1) СООРУЖЕНИЕ(1) А ДЕНЬГИ(22) ЗДАНИЕ(1) СТРОИТЕЛЬСТВО(12) ПЛАТИТЬ(1) ЖИЛОЕ ЗДАНИЕ(1) ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО(4) А ПОКУПКА(6) ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ (2) МНОГОКВАРТИРНЫЙ ДОМ(1) ЖИЛОЕ ПОМЕЩЕНИЕ(25) НАНЯТЬ(13) А НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ(13) ЖИЛАЯ ПЛОЩАДЬ(1) КВАРТИРА(2) В В ЖИЛИЩНАЯ НОРМА(2) КОМНАТА (ПОМЕЩЕНИЕ)(1)

  36. Структура тематического представления MT1 Mc1 Mc3 MT3 MT2 Mc2 Mck MTk TNj TNj+1 TNj+2 Основные тематические узлы Локальные тематические узлы

  37. Вычисление веса термина на основе тематического представления текста α = 0.7 Учет двух факторов: категория в тематическом представлении и частотность Вес категории тематического представления: 0.9 - для центра основного тематического узла, 0.7 - для элемента основного тематического узла, 0.75 - для центра локального тематического узла …

  38. Расчет веса конъюнкции Вес конъюнкции предназначен учитывать не только сумму весов составляющих его конъюнктов, но и меру близости конъюнктов в тексте: сумма всех текстовых связей между понятиями одного конъюнктаи понятиями другого, деленная на значение максимальнойтекстовой связи между любыми двумя понятиями текста. Этот член равен обычно единице для сильно связанных конъюнктов и принимает малое значение, если понятия различных конъюнктов обсуждались в разных местах текста

  39. Вычисление веса рубрики Вес дизъюнкции: где dijk - понятия, не требующие подтверждения, pijm - понятия, требующие подтверждения, -множитель равный единице,если имеются понятия, не требующие подтверждения, и нулю иначе

  40. ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИПОСТАНОВЛЕНИЕ (от 26 декабря 2001 г. N 905) О подписании Соглашения между Правительством Российской Федерации и Правительством Туркменистана о сотрудничестве в области исследования и использования космического пространства в мирных целях … 090090000 Космическая деятельность 64 T130817 ПУСК РАКЕТЫ 12 64 T4200 КОСМОДРОМ 8 63 T106444 БАЙКОНУР 8 63 T6783 РАКЕТА-НОСИТЕЛЬ 6 62 T955 КОСМОНАВТИКА 6 62 T956 КОСМИЧЕСКАЯ ТЕХНИКА 4 61 T131907 ЗАПУСК КОСМИЧЕСКИХ АППАРАТОВ 3 61 T1023 КОСМИЧЕСКИЙ АППАРАТ 2 61 T1022 СПУТНИКОВАЯ СВЯЗЬ 1 60 T137619 КОСМИЧЕСКИЕ ИССЛЕДОВАНИЯ 1 60 T9340 КОСМИЧЕСКАЯ МЕДИЦИНА 1 60 T5962 АСТРОФИЗИКА 1 60 T2497 ИСКУССТВЕННЫЙ СПУТНИК ЗЕМЛИ 1 15

  41. Фрагмент рубрик, приписанных документу (Постановление Правительства РФ от 26 июня 1995 г. N 604) 150100020 Содержание и порядок прохождения военной службы 95 T791 ВОЕННАЯ СЛУЖБА29 95 T792 ВОЕННОСЛУЖАЩИЙ17 76 T6999 ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ2 62 090040000 Строительство 81 T55 СТРОИТЕЛЬСТВО 12 81 T482 ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО 4 64 T6217 ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ 2 62 020010040 Федеральные органы исполнительной власти 77 T2576 ФЕД. ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ 7 77 T5109 МИНИСТЕРСТВО ОБОРОНЫ3 63 150040000Кадры Вооруженных Сил Российской Федерации 76 T792 ВОЕННОСЛУЖАЩИЙ17 76 070070020 Компенсационные и иные социальные выплаты 75 T124039 КОМПЕНСАЦИЯ 15 75

  42. Разработаны различные системы автоматической рубрикации: по общему тематическому правовому классификатору Центральной избирательной комиссии РФ (450 рубрик, 4 уровня) по терминам верхнего уровня тезауруса Исследовательской службы Конгресса США (80 рубрик) по правовому рубрикатору Центра информационных исследований (180 рубрик, 3 уровня) Системы автоматической рубрикации Автоматическая рубрикация по Классификатору правовых актов РФ (Указ Президента РФ N511 от 15 марта 2000 г., 1169 рубрик) Новая система автоматической рубрикации

  43. классификациядля legal-коллекции • автоматическая классификация нормативных документов законодательства РФ из БД СПС «Кодекс» • 183 рубрик -- подмножество большого иерархического рубрикатора нормативных документов • для обучения процедуры классификации предлагается коллекция из 4496 документов, отрубрицированных по данному классификатору экспертами компании «Кодекс» • для тестирования предоставлены 55519 документов, для которых необходимо автоматически определить рубрики, к которым эти документы относятся. • для некоторых рубрик нет документов в коллекции обучения, всего рубрик с ненулевым количеством документов для обучения — 170

  44. классификациядля legal-коллекции Прогон 1: SVM по леммам Прогон 2: SVM по леммам+терминам Леммы/понятия, встречающиеся менее, чем в четырёх документах, были усечены. 21746 различных лемм и 1203087 пар лемма-документ для обучающей выборки из 4496 документов. 29918 различных лемм/терминов и 1569958 пар «лемма/термин»-документ.

  45. классификациядля legal-коллекции Прогон 3: Метод машинного обучения, основанный на моделировании логики рубрикатора • описание рубрики в виде булевской формулы — запроса к ИПС Элементами формул являются понятия Тезауруса ЦИИ. • Алгоритм строит формулы вида • Конъюнкции, составляющие формулу, имеют длину от 1 до 3. • Мотивация -- создать алгоритм машинного обучения, который бы моделировал смысл рубрики, составленной человеком, по результатам рубрицирования. Необходимым требованием для данного алгоритма было построение правил описания рубрики, которые можно легко интерпретировать.

  46. классификациядля legal-коллекции Таблицу релевантности, состоящую из оценок, проставленных экспертами ИС «Кодекс» для рубрик из АБ будем обозначать “ideal50”.

  47. классификациядля legal-коллекции Результаты прогонов участников для таблицы релевантности “ideal50”

  48. классификациядля legal-коллекции Зависимость F-меры от количества примеров для обучения (в среднем для рубрик, частотность которых попадает в указанный интервал)

  49. Вопросы к лекции • Перечислите методы автоматической рубрикации. • По каким причинам возникают сложности в задачах автоматическойрубрикации текстов? • Какие рубрикаторы Вам известны? Опишите их характеристики.

More Related