1 / 20

A Survey of Multilingual Text Retrieval

A Survey of Multilingual Text Retrieval. Douglas W. Oard, Bonnie J. Dorr 한 경 수 1999. 2. 22. Contents. Introduction Text Retrieval System Model Approaches to Multilingual Text Retrieval Text Translation Multilingual Thesauri Corpus-Based Techniques Other research projects

tavon
Télécharger la présentation

A Survey of Multilingual Text Retrieval

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. A Survey of Multilingual Text Retrieval Douglas W. Oard, Bonnie J. Dorr 한 경 수 1999. 2. 22.

  2. Contents • Introduction • Text Retrieval System Model • Approaches to Multilingual Text Retrieval • Text Translation • Multilingual Thesauri • Corpus-Based Techniques • Other research projects • Some Observations on the State of the Art • Conclusion A Survey of MLTR[Oard96]

  3. Introduction • Multilingual Text Retrieval(MLTR) • 질의와 문서에 사용된 언어에 구애 받지 않는 검색 • MLTR의 필요성 • 문서집합이 여러 언어의 문서들로 구성 • 한 문서에 여러 언어가 등장 • technical documents, literary criticism, academic works … • 사용자가 문서집합의 언어에 능통하지 못한 경우 • MLTR과 MT의 통합( Figure 1) • MLTR의 검색 결과에 대한 번역  사용자의 적합성 판단에 도움 • Survey Scope • 질의어의 언어와 다른 언어로 쓰여진 문서에 대한 검색(CLTR) A Survey of MLTR[Oard96]

  4. Text Retrieval System Model • Text Retrieval Model의 고려사항 • 질의와 문서의 상이한 특성 • “질의는 짧고 문서는 길다!” • Paraphrase problem • 문서와 사용자 질의에 사용된 어휘의 불일치 문제 • MLTR = special case of paraphrase problem • 질의와 문서를 호환 가능한 통합 표현으로 변환하는 표현 함수를 각각 설계( Figure 2) • 2 Text Retrieval System • exact match • ranked retrieval • ranked Boolean retrieval system • probabilistic retrieval system • similarity-based retrieval system(vector space model) A Survey of MLTR[Oard96]

  5. Approaches to MLTR Text Translation Controlled Vocabulary System MLTR Thesaurus-based Concept Retrieval Encoding Semantic Information Automatic Thesaurus Construction Corpus-based Term Vector Translation Latent Semantic Indexing A Survey of MLTR[Oard96]

  6. Text Translation Approaches to MLTR(1/13) • 방법 • 질의나 문서 중 하나를 MT시스템을 이용해 번역 • 질의 번역 • 짧은 질의로 인해 MT시스템의 성능 효과가 제한적 • 문서 번역 • 긴 문서에서 충분한 문맥 정보(context information)를 습득 • 번역 오류에 견고 • 방대한 양의 문서로 인해 MT시스템의 efficiency가 관건 • 문제점 • MT시스템의 작업이 성능향상에 영향 미치지 못할 수 있다. • 단어 순서, 기능어 첨가 … • MT시스템의 작업이 검색 성능을 저하시킬 수 있다. • 단일 대역어의 선택 A Survey of MLTR[Oard96]

  7. Multilingual Thesauri 개요(1/2) Approaches to MLTR(2/13) • 용어 정의 • 시소러스(thesaurus) • 응용 프로그램에서 사용할 수 있도록 단어들을 조직화하여 영역 지식을 인코드하는 툴 • 동의어(synonymy), 계층적 개념 관계, 연관 관계(associative relation) • multilingual thesaurus • 하나 이상 언어의 단어를 조직화하는 시소러스 • bilingual dictionary, subject thesaurus, concept list, term list, lexicon …( Table 2) • 시소러스 기반 방법의 특징 • 사용자가 상당한 양의 영역 지식을 이용 가능 • 시소러스 생성, 관리, 이용에 많은 비용 필요 • 사용자가 사용 가능한 어휘와 검색시스템의 적용 영역에 제한적 • 사용하기가 어렵다. • 단어의 실제 사용 통계를 지속적으로 반영하기 어렵다. • 코퍼스 기반 방법 등장 A Survey of MLTR[Oard96]

  8. Multilingual Thesauri 개요(2/2) Approaches to MLTR(3/13) • 시소러스 이용 방식 • 통제 어휘 시스템(controlled vocabulary system) • 각 개념을 미리 정해 놓은 하나의 어휘로 표현 • 질의도 같은 어휘를 이용하여 사용자가 수동으로 작성 • 통제 어휘 색인에 많은 비용 필요 • 개념 검색(concept retrieval) • free text로 시소러스의 개념 관계를 자동으로 이용 • 개념 치환(concept substitution) • 질의 확장(query expansion) • 구문 및 의미 정보의 추가 • 다의어(polysemy) 효과 완화  정확률 향상 • scope note, 품사 태깅(part-of-speech tagging) A Survey of MLTR[Oard96]

  9. Early Work Multilingual Thesauri(1/4) • 1969 Salton • 수동 번역한 bilingual concept list 이용(English/German) • 수동 질의 번역, SMART 시스템 이용 • “MLTR 시스템이 단일언어 검색 시스템만큼 효과적인 성능이 가능” • 1969 Pevzner • PNP-2 이용(Russian/English) • 완전 일치 통제 어휘 검색 시스템 • 매우 큰 Russian/English 시소러스 이용 • 103개의 Russian 질의에 대해 실험 • “각 언어의 문서 선택에 있어서 통계적으로 거의 차이가 없다” A Survey of MLTR[Oard96]

  10. 6 Lines of Researchon Multilingual Thesauri Multilingual Thesauri(2/4) • Design Standard • 1971 UNESCO: multilingual thesaurus 표준 제안 • 1978 ISO 5964로 표준 승인(1985년 개정) • 1984 EUROVOC 시소러스: 현재 EC의 9개 언어 포함 • Development & Maintenance Tool • 시소러스의 3가지 생성 기법 • 처음부터 새로 작성하는 방법(build it from scratch) • 이미 존재하는 시소러스를 번역하는 방법 • monolingual thesaurus들을 합병하는 방법 • Special Purpose H/W • ISSP(Japanese-English thesaurus) • New Language Pairs & Domains • User Interface • 기존의 질의 인터페이스의 표현력을 초보 사용자들이 이용하기 어렵다.  메뉴 기반의 비쥬얼 인터페이스 등장 • User Need Assessment A Survey of MLTR[Oard96]

  11. Concept Retrieval Multilingual Thesauri(3/4) • 방법 • multilingual thesaurus를 사용한 질의 확장(query expansion) 기법을 적용 • 검색 성능에 대한 역 효과를 최소화 시키면서도, 교차 언어 환경에서 단어 사용의 다양성을 고려 • 비제약 질의 확장(Unconstrained Query Expansion) • [Davis & Dunning 95] English-Spanish • 간단한 bilingual term list를 이용해서 English 질의에 사용된 각 단어에 대해 모든 대역어들을 사용해서 Spanish 질의를 생성 • 결과: 0.04 (단일언어: 0.21) • “비제약 질의 확장은 MLTR에 유용하지 않다” • 구 색인(Phrase Indexing) • [Hull & Grefenstette 96] French-English • bilingual term list, 비제약 질의 확장 • 결과: 0.27  0.36 (단일언어: 0.39) • “구 색인 기법을 적용하면 MLTR의 성능이 단일 언어의 경우와 비슷” A Survey of MLTR[Oard96]

  12. Encoding Semantic Information Multilingual Thesauri(4/4) • EMIR Project • SPIRIT 이용(French-English) • 시소러스에 의미 정보(semantic information)를 인코딩 • 품사 정보(part of speech) • 대역어 수 감소 • 단어(word), 구(phrase), 복합명사(compound) • 복합명사 형태로 인코딩된 의미 정보가 개념 관계 대신 사용된다. • 복합명사는 의미관계에 기반해서 단어를 연결  구보다 효과적 • 성능 평가(French-English) • SYSTRAN + SPIRIT: 0.21 • ESPIRIT: 0.27 • 단일언어: 0.34 • [Rassinoux 94] • conceptual graph • [Kitano 88] • case frame A Survey of MLTR[Oard96]

  13. Corpus-Based Techniques 개요 Approaches to MLTR(8/13) • 특징 • 단어 사용에 대한 관측된 통계에 기반하므로, 현재의 단어 사용 정보를 반영 • 통계적 검색 시스템과의 통합에 적절 • 유사한 문서는 유사한 단어를 사용한다. • 저빈도어가 고빈도어보다 문서 구분 능력이 더 뛰어나다. • 표현: TF*IDF 가중치 • 유사도 비교 • 벡터 공간 기법: SMART • 확률 검색 기법: INQUERY • Parallel Corpus vs. Comparable Corpus • parallel corpus • 동일한 문서나 문장 혹은 단어를 번역해 놓은 코퍼스 • 각 번역 단위로 정렬 • Document-aligned, Sentence-aligned, Term-aligned • comparable corpus • 동일한 내용을 기술한 문서 쌍을 모아 놓은 코퍼스 A Survey of MLTR[Oard96]

  14. Automatic Thesaurus Construction Corpus-Based Techniques(1/4) • 코퍼스 기반 방법 vs. 자동 시소러스 구축 • 자동 시소러스 구축 기법 • 관측된 단어 사용의 통계로부터 단어간의 관계 정보를 습득 • 코퍼스 기반 방법을 자동 시소러스 구축 기법으로 볼 수 있다. • 방법 • 빈도 정보 이용 • [van der Eijk 93] Dutch-English • 문장 단위 병렬 코퍼스, 명사구 이용 • target 언어의 TF*IDF 값을 기준으로 대역어 후보로 선정 • 문장 쌍에서 출현하는 상대적 위치가 크게 상이한 것은 제외 • 단일 대역어 선정: 60%, 대역어 후보 리스트: 95% • 기계 학습 방법(machine learning approach) • [Lin & Chen 96] Chinese-English • Chinese-English concept list 생성/이용 • 단어의 공기 정보에 기반한 Hopfield neural network 이용하여 단어의 군집 생성 • “시소러스의 관련 용어 정보처럼 단어 공기 정보 이용 가능” A Survey of MLTR[Oard96]

  15. Term Vector Translation(1/2) Corpus-Based Techniques(2/4) • 단어 벡터 변환(Term Vector Translation)의 정의 • 한 언어의 단어 가중치들을 다른 언어로 매핑하는 기법 • 방법 • 적합성 피드백(relevance feedback) 이용 • [Fluhr 95] French/English • French 질의에 대한 검색 결과 상위의 French 문서와 그에 대응하는 English 문서를 각각 질의에 추가하여 검색 • evolutionary programming 기법 이용 • [Davis & Dunning 95] English/Spanish, 문장 단위 병렬 코퍼스 • English 질의에 유사한 English 문장에 대응되는 Spanish 문장에서 common Spanish term들을 선택 • evolutionary programming 기법을 이용하여 단어들을 삭제해 나간다.(0.004  0.02) A Survey of MLTR[Oard96]

  16. Term Vector Translation(2/2) Corpus-Based Techniques(3/4) • Linear operator를 사용한 직접 변환 • [Davis & Dunning 96] English/Spanish, 문장 단위 병렬 코퍼스 • 동일한 문장에 대해 각 언어의 단어 공기 빈도를 표시하는 2차원 행렬을 각각 구성 • 벡터 방정식을 풀어서 English 행렬을 Spanish 행렬로 변환하는 linear operator를 구한다. • 이 operator를 이용하여 질의 벡터를 변환(0.01) • bilingual lexicon 이용 • [Oard 94], 단어 단위 병렬 코퍼스 • bilingual term list에 각 단어의 대역어 후보에 대한 확률 값들이 부여되어 있다. • 이 정보를 이용하여 질의 벡터를 변환 • bilingual lexicon 생성이 어려운 작업이다. A Survey of MLTR[Oard96]

  17. Latent Semantic Indexing Corpus-Based Techniques(4/4) • 기본 개념 • 행렬 분해(matrix decomposition)를 이용하여 문서 집합에 의해 정의되는 벡터 공간의 principal component를 찾는다. • Principal component로 span되는 차원이 축소된 공간으로 벡터들을 투영한다. • [Landauer & Littman 91] • French/English • English 질의에 대해 상위에 위치한 French 벡터가 English paragraph과 대응하는 French paragraph에서 유도된 경우가 92% A Survey of MLTR[Oard96]

  18. Other research Projects Approaches to MLTR(13/13) • CRISTAL Project • Conceptual Retrieval of Information using Semantic dicTionAry in three Languages • Cap Gemini Innovation • French, English, Italian 질의를 사용하여 French 문서 집합을 검색 할 수 있도록 디자인 • French Dicologique thesaurus 이용 • CINDOR • Syracuse Univ. & Textwise Inc. • multilingual thesaurus를 이용한 concept retrieval • INQUERY A Survey of MLTR[Oard96]

  19. Some Observationson the State of the Art • Present State of MLTR • 통제 어휘 기법은 매우 잘 발달 • 자동 시소러스 구축(코퍼스 기반 방법)은 아직 미숙 • 효과적인 자동 시소러스 구축이 안되면, 개념 검색(concept retrieval)의 영역 제한 문제가 심각해진다. • 시소러스 기반 방법과 코퍼스 기반 방법의 통합이 활발한 연구 분야 • 코퍼스 기반 방법의 성능 평가의 어려움 • 학습 코퍼스와 평가 코퍼스의 영역이 서로 상이 • 다의어(Polysemy) 문제 • MLTR 환경에서 영역이 커짐에 따라 급속도로 문제가 된다. • 해결책 • 구문 및 의미 정보 이용(phrase formation) • 단어 의미 중의성 해결(word sense disambiguation) 기법 적용 A Survey of MLTR[Oard96]

  20. Conclusion • 결론 • Text Translation • Thesaurus-Based Approaches • controlled vocabulary system • concept retrieval • Corpus-Based Approaches • automatic thesaurus construction • term vector translation • 향후 연구 쟁점 • 규모가 큰 scored multilingual corpus의 부족 문제 해결 • MLTR의 성능에 있어서 다의어의 역효과를 완화 시키는 방법 A Survey of MLTR[Oard96]

More Related