1 / 46

Beyond Bag of Words

Beyond Bag of Words. 2011. 6. 1. 11.1 Overview. Bag of Word : 검색 혹은 분류에 사용되는 , 텍스트의 단순 표현방법 언어학적 관점에서 , bag of word 는 매우 제한적 보다 복잡한 표현 방식들에 비해 , 검색 실험에서 더 좋은 성능을 보여줌 검색 application 은 bag of word 방식으로 충분했던 시기를 넘어섰다 .

arien
Télécharger la présentation

Beyond Bag of Words

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Beyond Bag of Words 2011. 6. 1.

  2. 11.1 Overview • Bag of Word : 검색 혹은 분류에 사용되는, 텍스트의 단순 표현방법 • 언어학적 관점에서, bagof word는 매우 제한적 • 보다 복잡한 표현 방식들에 비해, 검색 실험에서 더 좋은 성능을 보여줌 • 검색 application은 bag of word 방식으로충분했던 시기를 넘어섰다. • Bag of word의 feature는 중요하지만 언어학적인, 구조적인, metadata, non-textual content feature또한 효과적으로 검색 모델에 사용될 수 있다. • 이번 장에서는 feature-based retrieval model에 대해 살펴봄 11.2 • 11. 3 Termdependency를 어떻게 파악하고 linear feature-based model에 사용할 수 있는지 • 11.4 Database system등에서 쓰이는 structured representation이 어떻게 검색엔진에서 쓰일 수 있는지

  3. 11.2 Feature-Based Retrieval Models • Linear feature-based model • Some models support non-linear functions, but linear is more common • Training data가 주어졌을 때, E값을 최대화하는 parameter를 찾는다.

  4. 11.2 Feature-Based Retrieval Models • Feature의 수가 작다면, 최적 parameter의 값은 brute force방법으로 모든 가능한 값을 실험해 구할 수 있다. • 하지만 그 feature의 수가 많다면 Ranking SVM과 같은 optimization procedure가 요구된다. • Topical relevance와 관련된 검색 모델에서는 다음feature들이 사용되어 왔다. • Term occurrence • Term frequency • Inverse document frequency • Document length • Term proximity • Galago는 query 언어에, 사용할 feature선택,weighted linear combination을 통해 문서를 scoring할 수 있는 방법을 제공한다.

  5. 11.3 Term dependence models • 단어들간의 관계를 활용하는 것은, 효과적인 검색 엔진을 만드는데 중요한 부분이다. • 단어간의 관계를 활용하는 검색모델을 Term dependence model이라 한다. • Markov Random Field model • Document node 및 각 query term으로 만들어진 query node로 Graph를 생성 • 이 각 노드들은Markov Random Field의 random variable을 대변 • Ramdom variable간의 dependency는 edge로 표현

  6. 11.3 Term dependence models • Sequential dependence assumption이 가장 좋은 성능을 보임 Full independence sequential dependence full dependence general dependence

  7. 11.3 Term dependence models • MRF graph를 생성한 뒤, graph의 clique를 통해 일련의 potential function을 정의한다. sequential dependence Full independence

  8. 11.3 Term dependence models • MRF graph를 생성한 뒤, graph의 clique를 통해 일련의 potential function을 정의한다. sequential dependence

  9. 11.3 Term dependence models • MRF graph를 생성한 뒤, graph의 clique를 통해 일련의 potential function을 정의한다. full dependence

  10. 11.3 Term dependence models • MRF model은 pseudo-relevance feedback에서도 사용 • Relevance model technique • Relevance model graph • Latent concept expansion • Latent concept expansion graph

  11. 11.3 Term dependence models • Latent concept expansion • query : “hubble telescope achievement”

  12. 11.3 Term dependence models • MRF model은 linear feature-based retrieval model로서 Term dependence에 기반한 feature를 scoring function에 적용하는 효과적인 방법

  13. 11.4 Structure Revisited • Structured 및 unstructured data 모두를 처리할 수 있는 공통된 플랫폼을 가지는 것은 1960년대 이후부터 제시되어온 목표이다 • Statistical inference 혹은 ranking같이 IR에서 관심을 가졌던 부분이 이제 DB 연구자들에게도 중요한 주제가 되었다 • 문서의 구조를 활용하는 것은 웹검색에 중요한 부분 • 양측 모두 효율적인 인덱싱, web-scale data에 대한 최적화 기법 등에 관심을 가지고 있다 • Many possibilities for integration • Database model을 확장해 보다 효과적으로 확률을 다룰 수 있도록 함 • IR model을 확장해 복잡한 구조 및 다중관계 연산을 처리 • 통합된 모델 및 시스템을 개발

  14. 11.4 Structure Revisited • 7장의 내용처럼,Galago query language는 문서 구조를 처리할 수 있다. • 기존 데이터베이스 측면에서 볼 때, Galago를 이용해 구조화된 data를 표현 및 질의 하는데 어려움이 있다. • 데이터에 스키마가 없다 • Schema : 데이터베이스의 논리 구조를 의미 • 테이블의 이름 및 각 relation의 attribute • Attribute의 data type을 정의하거나 relation간의 join을 정의하는 방법이 없다 • 문서는 tag 쌍에 의한 context의 집합으로 표현된다. • 각 문서는 document identifier를 primary key로 하는 simple database에 저장됨 • 이것은 Fullrelational database system의 functionality와는 매우 다르다 • 3장의 BigTable storage system이 이와 유사

  15. 11.4 Structure Revisited • BigTable storage system • 매우 큰 document collection을 저장하기 위한 storage system • 각 데이터베이스들은 하나의 테이블 만을 가진다. • 이 table은 작은 tablet이라 불리는 작은 조각으로 나뉘어 수천대의 기계에서 동작 • Logically organized into rows • A row stores data for a single web page

  16. 11.4 Structure Revisited • BigTable storage system의 경우 data type혹은 join연산을 지원하지 않음 • Tuple및 attribute name에 대한 매우 단순한 명세만을 가진다. • BigTable과 같은 시스템은 • data persistence 및 안정적인 access를 필요로 하는 경우 • 분산 컴퓨팅을 이용한 성능의 확장이 필요한 경우 에 집중한다 • Data에 대한 access는 Client application의 read, write, delete기능을 지원하는 simple API를 이용해 제공됨 • Web search 혹은 e-commerce에서 사용 • Index는 database system이 아닌 검색 엔진에 저장됨

  17. 11.4.1 XML Retrieval • XML은 Application간 데이터를 교환할 때나 문서를 encoding할 때 중요한 표준 • Database community에서는 • XML Schema : XML data의 구조를 표현하는 언어 • SQL과 유사 • XML data의 hierarchical structure를 다룰 수 있도록 고안됨 • XQuery, Xpath: querying 및 manipulation에 사용되는 언어 를 정의 • INEX Project • XML 문서 데이터베이스를 이용 • TREC과 유사하게, XML search task를 제시하고, 평가를 위해 각 task별로 test collection을 제공

  18. 11.4.1 XML Retrieval • INEX project에 사용된 query type중 하나로 CAS (Content-and-Structure) query 가 있음 • Topic 및 XML구조에 대한 표현을 query로 사용

  19. 11.4.1 XML Retrieval • 이런 쿼리들이 합리적으로 보이지만, INEX project 및 다른 연구들에 의하면 사용자들은 대개 구조화된 정보를 사용하지 않는다 • User query에 반영된 structure가 검색 효과성을 향상시킨다는 증거는 없다 • 이런 이유로 INEX project에서는 갈수록 content-only query에 집중 • 혹은 XML element를 ranking하는 방향

  20. 11.4.1 XML Retrieval • 문서 구조는 효과적인 ranking을 위해 중요한 부분이지만, user query 에 직접사용하기보다 단순한 user query를 문서 구조에 기반한 feature로 변환해 적용하는 것이 효과적 • Galago의 경우 user query를 Galago query로 변환해 적용 • DB system은 많은 검색 application에서 사용되지만, 사용 용도는 일반적인 DB application과는 다르다 • 이것은 단순하지만 효율적이고, 신뢰성이 있으며 확장 가능한 storage system의 개발로 이어졌다.

  21. Beyond Bag of Words 2011. 6. 8.

  22. 11.4.2 Entity Search • Entity search에서는 query에 대하여, 문서 대신 entity의 랭크된 리스트를 출력 • 각 entity의 표현(representation)은 Entity 주변 단어들에서 생성됨 • Pseudo-documents를 생성 • ex> 일정한 크기(20 words) window내에 위치하는 모든 단어 • Query가 주어지면 위 representation에 기초해 entity의 ranked list를 출력 • ex> Conrad’s work

  23. 11.4.2 Entity Search • Target word 주변 단어들을 이용하는 representation 방법은 query expansion에 사용할 thesaurus를 만드는 데에도 사용 • 인지 과학자들에 의해 semantic memory모델에서도 사용 • Entity search에 연관된 최근 연구 중, 특정 분야의 전문가를 검색하는 task인 expert search가 있다. • Balog등은 language modeling기법에 기반해 entity(expert) 검색을 위한 확률검색모델을 개발 • Entity와 query term간의 joint distribution에 따라 entity를 rank

  24. 11.4.2 Entity Search • P ( q | e, d ), P ( e | d ) 각각을 어떻게 평가하는 가에 따라 서로 다른 entityranking algorithm이 생성됨 • 한 방법으로, query term과 entity간의 proximity를 이용해 평가할 수 있다 • P ( q | e, d ) = (1 / Z ) * i=1->N∑ δd ( i , q ) * k ( q , e ) • N : 문서의 길이 • δd ( i , q ): indicator function • 1 : 문서 d의 i번째 위치의 term이 q일 때 • 0 : otherwise • k ( q , e ) : Proximity kernel function • Petkove and Croft(2007)의 연구에 의하면 Gaussian kernel이 가장 효과적 exp - || q - e ||2 / 2σ2 • Z = i=1->N∑ k ( q , e ) : normalizing constant

  25. 11.4.2 Entity Search Ex> • query term : Chicago • entity : Obama • …Two years after graduating, Obama was hired in Chicago as director of the Developing Communities Project (DCP) …. departed Chicago when… • (1/Z) * {exp - || 4 ||2 / 2σ2 + exp - || 30 ||2 / 2σ2 } • Query term이 여러 개 일때, P ( e, q ) = qi∈ q ∏ { P ( qi | e , d ) P ( e | d ) }

  26. 11.5 Longer questions, Better answers • Space Odyssey나 Star Trek등의 영화에서는 컴퓨터가 human-like assistant로 등장해 복잡한 질문에 답변을 수행 • 웹 검색엔진이 많은 정보를 제공해주지만 위와 같이 Intelligent assistant의 역할을 수행하기에는 먼 길이 남아 있다 • Community based QA system에서는 information need를 더 상세히 표현할수록 좋은 대답을 얻을 수 있다 • 하지만 웹 검색엔진에서 query를 위와 같은 길이로 할 때 좋지 못한 결과를 얻는다. • 사람들은 자신의 질문을하나 혹은 적당한 개수의 keyword로 변환해 적용하도록 강요받는다 • IR연구의 장기 목표 중 하나는 longer, more specific query에 대하여 정확한 결과를 도출하는 것이다

  27. 11.5 Longer questions, Better answers • Question answering은 사용자 query에 대하여 문서의 ranked list가 아닌 구체적인 답을 제공하는 것 • 이런 시스템에서 처리되는 질문들은 대부분 fact-based question • Who, Where, and When • Who invented the paper clip? • Where is the Valley of the Kings?

  28. 11.5 Longer questions, Better answers • Question에서 생성된 query를 이용해 passage retrieval component에서 검색을 수행 -> Candidate text passage (대개 문장 단위) • “Where is the valley of the kings” • 문장 가운데 location에 관련된 것으로 tagging되고 “valley”, “kings” 단어가 등장하는 문장을 가져옴

  29. 11.5 Longer questions, Better answers • Answer selection component에서는 이것을 이용해 정답을 선택 • Predefined rule을 사용 • “Where is the valley of the kings” • <question-location> in <location> • Wordnet을 이용 • “Who manufactures magic chef appliances” • “fabricates”, “constructs”, “makes” -> “related to manufacture” • Text passage에서 최종적으로 정답을 선택하는 과정에는 보다 많은 언어적 분석 및 추론이 필요하다.

  30. 11.5 Longer questions, Better answers • QA system을 사용하는 사람은 context of answer를 보고자 할 것이다 • ex> “Where is the valley of the kings” • “Ezypt” • “The Valley of the Kings is located on the West Bank of the Nile near Luxor in Ezypt” • QA system에서 사용되는 기법들은, 보다 정확한 검색결과를 얻기 위해 문법적, 의미론적 feature가 어떻게 쓰일 수 있는지 보여준다. • 하지만 IR에는 보다 어려운 challenge들이 남아있다. • “Where have dams been removed and what has been the environmental impact?” • Fact-based question처럼 보이지만, 답변은 location의 리스트를 리턴하는 것보다 더 포괄적(comprehensive)이어야 한다 • “What is being done to increase mass transit use?” • Fact-based question은 아님 • 대중교통 이용에 대한 discussion들을 recognize할 수 있는기법을 적용하면 도움이 될 것 -> 실제 검색실험에서 실증된 바 없다 • 아직 많은 technical issue들이 있다.

  31. 11.6 Words, Pictures, and Music • Information Retrieval은 전통적으로 텍스트에 집중해 옴 • 하지만 웹에서 사용자들이 찾는 많은 정보들은 Image, video, 또는 audio의 형태로 있다. • 이들에 대한 검색은 대부분 text-based로 이루어짐 • Title, caption, user-supplied tag에 기반 • 구현이 간편하지만, 표현하고자 하는 대상의 중요한 측면을 정확히 담지 못함 • Content-based retrieval technique • 정보 전달의 도구로 단어를 사용하지만,non-text media에 저장된 경우 • Optical character recognition • Speech recognition

  32. 11.6 Words, Pictures, and Music • OCR 예시

  33. 11.6 Words, Pictures, and Music • Speech recognition

  34. 11.6 Words, Pictures, and Music • TREC의 실험 결과들에 의하면 검색 효과성은 이러한 error에 큰 영향을 받지 않는다 • 대부분 query term이 redundant하게 등장 • 매우 짧은 문서의 경우 영향을 받음

  35. 11.6 Words, Pictures, and Music • 이미지를 대상으로 한 content-based retrieval은 보다 어려운 문제 • 이미지에서 사용되는 feature인 Color, texture, shape등은 word에 비해 Semantic content를 가지고 있지 않다. • Image검색에서 자주 사용되는 feature로 color histogram이 있다. • 가령 RGB model을 이용하는 경우 한 pixel의 색깔Red, blue, green를 각각 8개 level로 quantize하는 경우 8x8x8 = 512개의 bin으로표현됨 • 이미지의 각 pixel별 색깔에 해당하는 bin의 값을 하나씩 증가시킴

  36. 11.6 Words, Pictures, and Music • Color feature는 비슷한 색상의 이미지를 찾는데 유용 • 제한점: 전혀 다른 semantic content를 가지는 이미지가 색상이 같다는 이유로 선택될 수 있음 • Color feature에 texture, shape feature등을 같이 결합해 사용 • Texture : spatial arrangement of gray levels in the image • Shape : form of object boundaries and edges

  37. 11.6 Words, Pictures, and Music • 과거 검색 실험들에 의하면, 여러 image feature를 결합하는 가장 효과적인 방법은 확률검색모델 이다 • 이미지가 text caption 혹은 user tag를 가지고 있는 경우 이런 정보를 ranking 쉽게 통합될 수 있다 • Video 검색은 이미지 검색과 유사하며, 몇 가지 추가정보를 제공 • Closed caption text • Speech recognition을 통해 얻을 수 있는 text정보 • Video의 image component는 일련의 key frame 이미지로 표현 • Frame간의 Visual discontinuity가 있을 때를 기준으로 segmentation

  38. 11.6 Words, Pictures, and Music • 이미지검색에서 지금까지 살펴본 검색 쿼리는 이미지 형식 사용자들은 text형식으로도 질의하고 싶어할 것이다 • 텍스트 쿼리 단어는 이미지에서 추출한 feature와 직접적으로 비교될 수 없다 • Training data가 주어질 때, 확률모델을 이용해 Image-based feature와 단어 간 연관관계를 학습할 수 있다 • 가령, 5000개 이미지 corpus가 주어질 때, 500개 image term을 이용해 각 이미지를 표현 • 한 이미지 마다 1-10개의 image term을 사용

  39. 11.6 Words, Pictures, and Music • Text query가 입력되면, pseudo-relevance feedback과 유사한 방법으로 이미지를 검색 • 1. Text query를 이용해 text-annotation된 이미지를 대상으로 ranking • 2. top-ranked image에서 등장하는 image term의 joint probability를 평가 • 3. 선택된 image-term으로 query를 확장해 text-annotation이 없는 이미지를 대상으로 재검색 • 이런 방법은 text annotation이 없는 이미지에 keyword를 할당하는 방법으로도 사용될 수 있다 -> Automatic text annotation

  40. 11.6 Words, Pictures, and Music • 음악은 단어와 연관시키기 더 어려운 media이다 • 제목, 작곡가, 가사 등을 제외할 때, 음악을 단어로 표현하기는 매우 어렵다 ex> Bach’s Fugue#10 • Audio signal • MIDI • 전송 표준 • Digital specification of Events in the music e.g. pitch, intensity, duration • Conventional music notation

  41. 11.6 Words, Pictures, and Music • 이러한 basic representation으로부터 index term을 추출하는방법 • Audio의 spectrogram의 time slice별 peak에 hashing기법을 적용해 signature를 생성 • 휴대폰으로 녹음한 소리를 이용해 음악을 검색하는 서비스 • Query-by humming • 사용자가 노래를 부르거나 humming하면, 비슷한 melody의 음악을 music collection에서 검색 • query를 melody 형식의 representation으로 변환 • Sequence of notes, Relative pitches, interval between notes • Collection의 music또한 같은 방식으로 변환 • Query는찾고자 하는 melody의 noisy representation이라 할 수 있다 • N-gram matching, language model등을 이용

  42. 11.7 One Search Fits All? • 검색은 지난 40여 년 간 발전해 왔음에도 불구하고 검색에 대한 지식, 이해도, 효과성 등은 계속 발전하고 있다 • 보다 많은 capability를 갖춘 single search engine보다 다양한 검색 서비스가 만들어졌다 • 검색 엔진의 홈페이지를 가면 web, image, blog, map, academic paper, patent, news, books, photographs 등 다양한 링크들을 볼 수 있다 • 이들은 각각 다른 feature 및 ranking algorithm 및 interface를 활용하고 있다 • Customized search engine이 번창할 것이라는 측면과 반대로 그 기반이 되는 원리(principle)에 있어서는 consensus가 증가할 것이다 (Despite the proliferation of customized search engines, there is also a growing consensus on the principles that underlie them)

  43. 11.7 One Search Fits All? • IR, machine learning, NLP 등 관련 분야 연구자들은 text representation 및 검색 과정을 모델링 하는데 유사한 방법론을 개발해 사용하고 있다 • 이러한 방법들은 structured data 및 non-text media영역으로 확장 • 새로운 영역에서 이루어진 최근 연구들은 확률모델 및 linear feature-based model이 검색을 이해하는데 효과적인 tool이라는 견해를 재확인시켜준다 • 검색의 기본 이론 부분의 agreement가 증가할수록 검색 tool은 서로 더 유사해 질 것이다 • 현재 여러 검색 엔진들은 서로 다른 term weighting기법, 서로 다른 feature 및 ranking algorithm을 사용 -> 이것은 right way to do these things에 대한 consensus가 없기 때문

  44. 11.7 One Search Fits All? • 이 책에서 다루지 않은 검색의 또 한가지 측면은 사용자와 검색 엔진간의 interaction, 사용자의 검색 task가 이 interaction 과정에 미치는 영향이다 • Information scientist들은 이런 이슈들에 대해 연구 • 사람들이 relevant information을 어떻게 찾는지에 대한 통찰력있는 이해를 제공하는데 기여 • Social search 및 social networking이 발전함에 따라 user와 검색엔진 간 뿐 아니라,user와 user간의 interaction또한 연구 대상으로 확대 • 장래에는 사용자와의 interaction에 대해 현재보다 더 명시적(explicitly)으로 표현한 모델 및 이론들을 볼 수 있을 것이다

  45. 11.7 One Search Fits All? • 검색엔진 개발자 및 연구자들은 interaction을 향상시킬 수 있는 방법들을 연구 • 다양한 type의 검색 결과를 검색결과 display에 출력 • ex> Query가 주소인 경우 지도를 보여줌 Query단어가 논문 제목과 일치하는 경우 academic paper 링크를 제시 • 미래의 검색 인터페이스는 사용자의 지식을 더욱 active하게 검색 과정에 포함시킬 수 있도록 진화할 것이다 • 마지막으로 검색은 여러 소프트웨어에 필수적으로 중요한 부분이 될 것이다 • 사람들을 검색의 이론, 모델, 평가 기법 등을 이해할 수 있도록 training하는 것은 효과성 및 효율성을 향상시키는 데 중요한 부분이다.

More Related