1 / 12

구조화 문서 검색 : XML 문서 검색 웹 문서의 효율적 검색

구조화 문서 검색 : XML 문서 검색 웹 문서의 효율적 검색. 부산대학교 공과대학 정보  컴퓨터공학부 권혁철. 문서 관리 , 활용 , 검색. 생명주기 문서에서 개념을 자동으로 ( 프로그램에 의해 ) 추출하여 활용할 수 있어야 한다 . 문서의 생명주기 동안 효과적으로 관리할 수 있어야 한다 . 문서의 관리에서 지식의 관리로 변해야 한다 . 문서 생명주기에 따라 적합한 검색이 가능해야 한다 . 다양한 응용 시스템과 쉽게 연동이 가능해야 한다. 정보의 온라인화 , 웹화.

fionn
Télécharger la présentation

구조화 문서 검색 : XML 문서 검색 웹 문서의 효율적 검색

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 구조화 문서 검색 : XML 문서 검색웹 문서의 효율적 검색 부산대학교 공과대학 정보컴퓨터공학부 권혁철

  2. 문서 관리, 활용, 검색 • 생명주기 • 문서에서 개념을 자동으로(프로그램에 의해) 추출하여 활용할 수 있어야 한다. • 문서의 생명주기 동안 효과적으로 관리할 수 있어야 한다. • 문서의 관리에서 지식의 관리로 변해야 한다. • 문서 생명주기에 따라 적합한 검색이 가능해야 한다. • 다양한 응용 시스템과 쉽게 연동이 가능해야 한다.

  3. 정보의 온라인화, 웹화 • 일상화, 관리의 자동화, 표준화, 멀티미디어화, 하이퍼텍스트화, 개방화(openess), 지능적 처리 응용에 따른 적응성 확대

  4. 구조화한 문서에서 정보 검색 • 문서구조와 presentation을 구별하여 문서구조 중심으로 검색 • 장점 • 정보검색의 정확도가 향상된다. • 다양한 검색 방법을 사용할 수 있다. • 문서의 생명 주기를 고려한 검색이 가능하다. • 문서의 구조에 의한 검색이 가능하다. • 지능적 검색이 가능하다. • 문제점 • 표준화하지 않으면 장점을 살리기 어렵다. • 구조화 문서의 작성이 어렵다. • 태그선정이 어렵다. • 태그 선정이 어렵다. 더구나 응용영역 간에 태그에 대한 정의가 다를 때 이에 대한 번역이 필요하다. • 구조화 문서를 효과적으로 검색을 위한 검색기법이 요구되며, 검색 비용이 커진다. • 링크와 문서 구조를 총괄하는 검색 모형 필요하다.

  5. 구조화 문서에서 검색의 예 • 기존 검색 엔진과 차이 • 전화번호가 051-510-2218인 사람은 누구인가? • ? 전화번호 ↔ Tel ↔ 전화 ↔ … • 홍길동 아들이 다니는 학교는? • where <book> <publisher> <name>Morgan Kaufmann </> </> <title> $T </> <author> $A </> </> in “www.a.b.c/bib.xml” Where <$P> <title> $T </title> <year> 1995 </> <$E> Smith </> </> in “www.a.b.c/bib.xml”, $E in {author, editor} Construct <$P> <title> $T </title> $<E> Smith </> </> • 전자 상거래, EDI등 전문 검색

  6. XML과 정보검색 • 인간과 기계가 읽을 수 있다. • 정보의 display보다 구조화, 정보의 전달과 활용에 중심을 둠 • 새로운 태그의 정의가 가능 • 구조가 무한히 Nested될 수 있음 • 형(Type)이 DTD에 의해 표현된다. <product> <name language=“French”>trompette six trous</name> <price currency=“Euro”> 420.12 </price> <address format=“XLB56” language=“French”> <street> 31 rue Croix-Bosset </street> <zip> 92310 </zip> <city> Sevres </city> <country>France</country> </address> </product> • RDF(Resource Description Famework) • 검색이 효율적으로 • 내용간의 관계의 기술 가능 • 에이전트 응용에 적합

  7. HTML 4.01과 XML • Presentation ↔ Contents • HTML 문서를 Well formed XML 문서로 문법적으로 변환이 가능하다. • 궁극적으로 XML문서는 문서 구조와 태그를 어떻게 정의하느냐에 따라서 문서의 교환과 검색의 효율성에 차이가 있다.

  8. Ontology • 사용자나 시스템의 문서에 대한 모형 • 문서 구조에 대한 모형 (전문 분야별) • 너무 일반화하면 HTML처럼 된다. • 태그의 명칭 • ‘Sponsor’, ‘후원자’, ‘스폰서’, ‘광고주’ • 문서에 포함해야 할 정보 • 응용 시스템과 연계 • 응용 분야 간에 태그가 다르거나, 태그에 대한 해석이 다를 때

  9. XML에 정의 된 검색관련 Tag • <dc:Language> </dc:Language> • RFC1766 ⇒ 2자 ~ 8자 언어이름 • 2자 ⇐ RFC1766 (ISO 639-1) : KR, US • 3 ~ 8자 : IANA에 등록 후 사용 • 3자 (ISO 639-2) : KOR • ‘en-US’ (미국식 영어) • ‘enm’ : 중세 영어 (1000 ~ 1500년) • ‘en-scouse’ ⇐ 리버풀 방언 • Content-Language : kw-confied, kw-kornmyn, kw-nowedya (켈트어의 3가지 철자법) • 한글 코드 (기본 : Unicode) • 사투리, 고어 • 남한, 북한의 철자법

  10. XML과 정보의 무결성 검증, 추론 • XML에 있는 태그, self-describing 기능과 Type을 이용하여 정보의 무결성 검증이 어느 정도 가능하다. • Horn clause logic 따위를 이용(Prolog) • Family(가족)에서 아버지는 둘일 수 없다. • 아버지의 아버지는 할아버지다.

  11. XML에 의한 문서 표준화와 전문 검색 시스템 • 전자책 : OEB 1.0 • 전자 도서관 • 가상 데이터베이스 • 국가 문서 표준 • 전자 상거래 • EDI • 전자결제 • P2P

  12. 해결 해야 할 점 • 태그의 선정과 표준화 • Link • URL을 통하여 interdocument structure 표현 • 시소러스 또는 응용영역, 또는 다른 언어 간의 태그 번역 • 자연언어처리의 필요성 • Semi-structured data에서 검색 기법 • 개방된 XML문서의 검색방법 • 색인어와 구조화 관계의 표현과 저장 및 검색 • 표준화가 되지 않은 문서는 더욱 심각

More Related