1 / 53

KRISTAL-IRMS 소개 kristalinfo

KRISTAL-IRMS 소개 http://www.kristalinfo.com. 2006. 9. 21. 김진숙 한국과학기술정보연구원 (KISTI) 지식정보센터 시스템개발팀. Information Retrieval. Static Text Collection. Inverted File (Index). Boolean Retrieval. (1). A ladybug has beautiful wings …. 1, 5. (Ladybug). (2). Bugs hide from enemy as ….

aimee
Télécharger la présentation

KRISTAL-IRMS 소개 kristalinfo

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. KRISTAL-IRMS 소개 http://www.kristalinfo.com 2006. 9. 21. 김진숙 한국과학기술정보연구원(KISTI) 지식정보센터 시스템개발팀

  2. Information Retrieval Static Text Collection Inverted File (Index) Boolean Retrieval (1) Aladybug has beautiful wings… . . . 1, 5 (Ladybug) (2) Bugs hide from enemy as … ladybug 1,5 (enemy) 2, 3, 5 . . . (3) enemy of aphids is wasps that … (ladybug&enemy) 5 (4) Night heron has short legs and … enemy 2,3,5 . . . (5) (ladybug|enemy) 5, 1, 2, 3 Ladybug as enemy agriculture … However, • Some documents are modified. • New documents are created. • Some documents are deleted. DB+IR IRMS

  3. 1 4 5 # 2 3 KRISTAL-IRMS 소개 저장엔진/색인엔진/검색엔진 추가기능 및 활용분야 별첨 – KRISTAL 기능요약 KRISTAL의 고문서 처리 KRISTAL 3.1의 관리성능 목 차

  4. 1. KRISTAL-IRMS 소개

  5. KRISTAL-IRMS란? 정보 검색 엔진과 데이터베이스 관리 시스템(DBMS) 기능을 통합한 순수 국내 기술의 정보 검색 관리 시스템(IRMS) KRISTAL • 정보검색 엔진을 위주로 DBMS의 기능을 결합 • 다양한 형태의 데이터 저장 및 관리 실현 • 하부 요소 엔진들의 분리로 분산 시스템의 개념 실현 검색 고속/대용량 전문정보검색엔진 고속 데이터 색인 정보 관리 DBMS의 필수 관리 기능 탑재 고속 데이터 적재

  6. 개발배경 –정보서비스 시스템 구조 연구/운영 동향

  7. 개발배경 • 연구개발의 동기 • 자국의 언어/문화 환경에 의존하는 정보 기술 • 한글, 한자의 색인 기술 • 문자 언어의 관행에 적합한 질의 처리 • 기술적 수요가 새롭게 창출되는 분야 • 지식 정보 관리 유통에 관한 수요 증대 • 목표 형상의 미확정: 정보 기술 선진국과 경쟁할 수 있는 분야 • KISTI의 개발 기반 • 다양한 대용량 데이터 보유 • 문헌 정보 및 사실 정보 • 한글 자원 • 다양한 응용 실험의 기회 • 정보 시스템 사용자의 요구에 대한 이해 • 다양하고 복잡한 실용화 경험 • 정보 이용자의 지속적인 Feed Back

  8. KRISTAL-IRMS 역사(1/2) • KRISTAL Service 명칭에서 출발 • “과학기술정보서비스”로 명명 • “telnet”기반의 과학기술문헌검색서비스 • Korea Research Information in Science & Technology Access Line • KRISTAL-II부터 시스템 명으로 정착 • KNL, ROSE, FIRE, DAdmin 등의 내부구성요소를 가짐 • Knowledge Retrieval In Science & Technology Affiliated Literatures

  9. KRISTAL-IRMS 역사(2/2) • KRISTAL-I • 기간 : 1991. 5 - 1996. 2 (BASIS+ 이용한 정보검색) • KRISTAL-II • 기간 : 1996. 03 – (정보검색엔진) • KRISTAL-2000 • 기간 : 2000. 03 – (정보검색관리 시스템) • KRISTAL-2002 • 기간 : 2002. 10 – (정보검색관리 시스템) • KRISTAL-IRMS • 기간 : 2006. 01 – (정보검색관리 시스템) : 상용화 단계

  10. 2 바이트 언어 처리에 적합한 데이터 저장 관리 엔진 개발  구조기반 객체 저장 엔진 1 한글 처리 엔진 개발  한글 색인기, 검색 모델, 교차언어 검색기 2 상업성이 낮은 공공적 기술 수요에 대한 대응  용어사전 구축, 고문서 DB 편찬/검색 기술 개발 3 기술적 중요도는 높으나 상업성이 낮은 요소 기술의 실용화 KRISTAL-IRMS 연구개발 목표

  11. 저장-관리 • 대용량, 고속의 정보 적재 실현 • 유니코드 기반으로 국제화 실현 • 멀티미디어 데이터 수용 • GUI 기반의 관리 시스템 • 트랜잭션 처리 • 단순화된 DB 관리 DB 관리 응용 시스템 • 다양한 플랫폼의 응용시스템 • 기능별 API화로 Customizing • 확장성 고려 분산환경 기반 KRISTAL Platform 사용자 친화적 정보 검색 관리 검색 시스템 색인 시스템 • 분산 검색 • 다양한 형태의 검색 모델 • 복합명사 확장 질의 처리 • 색인 방법의 다양화 • 빠르고 정확한 형태소분석기 내장 • 유니코드 기반 색인 KRISTAL-IRMS 특징

  12. KRISTAL 사용자 프로그램 KRISTAL 관리 프로그램(GUI) 오프라인 관리기 KRISTAL 응용 Applications 네트워크 KRISTAL 서버 APIs 관리 APIs 사용자 APIs 색인기 (INDEXER) SM 검색(FIRE) 데이터 관리(DM) KRISTAL 서버 주요모듈 하부저장(ROSE) 커널(BDB) 저장소(Repository) KRISTAL 서버 저장소 DB1 DBn DB2 … T1 T2 C1 C1’ C1’’ Tm 테이블 클러스터 멀티테이블 KRISTAL-IRMS 시스템 구조

  13. KRISTAL 사용자 프로그램 KRISTAL 관리 프로그램(GUI) Offline Program Job Scheduler DM INDEXER KRISTAL DAEMON KRISTAL DAEMON KRISTAL DAEMON FIRE FIRE FIRE DM DM DM SM SM SM INDEXER INDEXER INDEXER .. .. .. … Pipe link ROSE Socket link Process DB1 C S DBn … C S .. Thread .. T1 Tn T1 Tn DB Table T KRISTAL-IRMS 시스템 구조 - 계속

  14. 2. KRISTAL의 고문서 처리

  15. 고문서처리 (1/8) • 사용자 요구사항 분석 • 한국의 고문서는 공백의 구분이 없이 한자로 기록 • 예 : “金祖淳舊居紫霞洞, 洞在景福宮之北, …” • 한자에는 이체자 존재 • 예 : 劍 剣 劒 劔 劎 … • 대다수의 사용자는 한국어 발음으로 고문서를 검색 • 예 : 이순신 = “이순신”, “李舜臣” • 한자에는 1개 이상의 한국어 음가가 존재 • 예 : 樂 = 악(AK), 락(RAK), 요(YO); 李 = 이(YI), 리(LI) • 빠른 검색을 지원해야 하며 불리안 검색방법 사용 • 다수의 고문서는 번역되어 한문-국역 혼재

  16. 고문서처리 (2/8) 각각의 문자 색인 (Unigram) 공백없는 한문 처리 문서번호 1 上曰, 得將爲難, 以壬辰之事言之, 李舜臣爲之則能禦, … 문서번호 2 亂初李舜臣·元均等, 經營創立時, 湊合各色軍兵, … B+tree에 색인저장 색인어 各 上 色 ··· 舜 臣 李 ··· 之 辰 初 문서번호:위치 2:19 1:01 2:20 1:18 1:19 1:17 1:12 1:11 2:02 문서번호:위치 2:04 2:05 2:03 1:15 문서번호:위치 1:21

  17. 고문서처리 (3/8) 사용자 질의처리 과정 사용자 질의 “李舜臣” 시스템 질의 “李”directly followed by “舜”directly followed by “臣” B+tree 색인어 各 上 色 ··· 舜 臣 李 ··· 之 辰 初 문서번호:위치 2:19 1:01 2:20 1:18 1:19 1:17 1:12 1:11 2:02 문서번호:위치 2:04 2:05 2:03 1:15 문서번호:위치 1:21 검색결과문서 문서번호1 : 李(17) 舜(18) 臣(19) 문서번호2 : 李(03) 舜(04) 臣(05)

  18. 고문서처리 (4/8) 이체자 색인 한자의 이체자 처리 문서번호 11 今番似異於前規, 白線紙·劍柄等物加磨鍊, 似可矣。 劍 11:13 DB 관리자가 이체자 색인수준 결정 劍 劒 劔 劎 釖 釰 釼 鐱 剣 B+tree에 색인저장 劒 劔 劎 釖 釰 釼 鐱 剣 ··· 색인어 ··· 劍 11:13 11:13 11:13 11:13 11:13 11:13 11:13 11:13 문서번호:위치 11:13

  19. 고문서처리 (5/8) 한국어 음가를 이용한 검색 한국어 음가 색인 문서번호 2 亂初李舜臣·元均等, 經營創立時, 湊合各色軍兵, … 舜 臣 李 사용자 질의 = “이순신”. 2:04 2:05 2:03 복수 음가 B+tre의 각 음가 접근을 통한 검색 수행 [李 이 리] [舜 순] [臣 신] B+tree에 색인저장 이 리 舜 순 臣 신 ··· 색인어 ··· 李 2:03 2:03 2:04 2:04 2:05 2:05 문서번호:위치 2:03

  20. 고문서처리 (6/8) Bigram 색인을 활용한 빠른 검색 문서번호 2 亂初李舜臣·元均等, 經營創立時, 湊合各色軍兵, … 舜 臣 한자 Bigram, 한국어음가 Bigram을 추가로 색인 李 舜臣 李舜 2:04 2:05 2:03 2:04 2:03 순 신 이 순신 이순 “이순신”검색 2:04 2:05 2:03 2:04 2:03 Unigram 검색 Bigram 검색 승정원일기 DB의 실례 “이” 포함 문서수= 593,579 “순” 포함 문서수= 75,051 “신” 포함 문서수 = 305,013 “이순” 포함 문서수= 4649 “순신” 포함 문서수= 420 최소 저장장치접근회수= 3 최소 저장장치접근회수= 2 최소 CPU 연산회수= 593,579 최소 CPU 연산회수= 4649

  21. 고문서처리 (7/8) 국역-한문 혼용 문서처리 문서번호 3 쇠약해진 기력의 회복을 위해 권제를 따를 것을 청하는 이지항 등의 계 大司諫李之恒, 司諫沈大孚, 獻納洪處亮, 正言李正益·鄭世輔啓曰, … 쇠약 기력 권제 청 회복 한국어 한국어 형태소분석기 적용(명사색인) 3:01 3:02 3:04 3:05 3:03 이지항 등 계 3:06 3:07 3:08 司 諫 大 司諫 大司 한문 ··· 한자, 한국어 음가, Bigram 색인 3:10 3:11 3:09 3:10 3:09 사 간 대 사간 대사 ··· 3:10 3:11 3:09 3:10 3:09

  22. 고문서처리 (8/8) • 요약: KRISTAL의 고문서처리 해법 • 각각의 한자를 모두 색인 (Unigram 방식) • 한자의 이체자는 DB 관리자의 선택에 따라 색인가능 • 한자의 한국어 음가에 의한 검색을 지원하기 위해 각 한자의 음가를 색인 • 선택에 따라 한자, 한국어 음가에 대해서 Bigram을 색인할 수 있고며 빠른 검색을 지원 • 국역-한문 혼용문서에서 한국어와 한문은 독립적인 방식으로 색인가능 • 이상의 모든 기능은 정보검색관리시스템(IRMS)을 기반으로 개발되었기 때문에 고문서에 대해서도 일반문서와 마찬가지로 검색과 관리의 동시지원 가능

  23. 3. KRISTAL 3.1의 관리성능

  24. 관리성능 –버전별 관리기능의 특징

  25. 관리성능 KRISTAL-2002 2.0/2.1 • 보조 DB 기반 갱신 • 일정수준의 갱신 후에는 DB 최적화 필요 KRISTAL 3.1 • 색인분할(Postings Segmentation) 알고리즘 사용 • 별도의 DB 최적화 작업이 필요하지 않음. 그림: 버전별 수정/삽입 속도 추이 비교

  26. 관리성능 KRISTAL-2002 2.0/2.1 • 보조 DB 기반 갱신 • 일정수준의 갱신 후에는 DB 최적화 필요 KRISTAL 3.1 • 색인분할(Postings Segmentation) 알고리즘 사용 • 별도의 DB 최적화 작업이 필요하지 않음. 그림: 버전 3.1의 문서관리 성능 대상 DB: 학회 DB • 70만건 • 71개 섹션 • 섹션별 색인어 평균 400개

  27. 고문서관련 KRISTAL 연구 및 개발 현황 • 기존 • 이체자/복수음가, 국역-한문 혼용문서 색인 지원 • Bi-gram 색인 방식에 의한 빠른 검색 • KConverter에 의한 XML 단편화 지원 • 현재 • SYS.CDATE/SYS.UDATE 지원 • Wild Card 검색을 위한 LIKE 검색 • 관리 성능 향상 2.0/2.1  3.1 • 다양한 DB 관리 도구 개발 • 향후 • Regular Expression에 의한 섹션값 추출 • XML 문서 변환 모듈 개발(KConverter의 시스템 밀결합) • XML 질의표현식(Xpath) 지원 방안 강구 • 색인의 양이 일반문서에 비해 수~수십 배에 달하는 고문서 데이터베이스에서의 효율적인 관리 • 단편화, 이로 인한 XML 복원의 어려움 • 편법이 아닌 온전한 XML의 지원에 대한 연구 필요

  28. 4. 저장엔진/색인엔진/검색엔진

  29. Retrieval Oriented Storage Engine (ROSE) Multimedia Data Manager Bulk Load Manager Cat Manager Set Manager Structured Data Manager XML Parser Doc. Manager Index Manager Recovery Manager Backup Manager KRISTAL Repository Catalog DB Cache-based Result Set DB … Doc. DB Index DB 저장엔진 DBMS의 필수 관리 기능과 IRS의 검색기능이 밀결합된(Tightly Coupled) IRMS 기능지원 고속의 대용량 데이터 적재 비정형, 구조문서(XML)등 다양한 형태의 데이터 저장 및 관리 기능 지원 유니코드 기반 정보 저장시스템 문서단위 동시성(Concurrency Control), 복구(Recovery)에 적합한 Coarse-grained transaction 지원

  30. KRISTAL 데이터베이스 구조 결과집합 DB 카탈로그 DB 색인 DB 색인 DB 색인 DB 문서 DB 문서 DB 문서 DB 저장엔진 • 데이터베이스 구조 • 데이터베이스: 서비스 대상, 다수의 테이블 클러스터로 구성 • 카탈로그 DB: 테이블 속성정보(스키마 정보) • 문서 및 색인 DB: 문서, 색인어 • 결과 집합 DB: 검색결과 및 질의

  31. CCBB 정보 한국 바이오 형태소분석 정보 1 2 CCBB 한국 KISTI 4 형태소분석 2 5 1 3 4 RNBD numeric KISTI 전체 색인 Supercomputing 한국과학기술정보연구원 토큰 저장엔진 • 색인 구조

  32. 저장엔진 • 데이터 타입 • 고정길이, 가변길이 문자열, 숫자, 불리언 타입 지원 • KSTRING: 가변길이 문자열 • KCHAR[N]: 고정길이 문자열 • N 만큼의 길이를 가짐 • KINT, KUNIT, KFLOAT: 숫자형 • KBOOL: 불리언 • TRUE, FALSE

  33. 유형별 색인 기능 모듈 사전 관리기 메모리 관리기 메모리 관리기 체언 분석 모듈 명사, 대명사, 복합명사 분석 수사 분석모듈 수사 분석 분석 사전 정의 -사전 파일 이미지 생성 -사전 탐색, 삽입, 삭제, 변경 형태소 분석 모듈 패키지 용언 분석 모듈 동사,형용사,어미 분석 미등록어 분석 모듈 형식형태소 사전, 확률 추정 분석 결과 저장 관리 독립언 분석 모듈 독립어, 관형사 등 분석 모드별 형태소분석 API 명사, 대명사, 복합명사 분석 메모리 관리기 파일 관리기 메모리 관리기 메모리 관리기 메모리 관리기 분석 사전 -품사사전(명사,대명사,동사..) -고유명사사전(인명,지명..) -기능성사전(어미,조사 등) -형식형태소 사전 -기분석사전 시스템 메모리 관리 모듈 탑재 -메모리 생성, 제거, 변경 -전체 메모리 할당량 관리 시스템 사용 파일 관리 모듈 탑재 -파일 열기, 닫기 -파일 삭제, 생성, 변경 색인엔진 한글 형태소 분석기 이용 한국어 어절 생성 규칙에 의한 세부 어휘 분석기능 문자, 단어, 형태소 단위의 다양한 색인 타입 지원 - 언어와 데이터 타입에 적합한 색인 적용 한자 변환 처리 지원 - 이체자 색인, 한글-한자 변환테이블 사전화 유니코드 기반 색인 시스템(외국어 색인 및 검색)

  34. 색인엔진 • 색인형식 및 예시 (HANJA2HANGUL이 False인 경우)

  35. Memory DB Summary DB 검색엔진 결과 내 재검색 섹션별 그룹 검색 멀티 스키마 검색 멀티 섹션 소팅 문서 분류 불리언, 벡터 검색 모델 지원 Memory DB 이용한 신속한 검색 Summary DB 이용한 효율적 검색 멀티쓰레드 기반 검색 섹션간 유사 문서 검색

  36. 검색엔진 • 특징 • 불리안, 벡터, 벡터불리안 검색모델 제공 • 한글 고어, 일본어, 러시아어 등 다국어 검색 • 한문 검색 • 한글 한자 혼합 검색 • 이체자 검색 • 실시간 디렉토리 서비스 구성 • 검색 결과의 구조적 표현 제공 • 검색 결과의 디렉토리 서비스 형식의 표현 제공 • 전문가 검색을 위한 불리안 검색 • 검색 결과에 대하여 보다 정확한 문서 우선 순위 제공 • 유사문서 검색 제공 • 결과 내 검색 제공

  37. 검색엔진::검색모델 별 특징

  38. 사용자 질의 벡터모델 검색결과  우선순위별 제시 TITLE: 문단단위 문서범주화 문단단위를 이용한 효과적인 문서범주화 ① 문단 단위 가중치 함수와 문단 타입을 이용한 문서 범주화 ② 바이그램이 문서범주화 성능에 미치는 영향에 관한 연구 ③ SVM 분류기를 이용한 문서 범주화 연구 ④ ... ⑤ 검색엔진 • 벡터스페이스 모델 • 빠른 검색 기능 제공 • 높은 정확도 제공 • 일반 사용자를 위한 검색 모델 • 요약 DB 지원(검색 성능 향상) • 불리안 검색의 논리연산 및 관계연산은 지원하지 않음 • 우절단 연산 지원

  39. 검색엔진 • 벡터불리안 검색 : 특징 • 불리안 검색 + 벡터검색 • 불리안 연산결과에 대하여 문서우선순위를 계산하여 검색결과 제공 • 검색방법은 불리안검색과 동일함 • 랭킹 지원 • 높은 정확도 • 검색속도는 느림

  40. TITLE: 정보 TITLE: 정보 & 시스템 정보시스템 현황 정보검색시스템 정보검색 입문 문헌정보 서비스시장 생물정보 서비스시스템 정보시스템 현황 정보검색시스템 생물정보 서비스시스템 “TITLE:시스템” 결과 내 검색 검색엔진 • 결과 내 검색 • 검색결과에 대한 재검색 기능 제공 • 예) (TITLE: 정보)  결과 내에서 “시스템” 포함 문서만 재검색 (TITLE: 정보 & 시스템)

  41. 검색엔진 • 유사 문서 검색 • 사용자가 지정한 문서에서 단어들을 추출 • 문서의 빈도 및 단어의 빈도를 이용하여 좋은 자질의 단어를 선정 • 자질 추출 시, 섹션 지정 가능 • 벡터 모델을 이용하여 문서의 랭킹 처리 • 사용자가 지정한 유사문서 범위의 값(0~1,0)을 선택 • 유사 문서 범위의 값: 0.5 지정 → 50% 이상의 유사한 문서를 나타냄

  42. 5. 추가기능 및 활용분야

  43. XML 문서 변환 규칙 데이터베이스 정보변환 적재 XML 테이블 결과 KRISTAL 적재 포맷 KRISTAL 스키마 KRISTAL XML 변환 모듈 XML 처리기능 • 변환규칙 및 변환도구 제공 • XML문서를 단편화하기 위한 변환규칙 파일 작성 • 변환도구는 변환규칙 파일을 이용하여 XML문서를 단편화 • 단편화된 문서를 KRISTAL에 적재 • 적재된 단편화된 문서에 대한 관리 및 복원 기능 제공

  44. 문서 요약 및 문서 하이라이팅 • 검색된 결과 출력 가공 • 문서의 내용이 긴 경우 간략하게 보여주고자 할 때 사용 • 질의어가 포함된 특정 부분을 보여주고자 할 때 사용

  45. 사용자 편의 도구::검색관련도구 • 메모리 DB • 대용량 검색결과에 대한 실시간 정렬작업 속도를 빠르게 처리하기 위해 사용 • Summary DB • 벡터 공간 모델의 검색속도 향상을 위해 사용

  46. 사용자 편의 도구::DB 적재 및 이주 • 문서 벌크 적재기 • 다양한 문서(정형포맷, XML, CSV)에 대한 적재 도구 제공 • 문서 덤프 도구 • 적재된 문서를 정형포맷, XML, CSV 등의 형식으로 출력 • 마이그레이션 도구 • 하위 버전으로 구성된 DB를 상위 버전으로 마이그레이션 하기 위한 도구 • DB구성 도구 • 여러 개의 테이블을 조합하여 새로운 DB로 구성하는 도구

  47. 사용자 편의도구::테이블 구성 변경도구 • 섹션 연산(Section Operation) • 섹션 제거 도구 • 섹션 추가 도구 • 섹션 크기 변경 도구 • 섹션 내용 일괄 변경 도구 • 인덱스 연산(Index Operation) • 기존 인덱스 제거 도구 • 새로운 인덱스 생성 도구

  48. 멀티미디어 서비스시스템 문헌정보 서비스시스템 단순구조 정보관리시스템 고문서DB 편찬시스템 KRISTAL-IRMS - 정보서비스 - 정보생성 - 정보가공 유전자정보 서비스시스템 맞춤정보 서비스시스템 디렉토리 서비스시스템 XML문서 서비스시스템 활용분야

  49. 대표적 적용사이트 • 내부사이트 • 과학기술 통합검색 (http://www.yeskisti.net) • 과학기술 통향서비스 (http://techtrend.kisti.re.kr) • 북한과학기술자 네트워크(http://www.nktech.net) • 생물정보 서비스 (http://www.ccbb.re.kr) • 과학기술학회마을 (http://society.kisti.re.kr) • 학회논문투고관리 시스템 (http://acoms1.kisti.re.kr:8080/kistiacoms/acoms_new) • 미래선도 기술네트워크 (http://next10.yeskisti.net) • 한민족과학기술자 네트워크 (http://www.kosen21.org) • 부품소재종합정보망 (http://www.mctnet.org) • 외부사이트 • 국사편찬위원회 한국사DB (http://www.history.go.kr) • 국사편찬위원회 승정원일기 (http://sjw.history.go.kr) • 한국역사통합정보시스템 (http://www.koreanhistory.or.kr) • 경상대학교 문천각 (http://nmh.gsnu.ac.kr) • 민족문화 추진회 (http://www.minchu.or.kr) • 서울대학교 규장각 (http://e-kyujanggak.snu.ac.kr) • 디지털 성남 문화대전 (http://seongnam.grandculture.net) • 디지털 청주 문화대전 (http://cheongju.grandculture.net)

  50. # 별첨

More Related