정보탐색팀 : 정보탐색을 위한 확률신경망 학습 기술

뇌신경정보학연구사업 인간의 신경인지기전 모델에 기반한 추론 및 학습기술 개발 정보탐색팀: 정보탐색을 위한 확률신경망 학습 기술 서울대학교 컴퓨터공학부 장병탁

정보 추출   정보 여과 정보 분류 Web 웹 마이닝 컨텐츠 정보분석 문서 인덱싱 신경망 기반 정보 추출 및 분류 시스템 인간의 정보 분류/범주화 체계 . . … 텍스트 처리 인지 기제 정보분류체계의 행동,수리적 모형 대용량 DB LSA, PCA, MDS Factor Analysis 인지심리분석시스템 정보탐색기술 연구 체계도 고성능 정보검색 시스템 제품 정보 DB 구축 대규모 텍스트 분석 주제어 추출 모델의 자동 학습 PLSA NMF ICA 개인차 이용 시스템 Multiple-cause model 은닉변수 기반 텍스트 마이닝 시스템

정보탐색기술 연구 계획 1차년도 2차년도 3차년도 • 은닉변수 신경망 모델 • 연구 • PLSA, NMF, ICA • Multiple cause model • 고성능 정보검색 시스템 • 개발 / 평가 • Neuro-IR • 대규모 문서데이터에 • 적용 • 은닉변수 신경망 모델 • 기반의 정보검색 기술 • 개발 • 모델의 자동학습 • 기본성능 테스트 웹 컨텐츠 정보의 분석, 분류, 여과 기술 개발 • 신경망 기반의 정보 추출 • 사용자의 요구에 맞는 • 정보추출 • DB구축 및 타 과제와의 • 시스템 통합 • 제품 정보 DB 구축 • DB의 효용성 확인 • 정보 분류의 인지심리학 • 수리심리학적 모형 • 텍스트 처리 고유의 • 인지기제 • 정보분류와 범주화에 • 대한 개인화 인간에 적합한 시스템 구축방식과 제한적 해결방안 연구 • 개인차 이용 시스템의 • 구현 및 평가 • 시스템의 수행능력 • 비교 연구

1차년도 연구목표 및 내용 • 텍스트 문서의 분석, 분류를 위한 은닉변수 신경망 모델 연구 • Multiple-cause models, PLSA, NMF, ICA, HMM 등. • 은닉변수 신경망 모델 기반 문서 인덱싱 기법 및 주제어 추출 연구 • 다양한 웹컨텐츠 정보의 분석, 분류, 여과 방법 연구 • 다양한 웹사이트의 컨텐츠 정보에 대한 분석 방법 연구 • 신경망 기반 웹컨텐츠 정보 분석, 분류, 여과 방법 연구 • 정보 분류에 대한 인지심리학, 수리심리학적 모형 개발 • 인간의 정보 분류체계에 대한 행동적/수리적 모형 개발 • LSA 모형, 신경망 모형, PCA, 요인 분석, MDS 모형 등 • 텍스트 처리에 고유한 인지 기제 연구

텍스트 마이닝을 위한 신경망 기술 토픽 기반 문서 인덱싱 및 여과 • 토픽추출을 위한 모델 연구 • PLSA, NMF, Multiple Cause Model, PCA, ICA • 토픽 추출에서의 모델의 특징 및 성능 비교 • PCA (Principal Component Analysis) • ICA (Independent Component Analysis)

주제어 기반 문서 인덱싱 Topic-based representation Word-based Representation Document vector Topic vector … 3 0 1 0 … bio … 0 0 1 0 … bible … 0.5 0.2 0.3 0.1 … bike … 1 1 0 0 … … 0.3 0.4 0.4 0.0 … … 0 3 0 3 … fever … 0.3 1.3 0.5 0.9 … … 1 0 0 2 … focus 은닉변수모델에 의한 토픽 추출 및 차원 감소 life … 1 0 2 0 …

주제어 기반 문서여과 • 문서의 표현 • 문서간 유사도 … … di1 di2 di3 dik wi1 wi2 wi3 wik 모델에 의한 표현 토픽들의 가중치(Global Weight)를 고려한 표현

문서여과 실험 • 데이터 집합 • TREC-7 Filtering 데이터 집합 • 1998년 AP 기사 집합 • 총 79,919 문서 집합 • 실험 설정 • 어휘 크기: 20,000 • 토픽의 개수: 64 • 성능 척도 • 질의문의 종류

주제어 추출 결과 PCA ICA

ICA ICA with GW PCA PCA with GW 문서여과 성능 비교 Query

… User action like Bookmarking and Saving pages User behavior like Frequently visited pages Other collections like Click-streams Usage mining system User profile database Personalized service system (update) 1. Adaptive information filtering agent based User Modeling 2. Predictive agent for next user requests User 웹정보의 분석, 분류, 여과 User Modeling System 구조

Adaptive Information Filtering Agent • 사용자에게 유익한 관련 정보만을 선별적으로 골라내어 전달, 제공 • 사용자의 관심도, 선호도, 흥미 등의 파악과 시간적으로 변하는 사용자의 동적인 관심 영역의 변화에 적응적으로 대처 • 사용자의 무의식적인 잠재적 관심 영역까지 도출해 낼 수 있는 능력 • 이런 특성을 지니기 위해서는 무엇보다도 사용자에 대한 프로파일의 정확한 구축이 필 수 조건이며, 사용자 프로파일 바탕에는 사용 자의 적합성 반응이 필요

특정 영역의 웹정보 추출 • WordNet 기반 • 비관련 영역 단어로서 특정영역 관련문서에 다수 출현 단어집합(positive term set) • 특정영역 단어가 나오는 특정영역 비관련 문서에 다수 출현하는 비관련 영역 단어집합(negative term set)

Education Animal Animal 비관련 Movie 44개 Movie Education 1 관련문서 0 비관련문서 Pet 4개,6개,8개,10개 Education Movie Back-Propagation Network Model 단어 WordNet Model WordNet과 BPN을 이용한 문서 적합성 판단

링크와 클러스터링을 이용한 적극적 문서 수집 • 전제 • 동물에 관하여 전문적으로 정보를 제공하는 사이트. • 비교적 정해진 형식에 맞추어 다수개의 동물 정보를 제공. • 단계 • 1. 동물 관련문서들을 수집해 올 사이트를 선택 • 2. 선택된 사이트의 모든 웹 문서들을 수집 • 3. 웹 문서의 작성 형태에 따라 클러스터링 • 4. 결과 그룹 중에 좋은 웹 문서를 포함한 그룹 선택 • 5. 선택된 그룹의 웹 문서들을 동물 관련문서로 수집 • 6. 1로.

실험 및 결과 가 : www.animalinfo.org 나 : www.parks.tas.gov.au 다 : animaldiversity.ummz.umich.edu

전회사 부서 L 부서 H Male Male Male Female Female Female Hired Hired Hired 550 2950 3500 800 2050 1250 Denied Denied Denied 2500 1050 1450 200 2750 2950 H/Rate H/Rate H/Rate 27.5% 73.75% 51.3% 80% 31.25% 41% 텍스트 분류에 있어서의 집합의 오류 Simpson’s Paradox 두 개나 그 이상의 contingency table이 하나로 통합되면 원래의 표 각각에서 나타난 변인 관계가 사라지거나 역전되는 현상 < > <

Group A Group B x1 x2 x1 x2 18 19 32 37 24 34 28 31 25 30 11 14 15 22 12 13 11 19 8 14 10 16 19 21 20 14 14 16 19 20 23 24 27 24 29 21 24 27 21 25 집단 A: r12= +.62 집단 B: r12= +.38 Spurious Correlation x1과 x2의 관계성(상관계수 r12) 전체집단: r = - .44

HiringRate 부서 H 부서 L 집단 B 집단 A 0(male) 1(female) Sex Aggregation Error의 원인 집단간 변인 평균의 차이 때문에 발생 x2 x1 부서 L/ H와 전체회사의 고용률 집단 A / B의 x1, x2분포

Sockloff(1975) • 두 변인의 평균이 모두 subgroup 1 > subgroup 2  total group correlation이 exaggerated • 변인 1의 평균: subgroup 1 > subgroup 2, 변인 2의 평균: subgroup 1 = subgroup 2  total group correlation이 asymptotically zero • 변인 1의 평균: subgroup 1 > subgroup 2, 변인 2의 평균: subgroup 1 < subgroup 2  total group correlation이 diminished

교정방법 1: Meta-analysis Technique 상위 계층 단위별로 자료를 따로 분석한 뒤 통합 • 상관의 산술평균 • 상관의 표본크기 가중평균 (Hunter & Schmidt, 1990) • cosine(arccosine의 산술평균) • 단, arccosine=cosine-1 • cosine(arccosine의 표본크기 가중평균)

교정방법 2: Hierarchical Linear Model • 확률효과 모형 사용-HLM • , • 측정오차 eij~ N(0,V1) • 확률적 parameter bj~N (0,V2) • 첨자 i: individual(micro unit)에 대한 것 • 첨자 j: group(macro unit)에 대한 것

정보탐색팀 : 정보탐색을 위한 확률신경망 학습 기술

정보탐색팀 : 정보탐색을 위한 확률신경망 학습 기술

Presentation Transcript