음절 정보만 이용한 한국어 복합 명사 분해

음절 정보만 이용한 한국어 복합 명사 분해 제 15회 한글 및 한국어 정보처리 학술대회 서울대학교 컴퓨터공학부 바이오 지능연구실 박성배,장병탁 2007년 10월 4일 목요일 NLP Lab. Seminar 발표 : 이주호

목차 요점 요약 기존 연구 GECORAM 알고리즘 GECORAM과 RIPPER 및 TBL, AdaBoost의비교 실험 결과

요점 요약 • 한국어는 복합 명사 생성이 매우 자유스럽다. • 독립된 명사를 연속으로 붙여 쓰는 것이 가능. • 복합 명사는 단일 명사에 비해 더 많은 문맥 정보를 가진다. • n개의 음절로 이루어진 어절을 분해할 수 있는 경우의수 • 규칙 학습 + 기억기반 학습 • 규칙학습 알고리즘 • 생성된 학습 결과를 사람이 쉽게 이해. • 다른 지도 학습 알고리즘에 비해 성능이 떨어진다. • 규칙학습 과 기억기반 학습을 결합할 경우 높은 성능을 보인다.

기존 연구(통계를 이용한 방법) • 합성된 상호 정보를 이용한 복합 명사 분리(심광섭) • 110만 어절의 말뭉치로 부터 학습된 상호정보를 이용하여 복합 명사를 분해 • 상호정보는 4가지 유형의 음절간 상호 정보를 합성한 것. • 긍정적 상호정보 Ip(Si,Si+1) • 부정적 상호정보 In(Si,Si+1) • 머리 상호정보 Ih(Si,Si+1) • 꼬리 상호정보 It(Si,Si+1) • Compound Noun Decomposition using a Markov Model(Lee JW, Zhang BT, Kim YT) • 복합명사 분해를 품사 태깅과 같은 문제로 보고 마코프 모델을 적용

기존 연구(규칙을 이용한 방법) • 한국어 복합명사 분해 알고리즘(강승식) • 네 개의 분해 규칙과 두 가지 예외 규칙을 사용하여 가능한 분해 후보들을 생성분해 후보들에 대해 가중치를 부여하여 최적 후보를 선택하는 알고리즘. [1/2] • 분해규칙1: 사전에 수록된 sequence를우선으로 분해 후보를 생성. • 분해규칙2: 복합 명사의 음절 패턴을 이용하여 빈도가 높은 유형을 우선으로 생성. • 분해규칙3: 분해되는 명사는 2음절 이상으로 한다. • 1음절은 접두사 혹은 접미사로 간주 • 1음절 명사를 분해하면 잘못 분해할 확률이 높아짐

기존 연구 (규칙을 이용한 방법) • 한국어 복합명사 분해 알고리즘(강승식) • 네 개의 분해 규칙과 두 가지 예외 규칙을 사용하여 가능한 분해 후보들을 생성분해 후보들에 대해 가중치를 부여하여 최적 후보를 선택하는 알고리즘. [2/2] • 분해규칙4: 2음절 단위명사가 분해되면 2+x유형과 함께 다음 1 음절을 접미사로 간주한 3+y 유형에 대한 분해 후보를 생성한다. • 예외규칙1: 사전에 수록되어 있는 4~5 음절 단위명사는 우선적으로 분리한다. • 예외규칙2: 사전 탐색과 접미사에 의하여 단위명사가 분리되지 않으면 한 음절씩 건너 뛴다. • 미등록 단위 명사가 포함된 복합 명사를 분해할 수 있다. • 통계 정보와 선호 규칙을 이용한 한국어 복합 명사 분해(윤보현,조민정,임해창) • 통계 정보와 우선 적용 규칙을 사용. • 미등록어를 포함한 복합명사는 휴리스틱을 이용하여 분할.

GECORAM 알고리즘[1/4] • 한국어 복합 명사 분해 문제 • 주어진 음절wi의 어디를 띄울 것이냐를 결정하는 이진 분류 문제 • wi의 문맥정보 hi의를사용 소개 논문에서는 문맥 정보로 좌우 n개의 음절을 사용한다. • GECORAM(Generalized Combination of Rule-based learning And Memory-based learning) • 분류 문제를 풀기 위하여 규칙기반 학습과 기억 기반 학습을 효과적으로 결합하는 일반적인 방법이다.

GECORAM 알고리즘[2/4] 기억 기반 학습에 현재 문맥 hi가 규칙의 예외 상황인지 판단 규칙이 잘못 분류할 가능성이 높으므로 , 규칙이 결정한 결과를 버리고 기억 기반 학습이 결정한 바를 따른다. wi에서 분리할 것인지 우선 학습된 규칙을 사용하여 결정 규칙으로 잘못 분류된학습 예제들을 따로 모아서 오류 라이브러리에 저장하여 기억기반 학습

GECORAM 알고리즘[3/4] • 규칙학습 • IREP의 변형된 알고리즘인 MODIFIED_IREP를 사용 • MODIFIED_IREP에는 prune모드가 없다. • IREP알고리즘에서 규칙을 간결화 하는 기능과 확장하는 기능이 있다. • prune은 규칙을 간결화하는 기능 MODIFIED_IREP에서는 규칙이 커지기만 하고 간결화 되지 않는다. • PruneRule의 기능은 기억기반 학습이 대신한다. • MODIFIED_IREP에서 학습 되지 못한 예제들은 기억 기반 학습으로 학습한다.

GECORAM 알고리즘[3/4] • 기억 기반학습[1/2] • K-nearest neighbor(k-NN)의직접적인 후계 알고리즘 • k-NN(k-Nearest Neighbor)은 훈련용 데이터로부터 가장 가까운 K 개의 근접이웃을 선택하여 다수결의 원칙 또는 근접 정도에 따른 가중치평균으로 분류 또는 예측 값을 계산해 내는 방법. • 기억 기반 학습에서의 학습은 예제를 메모리에 저장 하는 것 • 예제 x의 클래스는 메모리 내에서 x와 가장 비슷한 k개의 예제들 사이의 가장 빈도수가 높은 클래스로 결정 • 유사도 계산 방법

function Classify-GECORAM(x, , RuleSet, MBL) begin cRuleSet(x) y the nearest instance of x in Err if(x, y) then cMBL(x) endif return c end GECORAM 분류 알고리즘. GECORAM 알고리즘[4/4] • 기억 기반학습[2/2] • αj가 정보 이득에 의해 결정되면 이 단위를 쓰는 k-NN 알고리즘을 IB1-IG라고 부르며 GECORAM 알고리즘의 기억 기반 학습으로 IB1-IG를사용 • 규칙기반 학습과 기억기반 학습을 언제 사용할지 결정 • θ는 ∆(x,y)의 임계값 이고 ∆(x,y)가 θ보다 크면 규칙을 적용하지 않는다. • θ값은 학습 데이터와는 독립적인 데이터 집합(Held-out)을 가지고 GECORAM 분류알고리즘을 다양한 θ값에 대해 적용하여 가장 좋은 성능을 내는 θ값으로 정한다.

GECORAM과 RIPPER 및 TBL, AdaBoost의비교 • GECORAM 과 RIPPER 알고리즘은 IREP을 기반으로 하고 있다는 점에서 비슷한 알고리즘이다. • RIPPER는순수히규칙 기반 학습 • GECORAM은 RIPPER의 Optimize기능을 기억 기반 학습이 한다. • GECORAM은 TBL, AdaBoost와여러 가지 면에서 비슷한 성질을 가진다.[1/2] • TBL, AdaBoost모두 간단한 규칙을 결합하여 분류기를 만든다. • TBL은 직관적 알고리즘 • 1.TBL은 학습 데이터에 대해 과도한 학습을 하기 쉽다. • 2.TBL은 노이즈에 민감하다. • 3.[1.2]의 요소들이 응용문제의 성능을 높이는 쪽으로 나아가는지에 대한 보장이 전혀 없다. • Adaboost는 이론적으로 견고한 알고리즘 • 속도에서 GECORAM 알고리즘이 우수

실험 결과 • 사용된 데이터 집합 • “합성된 상호 정보를 이용한 복합 명사 분리(심광섭)” 에서 사용된 것. • “통계 정보와 선호 규칙을 이용한 한국어 복합 명사 분해(윤보현,조민정,임해창)”에서 사용된 것. • 데이터의 통계 정보

실험 결과 • 실험 방법 • 학습 데이터 : 전체 데이터 중 80% • held-out : 전체 데이터 중 10% • 검증 데이터 : 전체 데이터 중 10% • 10-fold cross validation을실행 • RIPPER, SLIPPER, C4.5, TiMBL과 비교

실험 결과 Shim 데이터 집합의 문맥의 길이에 대한 정확도

실험 결과 Yoon 데이터 집합의 문맥의 길이에 대한 정확도

실험 결과 Shim 데이터 집합의 문맥의 길이에 대한 생성된 규칙의 수

실험 결과 Yoon 데이터 집합의 문맥의 길이에 대한 생성된 규칙의 수

실험 결과 각 학습 방법의 최고 정확도

Q&A 수고 하셨습니다.

음절 정보만 이용한 한국어 복합 명사 분해

음절 정보만 이용한 한국어 복합 명사 분해

Presentation Transcript