勉強会８月９日

勉強会８月９日 Bernard Lamers

今日取り上げる論文 • Schulte im Walde, Sabine and Brew, Chris. 2002. Inducing German Semantic Verb Classes from Purely Syntactic Subcategorisation Information. Proceedings ACL.

Inducing German Semantic Verb Classes • 概要： • 対象はドイツ語 • 動詞を格フレームの確率分布に基づいてclustering • 格フレームは２５００万語のコーパスから自動取得、clusteringはk-means方法で行う。 • 結果を手で製作された動詞分類と比較し、評価する。

ドイツ語の動詞クラス • 格フレームは多くとも三つのargumentを取る。可能なargument: nominative(n), dative(d), accusative(a), reflexives(r), prepositional phrases(p), expletive es(x), non-finite clauses(i) etc. • フレームはnaiなどで表す。ドイツ語には38種類のフレームが存在する。

格フレームの確率分布の例 • glauben（思う、信じる）

動詞のクラスの例 • 実験後の結果を分析するため、前もって人が作ったクラスを用意する。 • ５７個の動詞を１４個のクラスに。例： • Announcement: ankundigen(知らせる),bekanntgeben(告知する),eroffnen(打ち明ける),verkunden(布告する) • Manner of motion: fahren(運転する),fliegen(飛ぶ),rudern(漕ぐ),segeln(帆走する)

Clustering方法 • K-meansアルゴリズム：n個のデータオブジェクトをちょうどk個のクラスタに割り当てる教師なしのclustering方法 • １：各動詞が一番近いクラスタに割り当てられる。 • ２：クラスタの新しいcentroidが計算され、ステップ1にいく。 • 動詞がすべて別のクラスタに割り当てられなくなる次第、終了

K-meansの弱点：starting clustersに依存 • Starting clustersの選択： • Random • Agglomerative hierarchical clustering: • 最初は各動詞にクラスタを割り当てる • 一番近い二つのクラスタを mergeする • k個のクラスタが残るまで繰り返す • Merge方法：single-linkage, complete-linkage, average verb distance, distance between cluster centroids and Ward’s method

距離をいかに測るか • 距離：cosine、ユークリッド距離、Kullback-Leibler divergence (relative entropy) • KL-divergenceを利用： • Information radius: d(v1, v2) = D(p || (p+q)/2 ) + D(q || (p+q)/2) • Skew divergence: d(v1 , v2) = D(p || w*q + (1-w)*p) • 以上のものは確率分布qの中でzero valueがあっても問題ない。

Clustering evaluation: MI(A, B) • 個別のclusterの質をcluster purity ABijで表す。ABijは同一のクラスBjに写像されるクラスAiのメンバーの数。 • 全体的なclusteringの評価：式（４） • MI(A, B)にはありがたくない性質もある別の評価方法としてAPPを導入する。

Clustering evaluation: APP • APP: adjusted pairwise precision。 • 個別のclusterの場合：式（５） • 全体的なclusteringの場合：式（６）。 • MIの範囲:0.229-0.493 • APPの範囲：0.017-0.291

実際のclustering • 結果は表1と2 • 実際の得られたclusteringの例：6節 • その例の評価のとき、どのフレームはclusteringにどう影響するかを検討。

結論 • 自動的に得られた動詞分類は直感的に存在するクラスと一致。 • ドイツ語の場合はsyntaxだけで意味の要素をとることが可能である。 • これからの道： • selectional restrictionsを利用する。

勉強会８月９日

勉強会８月９日

Presentation Transcript