1 / 13

勉強会8月9日

勉強会8月9日. Bernard Lamers. 今日取り上げる論文. Schulte im Walde, Sabine and Brew, Chris. 2002. Inducing German Semantic Verb Classes from Purely Syntactic Subcategorisation Information. Proceedings ACL. Inducing German Semantic Verb Classes. 概要: 対象はドイツ語 動詞を格フレームの確率分布に基づいて clustering

brac
Télécharger la présentation

勉強会8月9日

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 勉強会8月9日 Bernard Lamers

  2. 今日取り上げる論文 • Schulte im Walde, Sabine and Brew, Chris. 2002. Inducing German Semantic Verb Classes from Purely Syntactic Subcategorisation Information. Proceedings ACL.

  3. Inducing German Semantic Verb Classes • 概要: • 対象はドイツ語 • 動詞を格フレームの確率分布に基づいてclustering • 格フレームは2500万語のコーパスから自動取得、clusteringはk-means方法で行う。 • 結果を手で製作された動詞分類と比較し、評価する。

  4. ドイツ語の動詞クラス • 格フレームは多くとも三つのargumentを取る。可能なargument: nominative(n), dative(d), accusative(a), reflexives(r), prepositional phrases(p), expletive es(x), non-finite clauses(i) etc. • フレームはnaiなどで表す。ドイツ語には38種類のフレームが存在する。

  5. 格フレームの確率分布の例 • glauben(思う、信じる)

  6. 動詞のクラスの例 • 実験後の結果を分析するため、前もって人が作ったクラスを用意する。 • 57個の動詞を14個のクラスに。例: • Announcement: ankundigen(知らせる),bekanntgeben(告知する),eroffnen(打ち明ける),verkunden(布告する) • Manner of motion: fahren(運転する),fliegen(飛ぶ),rudern(漕ぐ),segeln(帆走する)

  7. Clustering方法 • K-meansアルゴリズム:n個のデータオブジェクトをちょうどk個のクラスタに割り当てる教師なしのclustering方法 • 1:各動詞が一番近いクラスタに割り当てられる。 • 2:クラスタの新しいcentroidが計算され、ステップ1にいく。 • 動詞がすべて別のクラスタに割り当てられなくなる次第、終了

  8. K-meansの弱点:starting clustersに依存 • Starting clustersの選択: • Random • Agglomerative hierarchical clustering: • 最初は各動詞にクラスタを割り当てる • 一番近い二つのクラスタを mergeする • k個のクラスタが残るまで繰り返す • Merge方法:single-linkage, complete-linkage, average verb distance, distance between cluster centroids and Ward’s method

  9. 距離をいかに測るか • 距離:cosine、ユークリッド距離、Kullback-Leibler divergence (relative entropy) • KL-divergenceを利用: • Information radius: d(v1, v2) = D(p || (p+q)/2 ) + D(q || (p+q)/2) • Skew divergence: d(v1 , v2) = D(p || w*q + (1-w)*p) • 以上のものは確率分布qの中でzero valueがあっても問題ない。

  10. Clustering evaluation: MI(A, B) • 個別のclusterの質をcluster purity ABijで表す。ABijは同一のクラスBjに写像されるクラスAiのメンバーの数。 • 全体的なclusteringの評価:式(4) • MI(A, B)にはありがたくない性質もある 別の評価方法としてAPPを導入する。

  11. Clustering evaluation: APP • APP: adjusted pairwise precision。 • 個別のclusterの場合:式(5) • 全体的なclusteringの場合:式(6)。 • MIの範囲:0.229-0.493 • APPの範囲:0.017-0.291

  12. 実際のclustering • 結果は表1と2 • 実際の得られたclusteringの例:6節 • その例の評価のとき、どのフレームはclusteringにどう影響するかを検討。

  13. 結論 • 自動的に得られた動詞分類は直感的に存在するクラスと一致。 • ドイツ語の場合はsyntaxだけで意味の要素をとることが可能である。 • これからの道: • selectional restrictionsを利用する。

More Related