1 / 20

コーパス言語学入門

コーパス言語学入門. 2007 年度 1 学期 第 7 回. 本日の内容. コーパスの利用 コーパスを作るときに利用するツール 作成したコーパスの利用例 このときの利用ツールの紹介 本日は,実習 ツールのインストール 有名なツールを実際に使ってみる. コーパスの利用. コーパスを作成する場合のツール 形態素解析 構文解析 KNP が Web 上で使えないのでインストール JUMAN Ver.5.1 ( Windows 版)をダウンロード KNP Ver.2.0(Windows 版)をダウンロード 新聞記事を持って来て形態素,構文解析.

doane
Télécharger la présentation

コーパス言語学入門

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. コーパス言語学入門 2007年度1学期 第7回

  2. 本日の内容 • コーパスの利用 • コーパスを作るときに利用するツール • 作成したコーパスの利用例 • このときの利用ツールの紹介 本日は,実習 • ツールのインストール • 有名なツールを実際に使ってみる

  3. コーパスの利用 • コーパスを作成する場合のツール • 形態素解析 • 構文解析 • KNPがWeb上で使えないのでインストール • JUMANVer.5.1(Windows版)をダウンロード • KNP Ver.2.0(Windows版)をダウンロード • 新聞記事を持って来て形態素,構文解析

  4. ツールをインストールして利用(1) • JUMANとKNPをインストールして使用 • JUMANのインストール • ダウンロード • インストール先: Y:\juman • KNPのダウンロード • ダウンロード • インストール先: Y:\knp

  5. ツールをインストールして利用(2) • PATHの追加 • Windows上の PATH設定に juman,knpの ためのパス(経路) を追加

  6. ツールをインストールして利用(3) • 詳細設定を 選んで, 「環境変数」を クリック

  7. ツールをインストールして利用(4) • PATHの「編集」を クリックし,「ユーザー 変数の編集」の変数値 にパスを追加する 出ているものを消さず パスの一番最後に ;y:\juman;y:\knp を追加する.;や:を間違えないように注意

  8. ツールをインストールして利用(5) • JUMANの使用 • コマンドプロンプト上で実行する! • スタート→すべてのプログラム→アクセサリ→  コマンドプロンプト y:\> juman

  9. ツールをインストールして利用(5) • KNPの使用 y:\> juman –B –e2 | knp

  10. コーパスの利用(2) • コーパスを作成する場合のツール • 新聞記事を持って来て形態素解析 • スタート→アクセサリ→コマンドプロンプト y:\>juman < **.txt > **.jum • 構文解析 y:\>juman –e2 –B < **.txt | knp y:\>juman –e2 –B < **.txt | knp -tab

  11. コーパスの利用(3) • コーパスを作成する場合のツール • 新聞記事を持って来て形態素解析 tagつけのためのプログラムをperlで自作 • 完全ではないが,多少は作業を楽に進める • スタート→アクセサリ→コマンドプロンプト y:\>juman -e < **.txt | perl tag01.pl jumanとperlプログラムを↑パイプでつなぐ

  12. 自作ツールで加工の例 tagつけのためのプログラムをperlで自作 完全ではないが,多少は作業を楽に進める 1. tag01.plをダウンロードしておく 2. テキストを準備する. (見出しの行の前に「TTL」,日付の行の前に「DATE」を入れる) (上の手順2の後の状態にする) 3. スタート→アクセサリ→コマンドプロンプト y:\>juman -e < **.txt | perl tag01.pl

  13. コーパスの利用(4) • 英語の場合 形態素+POS Tag付与 • Brill Tagger が有名だが... • Web上で試せないので • ConexerのPhrase Tagger • ENGTWOL 形態素解析 構文解析 • ConexerのSyntax (syntactic parser)

  14. ツールをインストールして利用 • Apple Pie Parserのインストール • App59win.zipをとってきてインストール (本当は, APP5.9.tar.gzをとってきて, tar –zxvf APP5.9.tar.gz を実行. これだとUnix版だけなので, app.exe もダウンロードし,Windowsで実行 )

  15. コーパスの利用(5) • どんな研究で利用するか • さまざまな単語の頻度,割合 • 特定の単語のさまざまな意味の頻度,割合 • 単語と他の単語の体系的な関連の有無 など →辞書編纂,語の利用の変化,語の使用の偏り  語の組合せ,副詞の用法など

  16. コーパスの利用(6) • どんな研究で利用するか • ほぼ同義の語の使用区別を調べる • 例えば, littleとsmall とか, beginとstart など • ほぼ同じ文法構造の使用区別を調べる • that節とto節

  17. コーパスの利用(7) • コーパス研究で利用するツール • KWIC (KeyWord In Context) • 特定の単語や表現で検索 • その表現の出現位置と周辺の数語を表示 • 元のテキストの情報も参照可能 • 簡単な統計処理機能がついているものもある

  18. コーパスの利用(8) • コーパス研究で利用するツール KWIC (KeyWord In Context) • Business Letter Corpus   (マークトウェインのトムソーヤでTom) • Web Concordancer (Brown Corpus,LOB有) adjustments, parking, car park とか • WebCorp 遅い • SpanishCorpusSearch 遅い (Project Gutenberg):電子テキストアーカイブ

  19. コーパスの利用(9) • コーパス研究で利用するツールの例 KWIC (KeyWord In Context) 日本語 • Ajax を使った KWIC (青空文庫) • Yahooを使ったKWIC (KWIC-search)

  20. コーパスの利用(10) • 検索 • 日本国憲法の日英パラレルコーパス (クマぞーの何でも研究室) • 経済白書データベース (内閣府) • 環境白書(環境省) • 国会会議録検索システム(国会) • 法令データ(e-Gov 電子政府)

More Related