1 / 45

コーパス言語学入門

コーパス言語学入門. 第 6 回. 本日の内容. 前回のおさらい コーパスの作成(補足) コーパスの利用 コーパスの入手 コーパスの加工(一部実習済み) コーパスの利用. 前回のおさらい. タグ付け タグの形式は何でもいい 使い勝手のよい形式が望ましい(実習では xml ) 重要なのは定義をしっかりすること タグ付けを正確に行うのは結構たいへんな作業 通常,複数の人間,複数の日にちをかけて作業 人によって,日によって,タグ付けの基準がずれては困る! だから,基準を明確にし,曖昧さを出さない!. 前回のおさらい. タグに xml 形式を利用

adah
Télécharger la présentation

コーパス言語学入門

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. コーパス言語学入門 第6回

  2. 本日の内容 • 前回のおさらい • コーパスの作成(補足) • コーパスの利用 • コーパスの入手 • コーパスの加工(一部実習済み) • コーパスの利用

  3. 前回のおさらい • タグ付け • タグの形式は何でもいい • 使い勝手のよい形式が望ましい(実習ではxml) • 重要なのは定義をしっかりすること • タグ付けを正確に行うのは結構たいへんな作業 • 通常,複数の人間,複数の日にちをかけて作業 • 人によって,日によって,タグ付けの基準がずれては困る! だから,基準を明確にし,曖昧さを出さない!

  4. 前回のおさらい • タグにxml形式を利用 • xmlはいろんなことができる • インターネットエクスプローラで表示もできる 先頭に以下を追加して,<article>の移動もした <?xml version="1.0" encoding="ISO-2022-JP" ?> さらに,2行目に以下を追加して,article.xsl追加で <?xml:stylesheet type="text/xsl" href="article.xsl" ?> 表示の変更も行った →xmlが便利なので,急速に普及しているのはこのせい

  5. 補足:タグ付けの実際 • 実際的な手順 • 「どんなタグが必要か」はサンプルを元に検討 • 初期に考えたタグセット →普通は足りない部分がある • いくつかサンプルとして作業をし,検討 →足りない部分,余分な部分を訂正 • 定義を確定し,明示 • 多人数で共同作業する場合にも有効 • 自分が別の日に作業する場合にも揺らぎを防ぐ

  6. 補足:タグ付けの実際 • 細かい部分で困ることは多い 日本語を例として • 単語って? • 特に複合名詞はどこで切れるか • 単語の単位をどうするか • 品詞って? • 名詞,動詞,形容詞,副詞,助詞,助動詞

  7. 補足:単語の定義 • 単語(単位語)をどうとらえるか • 国立国語研究所などの研究でもいくつかある  (調査によって微妙に違う) • 大雑把に言って... • 短い単位 • 長い単位

  8. 補足:単語の定義(2) • 単語(単位語)をどうとらえるか • 短い単位だと,形態素相当 パスタにスペイン風トマトソースを パスタ/に/スペイン/風/トマト/ソース/を パスタ/に/スペイン/風/トマトソース/を ぐらい

  9. 補足:単語の定義(3) • 単語(単位語)をどうとらえるか • 長い単位だと,文節(単語)相当 パスタにスペイン風トマトソースを パスタ/に/スペイン風/トマトソース/を パスタに/スペイン風/トマトソースを パスタ/に/スペイン風トマトソース/を パスタに/スペイン風トマトソースを ぐらい

  10. 補足:単語の定義(4) • 短い単位 パスタ/に/スペイン/風/トマト/ソース/を パスタ/に/スペイン/風/トマトソース/を • 単位語が抽象的なものとしてとらえられる • 「ソース」で切れると「何とかソース」が全部含まれる • 日本語の基本語彙調査のような,一般的な側面を調査したい場合向き

  11. 補足:単語の定義(5) • 長い単位 パスタに/スペイン風/トマトソースを パスタ/に/スペイン風トマトソース/を • 特殊なものとしてとらえられる • 「トマトソース」は「とんかつソース」や「チリソース」とは異なる • 文体的な特徴のような,素材にある特殊な側面を調査したい場合向き

  12. 補足:品詞の定義 • 品詞をどう考えるか? • 学校文法 • 名詞,動詞,形容詞,形容動詞,助詞,助動詞,感動詞,接続詞,... • 実際は文法もいろいろある • 茶筅やJUMANでは形容動詞はない →どの文法を使うかは,やはりコーパスを作る側が決めていかなければならない

  13. 補足:ゆらぎに注意 • 人間の基準はかなり曖昧 • 感覚で決めてはいけない • 「ゆらぎ」が発生することがあるので,注意 • 品詞の判定,単語(単位語)の取り決め,属性の判断 • ゆらぎが発生して曖昧になると • コーパスの言語データとしての信頼性が低下 • コーパスの価値がなくなることもある • せっかくの苦労(作業)が台無しに...

  14. コーパスの利用 • コーパスの入手 • コーパスの加工 • コーパスの利用 という順番になる. 演習では,かなり省略して1と2を行ったが あらためて,他の事例も見る

  15. コーパスの入手(1) • 実際にコーパスをどうやって入手するか 少なくとも以下の3つが考えられる • 公開されているコーパス(入手可能) • 実はコーパスとして考えられる言語データを入手 (自分で収集し,加工をする) • 完全なる手作り(内容も含め自作する)

  16. コーパスの入手(2) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(有料) 個別のコーパス配布先から手続きを経て入手 (BNC,毎日新聞 など Webで確認)

  17. コーパスの入手(2b) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(有料) 個別のコーパス配布先から手続きを経て入手 (BNC,毎日新聞 など Webで確認) 著作権の問題はおきず...契約するので

  18. コーパスの入手(2c) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(有料) 個別のコーパス配布先から手続きを経て入手 (BNC,毎日新聞 など Webで確認) 著作権の問題はおきず...契約するので しかし,だいたいの場合,高価!

  19. コーパスの入手(3) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(有料) 言語資源を収集し会員制で配布している組織経由(LDC,ELRA など Webで確認)

  20. コーパスの入手(3b) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(有料) 言語資源を収集し会員制で配布している組織経由(LDC,ELRA など Webで確認) 著作権の問題はおきず...契約するので

  21. コーパスの入手(3c) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(有料) 言語資源を収集し会員制で配布している組織経由(LDC,ELRA など Webで確認) 著作権の問題はおきず...契約するので しかし,だいたいの場合,高価!

  22. コーパスの入手(4) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(無料) 青空文庫

  23. コーパスの入手(4b) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(無料) 青空文庫 著作権,版権の切れた素材を掲載 一応は大丈夫だと思われる

  24. コーパスの入手(4c) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(無料) 青空文庫 著作権,版権の切れた素材を掲載 一応は大丈夫だと思われる 文学作品に特化している.仮名遣いが古い

  25. コーパスの入手(5) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手は無理だが利用可能なコーパス(有料) 利用料を払って検索可能 The Bank of English

  26. コーパスの入手(5b) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手は無理だが利用可能なコーパス(有料) 利用料を払って検索可能 The Bank of English 著作権の問題はおきず...契約するので

  27. コーパスの入手(5c) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手は無理だが利用可能なコーパス(有料) 利用料を払って検索可能 The Bank of English 著作権の問題はおきず...契約するので 通常検索だけなので,使い方が限定される

  28. コーパスの入手(6) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN • 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など

  29. コーパスの入手(6b) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN • 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など 個人的に利用するだけならほぼ問題ない

  30. コーパスの入手(6c) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN • 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など 個人的に利用するだけならほぼ問題ない 成果の公開時に著作権問題等が発生

  31. コーパスの入手(6d) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN • 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など 個人的に利用するだけならほぼ問題ない 公開を念頭に置くなら,予め著作権者に許諾をとっておいた方がよい        (扱いは難しい) 成果の公開時に著作権問題等が発生

  32. コーパスの入手(7) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 歌詞 • 歌も研究テーマとして言語データになりうる うたまっぷ(登録不要,無料),歌ネット(要登録,無料)

  33. コーパスの入手(7b) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 歌詞 • 歌も研究テーマとして言語データになりうる うたまっぷ(登録不要,無料),歌ネット(要登録,無料) 歌詞はJASRAC管理であることが多い

  34. コーパスの入手(7c) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 歌詞 • 歌も研究テーマとして言語データになりうる うたまっぷ(登録不要,無料),歌ネット(要登録,無料) 歌詞はJASRAC管理であることが多い 歌詞を前面に出す場合はJASRACを通じて著作権料を支払う必要あり!

  35. コーパスの入手(8) • 完全なる手作り(内容も含め自作する)

  36. コーパスの入手(8b) • 完全なる手作り(内容も含め自作する) 著作権の問題は起こらない(自分にあるから)

  37. コーパスの入手(8c) • 完全なる手作り(内容も含め自作する) • しかし 著作権の問題は起こらない(自分にあるから)

  38. コーパスの入手(8d) • 完全なる手作り(内容も含め自作する) • しかし 信頼性↓  一般性↓  客観性↓  コスト↑ 著作権の問題は起こらない(自分にあるから)

  39. コーパスの入手(8e) • 完全なる手作り(内容も含め自作する) • しかし 信頼性↓  一般性↓  客観性↓  コスト↑ 著作権の問題は起こらない(自分にあるから) あまり現実的でない...

  40. コーパスの加工(1) • テキストエディタによる手作業 • windows →TeraPad, メモ帳など • MS-Wordや一太郎などのワープロソフトも不可能ではないが,お勧めせず 変なコードがつく(エディタで開いて見ればわかる) • その他のエディタとしては, • emacs, mule, meadow, viなどもある

  41. コーパスの加工(2) • 文字コードは何を使うか? • 文字コードとは? • 日本語:jis, sjis, euc, utf-8 • Windowsでは,標準でsjis • Unix系では,標準でeuc • パソコンで通常使っているのはsjis • 複数の言語を混ぜて使うならutf-8

  42. コーパスの加工(3) • 自然言語処理ツールを使う • 形態素解析・品詞付与 (日本語) • ChaSen(茶筅), • JUMAN, • すもも,など (英語) • Brill Tagger, • Xerox POS-Tagger, • PC-KIMMO

  43. コーパスの加工(4) • 自然言語処理ツールを使う • 構文解析 (日本語) 係り受け解析器 • KNP • Cabocha(かぼちゃ) (英語) 構文解析木 • Apple Pie Parser

  44. コーパスの加工(5) • 自分でプログラムを書く • タグ付けのためのアプリケーションを作る • 自動的に決まった情報を付与するためのプログラムを作る などなど. 簡単なプログラムを書くなら, perlという言語を使うのが手軽.

  45. コーパスの加工(6) • 自分でプログラムを書く • タグ付けのためのアプリケーションを作る • 自動的に決まった情報を付与するためのプログラムを作る などなど. 簡単なプログラムを書くなら, perlという言語を使うのが手軽. この辺は,2学期の実践編で扱う予定

More Related