創成シミュレーション工学専攻計算システム工学分野　徳田・李研究室橋本佳

Statistical Models of Machine Translation, Speech Recognition, and Speech Synthesis for Speech-to-Speech Translation音声翻訳のための機械翻訳，音声認識，音声合成の統計モデル創成シミュレーション工学専攻計算システム工学分野　徳田・李研究室橋本佳

背景（1/3） • 音声翻訳システム • ある言語の音声を異なる言語の音声に直接翻訳（Speech-to-Speech Translation） • 音声を入出力とした自然なコミュニケーション • 言語の壁を越えた円滑なコミュニケーション日本語英語こんにちは。 Hello.

背景（2/3） • 音声翻訳システムの構成 • 人間の知識に基づく手法 • 入出力に関する人間の知識を導入 • 入出力の関係を完全に表現することは困難 • 統計モデルに基づく手法 • 学習データから入出力の関係を効率よく学習 • 多量の学習データ・高性能な計算機が必要音声認識音声合成機械翻訳

背景（3/3） • 統計モデルに基づく音声翻訳 • 理論的枠組みは言語によらず同一 ⇒ あらゆる言語のシステムを構築可能 • 各要素の結果を統計的に利用可能 ⇒ 音声翻訳全体を考慮した統計モデルの最適化音声認識音声合成機械翻訳

現状の性能 • 機械翻訳 • 旅行会話を対象としたシステム ⇒ TOEIC600点 • 翻訳対象によって翻訳性能が低下 • 音声認識 • 静音状況における特定話者⇒ 認識率90%以上 • 雑音・話者・内容によって認識性能が低下 • 音声合成 • 発話内容が限定 ⇒ 高品質な合成音声 • 発話内容によって合成音声の品質が劣化 [Sugaya et al., ’01]

目的 • 音声翻訳システムの高性能化 • 各要素の高性能化 • 構文情報を用いた統計的機械翻訳 • ベイズ基準による音声合成・音声認識 • 要素の統合手法 • 機械翻訳・音声合成の影響の調査および分析音声認識音声合成機械翻訳

機械翻訳 • ルールベース型機械翻訳 • 適切なルールを大量に用意することで高性能化 • 言語対ごとに新たにルールを作成 • 翻訳ルールを人手で作成 • 新たな言語への対応が困難 • 統計的機械翻訳 [Brown et al., ’93] • 翻訳データから統計モデルを自動学習 • 同様の枠組みからシステム構築が可能 • 新たな言語への対応が容易

統計的機械翻訳 • 翻訳モデル・言語モデルから構成 [Brown et al., ’93] : 入力言語の単語列 : 出力言語の単語列 : 翻訳モデル（2言語間の翻訳対応） : 言語モデル（出力言語の単語の並び）

単語ベースの統計的機械翻訳 • 単語対単語の翻訳モデル[Brown et al., ’93] • 熟語などの翻訳が困難 • 単語の並び替えが困難（長文ほど困難） ⇒ Nice to meet you. 良いこと会うあなたに。 ⇒ I go to ABC. わたしは行くへ ABC 。

フレーズベースの統計的機械翻訳 • 隣接する複数の単語 ⇒ フレーズ • フレーズ対フレーズの翻訳モデル[Koehn et al., 2003] • 熟語などの翻訳が可能 • 単語の並び替え性能が改善 • 現在の標準的な手法 • 文全体を考慮した単語並び替え手法が必要 ⇒ Nice to meet you. はじめまして。 ⇒ I go to ABC. わたしはへ行く ABC 。

構文木を制約とした統計的機械翻訳 • IST-ITG[Yamamoto et al., ’08] (Imposing Source Tree on Inversion Transduction Grammar) ⇒ どのような回転が最適かは表現不可能仮定：入力文の構文木を回転させることにより出力文の構文を表現可能 ⇒ これは This is _ ペン a です pen

構文木の回転モデル • 構文木の回転を品詞を用いてモデル化 • 英語-日本語翻訳実験入力構文木部分木 S = S+NP+VP VP NP = VP+AUX+NP 単語並び替え確率 = NP+DT+NN AUX NP NN DT This is a pen

翻訳結果例 • Source: From results of the consideration, it was pointed that radiation from the loop elements was weak. • Reference: 考察結果より，ループ素子からの放射が弱いことを指摘する。 • IST-ITG: 考察の結果から，ことを指摘し，ループの要素からの放射は弱かった。 • Proposed: 考察の結果から，ループ素子からの放射は弱いことを示した。

音声合成 • 素片接続型音声合成[Black et al., ’96] • 素片に分割された音声データをつなぎ音声を合成 • 高品質だが大量の音声データが必要 • 統計モデルに基づく音声合成[Tokuda et al., ’00] • 統計モデルを用いて音声をモデル化（音響モデル） • 多様な音声を合成可能 • 少量の音声データからモデルの学習が可能 ⇒ 合成音声の品質は音響モデルに強く依存

音響モデル • 隠れマルコフモデル（Hidden Markov Model; HMM） • 時間による変動を考慮したモデル ⇒ 音声に適したモデル • コンテキスト依存モデル[Lee, ’90] • 音響的特徴は文脈要因（コンテキスト）に影響 • 先行音素，後続音素，品詞，音節の数，アクセント等 • コンテキストを考慮したモデル • 詳細な音響的特徴をモデル化 • 各モデルに割り当てられる学習データは減少 ⇒ モデル推定精度が低下

コンテキストクラスタリング[Young, ’94] • 決定木に基づくクラスタリング手法 • コンテキストに関する質問を適用 • リーフノードごとに音響モデルを共有当該音素は母音? yes no 先行音素は破裂音? 品詞は名詞? yes no yes no

モデル学習基準 • 尤度最大化（Maximum Likelihood; ML）基準 • 音響モデルの学習基準として広く利用 • モデルパラメータを点推定 ⇒ 学習データが少量の場合に過学習 • ベイズ基準 • モデルパラメータの事後分布を推定 • 事前情報を利用可能 • データ量を考慮したモデル構造（決定木）選択が可能 ⇒ 学習データが少量の場合にも高い汎化性能 ⇒ 多くのコンテキストを考慮することが可能

ベイズ基準による音声合成（1/2） モデル学習・音声合成基準 ML ⇒ 学習 ⇒ 合成 Bayes ⇒ 学習・合成 : モデルパラメータ : 合成データ : 合成ラベル : 学習ラベル : 学習データ

ベイズ基準による音声合成（2/2） ベイズ基準における予測分布（周辺尤度関数） : 合成データの状態遷移を表す隠れ変数 : 学習データの状態遷移を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布変分ベイズ法による近似 [Attias; ’99]

変分ベイズ法（1/2） • 対数周辺尤度の下限を定義：に関する期待値（Jensenの不等式） : 近似事後分布下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定

変分ベイズ法（2/2） • 近似事後分布の独立性を仮定 • 変分法による事後分布推定 : 正規化項交互に更新することでを最大化

主観評価実験による提案法の評価 • ベイズ基準の特徴ごとに分析 • モデルパラメータの事後分布推定 • データ量を考慮したモデル構造選択 • 評価者10人 • 20文を自然性について5段階評価

主観評価実験 リーフノード数 1,128 1,128 9,485 9,485 ベイズ基準を用いることで合成音声の品質を改善

音素認識実験 リーフノード数 5,429 5,429 14,610 14,610 ベイズ基準を用いることで高精度な音響モデルを推定

学習・合成過程の統合 モデル学習・音声合成基準 ML ⇒ 学習 ⇒ 合成 Bayes ⇒ 学習・合成 : モデルパラメータ : 合成データ : 合成ラベル : 学習ラベル : 学習データ

従来の事後分布推定 • 変分ベイズ法による事後分布推定 • 事後分布　　　は合成データに依存 ⇒ 合成データは観測されていない ⇒ 直接計算することは困難 • 学習データのみからを推定

近似を用いたベイズ音声合成 事後分布　　　　の更新（学習データの隠れ変数系列）学習データ事後分布　　　　の更新（モデルパラメータ）学習部合成部事後分布　　　　の更新（合成データの隠れ変数系列）合成データ合成データ　　の生成ベイズ音声合成の性質を十分に表現できていない

提案法 事後分布　　　　の更新（学習データの隠れ変数系列）学習データ事後分布　　　　の更新（モデルパラメータ）事後分布　　　　の更新（合成データの隠れ変数系列）合成データ合成データ　　の生成学習・合成過程が統合されたベイズ音声合成

更新回数の比較 事後分布・合成データの更新回数の比較 • 事後分布推定に用いる合成データは1発話

主観評価実験 事後分布・合成データの更新回数の比較学習・合成過程の統合により合成音声の品質を改善

音声翻訳のための統合手法 • 音声認識と機械翻訳の統合[Ney, ’99] • 統計的アプローチ • 複数の認識結果と統計モデルのスコアを利用 ⇒ 翻訳結果を大きく改善 • 機械翻訳と音声合成の統合 • 合成音声の品質は音声翻訳システムに大きく影響 • 音声合成部を考慮した統合手法が必要 ⇒ 各要素がどのように影響しているかを分析

主観評価実験 • Amazon Mechanical Turkを用いて実験 • Section 1: 音声合成の評価 • 合成音声の自然性（Naturalness） • Section 2: 音声翻訳の評価 • 単語聞き取り誤り率（WER） • 聞き取った翻訳文の妥当性（S2ST-Adequacy） • 聞き取った翻訳文の流暢性（S2ST-Fluency） • Section 3: 機械翻訳の評価 • 翻訳文の妥当性（MT-Adequacy） • 翻訳文の流暢性（MT-Fluency） • 評価者150人

システム • 音声翻訳システム（Finnish-to-English） • 音声認識部 • 正解認識結果を出力すると仮定 • 機械翻訳部 • HiFST (統計的機械翻訳システム) • 865,732翻訳文による学習 • 機械翻訳部は上位20位までの翻訳候補を出力 • 音声合成部 • 統計モデルに基づく音声合成 • 単一男性話者による8,129発話による学習 • 入力文として100文使用

システム出力例 • 翻訳候補（上位5位）とその合成音声

機械翻訳との相関 • 合成音声の自然性との相関係数 • 評価者の単語聞き取り誤り率との相関係数 • 翻訳文の流暢性との相関がより高い

合成音声 • 機械翻訳の流暢性と合成音声の自然性

単語聞き取り誤り率 • 機械翻訳の流暢性と単語聞き取り誤り率

単語N-gramと流暢性の相関 • 単語N-gram • 直前のN-1単語が与えられた際の単語出現確率単語3-gramの例 • 単語N-gramによる文の流暢性の評価 • 単語N-gramと翻訳文の流暢性との相関 • 単語N-gramは機械翻訳部の学習データから推定 P（天気|今日，の）=0.3 P（献立|今日，の）=0.2

単語5-gram • 単語5-gramごとの流暢性の平均相関係数: 0.87

音素N-gramと合成音声の相関 • 合成音声の品質は発話内容に大きく影響 • 発話内容が学習データに近いとき高い自然性 • 口語調，文語調 • 新聞記事，小説 • 音素N-gramによる学習データとの類似度評価 • 音素N-gramと合成音声の自然性の相関 • 音素N-gramは音声合成部の学習データから推定

音素4-gram • 音素4-gramごとの自然性の平均相関係数: 0.81

分析結果のまとめ • 機械翻訳部と音声合成部の関係 • 翻訳文の流暢性が音声合成部に強く影響 • 高品質な合成音声 • 高い聞き取り精度 • 客観評価値による主観評価値の予測 • 単語N-gramのスコア ⇒ 翻訳文の流暢性の予測に利用可能 • 音素N-gramのスコア ⇒ 合成音声の自然性の予測に利用可能

むすび • 音声翻訳システムの性能改善 • 構文情報を用いた統計的機械翻訳 • 先行研究からBLEUを0.49改善 • ベイズ基準による音声合成・音声認識 • 従来法よりも高精度な音響モデルを推定 • 機械翻訳・音声合成の評価および分析 • 翻訳文の流暢性が合成音声の品質に大きく影響 • 今後の課題 • 音声合成部を考慮した統合手法の検討 • 音声翻訳システム全体を考慮した最適化手法

創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳