420 likes | 567 Vues
若干資料選取方法 以改善鑑別式聲學模型訓練. 指導教授:陳柏琳 博士 研究生:朱芳輝. 中華民國九十七年一月二十五日. 大綱. 研究內容與貢獻 AdaBoost 演算法 最小化音素錯誤訓練 資料選取方法 基於 AdaBoost 演算法的資料選取方法 基於詞圖期望音素正確率的資料選取方法 實驗與討論 結論與未來展望. 統計式語音辨識基本架構圖. 語言模型. 語言模型訓練. 語音 特徵向量. 語言解碼. 特徵擷取. 辨識文字. 發音詞典. 語音訊號. 聲學比對. 聲學模型訓練. 聲學模型. 訓練資料 選取方法. 研究內容與貢獻.
E N D
若干資料選取方法以改善鑑別式聲學模型訓練 指導教授:陳柏琳 博士 研究生:朱芳輝 中華民國九十七年一月二十五日
大綱 • 研究內容與貢獻 • AdaBoost演算法 • 最小化音素錯誤訓練 • 資料選取方法 • 基於AdaBoost演算法的資料選取方法 • 基於詞圖期望音素正確率的資料選取方法 • 實驗與討論 • 結論與未來展望
統計式語音辨識基本架構圖 語言模型 語言模型訓練 語音 特徵向量 語言解碼 特徵擷取 辨識文字 發音詞典 語音訊號 聲學比對 聲學模型訓練 聲學模型 訓練資料選取方法
研究內容與貢獻 • 基於AdaBoost演算法之資料選取方法 • 基於詞圖期望音素正確率(Expected Phone Accuracy)定義域之資料選取方法 • 訓練語句層次的資料選取方法 • 音素段落層次的資料選取方法 • 多重資料選取方法之結合
緣由 • 在No Free Lunch Theorem中明確地指出: • 不存在任何單一個學習演算法可以推導出一個非常精確的學習器(Learner),使其適用於所有的領域之中 • 解決辦法: • 找出多個具有不同能力的學習器,透過將這些學習器予以結合而得到一個單一個擁有全方位能力的學習器 • 但,該如何結合這些學習器? • 多重階段結合法(Multistage Combination) • 多重專家結合法(Multi-Expert Combination) • 投票(Voting)演算法 [Wolpert and Macready 1997]“No Free Lunch Theorems for Optimization,” IEEE Trans. Evolutionary Computation, Vol. 1, No. 1, pp. 67-82, 1997.
+ Voting演算法 • 針對一待側樣本 ,若存在多個學習器 ,則: • 將 定義為線性組合: 集成(Ensemble)
Boosting演算法 • Boosting演算法的精神在於 • 循序的訓練求得多個學習器,每一個學習器的能力可以彌補前一學習器的不足 • 透過結合多個弱勢學習器(錯誤小於0.5),最終所得之集成可為一個強勢學習器(錯誤為任意小) • 幾個缺點: • 只能應付二元分類任務 • 最多三個分類器 • 訓練樣本集要夠大
其中 為正規化常數 輸 入:訓練序列 ,其中包含資料樣本 與其對應 的標記 。 初 始:定義 , 其中 為集合 的元素個數。 重 覆:1.利用事前機率分布 來訓練得到弱勢分類器。2.得到其對應的候選假設 並且計算擬似損失:3.設定4.更新事前機率分布 : 輸 出:最後的候選假設為: AdaBoost.M2演算法
最小化音素錯誤鑑別式聲學模型訓練(1/3) • 最小化音素錯誤鑑別式聲學模型訓練的目標函數 • 旨在最大化語音辨識器對所有訓練語句 之可能辨識出候選詞序列 ( )的期望音素正確率 其中 可用語音辨識器產生的詞圖 來近似:
正確轉寫音素序列 辨識之音素序列 0 5 10 15 20 25 30 e(c,c)=10/10 -1+2e(c,c)=1.0 e(a,b)=5/10 -1+e(a,b)=-0.5 e(c,b)=5/10 -1+e(b,c)=-0.5 e(a,a)=10/10 -1+2e(a,a)=1.0 A(c)=1.0 A(a)=1.0 A( ) = A(a) + A(c) = 2 最小化音素錯誤鑑別式聲學模型訓練(2/3) • 對於詞圖 上候選詞序列 之正確率為: • 候選詞序列中一個音素段落 之正確率為:
最小化音素錯誤鑑別式聲學模型訓練(3/3) • 其目標函數可透過延伸波式(Extended Baum-Welch)演算法得到聲學模型參數估測之更新公式
基於AdaBoost演算法的資料選取方法(1/3) • 本論文將AdaBoost演算法中的分類錯誤定義於訓練語句層次上: • 對於通過時間音框 上所有的候選音素段落給定不同的權重:
基於AdaBoost演算法的資料選取方法(2/3) • 則最小化音素錯誤訓練的目標函數可以表示為: • 對於 的訓練語句而言,其權重會介於 到1之間;對於 的訓練語句而言,其權重會介於1到 之間。 • 亦對I-Smoothing之統計值給予權重 AdaBoost-FL-MPE
基於AdaBoost演算法的資料選取方法(3/3) • 另一種權重設計: • 而最小化音素錯誤訓練的目標函數又可表示為: AdaBoost-IFL-MPE
訓練語句選取方法 • 在鑑別式聲學模型訓練中,詞圖可以被視為一訓練語句能夠帶來多少鑑別資訊的重要憑據 • 在最小化音素錯誤訓練中,一訓練語句中所有候選詞序列的期望正確率 可以視為其詞圖在混淆程度上的基準 • 一訓練語句擁有過高或過低的 ,所能提供的鑑別資訊便為有限 • 因此,訓練語句選取方法可定義為: MPE+US
音素段落選取方法(1/2) • 在最小化音素錯誤訓練中,在音素段落 上所收集的統計值會根據 區分為正貢獻或是負貢獻兩類 • 因此,可將 視為音素段落在期望正確率上的一個決定邊界 • 音素段落選取藉由定義一個邊際範圍來選取富含鑑別資訊的音素段落: MPE+PS
音素段落選取方法(2/2) • 另一種柔性的音素段落選取方法,可使每一音素段落對於訓練過程皆有貢獻: MPE+sPS
實驗設定 • 實驗語料 (公視電視新聞語料MATBN) • 訓練語料 (24.5hrs): 外場記者男女各46,000s (12.25 hrs) • 測試語料 (1.45hrs): 外場記者男1300s,女:3900s • 大詞彙連續語音辨識 (72,000詞) • 詞彙樹複製搜尋: 使用雙連語言模型 • 詞圖搜尋: 使用三連語言模型 • 特徵抽取 • 39維HLDA+MLLT+CN • 最小化音素錯誤訓練 • I-Smoothing中的參數 皆設為10
本論文之實驗方法 • 基於AdaBoost演算法之資料選取方法 • 結合AdaBoost演算法於鑑別式聲學模型訓練 • 基於詞圖期望音素正確率(Expected Phone Accuracy)定義域之資料選取方法 • 訓練語句層次的資料選取方法 • 音素段落層次的資料選取方法 • 多重資料選取方法之結合
AdaBoost演算法結合鑑別式聲學模型訓練之實驗(1/2)AdaBoost演算法結合鑑別式聲學模型訓練之實驗(1/2)
AdaBoost演算法結合鑑別式聲學模型訓練之實驗(2/2)AdaBoost演算法結合鑑別式聲學模型訓練之實驗(2/2) • 在各種不同層次上,進行聲學模型之結合 • 以ROVER進行兩N-最佳詞序列間的結合 • 以候選詞段落的聲學分數在詞彙樹複製搜尋階段進行結合 • 以候選詞段落的事後機率進行兩詞圖間的重新搜尋 • 以候選詞段落的音框錯誤率進行兩詞圖間的重新搜尋
基於AdaBoost演算法的資料選取方法之實驗(1/2) • 在每個迭代訓練上所得之字錯誤率皆與最小化音素錯誤訓練之結果不相上下
基於AdaBoost演算法的資料選取方法之實驗(2/2) • 與最小化音素錯誤所估測之模型結合,最多有2.7%的相對字錯誤率下降
基於詞圖期望音素正確率的資料選取方法之實驗(1/6)基於詞圖期望音素正確率的資料選取方法之實驗(1/6) • 訓練語句層次的資料選取方法 MPE+US--I : MPE+US--II:
基於詞圖期望音素正確率的資料選取方法之實驗(2/6)基於詞圖期望音素正確率的資料選取方法之實驗(2/6) • 遞增式的訓練語句選取方法 隨著迭代訓練而放寬選取範圍,能有效抑止過度訓練的問題!
基於詞圖期望音素正確率的資料選取方法之實驗(3/6)基於詞圖期望音素正確率的資料選取方法之實驗(3/6) • 訓練語句選取方法以改善最大化S型音框音素正確率訓練 與最小化音素比較,皆有一致地進步。但與最大化S型音框音素正確率訓練比較,其辨識效果乃是不相上下的!
基於詞圖期望音素正確率的資料選取方法之實驗(4/6)基於詞圖期望音素正確率的資料選取方法之實驗(4/6) • 音素段落層次的資料選取方法 MPE+PS--I :
SoftWgt(q) 基於詞圖期望音素正確率的資料選取方法之實驗(5/6) • 柔性的音素段落選取方法 MPE+sPS--II MPE+sPS--I 相較之下,不會有過度訓練之問題發生,然而卻需要進行額外的參數設定。
基於詞圖期望音素正確率的資料選取方法之實驗(6/6)基於詞圖期望音素正確率的資料選取方法之實驗(6/6) • 音素段落選取方法以改善最大化S型音框音素正確率訓練 可些許改善最大化S型音框音素正確率訓練,同時訓練過程中的收斂速度明顯得以提升。
結合資料選取方法所求聲學模型之實驗(1/2) 在MPE+PS這組實驗中,儘管其所得聲學模型的辨識率不佳,但與原始最小化音素錯誤之模型結合後,其辨識率獲得很大的改善!可見兩個模型的辨識能力已達到互補的效果!
結合資料選取方法所求聲學模型之實驗(2/2) 相較之下,與最大化S型音框音素正確率訓練的結合,其改善效果更為一致。 但由於MSFA+PS嚴重地過度訓練,導致其效果並不明顯!
結合多重資料選取方法之實驗 • 與以正規化熵值為基礎的音框層次資料選取方法結合 最小化音素錯誤訓練的收斂速度明顯獲得提升,其中以MPE+PSv+FSv這組實驗的效果最好!故可觀察得知:訓練語句選取方法顯得過於粗糙。
結合多重資料選取方法之實驗 • 結合多重資料選取方法以改善最大化S型音框音素正確率訓練 依然以MSFA+PSv+FSv這組實驗的效果最好!但在後面的迭代訓練上會發生稍微過度訓練的情況。
結論 • 本論文旨在探討使用各種資料選取方法來改善以最小化音素錯誤為基礎的鑑別式聲學模型訓練 • 基於AdaBoost演算法之精神的資料選取方法 • 基於詞圖期望音素正確率的資料選取方法 • 訓練語句層次 • 音素段落層次
未來展望 • 未來仍有幾個方向需要繼續努力: • 以最小化音素錯誤訓練中的期望正確率來定義AdaBoost演算法中的分類錯誤 • 由下往上的進行多重資料選取方法之結合
謝謝 敬請口試委員指導
為刪除錯誤的懲罰權重 音框音素正確率函數 • 用以取代原始音素正確率函數以改進最小化音素錯誤訓練之缺點: • 其原始音素正確率函數並沒有給予刪除錯誤適當的懲罰 • 稱之為音框音素正確率函數(Frame Phone Accuracy, 記作FA) • 而詞圖中一候選詞序列 的音框音素正確率為:
及 為S型函數中可調整的參數 S型音框音素正確率函數 • 為了能使音框音素正確率函數之值域與原始音素正確率同為介於-1到+1之間: • 使用S型函數(Sigmoid Function)來正規化音框音素正確率函數的分子項 • 稱之為S型音框音素正確率函數(Sigmoid Frame Phone Accuracy, 記作SFA) • 而詞圖中一候選詞序列 的S型音框音素正確率為:
最大化S型音框音素正確率訓練 • 以S型音框音素正確率函數取代正確率函數,則最大化S型音框音素正確率的目標函數可表示為:(Maximum Sigmoid Frame Phone Accuracy, 記作MSFA) • 本論文中最大化S型音框音素正確率訓練的參數設定為:
為在時間 時所有的音素段落個數 為在時間 中所有事後機率不為零的高斯模型 的個數 以熵值為基礎的音框層次資料選取方法(1/3) • 以熵值(Entropy)為基礎的時間音框資料選取方法 • 鑑於傳統熵值之值域會隨著樣本數多寡而不同,在此我們使用正規化熵值 • 因此 的值域會介於0到1之間 • 假如其值接近於0: • 代表於時間t的音框層次事後機率被某一個高斯模型m給支配 • 假如其值接近於1: • 代表於時間t的音框層次事後機率幾乎是平均分配(uniformly distributed)給所有的高斯模型m
混淆的樣本 正規化熵值 0 1 決定邊界 事後機率定義域 以熵值為基礎的音框層次資料選取方法(2/3) • 以二元分類器的觀點來探討: • 假如其正規化熵值接近於0 • 此時間音框其實座落於遠離決定邊界(Decision Boundary)的位置上 • 假如其正規化熵值接近於1 • 此時間音框座落於決定邊界附近的位置上 • 總言之,以正規化熵值為基礎的資料選取方法可視為在事後機率定義域中選取資料 • 旨在找出那些不容易被分類正確的時間音框並只利用其統計值來調整模型參數,以利鑑別式模型訓練
以熵值為基礎的音框層次資料選取方法(3/3) • 直接在正規化熵值之值域上設定一門檻值 • 把其值低於此門檻值的時間音框捨棄,只累加被選取到之時間音框的統計值 • 則其數學式可表示為(以num類為例): • 本論文中的參數設定為: