音声認識の原理のお勉強
連続音声認識と一般的なパターン認識の違い
- 連続音声認識は特徴抽出部の出力がひとつのベクトルではなく、ベクトル系列になる
- 音素や単語を一つのクラスに対応付け
- 文はそれらの系列として表現
- 認識結果もクラスの系列となる
- 連続音声認識は特徴ベクトルの系列を入力として長さが未知のクラス系列を認識する問題
音声認識手法
ベイズの定理より、
“単語列からの特徴ベクトル系列が発生する確率” と “単語列の観測される確率”
の積を最大とするような単語列を求める問題に落とし込める
これらの確率を求めるため、前者は音響モデル、後者は言語モデルを利用する
以下を考えることで問題が解くことができる
- 音響モデルを用いた確率
- 言語モデルを用いた確率
- 2つの積を最大化する単語列を探索
言語モデルの作成方法は大きく2つの方法がある
- 文法記述
- 統計から単語列の生成確率を求める方法
音響モデル
によって音響モデルを作り鍛えていく
また、精度を良くする場合、調音結合を考慮して隠れマルコフモデルの単位はトライフォンを用いるのが良い
言語モデル
進み次第 追記していきます
必要な知識
- ベイズ推定
- 最尤推定
- GMM(Gaussian Mixture Model)
- HMM(Hidden Markov Model)
- RNN(Recurrent Neural Network)
- DNN(Deep Neural Network)
- EMアルゴリズム
- パターン認識
- 尤度
- 伝達関数
- スペクトル分析
- フーリエ変換
- ケプストラム分析
- 回帰分析
- ビタビアルゴリズム
- 多次元正規分布
- DAE(Denoising AutoEncoder)
- RBM(Restricted Boltzmann Machine)
- LSTM(Long Short-Term Memory)
参考
一次元の正規分布から多次元正規分布へ - "機械学習","信号解析","ディープラーニング"の勉強
http://www.ms.k.u-tokyo.ac.jp/2015/IPSJ-math-jp.pdf