home


[Huskyで音声認識]

Huskyで音声認識をするためには, WFSTとして表現された認識ネットワーク,HMM状態ファイル,認識対象の音声特徴量リストファイルおよびhuskyの設定ファイルをコマンド行引数としてhuskyを起動します. また,WFSTでの入力シンボルや出力シンボルにはIDを用いているので,IDとシンボルの対応表も必要となります.

Husky実行用サンプルデータ

Huskyを用いて3万語彙の大語彙連続音声認識を行うための統計モデル(WFST,HMM)や設定ファイルなどです.
認識ネットワークやHMM状態ファイルのパラメタは日本語話し言葉コーパスという音声データベースからHTKやATTツールキットを用いて作成しています.
これらのモデルはhuskyの動作テストの目的のみに使用できることとします.それ以外の目的で使用したい場合は,ご相談ください.

Huskyの実行

上記ファイルを適当なディレクトリに保存後,以下のようにhuskyを起動することで,音声認識が行えます. ghcを用いてコンパイルしたhuskyをbash環境で起動しています.(マシンのスペックに注意してください)
conf=dcd.config
wfst=csj-3gram-v30k-mpe-mix32.hloop.hclg.lmw10.asciiid.wfst
spdfs=hmm.spdfs
scp=decode.scp

husky $conf $wfst $spdfs $scp +RTS -H32g 
+RTS以降はghcのランタイムシステムを制御するためのオプションです.-H32gによりガーベッジコレクタに推奨されるヒープの大きさとして32Gbyteを指示しています.

認識結果

上記サンプル音声ファイルの認識結果は以下のようになります.
<s>および</s>は文頭及び文末の無音区間を表しています.この例では,全ての単語が正しく認識されています.
出力ID 1293022689832922384645551591261424838962
単語列 <s>音声認識研究ます</s>