目的 為客觀評(píng)估自動(dòng)語音識(shí)別(automatic speech recognition, ASR)系統(tǒng)的詞錯(cuò)率(word error rate, WER),滿足言語能力受損人群的康復(fù)需求,促進(jìn)特殊人群客觀言語能力評(píng)估體系構(gòu)建,本研究提供了一種直接根據(jù)深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)發(fā)出的音素后驗(yàn)概率預(yù)測(cè)WER的方法,而不是計(jì)算參考轉(zhuǎn)錄文本與隱馬爾可夫(hidden Markov model, HMM)解碼的轉(zhuǎn)錄文本之間的WER。方法 通過對(duì)語音信號(hào)進(jìn)行特征提取并將其輸入到DNN模型中以計(jì)算音素后驗(yàn)概率圖(phonetic posterior grams, PPG)。通過PPG計(jì)算出反映ASR系統(tǒng)WER的3種性能指標(biāo)以達(dá)到預(yù)測(cè)目的。最后,對(duì)在4種真實(shí)聲學(xué)場(chǎng)景下所得WER預(yù)測(cè)數(shù)據(jù)進(jìn)行分析,驗(yàn)證其有效性。同時(shí),研究還搭建了20種不同深度、寬度的聲學(xué)模型進(jìn)行性能評(píng)估對(duì)比,探究了模型規(guī)模對(duì)預(yù)測(cè)效果的影響。結(jié)果 根據(jù)20種模型WER評(píng)估的數(shù)據(jù),其中具有2層隱藏層且每層含512個(gè)神經(jīng)元的網(wǎng)絡(luò)模型對(duì)WER數(shù)據(jù)預(yù)測(cè)誤差達(dá)到最小,省略ASR系統(tǒng)解碼步驟而得到可靠的WER預(yù)測(cè)數(shù)據(jù)。結(jié)論 使用基于音素概率的性能指標(biāo)可以實(shí)現(xiàn)對(duì)WER的有效預(yù)測(cè),并且可以擺脫參考轉(zhuǎn)錄文本和單詞標(biāo)簽的限制。
|