北京生物醫(yī)學(xué)工程

基于DNN的自動(dòng)語音識(shí)別系統(tǒng)錯(cuò)誤率評(píng)估方法

作者：王梓赫;張培茗;司博宇;

單位：1.上海理工大學(xué)健康科學(xué)與工程學(xué)院2.上海健康醫(yī)學(xué)院醫(yī)療器械學(xué)院

關(guān)鍵詞：深度神經(jīng)網(wǎng)絡(luò);隱馬爾科夫;自動(dòng)語音識(shí)別系統(tǒng);系統(tǒng)性能評(píng)估;音素后驗(yàn)概率圖;

分類號(hào)：

出版年·卷·期（頁碼）：2024·43·6（613-618）

摘要：

目的為客觀評(píng)估自動(dòng)語音識(shí)別(automatic speech recognition, ASR)系統(tǒng)的詞錯(cuò)率(word error rate, WER),滿足言語能力受損人群的康復(fù)需求，促進(jìn)特殊人群客觀言語能力評(píng)估體系構(gòu)建，本研究提供了一種直接根據(jù)深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)發(fā)出的音素后驗(yàn)概率預(yù)測(cè)WER的方法，而不是計(jì)算參考轉(zhuǎn)錄文本與隱馬爾可夫(hidden Markov model, HMM)解碼的轉(zhuǎn)錄文本之間的WER。方法通過對(duì)語音信號(hào)進(jìn)行特征提取并將其輸入到DNN模型中以計(jì)算音素后驗(yàn)概率圖(phonetic posterior grams, PPG)。通過PPG計(jì)算出反映ASR系統(tǒng)WER的3種性能指標(biāo)以達(dá)到預(yù)測(cè)目的。最后，對(duì)在4種真實(shí)聲學(xué)場(chǎng)景下所得WER預(yù)測(cè)數(shù)據(jù)進(jìn)行分析，驗(yàn)證其有效性。同時(shí)，研究還搭建了20種不同深度、寬度的聲學(xué)模型進(jìn)行性能評(píng)估對(duì)比，探究了模型規(guī)模對(duì)預(yù)測(cè)效果的影響。結(jié)果根據(jù)20種模型WER評(píng)估的數(shù)據(jù)，其中具有2層隱藏層且每層含512個(gè)神經(jīng)元的網(wǎng)絡(luò)模型對(duì)WER數(shù)據(jù)預(yù)測(cè)誤差達(dá)到最小，省略ASR系統(tǒng)解碼步驟而得到可靠的WER預(yù)測(cè)數(shù)據(jù)。結(jié)論使用基于音素概率的性能指標(biāo)可以實(shí)現(xiàn)對(duì)WER的有效預(yù)測(cè)，并且可以擺脫參考轉(zhuǎn)錄文本和單詞標(biāo)簽的限制。

參考文獻(xiàn)：

服務(wù)與反饋：

【文章下載】【加入收藏】

提示：您還未登錄，請(qǐng)登錄！點(diǎn)此登錄

51黑料吃瓜在线观看,51黑料官网|51黑料捷克街头搭讪_51黑料入口最新视频