51黑料吃瓜在线观看,51黑料官网|51黑料捷克街头搭讪_51黑料入口最新视频

設(shè)為首頁 |  加入收藏
首頁首頁 期刊簡(jiǎn)介 消息通知 編委會(huì) 電子期刊 投稿須知 廣告合作 聯(lián)系我們
基于DNN的自動(dòng)語音識(shí)別系統(tǒng)錯(cuò)誤率評(píng)估方法

作者: 王梓赫;張培茗;司博宇; 
單位:1.上海理工大學(xué)健康科學(xué)與工程學(xué)院2.上海健康醫(yī)學(xué)院醫(yī)療器械學(xué)院
關(guān)鍵詞: 深度神經(jīng)網(wǎng)絡(luò);隱馬爾科夫;自動(dòng)語音識(shí)別系統(tǒng);系統(tǒng)性能評(píng)估;音素后驗(yàn)概率圖; 
分類號(hào):
出版年·卷·期(頁碼):2024·43·6(613-618)
摘要:

目的 為客觀評(píng)估自動(dòng)語音識(shí)別(automatic speech recognition, ASR)系統(tǒng)的詞錯(cuò)率(word error rate, WER),滿足言語能力受損人群的康復(fù)需求,促進(jìn)特殊人群客觀言語能力評(píng)估體系構(gòu)建,本研究提供了一種直接根據(jù)深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)發(fā)出的音素后驗(yàn)概率預(yù)測(cè)WER的方法,而不是計(jì)算參考轉(zhuǎn)錄文本與隱馬爾可夫(hidden Markov model, HMM)解碼的轉(zhuǎn)錄文本之間的WER。方法 通過對(duì)語音信號(hào)進(jìn)行特征提取并將其輸入到DNN模型中以計(jì)算音素后驗(yàn)概率圖(phonetic posterior grams, PPG)。通過PPG計(jì)算出反映ASR系統(tǒng)WER的3種性能指標(biāo)以達(dá)到預(yù)測(cè)目的。最后,對(duì)在4種真實(shí)聲學(xué)場(chǎng)景下所得WER預(yù)測(cè)數(shù)據(jù)進(jìn)行分析,驗(yàn)證其有效性。同時(shí),研究還搭建了20種不同深度、寬度的聲學(xué)模型進(jìn)行性能評(píng)估對(duì)比,探究了模型規(guī)模對(duì)預(yù)測(cè)效果的影響。結(jié)果 根據(jù)20種模型WER評(píng)估的數(shù)據(jù),其中具有2層隱藏層且每層含512個(gè)神經(jīng)元的網(wǎng)絡(luò)模型對(duì)WER數(shù)據(jù)預(yù)測(cè)誤差達(dá)到最小,省略ASR系統(tǒng)解碼步驟而得到可靠的WER預(yù)測(cè)數(shù)據(jù)。結(jié)論 使用基于音素概率的性能指標(biāo)可以實(shí)現(xiàn)對(duì)WER的有效預(yù)測(cè),并且可以擺脫參考轉(zhuǎn)錄文本和單詞標(biāo)簽的限制。

參考文獻(xiàn):

服務(wù)與反饋:
文章下載】【加入收藏
提示:您還未登錄,請(qǐng)登錄!點(diǎn)此登錄
 
友情鏈接  
地址:北京安定門外安貞醫(yī)院內(nèi)北京生物醫(yī)學(xué)工程編輯部
電話:010-64456508  傳真:010-64456661
電子郵箱:[email protected]