會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機(jī)版!    精選9.9元!    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當(dāng)前位置:首頁 > 機(jī)翻技術(shù) > 識別技術(shù) > 正文

語音識別的總體結(jié)構(gòu)

發(fā)布時(shí)間: 2022-07-17 09:45:31   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):
摘要: 為了對這個(gè)噪聲句子進(jìn)行“解碼”,要考慮所有可能的句子,對于每個(gè)句子,要計(jì)算它生成噪聲句子的概率,然后選取概率最大的句子。


語音識別系統(tǒng)把語音的聲學(xué)輸入看成是源句子的一個(gè)噪聲“版本”。為了對這個(gè)噪聲句子進(jìn)行“解碼”,要考慮所有可能的句子。對于每個(gè)句子,要計(jì)算它生成噪聲句子的概率,然后選取概率最大的句子。圖1具體說明了這個(gè)“噪聲信道”的比喻。


1.png


圖1應(yīng)用于整個(gè)句子的噪聲信道模型?,F(xiàn)代語音識別系統(tǒng)的工作就是要搜索一個(gè)很大的潛在源句子空間,并選擇在生成噪聲句子時(shí)具有最大概率的句子。為了做到這些,語音識別系統(tǒng)不惜使用各種模型:表示實(shí)現(xiàn)為一定的單詞串的句子的概率模型(N元語法),表示實(shí)現(xiàn)為一定的音子串的單詞的概率模型(HMM),表示實(shí)現(xiàn)為聲學(xué)特征或聲譜特征的音子的概率模型(高斯/MLP)


如圖1所示,建立噪聲信道模型需要解決兩個(gè)問題。第一個(gè)問題是,為了挑選出與噪聲輸入匹配的最佳句子,需要對“最佳匹配”有一個(gè)完全的度量。因?yàn)檎Z音是變化多端的,一個(gè)聲學(xué)輸入句子不可能與這個(gè)句子的任何模型都匹配得天衣無縫。我們將使用概率作為度量,并且說明了如何把不同的概率估計(jì)結(jié)合起來,以便對給定的候選句子的噪聲觀察序列的概率得到一個(gè)完全的估計(jì)。第二個(gè)問題是,因?yàn)樗杏⒄Z句子的集合非常大,我們需要一個(gè)有效的算法,使得不必對所有可能的句子都進(jìn)行搜索,而只搜索那些有機(jī)會與輸入匹配的句子。這就是解碼問題或搜索問題,我們將總結(jié)兩種方法:Viterbi解碼算法或動(dòng)態(tài)規(guī)劃算法,棧解碼算法或A*解碼算法。


語音識別的概率噪聲信道總體結(jié)構(gòu)的目標(biāo)如下:

“對于給定的某個(gè)聲學(xué)輸入O,在語言的ζ所有句子中,哪個(gè)句子是最可能的句子?”


我們可以把聲學(xué)輸入O作為單個(gè)“符號”或“觀察”的序列來處理(例如,把輸入按每10微秒切分成音片,每個(gè)音片用它的能量或頻度的浮點(diǎn)值來表示)。我們用索引號來表示時(shí)間間隔,用有順序的Oi表示在時(shí)間上前后連續(xù)的輸入音片(注意,大寫字母表示符號的序列,小寫字母表示單

個(gè)的符號):


7.1.png


類似地,我們在表示句子時(shí),也把它看成是似乎由單詞簡單地構(gòu)成的單詞串:


7.2.png


無論是聲學(xué)輸入還是句子的這種表示,都是簡化了的假設(shè);例如,有時(shí)把句子切分成單詞顯得太細(xì)(當(dāng)我們想模擬單詞的組合而不是單個(gè)詞時(shí)),有時(shí)又顯得太粗(當(dāng)我們想討論形態(tài)時(shí))。在語音識別中,單詞通常是根據(jù)正詞法來定義的(當(dāng)把每個(gè)單詞映射為小寫字母以后):把oak與oaks當(dāng)成不同的單詞來處理;但是,助動(dòng)詞can(“can you tell me…?”)與名詞can(“i need a can of…”)卻被當(dāng)成相同的單詞來處理。最近的ASR研究開始注意建立更復(fù)雜的ASR單詞模型。


前面的直覺概率表示如下:


7.3.png


函數(shù)argmax f(x)的意思是“使得 f(x)為最大值的x”。式(7.3)能保證給出最優(yōu)的句子W,但現(xiàn)在需要使這個(gè)等式運(yùn)行起來;這就是說,對于給定的句子W和聲學(xué)序列O,我們需要計(jì)算出P(W|O)。我們知道,對于任何給定的概率P(xly),可以使用貝葉斯規(guī)則,把這個(gè)概率P(xly)分解如下:



微信公眾號

[1] [2] [下一頁] 【歡迎大家踴躍評論】
我來說兩句
評分: 1分 2分 3分 4分 5分
評論內(nèi)容:
驗(yàn)證碼:
【網(wǎng)友評論僅供其表達(dá)個(gè)人看法,并不表明本站同意其觀點(diǎn)或證實(shí)其描述。】
評論列表
已有 0 條評論(查看更多評論)