- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
用二元詞語法對語音識別系統(tǒng)加以改進可以顯著地提高系統(tǒng)的性能。這啟發(fā)我們,如果采用一個更加全面而詳盡的模型,會產(chǎn)生更好的結(jié)果。不過,實際上,這是很難做到的??梢允褂萌~語法,但是這需要多得多的數(shù)據(jù)。直接集成一個概率上下文無關(guān)語法也會帶來困難。首先,語音系統(tǒng)目前很好地集成了二元語法模型、詞模型和音素模型,因為它們都可以用同一個框架來表示,即隱馬爾可夫模型。引入上下文無關(guān)語法機制作為句法部件難于進行有效的集成,并且會對識別的準確率或者有效性造成負面的影響。其結(jié)果是,所有現(xiàn)有的口語理解系統(tǒng)都在語音識別和自然語言理解系統(tǒng)之間維持一個嚴格的分界,如圖C.1所示。
圖C.1語音理解系統(tǒng)的結(jié)構(gòu)
按照這種劃分,在設(shè)計接口的時候還是有很多種做法的。最簡單的接口,也是最常用的,就是語音識別輸出所找到的單一的最佳單詞序列。然后,語言處理系統(tǒng)在這個基礎(chǔ)上進行處理,并期望沒有嚴重的識別錯誤。將這種做法更一般化的一種方法稱為N-best方法,在N-best方法中,語音識別輸出它所找到的N個最佳序列。這允許句法分析器在第一個結(jié)果失敗時嘗試其他解釋。雖然很多系統(tǒng)都具有使用N-best方法的能力,不過實踐證明這只是使得準確率略微有所提高,但比起由此導(dǎo)致的額外的處理開銷來說,這樣做并不值得。其中的一個原因是,N個最佳的序列本質(zhì)上是相同的,只在一到兩個單詞上有區(qū)別。這樣,如果語音識別系統(tǒng)識別錯了某一個特定的單詞,將很有可能在輸出的N個最佳選擇中都有同樣的錯誤。
取代N-best的一種有趣的方法是輸出詞格。在這種方法中,語音識別系統(tǒng)輸出一個格子,這個格子給出了輸入中最可能的單詞。一個詞格給出了提供一種大量可能句子的壓縮表示形式,并為基于句法分析器和語義解釋的錯誤恢復(fù)提供了一個表達能力足夠豐富的環(huán)境。注意,你可以將詞格看做chant句法分析器的初始線圖。在某個位置出現(xiàn)某個單詞有多種選擇這一事實對基本的句法分析算法沒有影響。
這種通用技術(shù)目前還沒有被充分研究,因為目前的系統(tǒng)大多都使用高度領(lǐng)域化的技術(shù)來優(yōu)化其短期性能。舉例來說,在航空旅行信息系統(tǒng)(ATIS,Air Travel Information System)領(lǐng)域中開發(fā)了多個不同的口語理解系統(tǒng),這些系統(tǒng)基于航空時刻表來回答問題。因為這個應(yīng)用領(lǐng)域非常集中而且狹窄,所以第11章描述的特定領(lǐng)域的解釋技術(shù)可以用于正確地解釋一個查詢,即使其中的一部分被錯誤地識別也沒有太大的影響。研究者發(fā)現(xiàn),在短期內(nèi)改進特定領(lǐng)域解釋的啟發(fā)式方法比探索語音識別和自然語言處理系統(tǒng)之間更通用、更健壯的接口來得更有效。當(dāng)應(yīng)用變得更為復(fù)雜時,這種現(xiàn)狀應(yīng)該會有所改變。
即使在給定受限領(lǐng)域的情況下,ATIS領(lǐng)域的系統(tǒng)性能也給人以深刻的影響。一般而言,一個典型的ATIS系統(tǒng)包括大約2000個單詞,獨立于說話者,使用標準的不帶特殊信號處理硬件的標準工作站完成語音識別任務(wù)時幾乎沒有可察覺的延遲。系統(tǒng)使用一個包含數(shù)百個事先沒有見過的查詢語句的集合進行測試。1993年,最好的語音識別系統(tǒng)達到了95%的單詞準確率??傮w最好的系統(tǒng)對于88%的查詢語句可以產(chǎn)生合適的回答。
責(zé)任編輯:admin