會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機版!    精選9.9元!    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當(dāng)前位置:首頁 > 機翻技術(shù) > 識別技術(shù) > 正文

文本 - 語音轉(zhuǎn)換中的韻律

發(fā)布時間: 2022-06-29 09:18:56   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):


具有同樣的突顯度和短語模型的兩段話語可能由于具有不同的調(diào)(tune)而在韻律上有所不同。調(diào)就是話語的語調(diào)節(jié)律。我們來考慮語段“oh, really”。不用改變短語和重音,只要改變語調(diào),這個語段也會有很多變體。例如,我們可以激動地說“oh, really!”(當(dāng)有人告訴你中了彩票,你激動地做出的回應(yīng));也可以懷疑地說“oh, really?”(當(dāng)你不相信說話人所說的是真的時),也可以憤怒地說“oh, really!”來表達你的不悅。語調(diào)可以分解成一些組成部分,其中最重要的組成部分是音高重音(pitch accent)。音高重音出現(xiàn)在重讀音節(jié)中,形成F0曲拱的一個特殊模式(請看下面的解釋)。根據(jù)模式的類型,可以產(chǎn)生不同的效應(yīng)。音高重音分類的最流行模式是Pierrehumbert模式或ToBI模式(Pierrehumbert,1980; Silverman et al.,1992)。這個模式指出,英語中共有5種音高重音,是由高調(diào)H和低調(diào)L兩個簡單的調(diào)按不同的方式組合而成的。H+L模式形成降調(diào),L+H模式形成升調(diào)。星號(*)用于表示在重音音節(jié)上哪個調(diào)是降調(diào)。這樣,可形成的音高重音模式有H*,L*,

L+H*,L*+H,H+L*(第6個音高重音模式H*+L在該模式的早期版本中出現(xiàn)過,但后來被放棄了)。關(guān)于所舉的“oh, really”的3個例子,其重音可以分別標為L+H*,L*+H和L*。除了音高重音之外,該模式還有兩個短語重音L-和H-,兩個邊界調(diào)L%和H%,用于短語的結(jié)尾以控制語調(diào)的升或降。


其他語調(diào)模型與ToBI模型的不同之處在于,它們不使用離散的音位類別來表示語調(diào)重音。例如,Tilt (Taylor, 2000)和Fujisaki模型 (Fujisaki and Ohno,1997) 使用連續(xù)的參數(shù)而不使用離散的范疇來模擬音高重音。這些研究者證明,離散模型通常比較直觀,便于掌握,而連續(xù)模型則可能具有更高的魯棒性和精確性,更便于計算使用。


2. 韻律的語音和聲學(xué)性質(zhì)

上述三個音位因素相互作用,并在各種不同的語音和聲學(xué)現(xiàn)象中實現(xiàn)。突顯的音節(jié)一般比非突顯的音節(jié)讀得重一些、長一些。韻律的短語邊界通常有停頓,邊界之前的音節(jié)變長,有時邊界處的音高變低。語調(diào)則表現(xiàn)為基頻(F0)曲拱。


3. 語音合成中的韻律

TTS的主要任務(wù)是生成韻律的適當(dāng)語言表示,并且從這樣的語言表示出發(fā),生成適當(dāng)?shù)穆晫W(xué)模式,而這樣的聲學(xué)模式將表現(xiàn)為輸出語音的波形。這樣一個韻律成分在TTS系統(tǒng)中的輸出就是音子的一個序列,每個音子都有一個音延(duration)值和一個音高(pitch)值。每個音子的音延與語音上下文有關(guān)。F0的值受到前面討論過的各種因素的影響,包括詞重音、句子的重讀或焦點成分以及話語的語調(diào)(例如,疑問句中后面部分的語調(diào)要升高)。圖1. 是FESTIVAL(Black et al.,1999)語音合成系統(tǒng)對于句子Do you really want to see all of it?的TTS 輸出的一個樣本。這個輸出以及圖2. 所示的F0的值成了波形合成(waveform synthesis)的輸入。其中的音延是用CART風(fēng)格判定樹(Riley,1992)來計算的。


1.png

圖1. 句子Do you really want to see all of it? 在FESTIVAL 語音合成器 (Black et al., 1999) 中的輸出。精確的語調(diào)曲拱如圖2. 所示。圖片由Paul Taylor提供



如上所述,確定一個句子的韻律模式是很困難的,因為需要有真實世界的知識和語義學(xué)的信息來判別要重讀什么音節(jié),要應(yīng)用什么語調(diào)。此類信息很難從文本中抽取出來,因此韻律模式通常只自然語言處理綜論是產(chǎn)生輸入文本的“中性的陳述句”,并且假定說這樣的句子時,不需要參照話語的歷史或現(xiàn)實世界的事件,它是一個默認值。這是在TTS中語調(diào)總是顯得有些“呆板”的一個主要原因。


2.png


圖2. FESTIVAL語音合成系統(tǒng)生成的圖1. 中的示例句子的F0曲拱。圖片由Paul Taylor提供


責(zé)任編輯:admin


微信公眾號

[上一頁][1] [2] 【歡迎大家踴躍評論】
我來說兩句
評分: 1分 2分 3分 4分 5分
評論內(nèi)容:
驗證碼:
【網(wǎng)友評論僅供其表達個人看法,并不表明本站同意其觀點或證實其描述。】
評論列表
已有 0 條評論(查看更多評論)