定 價(jià):88 元
叢書名:現(xiàn)代聲學(xué)科學(xué)與技術(shù)叢書
- 作者:呂士楠等著
- 出版時(shí)間:2012/1/1
- ISBN:9787030329202
- 出 版 社:科學(xué)出版社
- 中圖法分類:H11
- 頁碼: 373
- 紙張:膠版紙
- 版次:1
- 開本:16K
《漢語語音合成:原理和技術(shù)》介紹語音合成的原理和針對(duì)漢語的各項(xiàng)合成技術(shù),以及應(yīng)用的范例.全書分基礎(chǔ)篇和專題篇兩大部分.基礎(chǔ)篇介紹語音合成技術(shù)的發(fā)展歷程和作為語音合成技術(shù)基礎(chǔ)的聲學(xué)語音學(xué)知識(shí),尤其是作者獲得的相關(guān)研究成果(填補(bǔ)了漢語語音學(xué)知識(shí)中的某些空白),并對(duì)各種合成器的工作原理和基本結(jié)構(gòu)進(jìn)行系統(tǒng)的闡述.專題篇結(jié)合近十年來國內(nèi)外技術(shù)發(fā)展的熱點(diǎn)和方向,討論韻律分析與建模、數(shù)據(jù)駱動(dòng)的語音合成方法、語音合成數(shù)據(jù)庫的構(gòu)建技術(shù)、文語轉(zhuǎn)換系統(tǒng)的評(píng)估方法、語音合成技術(shù)的應(yīng)用等。
《漢語語音合成:原理和技術(shù)》面向從事語言聲學(xué)、語音通信技術(shù),特別是語音合成的科學(xué)工作者、工程技術(shù)人員、大學(xué)教師、研究生和高年級(jí)的大學(xué)生,可作為他們研究、開發(fā)、進(jìn)修的參考書。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
目 錄
序 一
序 二
前 言
基礎(chǔ)篇
第1章 語音合成技術(shù)史的敘述 3
1.1 機(jī)械式語音合成器 3
1.1.1 Kempelen的講話機(jī) 3
1.1.2 Euphonia講話機(jī)6
1.2 電子式語音合成器 7
1.2.1 VODER7
1.2.2 模式播放器 9
1.2.3 共振峰合成器 11
1.3 基于計(jì)算機(jī)的語音合成 13
1.3.1 數(shù)字式共振峰語音合成技術(shù) 13
1.3.2 披形拼接合成技術(shù) 19
1.4 漢語語音合成的發(fā)展 21
1.4.1 漢語合成研究的先驅(qū) 22
1.4.2 國內(nèi)漢語合成技術(shù)的研究 24
1.5 總結(jié) 27
參考文獻(xiàn) 28
附錄合成語音樣品 30
第2章 聲學(xué)語音學(xué) 32
2.1 聲學(xué)基礎(chǔ) 32
2.1.1 空氣中的聲波32
2.1.2 被動(dòng)方程 35
2.1.3 聲音在管子中的傳播 39
2.2 言語交際過程 43
2.2.1 語音的產(chǎn)生 45
2.2.2 語音的感知 49
2.3 語音的聲學(xué)特征 52
2.3.1 語音的時(shí)間維及頻率維表示 52
2.3.2 頻譜分析 54
2.3.3 語固和語音的頻譜分析方法 62
2.3.4 元音的頻譜 66
2.3.5 輔音的頻譜 69
2.3.6 音軌 70
2.4漢語普通話的音位系統(tǒng) 72
2.4.1 漢語普通話的輔音系統(tǒng) 74
2.4.2 漢語普通話的元音系統(tǒng) 76
2.4.3 漢語傳統(tǒng)的聲韻調(diào)系統(tǒng) 78
2.5 總結(jié) 83
參考文獻(xiàn) 83
第3章 韻律 86
3.1 語調(diào)模型 87
3.1.1 "調(diào)核"理論和INTSINT語調(diào)模型 87
3.1.2 Pierrehumbert有限狀態(tài)網(wǎng)絡(luò)模型 90
3.1.3 Tilt 語調(diào)模型 95
3.1.4 Fujisa.ki模型 98
3.1.5 PENTA模型 101
3.2 漢語普通話韻律的基本單元 106
3.2.1 詞調(diào) 106
3.2.2 短語語調(diào) 113
3.3 句調(diào)和篇章韻律 119
3.3.1 語篇語調(diào) 119
3.3.2 朗讀風(fēng)格的影響 121
3.4 總結(jié) 124
參考文獻(xiàn) 125
第4章 漢語文語轉(zhuǎn)換系統(tǒng) 128
4.1 合成語音自然度的研究 128
4.1.1 合成語音自然度實(shí)驗(yàn) 128
4.1.2 音聯(lián)對(duì)自然度的影響 131
4.1.3 漢語語句重音的聲學(xué)表現(xiàn).138
4.2 漢語共振峰合成系統(tǒng) 141
4.2.1 系統(tǒng)框圖 141
4.2.2 合成單元 143
4.2.3 語言學(xué)處理 144
4.2.4 韻律設(shè)計(jì) 150
4.2.5 聲學(xué)處理 151
4.3 基音同步波形疊加合成 175
4.3.1 PSOLA 算法 176
4.3.2 漢語的韻律一一播音風(fēng)格言語的聲學(xué)分析 186
4.3.3 KX-PSOLA 議語文語轉(zhuǎn)換系統(tǒng)的韻律模型 194
4.3.4 高清晰度高自然度KX-PSOLA漢語文語轉(zhuǎn)換系統(tǒng) 203
4.3.5 (聯(lián)想佳音》 211
4.4 總結(jié) 217
參考文獻(xiàn) 218
專題篇
第5章 普通話的節(jié)律和重音的實(shí)驗(yàn)研究 225
5.1 基于大規(guī)模語料庫的韻律研究 225
5.1.1 語料庫的設(shè)計(jì)原則 225
5.1.2 語料庫的后期加工 227
5.1.3 語料庫的實(shí)體 232
5.2 普通話的節(jié)律組織 233
5.2.1 節(jié)律組織中的自由度 235
5.2.2 節(jié)律組織規(guī)則 239
5.3 普通話的重音標(biāo)注、分類及分配 241
5.3.1 重音的知覺強(qiáng)度標(biāo)注 243
5.3.2 重音強(qiáng)度的三級(jí)標(biāo)注 245
5.3.3 語義重音與節(jié)奏重音 251
5.3.4 重音的分布與韻律邊界 257
5.3.5 總結(jié) 259
參考文獻(xiàn) 260
第6章 基于大規(guī)模語料庫的波形拼接合成 263
6.1 韻律控制策略 264
6.1.1 全控制策略 264
6.1.2 半控制策略 264
6.1.3 軟控制策略 265
6.2 基于韻律軟控制策略的TTS系統(tǒng)的結(jié)構(gòu) 267
6.3 單元選擇和波形拼接的策略和方法 268
6.3.1 音節(jié)關(guān)聯(lián)的上下文矢量 268
6.3.2 上下文矢量的距離 270
6.4 建立語音特征覆蓋完備的言語數(shù)據(jù)庫 271
6.4.1 音庫覆蓋率與規(guī)模 271
6.4.2 言語數(shù)據(jù)披形的采集和標(biāo)注 272
6.4.3 標(biāo)注精度對(duì)合成自然度的影響 273
6.4.4基于上下文相關(guān)邊界模型的自動(dòng)切分方法 274
6.4.5 音段披形的直接拼接合成 279
6.4.6 小結(jié) 283
6.5 木蘭技英雙語TT8系統(tǒng) 284
6.5.1 木蘭的結(jié)構(gòu) 284
6.5.2 統(tǒng)一的文本標(biāo)準(zhǔn)化模塊 285
6.5.3 語言檢測和分發(fā)模塊及單元提取模塊 285
6.5.4 言語數(shù)據(jù)庫 285
6.5.5 小結(jié) 286
6.6 更多應(yīng)用 286
6.6.1 個(gè)性化TTS系統(tǒng) 286
6.6.2 領(lǐng)域自適應(yīng)TTS 290
6.6.3 互聯(lián)網(wǎng)個(gè)性化語音服務(wù) 296
6.7 總結(jié) 300
參考文獻(xiàn) 300
第7章 波形拼接合成語料庫生成技術(shù) 303
7.1 錄音腳本的設(shè)計(jì) 303
7.1.1 音段特征覆蓋 303
7.1.2 韻律特征覆蓋 306
7.2 發(fā)音人的挑選 307
7.2.1 發(fā)音人性別的選擇 307
7.2.2 發(fā)音人年齡的限制 308
7.2.3 發(fā)音人籍貫的選擇 308
7.2.4音魚的要求 308
7.2.5 專業(yè)水平的考查 308
7.2.6 發(fā)音人的工作時(shí)間保證 308
7.2.7 候選發(fā)音人人數(shù)的考慮 309
7.2.8 候選人的發(fā)音評(píng)估 309
7.3 音庫錄制 309
7.3.1 錄音室 310
7.3.2 錄音設(shè)備 310
7.3.3 錄音程序 312
7.4數(shù)字錄音材料的處理 314
7.4.1 復(fù)審 314
7.4.2 標(biāo)音 314
7.5 總結(jié) 316
參考文獻(xiàn) 316
第8章 語音合成系統(tǒng)的質(zhì)量評(píng)估 318
8.1 語音輸出系統(tǒng)質(zhì)量評(píng)估方法 318
8.1.1 音節(jié)清晰度測試 319
8.1.2 詞和旬的可懂度測試 322
8.1.3 語句和篇單的整體性能測試 324
8.1.4 評(píng)測的原則 327
8.2 漢語語音合成質(zhì)量評(píng)估 327
8.2.1 1994年"863"漢語語音合成系統(tǒng)評(píng)測 328
8.2.2 1995年漢語語音合成系統(tǒng)評(píng)價(jià)方法 329
8.3 國家語言文字工作委員會(huì)漢語語音合成系統(tǒng)評(píng)測 331
8.3.1 2004年漢語語音合成系統(tǒng)評(píng)價(jià)方法 331
8.3.2 2004年的評(píng)測結(jié)果和分析 333
8.4 MOS和PC評(píng)估方法的比較 338
8.4.1 測試文本和測試條件 339
8.4.2 MOS評(píng)估 339
8.4.3 PC測試 341
8.4.4 MOS和PC評(píng)測比較結(jié)果 343
8.5 漢語合成語音評(píng)測新方法探索 343
8.6 總結(jié) 345
參考文獻(xiàn) 345
附錄2004年評(píng)估測試語料 346
第9章 展望 351
9.1 STRAIGHT分析合成技術(shù) 351
9.2 基于HMM的語音合成 358
9.2.1 系統(tǒng)的框圖 358
9.2.2 訓(xùn)練集及參數(shù)提取 359
9.2.3 HMM模型化 359
9.2.4 基于上下文聚類的決策樹 360
9.2.5 言語合成 362
9.3 從概念到語音的合成 363
9.3.1 SOLE系統(tǒng) 364
9.3.2 SOCS系統(tǒng) 365
9.4 多語種合成系統(tǒng) 367
9.5 口語翻譯系統(tǒng) 368
9.6 總結(jié) 370
參考文獻(xiàn) 370
后記 372