本書介紹了現(xiàn)代語音信號處理的基礎(chǔ)、原理、方法和應(yīng)用,并且給出一些相關(guān)算法的Python庫和調(diào)用函數(shù)。全書共15章,第1章介紹了語音信號處理的發(fā)展歷程、人工智能基礎(chǔ)和相關(guān)研究方向;第2~4章介紹了語音信號處理的一些基礎(chǔ)理論、方法和參數(shù);第5章介紹了神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的基礎(chǔ)知識;第6~15章將語音信號處理的研究方向分為前端處理(包括語音增強(qiáng)、回聲消除、聲源定位和波束形成)、后端應(yīng)用(包括語音識別、說話人識別和語音情感計(jì)算)和其他研究(包括語音合成與轉(zhuǎn)換、語音隱藏和助聽器聲信號處理)三個部分,并介紹了相關(guān)研究的基礎(chǔ)理論和算法原理。在附錄中,介紹了學(xué)習(xí)Python語言的PyCharm軟件的快速使用教程,并對文中常用的Python庫進(jìn)行了說明。
本書可作為計(jì)算機(jī)和通信與信息系統(tǒng)等學(xué)科相關(guān)專業(yè)的高年級本、?茖W(xué)生和研究生的教材或教學(xué)參考用書,也可作為從事語音信號處理的科研工程技術(shù)人員的輔助讀物和參考用書。
本書較全面地反映了現(xiàn)代語音信號處理的主要內(nèi)容和發(fā)展方向,主要面向電子信息類、自動化類、計(jì)算機(jī)類等學(xué)科有關(guān)專業(yè)的高年級本科生和研究生,也可以作為從事語音信號處理這一領(lǐng)域技術(shù)人員的參考用書。因此,本書在內(nèi)容上強(qiáng)調(diào)基本概念和基本理論方法的掌握,并突出各部分的相互聯(lián)系。此外,考慮到語音信號處理的實(shí)用性很強(qiáng),以及當(dāng)前人工智能技術(shù)的發(fā)展,本書在介紹基本理論和基本算法的基礎(chǔ)上,給出了相應(yīng)的Python代碼,使學(xué)習(xí)人員可以邊學(xué)習(xí)理論邊實(shí)踐,有助于知識的理解和記憶。
前言
語音信號處理是以語音語言學(xué)和數(shù)字信號處理為基礎(chǔ)而形成的一門涉及面很廣的綜合性學(xué)科,它與心理學(xué)、生理學(xué)、計(jì)算機(jī)科學(xué)、通信與信息科學(xué)以及模式識別和人工智能等學(xué)科都有著非常密切的關(guān)系。近年來,伴隨著深度學(xué)習(xí)、高性能運(yùn)算平臺和大數(shù)據(jù)的發(fā)展,智能語音技術(shù)的研發(fā)瓶頸紛紛被突破,已成為人工智能產(chǎn)業(yè)鏈上的關(guān)鍵一環(huán),深深地吸引廣大科學(xué)工作者不斷進(jìn)行研究和探討。
本書較全面地反映了現(xiàn)代語音信號處理的主要內(nèi)容和發(fā)展方向,主要面向電子信息類、自動化類、計(jì)算機(jī)類等學(xué)科有關(guān)專業(yè)的高年級本科生和研究生,也可以作為從事語音信號處理這一領(lǐng)域技術(shù)人員的參考用書。因此,本書在內(nèi)容上強(qiáng)調(diào)基本概念和基本理論方法的掌握,并突出各部分的相互聯(lián)系。此外,考慮到語音信號處理的實(shí)用性很強(qiáng),以及當(dāng)前人工智能技術(shù)的發(fā)展,本書在介紹基本理論和基本算法的基礎(chǔ)上,給出了相應(yīng)的Python代碼,使學(xué)習(xí)人員可以邊學(xué)習(xí)理論邊實(shí)踐,有助于知識的理解和記憶。
本書的參考學(xué)時為本科生32學(xué)時、研究生40學(xué)時,可以根據(jù)不同的教學(xué)要求對內(nèi)容進(jìn)行適當(dāng)取舍,靈活安排授課學(xué)時數(shù)。全書分為15章,具體內(nèi)容如下。
第1章簡要介紹了語音信號處理的發(fā)展歷程、當(dāng)前的主要研究方向、人工智能與語音處理的聯(lián)系,以及本書的章節(jié)安排情況。
第2章介紹了語音信號處理的基礎(chǔ)知識,包括語音的產(chǎn)生與感知、語音信號產(chǎn)生的數(shù)學(xué)模型、語音信號的數(shù)字化和語音信號的基本表征方法等。
第3章介紹了語音信號的預(yù)處理方法(包括分幀與加窗、消除趨勢項(xiàng)和直流分量、預(yù)加重和去加重)以及4種語音信號的基本分析方法,包括時域分析、頻域分析、倒譜分析和線性預(yù)測分析。
第4章介紹了3種語音信號的特征提取技術(shù),包括端點(diǎn)檢測、基音周期估計(jì)和共振峰估計(jì)。其中,端點(diǎn)檢測算法包括雙門限法、自相關(guān)法、譜熵法和比例法;基音周期估計(jì)算法包括自相關(guān)法、倒譜法以及后處理方法;共振峰估計(jì)算法包括倒譜分析法和線性預(yù)測法。
第5章介紹了神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的相關(guān)基礎(chǔ)知識,包括神經(jīng)元的構(gòu)成、誤差逆?zhèn)鞑ニ惴ㄒ约?種典型的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),即前饋神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。
第6章介紹了語音增強(qiáng)的基本原理和典型算法。首先介紹了人耳感知特性、語音與噪聲特性和語音質(zhì)量評價標(biāo)準(zhǔn),然后依次介紹了3種語音增強(qiáng)算法:譜減法、維納濾波和基于深度學(xué)習(xí)的語音增強(qiáng)方法。
第7章介紹了回聲消除的基本原理和典型算法。首先介紹了回聲消除的基本模型以及性能的評價標(biāo)準(zhǔn),然后依次介紹5種回聲消除算法,后介紹了嘯叫檢測與抑制方法。
第8章介紹了聲源定位的基本原理。依次介紹了雙耳聽覺定位原理及方法和3種基于傳聲器陣列的聲源定位方法,即基于輸出功率的可控波束形成算法、基于到達(dá)時間差的定位算法和基于高分辨率譜估計(jì)的定位算法。此外,還介紹了傳聲器陣列模型以及可用于聲源定位研究的房間回響模型。
第9章介紹了波束形成技術(shù)的基本原理和典型算法。首先介紹了波束形成的基本理論,然后分別介紹了幾種經(jīng)典的波束形成器和自適應(yīng)波束形成,后介紹了幾種后置濾波算法。
第10章介紹了語音識別算法。首先介紹了語音識別原理與系統(tǒng)構(gòu)成,接著介紹了基于動態(tài)時間規(guī)整的語音識別系統(tǒng)和基于隱馬爾可夫模型的語音識別系統(tǒng),然后介紹了基于人工智能的語音識別的相關(guān)知識,后介紹了語音識別算法的性能評價指標(biāo)。
第11章介紹了說話人識別算法。首先介紹了說話人識別的原理,然后介紹了兩種典型的說話人識別系統(tǒng),分別是基于VQ的說話人識別系統(tǒng)和基于GMM的說話人識別系統(tǒng)。接著介紹了基于深度學(xué)習(xí)的說話人識別的相關(guān)知識,包括兩種經(jīng)典的基于深度學(xué)習(xí)的說話人識別算法,后,介紹了說話人識別的研究難點(diǎn)。
第12章介紹了語音信號中的情感信息處理的基本原理。首先介紹了情感理論和語音數(shù)據(jù)庫的建立方法,然后介紹了一些常用的語音情感特征及其提取算法,接著介紹了兩種語音情感識別算法,包括K近鄰分類器和支持向量機(jī)。后介紹了基于深度學(xué)習(xí)的情感識別算法,并對未來的研究進(jìn)行了展望。
第13章介紹了語音合成與轉(zhuǎn)換的基本原理。首先介紹了幀合成技術(shù),然后介紹了3種語音合成算法,包括線性預(yù)測合成法、共振峰合成法和基音同步疊加技術(shù),接著介紹了語音信號的變速和變調(diào)的原理和實(shí)現(xiàn)方法,后介紹了3種基于深度學(xué)習(xí)的語言合成模型。
第14章介紹了語音隱藏的基本原理。首先介紹了信息隱藏的基礎(chǔ)理論,然后介紹了兩種語音信息隱藏算法:低比特位編碼法和回聲隱藏算法,后介紹了算法的常用評價指標(biāo)以及未來的研究方向。
第15章介紹了助聽器聲信號處理的相關(guān)知識。首先介紹了聽力損失與語言理解障礙的關(guān)系,然后介紹了與助聽器相關(guān)的三種關(guān)鍵算法:多通道響度補(bǔ)償算法、回聲抑制算法以及降頻算法,后對未來的研究方向進(jìn)行了展望。
附錄提供了PyCharm軟件的快速使用教程,并對文中常用的Python庫進(jìn)行了說明。
本書主要由梁瑞宇、王青云、謝躍和唐閨臣編著,并由梁瑞宇統(tǒng)稿。本書被列入2020年江蘇省高等學(xué)校重點(diǎn)教材建設(shè)計(jì)劃(蘇高教會[2020]39號)。編者參考和引用了一些學(xué)者的研究成果,具體見參考文獻(xiàn)。在此,編者向這些文獻(xiàn)的著作者表示敬意和感謝。同時,本書的出版得到了東南大學(xué)趙力教授的悉心指導(dǎo),同時誠摯感謝給予此書指導(dǎo)和幫助的老師以及東南大學(xué)團(tuán)隊(duì)的碩士研究生。
語音信號處理是一門理論性強(qiáng)、實(shí)用面廣、內(nèi)容新、難度大的交叉學(xué)科,同時這門學(xué)科又處于快速發(fā)展之中,盡管編者在編寫過程中始終注重理論緊密聯(lián)系實(shí)際,力求以盡可能簡明、通俗的語言,深入淺出、通俗易懂地將這門學(xué)科介紹給讀者,但因水平有限、時間較倉促,書中疏漏與不妥之處在所難免,敬請廣大讀者批評指正。
前言
第1章緒論
1.1語音信號的發(fā)展歷程
1.2語音信號處理的研究方向
1.3人工智能與語音處理
1.4本書結(jié)構(gòu)
第2章語音信號處理的基礎(chǔ)知識
2.1語音的產(chǎn)生與感知
2.2語音信號產(chǎn)生的數(shù)學(xué)模型
2.3語音信號的數(shù)字化
2.4語音信號的表征
2.5思考與復(fù)習(xí)題
第3章語音信號分析方法
3.1語音信號預(yù)處理
3.2語音信號的時域分析
3.3語音信號的頻域分析
3.4語音信號的倒譜分析
3.5語音信號的線性預(yù)測分析
3.6思考與復(fù)習(xí)題
第4章語音信號特征提取技術(shù)
4.1端點(diǎn)檢測
4.2基音周期估計(jì)
4.3共振峰估計(jì)
4.4思考與復(fù)習(xí)題
第5章神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
5.1神經(jīng)網(wǎng)絡(luò)及其發(fā)展
5.2神經(jīng)元
5.3誤差逆?zhèn)鞑ニ惴?br>5.4前饋神經(jīng)網(wǎng)絡(luò)
5.5卷積神經(jīng)網(wǎng)絡(luò)
5.6循環(huán)神經(jīng)網(wǎng)絡(luò)
5.7常用的深度學(xué)習(xí)框架
5.8思考與復(fù)習(xí)題
第6章語音增強(qiáng)
6.1基礎(chǔ)知識
6.2譜減法
6.3維納濾波
6.4基于深度學(xué)習(xí)的語音增強(qiáng)方法
6.5思考與復(fù)習(xí)題
第7章回聲消除
7.1回聲消除基礎(chǔ)知識
7.2回聲消除算法
7.2.1LMS算法
7.3嘯叫檢測與抑制
7.4總結(jié)與展望
7.5思考與復(fù)習(xí)題
第8章聲源定位
8.1雙耳聽覺定位原理及方法
8.2傳聲器陣列模型
8.3房間混響模型
8.4基于傳聲器陣列的聲源定位方法
8.5總結(jié)與展望
8.6思考與復(fù)習(xí)題
第9章波束形成技術(shù)
9.1基本理論
9.2固定波束形成器
9.3自適應(yīng)波束形成
9.4后置濾波
9.5思考與復(fù)習(xí)題
第10章語音識別
10.1基本理論
10.2語音識別原理與系統(tǒng)構(gòu)成
10.3基于動態(tài)時間規(guī)整的語音識別系統(tǒng)
10.4基于隱馬爾可夫模型的語音識別系統(tǒng)
10.5人工智能與語音識別
10.6性能評價指標(biāo)
10.7思考與復(fù)習(xí)題
第11章說話人識別
11.1說話人識別的原理
11.2應(yīng)用VQ的說話人識別系統(tǒng)
11.3應(yīng)用GMM的說話人識別系統(tǒng)
11.4基于深度學(xué)習(xí)的說話人識別
11.5總結(jié)與展望
11.6思考與復(fù)習(xí)題
第12章語音情感計(jì)算
12.1情感的心理學(xué)理論
12.2語音情感數(shù)據(jù)庫
12.3情感的聲學(xué)特征分析
12.4語音情感識別經(jīng)典算法
12.5深度學(xué)習(xí)模型
12.6語音情感計(jì)算的應(yīng)用與展望
12.7思考與復(fù)習(xí)題
第13章語音合成與轉(zhuǎn)換
13.1幀合成技術(shù)
13.2經(jīng)典語音合成算法
13.3語音信號的變速和變調(diào)
13.4基于深度學(xué)習(xí)的語音合成模型
13.5總結(jié)與展望
13.6思考與復(fù)習(xí)題
第14章語音隱藏
14.1信息隱藏基礎(chǔ)
14.2語音信息隱藏算法
14.3常用評價指標(biāo)
14.4總結(jié)與展望
14.5思考與復(fù)習(xí)題
第15章助聽器聲信號處理
15.1聽力損失與語音理解障礙
15.2壓縮與響度補(bǔ)償
15.3回聲抑制算法
15.4降頻算法
15.5總結(jié)與展望
15.6思考與復(fù)習(xí)題
附錄
附錄APyCharm快速使用教程
附錄B常用Python庫及其說明
參考文獻(xiàn)