語音識別及其在農(nóng)業(yè)信息采集中的應用
定 價:68 元
叢書名:國家自然科學基金項目研究成果
- 作者:許金普
- 出版時間:2018/5/1
- ISBN:9787511636560
- 出 版 社:中國農(nóng)業(yè)科學技術(shù)出版社
- 中圖法分類:S126
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
當前語音識別的研究已取得了較為豐碩的成果,在安靜環(huán)境下性能令人滿意,逐漸被應用在諸多人機交互的場合。然而,由于噪聲的存在,語音識別系統(tǒng)在實際環(huán)境下性能急劇下降,如何提高語音識別的噪聲魯棒性,逐漸成為近年來語音識別的研究熱點。本文主要研究農(nóng)產(chǎn)品市場信息采集作業(yè)環(huán)境中的語音識別噪聲魯棒性問題,針對當前缺乏面向農(nóng)產(chǎn)品市場信息采集領(lǐng)域的語音識別引擎,而通用領(lǐng)域的識別算法又不適合解決上述問題,分析環(huán)境的噪聲特點,面向非特定人和中小規(guī)模詞匯量的連續(xù)漢語普通話識別,訓練聲學模型,研究適用于該環(huán)境下的語音識別魯棒性方法。
前言
當前語音識別的研究已取得了較為豐碩的成果,在安靜環(huán)境下性能令人滿意,逐漸被應用在諸多人機交互的場合。然而,由于噪聲的存在,語音識別系統(tǒng)在實際環(huán)境下性能急劇下降,如何提高語音識別的噪聲魯棒性,逐漸成為近年來語音識別的研究熱點。本書主要研究農(nóng)產(chǎn)品市場信息采集作業(yè)環(huán)境中的語音識別噪聲魯棒性問題,針對當前缺乏面向農(nóng)產(chǎn)品市場信息采集領(lǐng)域的語音識別引擎,而通用領(lǐng)域的識別算法又不適合解決上述問題,分析環(huán)境的噪聲特點,面向非特定人和中小規(guī)模詞匯量的連續(xù)漢語普通話識別,訓練聲學模型,研究適用于該環(huán)境下的語音識別魯棒性方法。本書主要研究的內(nèi)容包括:
(1)基于隱馬爾科夫模型(HMM)框架建立了聲學模型,利用自建的農(nóng)產(chǎn)品市場信息語料庫進行訓練和測試HHM模型,基于HTK工具包建立了農(nóng)產(chǎn)品價格語音識別基線系統(tǒng)。
(2)在分析農(nóng)產(chǎn)品市場信息采集環(huán)境的噪聲特點的基礎(chǔ)上,從模型空間和特征空間對系統(tǒng)采取了多種魯棒性方法,包括:在聲學模型的識別基元選取上,采用了一種擴展的三音素聲韻母模型,有效地解決了音節(jié)內(nèi)部和音節(jié)間的協(xié)同發(fā)音問題,大大提高了識別率;針對建模后三音子模型數(shù)量急劇增加問題,采用了決策樹狀態(tài)聚類方法,建立了一套二值問題規(guī)則集,并將語音學的專業(yè)知識融合進決策樹,通過聚類減少了三音子模型的數(shù)量,有效地解決了訓練數(shù)據(jù)不充分問題;鑒于倒譜均值歸一化(CMN)方法在消除信道卷積噪聲以及加性噪聲方面的良好表現(xiàn),在農(nóng)產(chǎn)品市場信息語音識別系統(tǒng)中采用,有效緩解了信道噪聲影響。
(3)在信號空間,為了提高輸入語音信號的信噪比,采用了譜減類算法進行語音增強,但譜減算法容易帶來信道失真和音樂噪聲。為了減少這種失真,提出了一種聯(lián)合語音增強與特征補償?shù)聂敯粜苑椒,把倒譜均值方差歸一化方法(CMVN)與譜減類算法進行了結(jié)合,二者互為補充。實驗結(jié)果表明,聯(lián)合后的算法能有效提高系統(tǒng)的識別率,特別是在低信噪比時效果更為明顯。
(4)在統(tǒng)計估計理論的框架下,研究了估計幅度與實際幅度的最小均方誤差(MMSE)估計器以及對數(shù)最小均方誤差(logMMSE)幅度估計器。在此基礎(chǔ)上提出了一種聯(lián)合MMSE以及l(fā)ogMMSE幅度估計與CMVN失真補償?shù)聂敯粜苑椒ā2煌r(nóng)產(chǎn)品市場信息采集環(huán)境下的實驗證明,該方法具有一定的噪聲魯棒性,多種空間算法的有機結(jié)合可以提供系統(tǒng)的魯棒性,特別是在低信噪比時更為明顯。
本書的研究為語音識別在農(nóng)產(chǎn)品市場信息采集環(huán)境中的應用建立了一套魯棒性方法,為今后語音識別在農(nóng)業(yè)信息采集領(lǐng)域的應用提供了借鑒。然而,由于水平所限,編寫時間倉促,書中難免會出現(xiàn)一些錯誤或者不準確的地方,懇請讀者批評指正。
本書初稿完成后,得到了諸葉平、趙俊峰、王向東、周國民等人的審閱和指導,提出了很多寶貴意見,對本書質(zhì)量的提高有很大幫助,在此向他們表示衷心的感謝。
本書是作者參與承擔國家自然科學基金項目的部分研究成果,具有一定的理論性和實際應用性。
著者2018年3月
許金普,男,漢族,1979年生,山東博興人。1998年考入山東師范大學電教系,2002年畢業(yè)。同年7月,進入天津師范大學計算機與信息工程學院學習,2005年獲得理學碩士學位。2005年7月進入青島農(nóng)業(yè)大學(原萊陽農(nóng)學院)傳播學院,從事教學和科研工作,主要研究方向為農(nóng)業(yè)信息技術(shù)、計算機網(wǎng)絡。
第一章引言()
第一節(jié)問題的提出及研究意義()
第二節(jié)語音識別概述()
一、語音識別的發(fā)展()
二、語音識別的分類()
三、基于統(tǒng)計模型的語音識別()
第三節(jié)影響語音識別魯棒性的因素()
第四節(jié)語音識別及聲學技術(shù)在農(nóng)業(yè)領(lǐng)域的應用()
一、國外研究情況()
二、國內(nèi)研究情況()
第五節(jié)研究內(nèi)容()
第六節(jié)章節(jié)安排()
第二章噪聲魯棒性語音識別的研究現(xiàn)狀()
第一節(jié)噪聲分類()
一、加性噪聲與乘性噪聲()
二、噪聲特性分析()
第二節(jié)噪聲魯棒性方法研究現(xiàn)狀()
一、語音增強()
二、魯棒性特征提取()
三、模型補償()
第三章基于HMM框架的農(nóng)產(chǎn)品價格語音識別()
第一節(jié)HMM模型()
一、HMM的概述()
二、HMM的數(shù)學定義()
三、HMM的三個基本問題()
第二節(jié)基于HTK的實驗平臺構(gòu)建()
一、語音數(shù)據(jù)庫()
二、MFCC特征提。ǎ
三、聲學模型的設(shè)置()
四、識別性能的評價標準()
第四章系統(tǒng)的三音子模型優(yōu)化及特征規(guī)整()
第一節(jié)擴展的聲韻母建;ǎ
一、漢語語音學特點()
二、漢語聲母結(jié)構(gòu)()
三、漢語韻母結(jié)構(gòu)()
四、擴展的聲韻母識別基元定義()
第二節(jié)基于決策樹的狀態(tài)共享()
一、決策樹的構(gòu)造()
二、二值問題集的設(shè)計()
三、結(jié)點分裂準則()
四、結(jié)點停止分裂()
五、結(jié)點合并()
第三節(jié)增加高斯混合分量()
第四節(jié)倒譜特征歸一化()
第五節(jié)實驗及分析()
一、三音子模型識別實驗()
二、決策樹狀態(tài)聚類()
三、高斯混合分量增加()
四、倒譜均值方差(CMVN)歸一化()
第五章聯(lián)合譜減增強和失真補償?shù)聂敯粜苑椒ǎǎ?br />第一節(jié)譜減法()
一、譜減的基本原理()
二、使用過減(over subtraction)技術(shù)的譜減算法()
第二節(jié)多帶(multi band)譜減法()
第三節(jié)MMSE譜減算法()
第四節(jié)實驗()
一、MMSE譜減法參數(shù)優(yōu)化實驗()
二、不同環(huán)境下聯(lián)合算法實驗()
第六章基于統(tǒng)計模型的前端增強與失真補償?shù)慕Y(jié)合()
第一節(jié)MMSE幅度譜估計()
一、MMSE幅度估計器()
二、先驗SNR的估計()
第二節(jié)對數(shù)MMSE估計器()
第三節(jié)MMSE估計的實現(xiàn)()
第四節(jié)實驗()
一、采用MMSE估計器與logMMSE方法增強()
二、MMSE、logMMSE與CMVN聯(lián)合實驗()
三、實際環(huán)境語音測試()
第五節(jié)算法綜合比較()
第七章結(jié)論及展望()
第一節(jié)研究總結(jié)()
第二節(jié)展望()
參考文獻()