AI智能語音技術(shù)與產(chǎn)業(yè)創(chuàng)新實(shí)踐
定 價:129.8 元
- 作者:李蓀 曾然然 殷治綱
- 出版時間:2021/12/1
- ISBN:9787115579089
- 出 版 社:人民郵電出版社
- 中圖法分類:TP18
- 頁碼:249
- 紙張:
- 版次:01
- 開本:小16開
本書從技術(shù)、應(yīng)用和產(chǎn)業(yè)3個維度為切入點(diǎn),對智能語音語義領(lǐng)域相關(guān)的熱點(diǎn)和趨勢展開研究。本書以“人與機(jī)器的對話”開篇,講述人類語音生成、傳播和感知的過程,引發(fā)對于機(jī)器智能語音聽說的思考,進(jìn)而闡述技術(shù)探索發(fā)展史;然后,分析了以語音交互為核心的技術(shù)現(xiàn)狀,綜合剖析提出全雙工、端到端模型構(gòu)建、語音假冒攻擊等熱點(diǎn);其次,從政策、投融資和產(chǎn)業(yè)規(guī)模上,分析整體智能語音產(chǎn)業(yè)環(huán)境,縱觀國內(nèi)外企業(yè)在相關(guān)技術(shù)和產(chǎn)品上的積極布局,介紹了智能語音的產(chǎn)業(yè)鏈和產(chǎn)業(yè)格局;最后,圍繞語音交互技術(shù)形成的應(yīng)用,以智能汽車、智能家居、可穿戴設(shè)備、智能客服、醫(yī)療、教育等諸多細(xì)分領(lǐng)域?yàn)榇恚岢觥癆I+基礎(chǔ)服務(wù)”“AI+硬件設(shè)備”“AI+垂直行業(yè)”的3種應(yīng)用轉(zhuǎn)化參考模式,并列舉實(shí)際具體案例和解決方案。
本書適合從事人工智能技術(shù)研發(fā)、產(chǎn)品應(yīng)用、市場規(guī)劃的工程技術(shù)人員和管理人員參考使用,也可作為高等院校人工智能相關(guān)的專業(yè)師生參考。同時,也適合對人工智能語音技術(shù)感興趣的相關(guān)人員閱讀。
1.中國信息通信研究院、科大訊飛、清華大學(xué)等多位大咖推薦作序。
2.知識性:本書涉及智能語音各項前沿技術(shù),涵蓋了語音交互、聲紋識別、全雙工等多項新技術(shù)。
3.豐富性:本書涵蓋了技術(shù)、產(chǎn)業(yè)和應(yīng)用3個方面,介紹智能語音全鏈條和各環(huán)節(jié)的現(xiàn)狀趨勢。
4.系統(tǒng)性:本書介紹人類語音聽說和機(jī)器語音聽說的異同,包含語音學(xué)、語言學(xué)和計算機(jī)等多學(xué)科交叉,系統(tǒng)了解技術(shù)的衍生變化。
5.實(shí)用性:本書匯集了智能語音應(yīng)用在各領(lǐng)域、各場景的實(shí)際案例,從真實(shí)的案例中反映技術(shù)的產(chǎn)業(yè)賦能。
李蓀
研究方向包括智能語音技術(shù)、AI數(shù)據(jù)集構(gòu)建、語音交互產(chǎn)品服務(wù)等,參與國家工信部、網(wǎng)信辦等部委課題專項《人工智能、基礎(chǔ)軟件聯(lián)盟和平臺建設(shè)》、《深度融合發(fā)展的戰(zhàn)略路徑研究》等,主持和參與研究課題《全球人工智能關(guān)鍵技術(shù)應(yīng)用及產(chǎn)業(yè)化趨勢分析》、《智能語音技術(shù)產(chǎn)業(yè)熱點(diǎn)和發(fā)展趨勢》等,發(fā)表核心、EI期刊雜志論文3篇,牽頭起草語音合成、語音識別、聲紋識別、口語評測、語音采集等智能語音技術(shù)服務(wù)的多項國際和行業(yè)標(biāo)準(zhǔn)。
殷治綱
先后在各類期刊、會議、報紙發(fā)表論文三十余篇,參與大型語言數(shù)據(jù)庫項目二十余項,參加編寫國家技術(shù)質(zhì)量監(jiān)督局《漢語語音庫與標(biāo)注通用規(guī)范》和《中國大百科全書·語言學(xué)卷》等,主持和參與國家社會科學(xué)基金、中國哲學(xué)社會科學(xué)創(chuàng)新工程、國家863計劃、國家973計劃、國家自然科學(xué)基金、國家十五課題、社科院重點(diǎn)學(xué)科、美國國家科學(xué)基金NSF、歐盟TC-STAR項目等國家和國際科研項目,并參加與諾基亞、摩托羅拉、科大訊飛等國際語音公司聯(lián)合研究課題。研究興趣包括實(shí)驗(yàn)語音學(xué)、語料庫語言學(xué)、自然語言處理、語言類型學(xué)、法律語言學(xué)、話語分析、語言戰(zhàn)略等內(nèi)容。
曾然然
2006年畢業(yè)于北京郵電大學(xué),之后在Intel(中國)有限公司從事Intel通信芯片在中國區(qū)的業(yè)務(wù)發(fā)展。現(xiàn)在中國電信研究院從事人工智能,智能語音研發(fā)工作,在聲紋識別、多輪對話、語義分析和處理、AI技術(shù)商業(yè)部署等領(lǐng)域有豐富的技術(shù)研究和產(chǎn)品研發(fā)經(jīng)驗(yàn)。2019年入選百度黃埔學(xué)院人工智能首席AI架構(gòu)師,2019年1月受聘為北京工業(yè)大學(xué)計算機(jī)學(xué)院人工智能方向碩士研究生導(dǎo)師(兼職)。
目錄
第 1章 從人際交流到人機(jī)對話 001
1.1 語言“塑造”了人類 002
1.1.1 語言在人類進(jìn)化過程中的作用 003
1.1.2 語言的功能 004
1.2 語言與語言科學(xué) 005
1.2.1 人類語言概況 005
1.2.2 和語言有關(guān)的科學(xué)與技術(shù) 007
1.3 語音的產(chǎn)生與感知 008
1.3.1 語音交互與言語鏈 008
1.3.2 語音的聲學(xué)基礎(chǔ) 009
1.3.3 語音產(chǎn)生的生理基礎(chǔ) 015
1.4 人與機(jī)器的對話 021
1.4.1 人類語言交際的轉(zhuǎn)向 021
1.4.2 語音的數(shù)字化表達(dá) 022
第 2章 智能語音基本技術(shù) 027
2.1 主流的語音交互技術(shù) 028
2.1.1 語音識別 029
2.1.2 聲紋識別 048
2.1.3 語音合成 060
2.1.4 自然語言處理 070
2.1.5 對話管理 082
2.1.6 角色分離 086
2.1.7 語音增強(qiáng) 091
2.2 深度學(xué)習(xí)成為加速器:新技術(shù)到“黑科技” 106
2.2.1 端到端技術(shù) 106
2.2.2 預(yù)訓(xùn)練機(jī)制 110
2.2.3 模型壓縮和輕量化部署 117
第3章 智能語音產(chǎn)業(yè)發(fā)展 125
3.1 產(chǎn)業(yè)環(huán)境 126
3.1.1 產(chǎn)業(yè)發(fā)展歷程 126
3.1.2 重點(diǎn)政策解析 127
3.1.3 發(fā)展規(guī)劃布局 132
3.1.4 創(chuàng)新合作模式 133
3.2 市場及生態(tài) 134
3.2.1 行業(yè)市場價值逐漸釋放 134
3.2.2 生態(tài)格局呈現(xiàn)多元化 137
3.2.3 企業(yè)成長方面的一些思考 146
3.3 標(biāo)準(zhǔn)及規(guī)范 148
3.3.1 技術(shù)評估指標(biāo)介紹 148
3.3.2 國內(nèi)外標(biāo)準(zhǔn)制定現(xiàn)狀 153
3.3.3 標(biāo)準(zhǔn)需求及發(fā)展趨勢 160
3.4 產(chǎn)業(yè)應(yīng)用創(chuàng)新實(shí)踐 161
3.4.1 “AI語音+終端”:消費(fèi)級市場潛力顯現(xiàn),
疫情催發(fā)新業(yè)態(tài) 162
3.4.2 “AI語音+服務(wù)”:智能語音深度賦能平臺
服務(wù) 171
3.4.3 “AI語音+場景”:突破價值釋放“最后
一公里” 180
第4章 AI語音與熱點(diǎn)話題和技術(shù):千絲萬縷的聯(lián)系 207
4.1 語音+大數(shù)據(jù)+云 208
4.1.1 我們身邊的大數(shù)據(jù) 208
4.1.2 語音的特殊身份 209
4.1.3 數(shù)據(jù)類型與存儲 210
4.1.4 語音結(jié)構(gòu)化 213
4.2 語音+安全 220
4.2.1 語音欺詐,又一個潘多拉盒子 220
4.2.2 知己知彼:了解和研究語音欺詐、攻擊
手段 221
4.2.3 降維打擊 :抗攻擊防欺詐的一張盾牌 225
4.2.4 國內(nèi)政策法規(guī)的保護(hù)臂膀 227
4.2.5 個人語音數(shù)據(jù)全生命周期的安全建議 228
4.3 語音+普惠服務(wù) 229
4.3.1 新技術(shù)的應(yīng)用要做到普惠 229
4.3.2 智能語音技術(shù)可以提供什么樣的普惠服務(wù) 230
4.3.3 科技和人類的和諧共生 235
4.4 語音+多模態(tài)交互 235
4.4.1 語音交互新挑戰(zhàn)和探索 235
4.4.2 多模態(tài)交互成為趨勢 236
4.4.3 語音助手向智慧助手發(fā)展 237
結(jié)束語 239
參考文獻(xiàn) 245