關(guān)于我們
書單推薦
新書推薦
|
神經(jīng)機器翻譯:基礎(chǔ)、原理、實踐與進階 讀者對象:本書適合高等院校計算機專業(yè)高年級本科生,以及人工智能、自然語言處理方向的研究生閱讀。
本書旨在對現(xiàn)階段的神經(jīng)機器翻譯技術(shù)和開放問題進行介紹,力求以通俗易懂的語言向讀者系統(tǒng)化展現(xiàn)神經(jīng)機器翻譯的內(nèi)涵和外延。本書內(nèi)容主要包括三部分:基礎(chǔ)篇主要介紹神經(jīng)機器翻譯的基本原理,發(fā)展脈絡(luò)、核心技術(shù)及若干改進方法,本篇也提供了必要的神經(jīng)網(wǎng)絡(luò)和自然語言處理基礎(chǔ)知識;實踐篇旨在激發(fā)讀者更多的實戰(zhàn)興趣,將神經(jīng)機器翻譯基本技術(shù)轉(zhuǎn)為璀璨的場景應(yīng)用,內(nèi)容包括如何訓(xùn)練一個神經(jīng)機器翻譯系統(tǒng)、如何在不同計算環(huán)境下部署神經(jīng)機器翻譯以及如何動手實現(xiàn)一個神經(jīng)機器翻譯系統(tǒng);進階篇則主要為有興趣進一步探索和推動神經(jīng)機器翻譯技術(shù)發(fā)展的讀者準備的,該篇概述了神經(jīng)機器翻譯面臨的幾個主要挑戰(zhàn)、開放問題以及最新的研究進展,如篇章級神經(jīng)機器翻譯、低資源神經(jīng)機器翻譯、多模態(tài)和魯棒性神經(jīng)機器翻譯等最新研究主題。
熊德意,天津大學(xué)智能與計算學(xué)部教授、博士生導(dǎo)師、自然語言處理實驗室負責人,天津大學(xué)“語言智能與技術(shù)”中外聯(lián)合研究中心主任,中譯語通-天津大學(xué)自然語言處理聯(lián)合實驗室主任、中譯語通人工智能首席科學(xué)家。主要研究方向為自然語言處理,特別專注于機器翻譯、對話、問答、自然語言生成、常識推理、認知計算等方向的研究。在Computational Linguistics、IEEE TPAMI、AI、AAAI、ACL等國際著名期刊和會議上發(fā)表論文100余篇,在Springer出版英文專著一部。獲得國家自然科學(xué)基金優(yōu)秀青年科學(xué)基金、國家重點研發(fā)計劃“政府間國際科技合作創(chuàng)新合作”重點專項、英國皇家學(xué)會牛頓高級學(xué)者基金等資助。獲得新加坡資訊通信研究院2008年年度研究貢獻獎、北京市科學(xué)技術(shù)獎二等獎、中文信息學(xué)會“錢偉長中文信息處理科學(xué)技術(shù)獎-漢王青年創(chuàng)新獎”一等獎等獎項。曾是亞洲自然語言處理聯(lián)合會AFNLP干事、新加坡中文與東方語文信息處理學(xué)會理事會成員,目前是中國中文信息學(xué)會理事。擔任IALP 2012&2021程序委員會共同主席,CWMT 2017程序委員會共同主席,歐盟多國聯(lián)合項目QTLeap咨詢專家,ACL、EMNLP、NAACL、COLING等多個知名國際會議領(lǐng)域主席,以及TACL和ARR的Action Editor等。李良友,華為諾亞方舟實驗室研究員、機器翻譯團隊負責人。在歐盟瑪麗居里項目資助下,于2017年獲得都柏林城市大學(xué)計算機博士學(xué)位。主要研究方向為自然語言處理,特別專注于機器翻譯相關(guān)技術(shù)領(lǐng)域的研發(fā)。在ACL、EMNLP等多個國際著名會議和期刊上發(fā)表論文10余篇,并擔任ACL、EMNLP等國際會議領(lǐng)域主席和會議審稿人。 張 檬,華為諾亞方舟實驗室研究員。于2018年獲得清華大學(xué)計算機科學(xué)與技術(shù)系博士學(xué)位。主要研究方向為機器翻譯和跨語言自然語言處理。在ACL、EMNLP、AAAI、TASLP等國際著名會議和期刊上發(fā)表論文10余篇。曾獲中國中文信息學(xué)會優(yōu)秀博士學(xué)位論文提名獎。擔任ACL、EMNLP、AAAI、IJCAI等多個知名國際會議審稿人。
推薦序
前言 數(shù)學(xué)符號 第1 章緒論1 1.1 引言. . . . . . . . . . . . . . . . . . 2 1.2 基本思想. . . . . . . . . . . . . . 6 1.2.1 基于規(guī)則的機器翻譯. . . 6 1.2.2 統(tǒng)計機器翻譯. . . . . . . . 7 1.2.3 神經(jīng)機器翻譯. . . . . . . . 10 1.2.4 模型設(shè)計. . . . . . . . . . . 11 1.3 解碼. . . . . . . . . . . . . . . . . . 12 1.3.1 統(tǒng)計機器翻譯解碼. . . . . 12 1.3.2 神經(jīng)機器翻譯解碼. . . . . 16 1.3.3 搜索錯誤與模型錯誤. . . 16 1.4 神經(jīng)機器翻譯與統(tǒng)計機器翻譯對比. . . . . . . . . . . . . . 18 1.4.1 表示. . . . . . . . . . . . . . 18 1.4.2 參數(shù). . . . . . . . . . . . . . 20 1.4.3 模型存儲. . . . . . . . . . . 21 1.4.4 模型假設(shè)或約束. . . . . . 21 1.4.5 端到端. . . . . . . . . . . . 22 1.4.6 譯文生成. . . . . . . . . . . 22 1.4.7 訓(xùn)練方式. . . . . . . . . . . 23 1.4.8 魯棒性. . . . . . . . . . . . 24 1.4.9 可解釋性. . . . . . . . . . . 24 1.4.10 可干預(yù)性. . . . . . . . . . 25 1.4.11 低資源適應(yīng)性. . . . . . . 25 1.4.12 對比總結(jié). . . . . . . . . . 26 1.5 發(fā)展歷史. . . . . . . . . . . . . . 26 1.5.1 機器翻譯發(fā)展歷史. . . . . 27 1.5.2 神經(jīng)機器翻譯發(fā)展歷程. . 28 1.6 應(yīng)用現(xiàn)狀. . . . . . . . . . . . . . 29 1.6.1 維度1:通用領(lǐng)域vs. 垂直領(lǐng)域. . . . . . . . . . . . 29 1.6.2 維度2:多語種vs. 單語種30 1.6.3 維度3:云端vs. 終端. . 31 1.6.4 維度4:在線vs. 離線. . 31 1.6.5 維度5:B 端vs. C 端. . 31 1.6.6 維度6:純文本vs. 多模態(tài)31 1.6.7 維度7:人機結(jié)合vs. 人機分離. . . . . . . . . . . . 31 1.6.8 維度8:機器翻譯+ vs.純機器翻譯. . . . . . . . . 32 1.6.9 應(yīng)用現(xiàn)狀總結(jié). . . . . . . . 32 1.7 本書組織. . . . . . . . . . . . . . 32 1.7.1 基礎(chǔ)篇. . . . . . . . . . . . 32 1.7.2 原理篇. . . . . . . . . . . . 33 1.7.3 實踐篇. . . . . . . . . . . . 34 1.7.4 進階篇. . . . . . . . . . . . 34 1.8 閱讀材料. . . . . . . . . . . . . . 34 1.9 短評:統(tǒng)計與規(guī)則的競爭. . 35 第I 部分基礎(chǔ)篇 第2 章神經(jīng)網(wǎng)絡(luò)基礎(chǔ)41 2.1 神經(jīng)網(wǎng)絡(luò). . . . . . . . . . . . . . 42 2.1.1 神經(jīng)元. . . . . . . . . . . . 42 2.1.2 激活函數(shù). . . . . . . . . . . 45 2.1.3 神經(jīng)元組織:層. . . . . . 46 2.2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練. . . . . . . . . . . 48 2.2.1 損失函數(shù). . . . . . . . . . . 49 2.2.2 隨機梯度下降. . . . . . . . 52 2.2.3 計算圖. . . . . . . . . . . . 56 2.2.4 訓(xùn)練優(yōu)化. . . . . . . . . . . 57 2.2.5 正則化. . . . . . . . . . . . 59 2.3 常用神經(jīng)網(wǎng)絡(luò)簡介. . . . . . . 61 2.3.1 前饋神經(jīng)網(wǎng)絡(luò). . . . . . . . 61 2.3.2 卷積神經(jīng)網(wǎng)絡(luò). . . . . . . . 62 2.3.3 循環(huán)神經(jīng)網(wǎng)絡(luò). . . . . . . . 64 2.4 閱讀材料. . . . . . . . . . . . . . 70 2.5 短評:神經(jīng)網(wǎng)絡(luò)與自然語言處理關(guān)系演變. . . . . . . . . 71 第3 章自然語言處理基礎(chǔ)75 3.1 語言模型. . . . . . . . . . . . . . 76 3.1.1 n-gram 語言模型. . . . . 77 3.1.2 神經(jīng)語言模型. . . . . . . . 78 3.1.3 預(yù)訓(xùn)練語言模型. . . . . . 80 3.2 詞嵌入. . . . . . . . . . . . . . . . 82 3.2.1 分布表示與分布式表示. . 82 3.2.2 靜態(tài)詞嵌入. . . . . . . . . 84 3.2.3 語境化詞嵌入. . . . . . . . 86 3.2.4 跨語言詞嵌入. . . . . . . . 88 3.3 對齊. . . . . . . . . . . . . . . . . . 90 3.3.1 文檔對齊. . . . . . . . . . . 91 3.3.2 句對齊. . . . . . . . . . . . 91 3.3.3 詞對齊. . . . . . . . . . . . 92 3.4 語言分析. . . . . . . . . . . . . . 93 3.4.1 詞法分析. . . . . . . . . . . 93 3.4.2 句法分析. . . . . . . . . . . 94 3.4.3 語義分析. . . . . . . . . . . 97 3.4.4 語篇分析. . . . . . . . . . . 98 3.5 閱讀材料. . . . . . . . . . . . . . 99 3.6 短評:自然語言處理之經(jīng)驗主義與理性主義. . . . . . . 100 第II 部分原理篇 第4 章經(jīng)典神經(jīng)機器翻譯105 4.1 編碼器-解碼器結(jié)構(gòu). . . . . . 106 4.1.1 編碼器. . . . . . . . . . . . 108 4.1.2 解碼器. . . . . . . . . . . . 110 4.2 序列到序列學(xué)習(xí). . . . . . . . . 112 4.3 訓(xùn)練. . . . . . . . . . . . . . . . . . 114 4.4 解碼. . . . . . . . . . . . . . . . . . 114 4.4.1 采樣. . . . . . . . . . . . . . 115 4.4.2 貪心搜索. . . . . . . . . . . 115 4.4.3 柱搜索. . . . . . . . . . . . 115 4.5 閱讀材料. . . . . . . . . . . . . . 116 4.6 短評:神經(jīng)機器翻譯之獨立同發(fā)現(xiàn)——編碼器-解 碼器vs. 序列到序列. . . . . 117 第5 章基于注意力的神經(jīng)機器翻譯119 5.1 經(jīng)典神經(jīng)機器翻譯模型的瓶頸. . . . . . . . . . . . . . . . . . 120 5.2 注意力機制. . . . . . . . . . . . 120 5.3 注意力機制的改進. . . . . . . 124 5.3.1 全局注意力機制和局部注意力機制. . . . . . . . . 124 5.3.2 注意力覆蓋. . . . . . . . . 125 5.3.3 注意力引導(dǎo)訓(xùn)練. . . . . . 126 5.3.4 其他改進方法. . . . . . . . 126 5.4 基于注意力的多層神經(jīng)機器翻譯模型GNMT . . . . . . . 127 5.4.1 整體結(jié)構(gòu). . . . . . . . . . . 127 5.4.2 殘差連接. . . . . . . . . . . 128 5.4.3 雙向編碼器. . . . . . . . . 128 5.4.4 模型并行. . . . . . . . . . . 128 5.5 閱讀材料. . . . . . . . . . . . . . 128 5.6 短評:注意力機制與認知注意. . . . . . . . . . . . . . . . . . 129 第6 章基于卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)機器翻譯模型131 6.1 卷積編碼器. . . . . . . . . . . . 132 6.2 全卷積序列到序列模型. . . . 133 6.2.1 位置編碼. . . . . . . . . . . 134 6.2.2 卷積層結(jié)構(gòu). . . . . . . . . 134 6.2.3 多步注意力. . . . . . . . . 135 6.2.4 訓(xùn)練. . . . . . . . . . . . . . 136 6.3 ByteNet . . . . . . . . . . . . . . . 137 6.3.1 編碼器--解碼器堆疊. . . 137 6.3.2 動態(tài)展開. . . . . . . . . . . 138 6.3.3 空洞卷積. . . . . . . . . . . 139 6.3.4 字符級神經(jīng)機器翻譯. . . 139 6.4 閱讀材料. . . . . . . . . . . . . . 139 6.5 短評:卷積神經(jīng)機器翻譯——實用性倒逼技術(shù)創(chuàng)新. . 140 第7 章基于自注意力的神經(jīng)機器翻譯142 7.1 自注意力機制. . . . . . . . . . . 143 7.2 Transformer 模型. . . . . . . . 144 7.2.1 Transformer 模型總體架構(gòu). . . . . . . . . . . . . . 144 7.2.2 多頭注意力. . . . . . . . . 146 7.2.3 位置編碼. . . . . . . . . . . 147 7.2.4 正則化. . . . . . . . . . . . 148 7.2.5 優(yōu)點分析. . . . . . . . . . . 148 7.3 自注意力改進方法. . . . . . . 149 7.3.1 相對位置編碼. . . . . . . . 149 7.3.2 平均注意力網(wǎng)絡(luò). . . . . . 151 7.4 閱讀材料. . . . . . . . . . . . . . 152 7.5 短評:Transformer 帶來的自然語言處理技術(shù)革新. . . . 153 第8 章神經(jīng)機器翻譯若干基礎(chǔ)問題及解決方案155 8.1 開放詞匯表. . . . . . . . . . . . 156 8.2 深度模型. . . . . . . . . . . . . . 160 8.3 快速解碼. . . . . . . . . . . . . . 161 8.3.1 非自回歸神經(jīng)機器翻譯. . 162 8.3.2 淺層解碼器. . . . . . . . . 165 8.4 模型融合. . . . . . . . . . . . . . 165 8.5 領(lǐng)域適應(yīng). . . . . . . . . . . . . . 168 8.6 閱讀材料. . . . . . . . . . . . . . 171 8.7 短評:再談神經(jīng)機器翻譯新思想新技術(shù)的誕生. . . . . 172 第III 部分實踐篇 第9 章數(shù)據(jù)準備175 9.1 平行語料. . . . . . . . . . . . . . 176 9.2 語料獲取. . . . . . . . . . . . . . 178 9.2.1 平行語料爬取. . . . . . . . 179 9.2.2 公開數(shù)據(jù)集. . . . . . . . . 181 9.3 數(shù)據(jù)過濾與質(zhì)量評估. . . . . 182 9.3.1 噪聲類型. . . . . . . . . . . 182 9.3.2 噪聲過濾. . . . . . . . . . . 184 9.4 數(shù)據(jù)處理. . . . . . . . . . . . . . 185 9.4.1 Tokenize . . . . . . . . . . . 185 9.4.2 子詞化. . . . . . . . . . . . 186 9.5 閱讀材料. . . . . . . . . . . . . . 187 談數(shù)據(jù)對機器翻譯的重要性. . . . . . . . . . . . 187 第10 章訓(xùn)練190 10.1 mini-batch 設(shè)置. . . . . . . . 191 10.1.1 小批量樣本選擇. . . . . . 191 10.1.2 小批量大小. . . . . . . . . 193 10.2 學(xué)習(xí)速率設(shè)置. . . . . . . . . . 194 10.3 隨機梯度下降算法選擇. . . 196 10.3.1 Momentum . . . . . . . . 196 10.3.2 AdaGrad . . . . . . . . . . . 197 10.3.3 AdaDelta . . . . . . . . . . 198 10.3.4 Adam . . . . . . . . . . . . 198 10.4 其他超參數(shù)選擇. . . . . . . . . 199 10.4.1 參數(shù)初始化. . . . . . . . . 199 10.4.2 隨機失活. . . . . . . . . . 200 10.4.3 模型容量. . . . . . . . . . 200 10.4.4 梯度裁剪. . . . . . . . . . 201 10.5 分布式訓(xùn)練. . . . . . . . . . . . 201 10.5.1 模型并行與數(shù)據(jù)并行. . . 202 10.5.2 同步更新與異步更新. . . 203 10.5.3 參數(shù)服務(wù)器與環(huán)狀全規(guī)約204 10.5.4 分布式訓(xùn)練開源框架. . . 205 10.6 Transformer 訓(xùn)練設(shè)置. . . . 206 10.6.1 訓(xùn)練數(shù)據(jù)相關(guān)設(shè)置. . . . 206 10.6.2 模型容量. . . . . . . . . . 207 10.6.3 小批量大小. . . . . . . . . 207 10.6.4 學(xué)習(xí)速率. . . . . . . . . . 207 10.6.5 分布式訓(xùn)練. . . . . . . . . 208 10.7 閱讀材料. . . . . . . . . . . . . . 208 10.8 短評:超參數(shù)設(shè)置——自動優(yōu)化與實驗可復(fù)現(xiàn)性. . . . 209 第11 章測試212 11.1 解碼. . . . . . . . . . . . . . . . . . 213 11.1.1 解碼算法. . . . . . . . . . 213 11.1.2 譯文評分. . . . . . . . . . 214 11.1.3 檢查點平均. . . . . . . . . 216 11.2 解碼和訓(xùn)練不一致. . . . . . . 217 11.3 機器翻譯評測方法. . . . . . . 219 11.3.1 人工評測. . . . . . . . . . 219 11.3.2 自動評測. . . . . . . . . . 221 11.4 錯誤分析. . . . . . . . . . . . . . 222 11.5 閱讀材料. . . . . . . . . . . . . . 224 11.6 短評:評測驅(qū)動機器翻譯研究. . . . . . . . . . . . . . . . . . 224 第12 章部署232 12.1 GPU 環(huán)境下的部署. . . . . . 233 12.1.1 壓力測試. . . . . . . . . . 234 12.1.2 負載均衡. . . . . . . . . . 234 12.1.3 請求合并. . . . . . . . . . 235 12.2 CPU 環(huán)境下的部署. . . . . . 236 12.2.1 候選詞表. . . . . . . . . . 236 12.2.2 量化運算. . . . . . . . . . 237 12.2.3 結(jié)構(gòu)優(yōu)化. . . . . . . . . . 239 12.3 智能終端部署. . . . . . . . . . 239 12.3.1 知識蒸餾. . . . . . . . . . 240 12.3.2 剪枝. . . . . . . . . . . . . 241 12.3.3 參數(shù)共享. . . . . . . . . . 243 12.3.4 矩陣分解. . . . . . . . . . 243 12.4 模型壓縮與計算加速. . . . . 243 12.5 閱讀材料. . . . . . . . . . . . . . 244 12.6 短評:機器翻譯工業(yè)部署. . 245 第13 章系統(tǒng)設(shè)計與實現(xiàn)250 13.1 總體設(shè)計. . . . . . . . . . . . . . 251 13.1.1 可擴展性. . . . . . . . . . 251 13.1.2 易用性. . . . . . . . . . . . 251 13.1.3 系統(tǒng)效率. . . . . . . . . . 252 13.2 功能設(shè)計. . . . . . . . . . . . . . 253 13.2.1 數(shù)據(jù). . . . . . . . . . . . . 253 13.2.2 模型. . . . . . . . . . . . . 253 13.2.3 訓(xùn)練. . . . . . . . . . . . . 254 13.2.4 推理. . . . . . . . . . . . . 255 13.3 開源系統(tǒng). . . . . . . . . . . . . . 256 13.3.1 FAIRSEQ . . . . . . . . . . 256 13.3.2 OpenNMT . . . . . . . . . 257 13.3.3 Marian . . . . . . . . . . . . 257 13.4 FAIRSEQ 解析. . . . . . . . . . 258 13.4.1 注冊機制. . . . . . . . . . 258 13.4.2 訓(xùn)練流程. . . . . . . . . . 260 13.4.3 混合精度訓(xùn)練. . . . . . . 262 13.5 閱讀材料. . . . . . . . . . . . . . 263 13.6 短評:機器翻譯開源之路. . 263 第IV 部分進階篇 第14 章語篇級神經(jīng)機器翻譯270 14.1 什么是語篇. . . . . . . . . . . . 271 14.2 語篇級機器翻譯面臨的挑戰(zhàn)273 14.2.1 語篇級依存關(guān)系建模. . . 273 14.2.2 文檔級平行語料稀缺. . . 273 14.2.3 高計算需求. . . . . . . . . 273 14.2.4 語篇級機器翻譯評測. . . 274 14.3 語篇級機器翻譯形式化定義274 14.4 語篇級神經(jīng)機器翻譯方法. . 275 14.4.1 拼接當前句子與上下文. 275 14.4.2 額外的上下文編碼器. . . 277 14.4.3 基于緩存器. . . . . . . . . 279 14.4.4 基于語篇分析. . . . . . . 280 14.4.5 基于銜接性. . . . . . . . . 281 14.4.6 優(yōu)化訓(xùn)練目標函數(shù). . . . 283 14.4.7 學(xué)習(xí)句子級語境化表示. 284 14.5 面向語篇現(xiàn)象的機器翻譯評測數(shù)據(jù)集. . . . . . . . . . . . 287 14.6 語篇級機器翻譯評測方法. . 287 14.7 未來方向. . . . . . . . . . . . . . 288 14.8 閱讀材料. . . . . . . . . . . . . . 289 14.8.1 語篇級統(tǒng)計機器翻譯. . . 289 14.8.2 語篇級神經(jīng)機器翻譯. . . 290 14.9 短評:神經(jīng)機器翻譯達到人類同等水平了嗎. . . . . . . 291 第15 章低資源及無監(jiān)督 神經(jīng)機器翻譯295 15.1 低資源語言與資源稀缺挑戰(zhàn)296 15.2 低資源神經(jīng)機器翻譯. . . . . 297 15.2.1 數(shù)據(jù)增強. . . . . . . . . . 299 15.2.2 基于樞紐語言. . . . . . . 300 15.2.3 利用單語數(shù)據(jù). . . . . . . 303 15.3 無監(jiān)督機器翻譯. . . . . . . . . 304 15.3.1 無監(jiān)督跨語言詞嵌入. . . 305 15.3.2 無監(jiān)督神經(jīng)機器翻譯. . . 307 15.4 未來方向. . . . . . . . . . . . . . 310 15.5 閱讀材料. . . . . . . . . . . . . . 311 15.6 短評:無監(jiān)督機器翻譯之美及挑戰(zhàn). . . . . . . . . . . . . . 311 第16 章融合知識的神經(jīng)機器翻譯314 16.1 知識與機器翻譯. . . . . . . . . 315 16.1.1 內(nèi)部知識. . . . . . . . . . 315 16.1.2 外部知識. . . . . . . . . . 316 16.2 語言學(xué)知識融合. . . . . . . . . 317 16.2.1 句法知識融合. . . . . . . 317 16.2.2 語義角色知識融合. . . . 319 16.2.3 指稱知識融合. . . . . . . 321 16.3 非語言學(xué)知識融合. . . . . . . 323 16.3.1 常識知識. . . . . . . . . . 323 16.3.2 知識圖譜融合. . . . . . . 325 16.4 雙語知識融合. . . . . . . . . . 327 16.4.1 雙語詞典融合. . . . . . . 327 記憶庫融合. . . . . . 328 16.5 內(nèi)部知識遷移. . . . . . . . . . 331 16.5.1 知識蒸餾. . . . . . . . . . 331 16.5.2 預(yù)訓(xùn)練模型知識遷移. . . 333 16.6 未來方向. . . . . . . . . . . . . . 336 16.7 閱讀材料. . . . . . . . . . . . . . 336 16.8 短評:淺談基于知識的機器翻譯. . . . . . . . . . . . . . . . 337 第17 章魯棒神經(jīng)機器翻譯341 17.1 魯棒性概述. . . . . . . . . . . . 342 17.2 對抗魯棒性. . . . . . . . . . . . 345 17.3 對抗樣本生成. . . . . . . . . . 346 17.3.1 白盒攻擊. . . . . . . . . . 347 17.3.2 黑盒攻擊. . . . . . . . . . 350 17.4 對抗訓(xùn)練. . . . . . . . . . . . . . 354 17.5 數(shù)據(jù)集. . . . . . . . . . . . . . . . 355 17.5.1 自然噪聲數(shù)據(jù)集. . . . . . 356 17.5.2 人工噪聲數(shù)據(jù)集. . . . . . 356 17.6 未來方向. . . . . . . . . . . . . . 357 17.6.1 對抗攻擊. . . . . . . . . . 357 17.6.2 對抗訓(xùn)練. . . . . . . . . . 357 17.6.3 后門攻擊與數(shù)據(jù)投毒. . . 358 17.6.4 分布之外魯棒性. . . . . . 358 17.7 閱讀材料. . . . . . . . . . . . . . 358 17.8 短評:神經(jīng)機器翻譯是瘋子嗎?兼談其“幻想” . . . . 360 第18 章多語言神經(jīng)機器 翻譯362 18.1 基本思想與形式化定義. . . 363 18.2 多語言機器翻譯vs. 雙語機器翻譯. . . . . . . . . . . . . . 364 18.2.1 雙語機器翻譯面臨的挑戰(zhàn)364 18.2.2 多語言神經(jīng)機器翻譯的優(yōu)勢. . . . . . . . . . . . . . 365 18.3 多語言神經(jīng)機器翻譯模型. . 366 18.3.1 共享. . . . . . . . . . . . . 366 18.3.2 部分共享方法. . . . . . . 368 18.3.3 完全共享方法. . . . . . . 373 18.4 訓(xùn)練數(shù)據(jù)采樣方法. . . . . . . 374 18.5 大規(guī)模多語言神經(jīng)機器翻譯375 18.5.1 大規(guī)模平行語料數(shù)據(jù)獲取376 18.5.2 模型設(shè)計. . . . . . . . . . 378 18.5.3 模型訓(xùn)練. . . . . . . . . . 380 18.6 多語言神經(jīng)機器翻譯向雙語神經(jīng)機器翻譯遷移. . . . . 383 18.7 未來方向. . . . . . . . . . . . . . 385 18.7.1 如何處理數(shù)據(jù)不平衡問題385 18.7.2 如何建模不同語言之間的關(guān)系. . . . . . . . . . . . 386 18.7.3 如何在不同語言間有效共享模型參數(shù). . . . . . . . 387 18.7.4 如何有效構(gòu)建多語言神經(jīng)機器翻譯大模型. . . . . 387 18.8 閱讀材料. . . . . . . . . . . . . . 388 18.9 短評:多語言機器翻譯之美389 第19 章語音與視覺多模態(tài)神經(jīng)機器翻譯392 19.1 文本模態(tài)之外的機器翻譯. . 393 19.2 端到端語音翻譯. . . . . . . . . 394 19.2.1 面臨的挑戰(zhàn). . . . . . . . . 397 19.2.2 模型與方法. . . . . . . . . 397 19.2.3 數(shù)據(jù)集. . . . . . . . . . . . 405 19.2.4 未來方向. . . . . . . . . . 406 19.3 視覺引導(dǎo)的多模態(tài)神經(jīng)機器翻譯. . . . . . . . . . . . . . . . 406 19.3.1 面臨的挑戰(zhàn). . . . . . . . . 408 19.3.2 模型與方法. . . . . . . . . 409 19.3.3 數(shù)據(jù)集. . . . . . . . . . . . 414 19.3.4 未來方向. . . . . . . . . . 415 19.4 閱讀材料. . . . . . . . . . . . . . 416 19.4.1 端到端語音翻譯額外閱讀材料. . . . . . . . . . . . 416 19.4.2 視覺引導(dǎo)的多模態(tài)神經(jīng)機器翻譯額外閱讀材料. . 417 19.5 短評:預(yù)訓(xùn)練技術(shù)爭議與符號奠基問題. . . . . . . . . . . 418 第20 章發(fā)展趨勢與展望427 20.1 展望. . . . . . . . . . . . . . . . . . 428 20.2 本書未覆蓋內(nèi)容. . . . . . . . . 429 20.2.1 數(shù)據(jù)倫理與安全. . . . . . 429 20.2.2 偏差. . . . . . . . . . . . . 431 20.2.3 翻譯風格. . . . . . . . . . 431 20.2.4 翻譯腔. . . . . . . . . . . . 431 20.2.5 音譯. . . . . . . . . . . . . 431 20.2.6 對話翻譯. . . . . . . . . . 432 20.2.7 非參數(shù)與半?yún)?shù)機器翻譯432 20.3 短評:科幻中的機器翻譯與未來機器翻譯. . . . . . . . . 432 參考文獻439 索引499
你還可能感興趣
我要評論
|