序 言
深度學習已經(jīng)風靡人工智能領域,幾乎滲透到各個商業(yè)應用當中。由于現(xiàn)在幾乎所有內(nèi)容和交易都以數(shù)字格式記錄,因此可通過機器學習算法探索大量數(shù)據(jù)。然而,傳統(tǒng)的機器學習技術很難探索這種所謂的大數(shù)據(jù)中出現(xiàn)的錯綜復雜的關系。對于諸如圖像、語音和文本之類的非結(jié)構化數(shù)據(jù),尤其困難。
深度學習算法具有非常強的學習能力,可以應對分析巨大數(shù)據(jù)流的挑戰(zhàn)。此外,深度神經(jīng)網(wǎng)絡相對于其他人工智能技術,需要很少(如果有的話)的特征工程,就可以從頭到尾進行訓練。深度學習算法的另一個優(yōu)點是僅需要最少的監(jiān)督架構(換句話說,這些架構可以自動從數(shù)據(jù)中學習幾乎不需要人為干預)。這些架構是弱監(jiān)督學習,即所謂“無監(jiān)督”。最后,深度學習可以當作生成過程進行訓練,其算法不是將輸入映射到輸出,而是學習如何從純噪聲(即生成對抗網(wǎng)絡)生成輸入和輸出。想象一下,從幾百個隨機數(shù)組合中,生成梵高的畫作、汽車,甚至是人臉。這是多么神奇的事情!
谷歌語言翻譯服務、Alexa語音識別和自動駕駛汽車均采用深度學習算法。其他相關領域也嚴重依賴深度學習算法,例如語音合成、新藥研發(fā)及面部辨別和識別等。即使在創(chuàng)意領域,如音樂、繪畫和寫作,也開始被這項技術所顛覆。事實上,深度學習算法在經(jīng)濟中創(chuàng)造出了深刻的轉(zhuǎn)型升級,這可能引發(fā)人類所見過的最大變革之一。
由于免費、強大的計算框架和API(如Keras和TensorFlow)的傳播,運行模型的廉價云服務以及數(shù)據(jù)的便捷可用性,任何人都可以在幾小時內(nèi)在家中運行深度學習模型。這種“平民化”就解釋了為什么對深度學習感興趣的人數(shù)呈爆炸性增長,以及在開放格式Arxiv和NIPS等專業(yè)頂級會議上呈現(xiàn)的眾多突破的原因。
本書巧妙地通過抽象數(shù)學技能探索各種深度學習算法,講解了計算機視覺、自然語言處理、強化學習和無監(jiān)督深度學習等深度學習領域的具體商業(yè)應用的案例。本書面向中級和高級專業(yè)人員以及對機器學習有基本了解的入門級專業(yè)人員。讀者可以通過深入理解業(yè)務應用程序,了解有關各個領域未來發(fā)展的應用示例。
本書簡要介紹了整個深度學習領域的最新算法,其主要目的為使算法更為實用:解釋和說明在幾個應用領域中使用的一些重要的深度學習算法,特別是對核心業(yè)務有重大影響的深度學習算法。本書面向那些想要了解深度學習以及如何將其用于開發(fā)商務應用的人,旨在為從業(yè)人員提供實用有效的實施方法。書中過濾掉了令人無所適從的統(tǒng)計學和線性代數(shù)推導,為讀者提供了如何為商業(yè)模式制作簡單動手工具的方法和技巧。
本書首先介紹了深度學習架構,并給出了簡要歷史背景。接下來介紹了深度學習的最先進實例,與傳統(tǒng)的機器學習算法相比,其具有更好的應用前景。書中涵蓋了推薦系統(tǒng)和自然語言處理的應用,包括能夠捕捉語言翻譯模型豐富性的遞歸神經(jīng)網(wǎng)絡(RNN)。最后介紹了研究深度學習模型在金融風險評估、控制和機器人技術及圖像識別中的應用。在書中,你可以了解到產(chǎn)品中采用該技術的關鍵公司和初創(chuàng)公司,還可以找到有用的鏈接以及一些關于如何使用Keras和Python中的一些實際的代碼示例和訓練深度學習模型的示例、技巧和見解。
譯者序
1992年離開清華園,也離開當時很有產(chǎn)業(yè)應用前景的通信行業(yè), 進入語音識別這個前沿研究領域, 沒考慮太多的就業(yè)前景, 因為那時沒聽說過互聯(lián)網(wǎng),更別說人工智能產(chǎn)業(yè)了,只是覺得語音識別更有趣,在智力上的挑戰(zhàn)也更大。
27年后, 剛剛在一家國內(nèi)上市公司完成一個“人工智能、機器換人”項目后,就離開這家上市公司的創(chuàng)新研究院院長職位,開始一家“人工智能+音樂教育”的創(chuàng)業(yè)公司,回顧這些年的所見所聞,感慨萬千。
剛開始, 語音識別和圖像處理是不同的行當, 模式識別和專家系統(tǒng)也是比較遠的門類, 那時很少有人把它們統(tǒng)稱為人工智能, 因為實在太難了, 每個細分行當?shù)墓ぞ卟顒e都很大,很少有人能同時精通這幾個門類。 經(jīng)歷了近60年艱苦跋涉后, 很多“AI人才”轉(zhuǎn)行進入互聯(lián)網(wǎng)、基因測序和電子產(chǎn)品研發(fā)領域。2012年后,深度神經(jīng)網(wǎng)絡技術借助GPU 和互聯(lián)網(wǎng)大數(shù)據(jù),在語音識別和圖像識別等領域首度超越了人的識別能力, 人工智能產(chǎn)業(yè)的革命真正到來了!
常常有人問我:“有了人工智能會怎樣?”我建議他這樣思考:“在1900年, 人們會問有了電會怎樣? 站在21世界的你該怎樣回答?”20世紀這一百年最重要的技術要素是電,人們現(xiàn)在不會再大規(guī)模從事“洗衣工”這樣的職業(yè)。因為有了電,無論是黃昏還是黑夜,人們都可以更多地工作、學習、娛樂,創(chuàng)新了不計其數(shù)的新職業(yè),生活品質(zhì)大大提升。
21世紀的最大技術要素無疑是人工智能,產(chǎn)線工人、司機或物流人員、保安等職業(yè)將逐漸消失,就像100年前的洗衣工人,同時又有難以置信的無數(shù)新行業(yè)被“發(fā)明”出來,21世紀末的生活精彩程度是現(xiàn)在難以想象的。
無論你現(xiàn)在有什么技能,從事什么行業(yè),在21世紀的生存發(fā)展都要求你具備“人工智能場景思維”,在各個場景里,人工智能做什么,人做什么,如何分工配合。這就是我們選擇翻譯推出這本《深度學習深度學習商業(yè)應用開發(fā)指南———從對話機器人到醫(yī)療圖像處理》的原因,這里涉及的場景包括圖像分割、圖像識別、圖像標題、視覺問答、視頻分析、衛(wèi)星圖像處理、知識圖譜、自然語言翻譯、多模態(tài)學習、語音識別、機器人控制、自動駕駛、對話機器人、電子商務推薦算法、棋類游戲、電子游戲、圖畫風格轉(zhuǎn)化、音樂處理、信用卡防詐騙、金融預測、醫(yī)療圖像識別、新藥發(fā)現(xiàn)、法務、數(shù)據(jù)中心管理等幾十種應用。圍繞這些應用場景,對具體的算法和技術也做了詳細討論。
本書適合各類各級企業(yè)管理者、產(chǎn)品經(jīng)理、軟硬件工程師、測試人員閱讀,也適用于人工智能培訓班、大學生創(chuàng)新創(chuàng)業(yè)實戰(zhàn)訓練、研究生課題演練、程序員實力提升使用。
本書的出版得益于北京航空航天大學出版社的推薦以及北航軟件學院研究生邱國慶、李文意的辛勤付出,在此一并表示感謝。
由于人工智能是近年來快速發(fā)展、迭代演變的領域,對于一些術語也有不同的譯法,我們盡量多方考證,選用在國內(nèi)最為普遍的術語譯法。
兩位譯者對全書做了三遍校對,盡管如此,錯誤仍然在所難免, 如果讀者發(fā)現(xiàn)錯誤或不妥之處,可以給我們發(fā)郵件,我們將在再版時修訂,感謝您的參與和指正。衷心祝愿您能擁抱人工智能時代,具備人工智能場景思維,更好地服務他人,為社會創(chuàng)造更多財富,也讓您和您的家人擁有更美好的未來。
譯 者
2018年6月于蘇州科技城