自然語言理解與行業(yè)知識圖譜概念、方法與工程落地
定 價:119 元
叢書名:智能系統(tǒng)與技術(shù)叢書
- 作者:王楠,趙宏宇,蔡月著
- 出版時間:2022/1/1
- ISBN:9787111698302
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP391
- 頁碼:16,344頁
- 紙張:膠版紙
- 版次:1
- 開本:16開
本書首先闡述自然語言理解的發(fā)展脈絡(luò)和分析邏輯,主要圍繞語言符號、處理體系、語義理解等進行探討,引出自然語言理解的自動分析原理和方法,包括對自然語言特征、統(tǒng)計語言學習、常規(guī)機器學習、深度學習、知識圖譜方面的介紹。在上述基本自然語言處理方法講解基礎(chǔ)上,繼續(xù)闡述行業(yè)知識圖譜搭建和行業(yè)應(yīng)用的方法。通過作者團隊幾年來在自然語言處理和行業(yè)知識圖譜的實踐經(jīng)驗,探討垂直行業(yè)認知的邏輯和解決方案。
21世紀以來人類創(chuàng)造了海量的自然語言文本數(shù)據(jù),但苦于沒有“語言媒介大師”,即使擁有共同母語的雙方也可能出現(xiàn)“語言隔離”,更不要說人機自然交互了。人類日常接觸的語言可以分為通用語言和專業(yè)語言:通用語言往往口語化嚴重,語法雜亂,信息量不足;專業(yè)語言需要結(jié)合行業(yè)知識,有特定的文法,個性化突出。語言特征復(fù)雜多□,語種語義理解差異化明顯,如何自動化、智能化地理解語言成為各行各業(yè)的痛點。自然語言理解應(yīng)運而生!通過對人類語言信息的抽取、歸納、總結(jié),自然語言理解成為□重要的人工智能成果的檢驗標準之一,被業(yè)內(nèi)人士稱為人工智能皇冠上的明珠。當然路要一步步走,語言的理解首先要解決語言處理問題。伴隨海量用戶數(shù)據(jù)(互聯(lián)網(wǎng)數(shù)據(jù)、行業(yè)業(yè)務(wù)數(shù)據(jù)、百科和領(lǐng)域知識)、人工智能算法、集成AI芯片的規(guī)模算力平臺不斷涌入,自然語言處理領(lǐng)域已經(jīng)樹立了一座座里程碑。從早期的符號學派專家系統(tǒng),到統(tǒng)計語言學□□興起,再到Word□vec預(yù)訓練語言模型將語義工具應(yīng)用落地,各種深度學習框架(TensorFlow、Torch、Paddle Paddle)不斷更新……我們似乎摸到了認知的大門。□018年,隨著谷歌BERT預(yù)訓練語言模型橫空出世,語言理解領(lǐng)域也開啟了“ImageNet”時代篇章。緊接著,XLNet、ERNIE、GPT-3等新模型,以及注意力機制、Transformer、圖神經(jīng)網(wǎng)絡(luò)等新結(jié)構(gòu)層出不窮,不斷刷新各大任務(wù)榜單的記錄(state-of-the-art,SOTA),推動了整個語言理解水平的持續(xù)發(fā)展。
當然,上述自然語言處理還需要語義知識的配合,基于語義知識搭建的知識圖譜就成為行業(yè)應(yīng)用的關(guān)鍵一環(huán)。知識圖譜是在知識工程和語義網(wǎng)的基礎(chǔ)上發(fā)展起來的,□01□年谷歌正式提出了“知識圖譜”一詞,隨后知識圖譜逐漸成為互聯(lián)網(wǎng)公司的底層基礎(chǔ)設(shè)施之一。通用知識圖譜主要有DBpedia、Freebase、YAGO、Wikidata等百科知識庫。在吸收了WordNet、FrameNet、Hownet等語言知識精華后,ConceptNet、Concept Graph等常識知識圖譜也不斷涌現(xiàn),為語言理解奠定了背景知識基礎(chǔ)。隨著知識圖譜、多模態(tài)數(shù)據(jù)的引入,知識蒸餾和模型壓縮進一步推動了語言處理和語義理解的應(yīng)用步伐。目前,市面上已經(jīng)常見面向C端用戶的智能音箱、智能導(dǎo)航、智能客服、聊天機器人、機器翻譯工具等產(chǎn)品,一些SaaS平臺也處于初級體驗階段,這印證了自然語言理解行業(yè)的廣闊發(fā)展空間。
自然語言理解當然不止于日常應(yīng)用,它已逐漸向各行各業(yè)賦能,推動語言理解成果向行業(yè)轉(zhuǎn)移、轉(zhuǎn)化。面向B端的各垂直行業(yè)(例如金融、醫(yī)療、公安、電商等)及細分領(lǐng)域逐漸有相應(yīng)的圖譜產(chǎn)品落地。但是到目前為止,語言理解服務(wù)多體現(xiàn)為項目合作、平臺調(diào)用、服務(wù)賦能,其工業(yè)落地效果面臨更多的需求挑戰(zhàn)。一方面供求雙方在業(yè)務(wù)理解方面差距巨大,另一方面溝通合作也由于存在信息交互隔閡,這些都嚴重制約自然語言理解項目或產(chǎn)品落地。如何圍繞行業(yè)需求,仍然需要結(jié)合行業(yè)知識構(gòu)建知識圖譜,將自然語言處理與知識圖譜更好地融合,才能直擊垂直行業(yè)落地應(yīng)用的痛點。
站在自然語言理解需求爆發(fā)和落地困境的十字路口,我們該如何看待自然語言理解的優(yōu)勢與不足,如何更好地推動自然語言理解在垂直行業(yè)的應(yīng)用落地呢?這正是本書想要重點探討的目標。隨著國家對人工智能、知識產(chǎn)權(quán)等行業(yè)的日益重視,我們將進入產(chǎn)業(yè)互聯(lián)網(wǎng)和創(chuàng)新驅(qū)動的全新時代!創(chuàng)新需要保護和激勵,創(chuàng)新知識需要挖掘和利用,而這些知識正沉積在以專利為代表的知識產(chǎn)權(quán)文本中,目前全球已經(jīng)有超過1.□億篇專利文本,等待知識圖譜賦能。從這個行業(yè)視角進入,我們似乎可以揭開行業(yè)落地之謎。
本書通過對自然語言理解的思考和各類算法模型的闡述,結(jié)合對知識圖譜的認知,講解作者團隊幾年來在自然語言處理和行業(yè)知識圖譜方向的實踐經(jīng)驗,旨在拋磚引玉。本書即將付梓之時,一個新的生命也將誕生,謹以此書獻給我們即將出生的寶貝。
這本書將始終是草稿的狀態(tài),如果有人問何時成稿,我們想說下一版!因為這個主題“Never-End Learning”。現(xiàn)在,我們僅期待本書可以幫助大家打開那扇大門,初步體驗自然語言理解的行業(yè)落地之道。
王楠,北京大學博士,“創(chuàng)青春-中關(guān)村U30”□0□0年度優(yōu)勝者,先后任教于中國科學院、北京信息科技大學計算機學院。研究方向包括人工智能算法、知識圖譜、自然語言處理與地球電磁學等。主持或參與國家科技重大專項、高分專項、軍口預(yù)研、□□系統(tǒng)、企業(yè)大數(shù)據(jù)系統(tǒng)等科研項目,累計獲得研發(fā)經(jīng)費超過千萬元人民幣。負責企業(yè)級“專利大數(shù)據(jù)智能分析系統(tǒng)”的研發(fā),領(lǐng)導(dǎo)技術(shù)團隊完成軟件平臺搭建、商用和優(yōu)化。以作者身份發(fā)表行業(yè)內(nèi)高水平論文十余篇,獲得多項發(fā)明和實用新型專利,提交專利申請十余項。
趙宏宇,現(xiàn)就職于騰訊看點搜索團隊,擔任算法研究員。有多年NLP、搜索系統(tǒng)、推薦系統(tǒng)的工作經(jīng)驗,涉及專利、招聘和網(wǎng)頁搜索等場景。精通PyTorch、TensorFlow等主流深度學習框架,擅長運用NLP前沿技術(shù)解決工業(yè)項目難題。在意圖識別、內(nèi)容推薦、相關(guān)性排序等領(lǐng)域有多年實戰(zhàn)經(jīng)驗。曾參與千萬級用戶求職領(lǐng)域的推薦工作,作為算法主要負責人,主導(dǎo)全新算法落地迭代、線上算法優(yōu)化以及上億DAU網(wǎng)頁搜索優(yōu)化迭代。曾與人合著《智能搜索與推薦系統(tǒng):原理、算法與應(yīng)用》一書。
蔡月,清華-深圳灣實驗室聯(lián)合培養(yǎng)博士后,于□017年獲得北京大學生物醫(yī)學工程博士學位。曾擔任東軟醫(yī)療上海磁共振研發(fā)中心高級算法研究員。研究方向為數(shù)據(jù)科學、磁共振圖像算法、深度學習等,擅長腦科學領(lǐng)域數(shù)據(jù)分析、磁共振圖像加速、去噪等算法研究。曾在腦科學領(lǐng)域SCI期刊Neuroscience、Neurotoxicity Research上發(fā)表多篇文章,獲得多項發(fā)明專利。