本書在全面介紹文本信息抽取技術(shù)在古籍文本處理方面應用的基礎(chǔ)上,著重介紹文本信息抽取與知識挖掘的基本概念、原理和方法,包括文本預處理、特征提取、命名實體識別、信息抽取、語義分析、知識表示等關(guān)鍵技術(shù)。
全書共3部分: 第1部分(第1、2章)著重介紹古籍文本信息抽取的相關(guān)背景知識; 第2部分(第3~8章)著重討論命名實體識別、關(guān)系抽取和事件抽取的具體方法,同時介紹對應的實驗應用及結(jié)果分析; 第3部分(第9章)基于對當前實體抽取領(lǐng)域研究現(xiàn)狀的分析與總結(jié),展望未來。同時,全書也提供了大量應用實例。
本書適合作為高等院校計算機、軟件工程及相關(guān)專業(yè)本科生、研究生的參考書,也可供對自然語言處理比較熟悉并且對信息抽取有所了解的開發(fā)人員、廣大科技工作者和研究人員學習使用。
本書不僅全面介紹文本信息抽取技術(shù)在古籍文本處理方面的應用,還著重介紹文本信息抽取與知識挖掘的基本概念、原理和方法,理論與實踐相結(jié)合,幫助讀者掌握相關(guān)技能。
古籍文本信息抽取與挖掘的重要性在于保護和傳承人類的文化遺產(chǎn),以及促進學術(shù)研究和歷史探索。古籍文本是記錄了古代知識、思想、文化和歷史的寶貴資源。通過對古籍文本進行信息抽取,可以從大量的文字資料中提取出有用的信息,為人們的研究和了解相關(guān)題材提供重要的線索和指引。
本書全面介紹文本信息抽取與知識挖掘的基本概念、原理和方法,包括文本預處理、特征提取、命名實體識別(NER)、信息抽取、語義分析、知識表示等關(guān)鍵技術(shù)。讀者可了解每種實施方法及其執(zhí)行流程。
本書中提供一系列實用的方法和工具,指導讀者在實際應用中進行文本信息抽取和知識挖掘。這些方法和工具包括基于規(guī)則的抽取、統(tǒng)計方法、機器學習和深度學習技術(shù)等。讀者可以通過實例和案例學習如何選擇適當?shù)姆椒ê凸ぞ,并將其應用于自己的項目實踐中。
本書以文本信息抽取的基礎(chǔ)知識為基點,通過理論與實踐相結(jié)合,重點介紹實體抽取與關(guān)系抽取(RE)的技術(shù)方法,及其在中國少數(shù)民族古籍總目提要數(shù)據(jù)集上的實際應用; 針對NER,介紹基于Transformer模型的方法和基于提示學習的方法; 針對RE,介紹基于遠程監(jiān)督的方法和基于遷移學習的方法; 針對事件抽取(EE),介紹聯(lián)合模型的EE和篇章級的EE。
全書共9章。第1章為緒論,介紹古籍文本信息抽取的研究背景與意義,以及信息抽取的相關(guān)定義和基本方法。第2章詳細介紹信息抽取的概念和基礎(chǔ)理論,并淺析古籍文本信息抽取的應用領(lǐng)域。第3、4章介紹NER的核心方法,分別是基于Transformer模型的方法和基于提示學習的方法。第5、6章介紹實體RE的核心方法,分別是基于遠程監(jiān)督的方法和基于遷移學習的方法。第7、8章介紹EE的核心方法,分別是聯(lián)合模型的EE和篇章級的EE方法。在第3~8章中,每一個方法都提供了相應的實驗及對實驗結(jié)果的分析。第9章為總結(jié)與展望,主要內(nèi)容是對當前在實體RE領(lǐng)域相關(guān)技術(shù)的總結(jié)及對于此領(lǐng)域內(nèi)技術(shù)未來發(fā)展方向的展望。
本書可以作為計算機、軟件工程及相關(guān)專業(yè)學生實體抽取文本信息抽取信息挖掘等課程的參考書,同時也可作為計算機從業(yè)人員實體RE、EE、文本信息挖掘相關(guān)知識的入門學習資料。讀者最好在學習過人工智能機器學習深度學習等相關(guān)課程后再學習本書及自然語言處理的相應課程。
本書在編寫過程中得到中央民族大學信息工程學院的研究生穆日亙、毛寧靜、丁福森、李蕊、王文涵、張小苗、儀超、金明哲的大力支持,在此表示衷心的感謝。同時,還需感謝本書后參考文獻的作者,感謝他們的資料對本書的指導。感謝清華大學出版社編輯們對本書的出版給予的寶貴建議。
在本書的撰寫和相關(guān)技術(shù)的研究中,由于編者受知識水平所限及時間倉促,書中錯誤與疏漏之處在所難免,敬請廣大讀者批評指正。
盧勇
2024年8月
第1章緒論
1.1研究背景與意義
1.1.1古籍文本信息抽取的重要性
1.1.2古籍文本信息抽取的應用領(lǐng)域
1.1.3古籍文本信息抽取的目的
1.2信息抽取與知識挖掘的基本概念
1.2.1NER
1.2.2RE
1.2.3EE
1.3NER技術(shù)
1.3.1基于規(guī)則方法的NER技術(shù)
1.3.2基于統(tǒng)計模型的NER技術(shù)
1.3.3基于深度學習方法的NER技術(shù)
第2章古籍文本信息抽取概述與基礎(chǔ)理論
2.1古籍文本信息抽取的挑戰(zhàn)與難點
2.1.1信息抽取
2.1.2古籍文本中的信息抽取
2.2古籍文本信息抽取的任務
2.3古籍文本信息抽取相關(guān)技術(shù)
2.3.1詞匯語義表示
2.3.2CRF模型
2.3.3CNN信息抽取模型
2.3.4RNN信息抽取
2.3.5圖卷積信息抽取模型
2.3.6遷移學習信息抽取模型
2.4古籍文本信息抽取的應用領(lǐng)域
2.4.1古籍數(shù)字化
2.4.2古籍文本分析
2.4.3文化遺產(chǎn)保護
2.4.4古籍知識圖譜構(gòu)建
第3章基于Transformer模型的NER
3.1引言
3.2問題引入
3.3基于分層Transformer模型的NER
3.3.1引言
3.3.2實現(xiàn)原理與步驟
3.3.3基本結(jié)構(gòu)與訓練方法
3.3.4示例
3.3.5實驗分析
3.4基于BERTCRF的NER
3.4.1引言
3.4.2問題引入
3.4.3相關(guān)工作
3.4.4模型結(jié)構(gòu)
3.4.5實驗結(jié)果
3.5基于遷移學習的細粒度BERT的NER
3.5.1引言
3.5.2問題引入
3.5.3實驗過程
3.5.4實驗結(jié)果
第4章基于提示學習的NER
4.1引言
4.2問題引入
4.3基于模板的提示學習NER
4.3.1引言
4.3.2相關(guān)工作
4.3.3使用BART基于模板的NER
4.3.4實驗結(jié)果
4.4融合注意力層的提示學習NER
4.4.1引言
4.4.2低資源NER實驗過程
4.4.3實驗結(jié)果
4.5基于問答的提示學習NER
4.5.1引言
4.5.2相關(guān)工作
4.5.3方法
4.5.4實驗結(jié)果
第5章基于遠程監(jiān)督的RE
5.1引言
5.2問題引入
5.3基于對抗學習的遠程監(jiān)督RE
5.3.1引言
5.3.2相關(guān)工作
5.3.3方法
5.3.4實驗設置
5.4基于深度強化學習的遠程監(jiān)督RE
5.4.1引言
5.4.2相關(guān)工作
5.4.3實驗過程
5.5基于句子級別注意力機制的遠程監(jiān)督RE
5.5.1引言
5.5.2相關(guān)工作
5.5.3方法
5.5.4實驗結(jié)果
5.5.5比較
5.6基于實體級別注意力機制的遠程監(jiān)督RE
5.6.1引言
5.6.2相關(guān)工作
5.6.3融入多實例學習的基于分段CNN的RE
5.6.4實驗結(jié)果
5.7基于圖卷積的遠程監(jiān)督RE
5.7.1引言
5.7.2相關(guān)工作
5.7.3利用輔助信息進行遠程監(jiān)督神經(jīng)RE
5.7.4實驗結(jié)果
第6章基于遷移學習的實體RE
6.1引言
6.2問題引入
6.3基于樣本遷移的實體RE
6.3.1引言
6.3.2問題引入
6.3.3實驗分析
6.3.4實驗結(jié)果
6.4基于特征遷移的實體RE
6.4.1引言
6.4.2相關(guān)工作
6.4.3學習深度簡約表示
6.4.4基于聚類的正則化方法應用于實體RE
6.5基于關(guān)系遷移的實體RE
6.5.1基于關(guān)系遷移的實體RE的概念
6.5.2基于關(guān)系遷移的實體RE的步驟
6.5.3基于關(guān)系遷移的實體RE的模型結(jié)構(gòu)
6.5.4基于關(guān)系遷移的實體RE的相關(guān)工作
6.5.5實驗分析
第7章聯(lián)合模型的EE
7.1引言
7.2問題引入
7.3級聯(lián)解碼聯(lián)合學習的EE方法
7.3.1引言
7.3.2問題引入
7.3.3模型介紹
7.3.4實驗過程
7.4共享隱藏表示方式的EE方法
7.4.1引言
7.4.2問題引入
7.4.3模型
7.4.4模型實驗表現(xiàn)
7.5基于轉(zhuǎn)換的神經(jīng)網(wǎng)絡的EE方法
7.5.1引言
7.5.2轉(zhuǎn)換系統(tǒng)介紹
7.5.3基于轉(zhuǎn)換的神經(jīng)網(wǎng)絡模型介紹
7.5.4實驗結(jié)果
第8章篇章級的EE
8.1引言
8.2問題引入
8.3中心語引導的篇章級EE
8.3.1引言
8.3.2相關(guān)工作
8.3.3方法
8.3.4實驗結(jié)果
8.3.5比較
8.4跨句論元抽取的篇章級EE
8.4.1引言
8.4.2相關(guān)工作
8.4.3角色填充實體提取任務和評估指標
8.4.4將REE作為序列生成任務
8.4.5GRIT模型
8.4.6實驗設置及結(jié)果
8.5多粒度閱讀的篇章級EE
8.5.1引言
8.5.2相關(guān)工作
8.5.3實驗方法
8.5.4實驗結(jié)果
第9章總結(jié)與展望
9.1總結(jié)
9.2展望
9.2.1NER技術(shù)未來發(fā)展展望
9.2.2RE技術(shù)未來發(fā)展展望
9.2.3EE技術(shù)未來發(fā)展展望
參考文獻