《語義指紋著者姓名消歧理論及應(yīng)用》提到的語義指紋是一種信息指紋,它將文獻(xiàn)文本特征表示為固定位數(shù)(如64位或128位)的二進(jìn)制指紋,保留了文本的語義特征且具有很好的降維效果。將語義指紋應(yīng)用到姓名消歧是一種新的嘗試,不僅可以實現(xiàn)良好的消歧效果,而且可以實現(xiàn)較高的消歧效率。
《語義指紋著者姓名消歧理論及應(yīng)用》共分7章,第1章對姓名消歧進(jìn)行了綜述,第2章介紹了姓名消歧的主要方法,第3章介紹了姓名消歧相關(guān)國內(nèi)外評測會議情況,第4章介紹了研究者標(biāo)識系統(tǒng),第5章介紹了語義指紋姓名消歧的相關(guān)理論,第6章介紹了基于語義指紋的著者姓名消歧,第7章介紹了基于語義指紋的專利發(fā)明人姓名消歧,第8章進(jìn)行了總結(jié)和展望。
《語義指紋著者姓名消歧理論及應(yīng)用》可以作為姓名消歧、科學(xué)合作網(wǎng)絡(luò)、科技監(jiān)測等研究的參考書。
狹義上講,科學(xué)合作網(wǎng)絡(luò)(Scientific Collaboration Network)是指以論文或?qū)@麛?shù)據(jù)中的合著關(guān)系為基礎(chǔ)構(gòu)建的社會網(wǎng)絡(luò)。論文的作者、專利的發(fā)明人在本書統(tǒng)一稱為著者或作者?茖W(xué)合作網(wǎng)絡(luò)中,節(jié)點(diǎn)是著者,邊是著者之間的合著關(guān)系(Coauthorship)。雖然也有研究國家或地區(qū)間合作的科學(xué)合作網(wǎng)絡(luò),但本研究限定其為著者合著關(guān)系構(gòu)建的網(wǎng)絡(luò)。科學(xué)合作網(wǎng)絡(luò)中的合著關(guān)系是一種強(qiáng)社會關(guān)系,合著者一般認(rèn)識,往往是同一個機(jī)構(gòu)、同一個項目、同一個科研工作中的“同事”,或者通過其他合著者間接認(rèn)識,所以它在揭示科研工作者的關(guān)系、發(fā)現(xiàn)科研合作社區(qū)、提升學(xué)術(shù)信息檢索質(zhì)量、評價科研人員的能力、提供學(xué)術(shù)推薦和科研合作建議、服務(wù)科研論文和項目評審等方面有著重要的應(yīng)用,從而受到了不少研究人員的關(guān)注。
在對科學(xué)合作網(wǎng)絡(luò)進(jìn)行研究的過程中,我們發(fā)現(xiàn)構(gòu)建的科學(xué)合作網(wǎng)絡(luò)由很多不連通的子網(wǎng)絡(luò)構(gòu)成,其中通常存在一個作者數(shù)量很多的“中心網(wǎng)絡(luò)”和很多作者數(shù)量較少的“邊緣網(wǎng)絡(luò)”。文獻(xiàn)調(diào)研中發(fā)現(xiàn),雖然不少研究者已經(jīng)注意到構(gòu)建的科學(xué)合作網(wǎng)絡(luò)是由很多不連通的子網(wǎng)絡(luò)構(gòu)成的,但并未就其進(jìn)行深入研究?茖W(xué)合作網(wǎng)絡(luò)的不連通問題會在一些實際應(yīng)用產(chǎn)生錯誤的結(jié)果,影響其應(yīng)用效果。為此,本項目擬對不連通問題的原因、不連通問題對實際應(yīng)用的影響進(jìn)行分析,探索提高科學(xué)合作網(wǎng)絡(luò)連通性的方法;诓贿B通是因為數(shù)據(jù)不全面的假設(shè),對中英雙語言體系下的跨數(shù)據(jù)庫姓名消歧問題進(jìn)行研究,在此基礎(chǔ)上,對采用關(guān)系擴(kuò)展方法提高科學(xué)合作網(wǎng)絡(luò)連通性的方法進(jìn)行研究;陉P(guān)系擴(kuò)展法成本高、效率低等不足,對采用鏈接預(yù)測算法提高科學(xué)合作網(wǎng)絡(luò)連通性的方法進(jìn)行研究。通過對科學(xué)合作網(wǎng)絡(luò)不連通問題的研究,探索提高連通性的方法,希望為科學(xué)合作網(wǎng)絡(luò)的深入研究和應(yīng)用提供新的理論或方法的指導(dǎo)。
在科學(xué)合作網(wǎng)絡(luò)研究中,著者姓名消歧是普遍認(rèn)可的一個重要步驟,也是一個關(guān)鍵步驟。來源于傳統(tǒng)圖書館權(quán)威控制(Authority Control)思想的人工消歧固然是一種較為可靠的方法,但該方法效率較低,人為因素可能造成消歧效果充滿不確定性,使其難以滿足文獻(xiàn)數(shù)據(jù)量激增和數(shù)字圖書館服務(wù)及時化的需求。因此,采用自動化的姓名消歧技術(shù)是一種更為現(xiàn)實的解決方案,也是當(dāng)前的研究熱點(diǎn)和重點(diǎn)。自動姓名消歧技術(shù)是自然語言處理的基本問題之一,最初是作為實體共指現(xiàn)象來研究的,后來在一些會議和評測競賽的推動下,姓名消歧作為一個單獨(dú)的研究問題被提出來。提出的眾多自動化消歧技術(shù)大體上可以落入無監(jiān)督和有監(jiān)督的機(jī)器學(xué)習(xí)的范疇。雖然很多算法被提出來以解決這個問題,但迄今為止不少研究者認(rèn)為它依然是學(xué)術(shù)界的一大難題。此外.當(dāng)前的自動化處理技術(shù)多研究靜態(tài)數(shù)據(jù)環(huán)境下的姓名消歧,大多需要較大的運(yùn)算量,較少考慮真實的、動態(tài)的數(shù)字圖書館情景下的消歧。
韓紅旗,中國科學(xué)技術(shù)信息研究所副研究員,碩士生導(dǎo)師。主要研究領(lǐng)域包括文本挖掘、復(fù)雜網(wǎng)絡(luò)分析、知識工程、知識管理等,F(xiàn)已發(fā)表學(xué)術(shù)論文40余篇,參編專業(yè)圖書7部,申請發(fā)明專利3件、軟件著作權(quán)5件,參加國家高水平科研項目20余項,獲省部級三等獎1項。目前主持國家自然科學(xué)基金面上項目“科學(xué)合作網(wǎng)絡(luò)的不連通問題研究”,作為主要參與人參與國家自然科學(xué)基金項目“面向科技監(jiān)測的實體識別與關(guān)系抽取研究”和“基于論文和專利資源的技術(shù)機(jī)會發(fā)現(xiàn)研究”的研究。
第1章 姓名消歧綜述
1.1 姓名歧義現(xiàn)象
1.2 姓名歧義帶來的挑戰(zhàn)
1.3 著者姓名歧義問題
1.4 研究意義
1.5 國內(nèi)外研究現(xiàn)狀
1.5.1 姓名消歧研究的來源
1.5.2 網(wǎng)頁人名消歧的研究現(xiàn)狀
1.5.3 著者姓名消歧的研究現(xiàn)狀
1.6 本章小結(jié)
第2章 著者姓名消歧方法分類及研究綜述
2.1 著者姓名消歧方法分類
2.2 人工著者姓名消歧方法
2.3 基于規(guī)則的著者姓名消歧方法
2.3.1 基于規(guī)則和閾值的姓名消歧方法
2.3.2 基于相似度打分表的姓名消歧方法
2.4 基于機(jī)器學(xué)習(xí)的著者姓名消歧方法
2.4.1 基于監(jiān)督學(xué)習(xí)的姓名消歧方法
2.4.2 基于無監(jiān)督學(xué)習(xí)的姓名消歧方法
2.4.3 基于半監(jiān)督學(xué)習(xí)的姓名消歧方法
2.5 基于語義指紋的著者姓名消歧方法
2.6 基于唯一標(biāo)識的著者姓名消歧方法
2.7 其他著者姓名消歧方法
2.7.1 基于社會網(wǎng)絡(luò)的姓名消歧方法
2.7.2 基于網(wǎng)絡(luò)知識資源的姓名消歧方法
2.8 現(xiàn)有方法對比分析
2.9 本章小結(jié)
第3章 姓名消歧相關(guān)的評測
3.1 WePS網(wǎng)頁人物搜索評測
3.1.1 WePS
3.1.2 WePS
3.1.3 WePS
3.2 PatentsView專利發(fā)明人姓名消歧評測
3.2.1 數(shù)據(jù)
3.2.2 評價指標(biāo)
3.2.3 競賽結(jié)果
3.3 TAGKBP命名實體消歧評測
3.4 中文姓名消歧評測
3.4.1 2010年中文人名消歧評測
3.4.2 2012年中文人名消歧競賽
3.5 本章小結(jié)
第4章 研究者標(biāo)識系統(tǒng)
4.1 背景
4.2 國內(nèi)外現(xiàn)狀與本研究實施技術(shù)路線
4.2.1 國內(nèi)外現(xiàn)狀
4.2.2 實施技術(shù)路線
4.3 研究者標(biāo)識系統(tǒng)案例
4.3.1 ResearchID
4.3.2 ORCID
4.3.3 研究者名稱解析系統(tǒng)
4.4 研究者信息系統(tǒng)整合案例
4.4.1 Researcher.ID與0RCID
4.4.2 研究者名稱解析系統(tǒng)與ORCID
4.5 中國研究者標(biāo)識系統(tǒng)的應(yīng)用設(shè)計
4.5.1 中國研究者標(biāo)識系統(tǒng)框架設(shè)計
4.5.2 中國研究者標(biāo)識系統(tǒng)與ORCID整合設(shè)計
4.5.3 中國研究者標(biāo)識系統(tǒng)建設(shè)需要注意的問題
4.6 本章小結(jié)
第5章 語義指紋姓名消歧的基礎(chǔ)理論
5.1 信息指紋
5.2 哈希函數(shù)
5.2.1 Rabin哈希函數(shù)
5.2.2 SDBM哈希函數(shù)
5.2.3 MD5哈希函數(shù)
5.2.4 SHA-1哈希函數(shù)
5.2.5 哈希函數(shù)對比
5.3 語義指紋介紹
5.3.1 語義指紋的概念
5.3.2 語義指紋的研究現(xiàn)狀
5.3.3 語義指紋的應(yīng)用
5.3.4 主要語義指紋算法
5.4 主要文本相似度計算方法
5.4.1 基于向量空間模型的相似度計算方法
5.4.2 基于字符串匹配的相似度計算方法
5.4.3 文本相似度計算方法比較
5.5 主要聚類算法
5.5.1 K-means聚類
5.5.2 層次聚類
5.5.3 圖聚類
5.5.4 DBSCAN算法
5.5.5 聚類算法對比
5.6 本章小結(jié)
第6章 基于語義指紋的論文著者姓名消歧
6.1 引言
6.1.1 研究背景
6.1.2 研究意義
6.1.3 主要研究內(nèi)容
6.2 方法
6.2.1 方法的原理
6.2.2 PDF2TXT
6.2.3 指紋生成器
6.2.4 指紋比較器
6.2.5 認(rèn)領(lǐng)決策器
6.2.6 作品指派器
6.2.7 爭議仲裁器
6.3 評價指標(biāo)
6.4 實驗結(jié)果
6.4.1 實驗數(shù)據(jù)集構(gòu)建
6.4.2 數(shù)據(jù)預(yù)處理
6.4.3 姓名消歧特征選擇及獨(dú)立特征姓名消歧實驗
6.4.4 基于語義指紋的綜合特征姓名消歧實驗
6.5 本章小結(jié)
6.5.1 技術(shù)內(nèi)涵
6.5.2 可能的應(yīng)用
6.5.3 研究限制
6.5.4 未來研究方向
第7章 基于語義指紋的專利發(fā)明人姓名消歧
7.1 引言
7.1.1 研究背景
7.1.2 研究意義
7.1.3 主要研究內(nèi)容
7.2 專利發(fā)明人姓名消歧方法
7.2.1 總體架構(gòu)
7.2.2 數(shù)據(jù)獲取
7.2.3 數(shù)據(jù)規(guī)范化
7.2.4 特征提取
7.2.5 語義指紋生成
7.2.6 分塊策略設(shè)計
7.2.7 參數(shù)估計
7.2.8 實驗步驟
7.2.9 小結(jié)
7.3 評價指標(biāo)
7.4 專利發(fā)明人姓名消歧實驗
7.4.1 數(shù)據(jù)處理
7.4.2 實驗結(jié)果及討論
7.4.3 小結(jié)
7.5 本章小結(jié)
7.5.1 主要研究結(jié)論
7.5.2 研究局限性
7.5.3 未來研究方向
第8章 總結(jié)及展望
8.1 總結(jié)
8.2 展望
參考文獻(xiàn)