《科研主題演化過程中的詞語遷移研究》結(jié)合數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等領(lǐng)域的主題建模和文本挖掘方法,以及情報(bào)學(xué)領(lǐng)域注重文本內(nèi)容分析的優(yōu)勢,以信息檢索領(lǐng)域的學(xué)術(shù)文獻(xiàn)為例,對科研主題的演化過程及演化過程中各主題下詞語的分布及語義變化進(jìn)行考察。發(fā)現(xiàn)科研主題的生長趨勢和演化動(dòng)態(tài),深入分析詞語遷移現(xiàn)象,揭示并驗(yàn)證關(guān)于詞語遷移的相似性、多樣性和凝聚性規(guī)律。
科研主題演化及主題內(nèi)容分析,是信息科學(xué)相關(guān)領(lǐng)域長期關(guān)注的問題。目前數(shù)量龐大的學(xué)術(shù)文獻(xiàn)既向科研主題分析提出了挑戰(zhàn),也為學(xué)術(shù)文本挖掘工作提供了充足的資源?蒲兄黝}是動(dòng)態(tài)演化的,在一個(gè)科研領(lǐng)域的發(fā)展過程中,新興主題涌現(xiàn),已經(jīng)形成的主題越發(fā)活躍成熟或者逐漸老化衰退,各個(gè)主題的研究內(nèi)容不斷變化,單一主題發(fā)生分化,多個(gè)主題之間產(chǎn)生融合。理解科研主題的演化過程并對其進(jìn)行深入的內(nèi)容分析,可以幫助新人領(lǐng)域的研究者了解領(lǐng)域概況,促進(jìn)領(lǐng)域?qū)<抑g進(jìn)行領(lǐng)域內(nèi)部和跨領(lǐng)域的知識交流,向科研基金管理機(jī)構(gòu)和政策制定者提供科學(xué)創(chuàng)新的發(fā)展軌跡,幫助決策者跟進(jìn)領(lǐng)域知識的流動(dòng)情況。
鑒于科研主題研究的重要性,以數(shù)據(jù)挖掘領(lǐng)域?yàn)榇淼母鲗W(xué)科均對其投入了很大的關(guān)注,相比之下,情報(bào)學(xué)領(lǐng)域?qū)τ诳蒲兄黝}演化的研究成果較少,對于演化動(dòng)態(tài)和演化過程中主題結(jié)構(gòu)變化的分析尤為欠缺。而在數(shù)據(jù)挖掘等計(jì)算機(jī)科學(xué)相關(guān)領(lǐng)域中,由于學(xué)科本身技術(shù)導(dǎo)向的特性,對于科研主題演化的考察比較注重演化模型的構(gòu)建和優(yōu)化,研究成果疏于探討主題間的知識交流情況和主題在不同時(shí)期的發(fā)展?fàn)顟B(tài),以及更進(jìn)一步深入詞語層面的內(nèi)容分析。
目前以情報(bào)學(xué)和數(shù)據(jù)挖掘領(lǐng)域?yàn)榇淼男畔⒖茖W(xué)相關(guān)領(lǐng)域?qū)蒲兄黝}演化分析的現(xiàn)狀是,情報(bào)學(xué)領(lǐng)域缺少成熟的技術(shù)方法對主題結(jié)構(gòu)的動(dòng)態(tài)演化過程和詞語在主題中的分布變化進(jìn)行識別和抽;數(shù)據(jù)挖掘領(lǐng)域由于其技術(shù)導(dǎo)向的特征,缺乏對于科研主題深入的內(nèi)容分析。
基于上述認(rèn)知,本書結(jié)合數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等領(lǐng)域的主題建模和文本挖掘方法,以及情報(bào)學(xué)領(lǐng)域注重文本內(nèi)容分析的優(yōu)勢,以信息檢索領(lǐng)域的學(xué)術(shù)文獻(xiàn)為例,對科研主題的演化過程及演化過程中各主題下詞語的分布及語義變化進(jìn)行考察。共計(jì)七個(gè)章節(jié)。
第一章,引言,主要介紹選題背景與研究意義,國內(nèi)外研究現(xiàn)狀,詞語語義和詞語遷移概念的界定,本研究的內(nèi)容、方法及創(chuàng)新之處。
第二章,理論基礎(chǔ),包括科學(xué)范式的轉(zhuǎn)變,貝葉斯網(wǎng)絡(luò)和主題建模原理,以及創(chuàng)新擴(kuò)散理論,為后文進(jìn)行主題抽取、演化研究和詞語在主題中的分布研究提供理論支撐。
第三章,科研主題的劃分與確定;贚DA主題模型對科研文獻(xiàn)構(gòu)成的文本數(shù)據(jù)集進(jìn)行了主題抽取和分析。選取的研究樣本為信息檢索領(lǐng)域的研究論文,數(shù)據(jù)來源為Web of Science數(shù)據(jù)庫,時(shí)間檢索跨度為1956-2014年,檢索結(jié)果共計(jì)20359條文獻(xiàn)數(shù)據(jù)。共計(jì)抽取五個(gè)主題,作為信息檢索領(lǐng)域的重要主題進(jìn)行后續(xù)的演化研究和詞語分析。
第四章,對科研主題的演化過程進(jìn)行分析,對信息檢索領(lǐng)域五個(gè)重要主題的生長趨勢和演化動(dòng)態(tài)進(jìn)行識別和考察。在生長趨勢分析中,對LDA主題模型訓(xùn)練結(jié)果中的文檔一主題概率分布按年分組進(jìn)行聚合,從而得到每一年每個(gè)主題下的內(nèi)容占當(dāng)年文獻(xiàn)總內(nèi)容的比例,以表示各主題在對應(yīng)年份的活躍程度。針對目前研究對主題活躍度的測量仍停留在對發(fā)表文獻(xiàn)進(jìn)行簡單計(jì)數(shù)的基礎(chǔ)上,本章的生長趨勢分析結(jié)果較好地保留了一篇文檔以不同比例包含多個(gè)主題的特性。在演化動(dòng)態(tài)分析中,針對目前主題演化研究對主題分化融合、知識交流和不同時(shí)期的發(fā)展階段分析的不足,對應(yīng)上述三點(diǎn)展開了研究。整體語料被劃分為六個(gè)時(shí)間窗口,每個(gè)時(shí)間窗口另外抽取存在于該時(shí)間段內(nèi)的局域主題,第三章抽取的五個(gè)主題稱為全局主題。
陳柏彤,博士,上海大學(xué)講師,畢業(yè)于武漢大學(xué)信息管理學(xué)院情報(bào)學(xué)專業(yè),主要研究方向?yàn)閿?shù)據(jù)驅(qū)動(dòng)知識發(fā)現(xiàn)。
第一章 引言
第一節(jié) 選題背景與研究意義
一 選題背景
二 研究意義
第二節(jié) 國內(nèi)外研究現(xiàn)狀分析
一 基于主題模型的主題發(fā)現(xiàn)與主題演化研究
二 科研主題的生長趨勢
三 基于知識圖譜的科研主題演化研究
四 詞語遷移相關(guān)研究
五 存在問題述評
第三節(jié) 詞語語義和詞語遷移概念的界定
一 詞語語義概念界定
二 詞語遷移概念界定
第四節(jié) 研究內(nèi)容和研究方法
一 研究內(nèi)容
二 研究方法
第五節(jié) 創(chuàng)新之處
第二章 理論基礎(chǔ)
第一節(jié) 科學(xué)哲學(xué)與科學(xué)范式的轉(zhuǎn)變
一 科學(xué)哲學(xué)對范式的定義
二 科學(xué)范式的轉(zhuǎn)變
三 科學(xué)范式轉(zhuǎn)變與科研主題演化的關(guān)系
第二節(jié) 貝葉斯概率與貝葉斯網(wǎng)絡(luò)
一 貝葉斯概率
二 貝葉斯網(wǎng)絡(luò)
第三節(jié) 主題模型概述
一 文本集合建模
二 PLSI模型
三 LDA模型
第四節(jié) 創(chuàng)新擴(kuò)散理論
一 創(chuàng)新擴(kuò)散理論概述
二 創(chuàng)新擴(kuò)散理論的繼承與發(fā)展
第三章 科研主題的劃分與確定
第一節(jié) 數(shù)據(jù)獲取與預(yù)處理
一 數(shù)據(jù)獲取
二 數(shù)據(jù)預(yù)處理
第二節(jié) 文檔建模與參數(shù)設(shè)定
一 模型輸入
二 模型運(yùn)算
三 模型輸出
第三節(jié) 結(jié)果分析
第四節(jié) 本章小結(jié)
第四章 科研主題的演化過程
第一節(jié) 科研主題的生長趨勢
一 歷時(shí)主題活躍度探測
二 生長趨勢分析
……
第五章 科研主題演化過程中的詞語遷移現(xiàn)象
第六章 科研主題演化過程中的詞語遷移規(guī)律
第七章 總結(jié)與展望
參考文獻(xiàn)
索引