藥品安全輿情是人民群眾最關(guān)心、最直接、最現(xiàn)實的利益問題之一, 直接關(guān)系到人們的身體健康和生命安全。輿情相關(guān)知識的有效表示和組織是當(dāng)前網(wǎng)絡(luò)輿情研究和管理的迫切需求。本書重點研究藥品安全輿情的結(jié)構(gòu)化語料庫, 藥品安全輿情的命名實體識別方法, 藥品安全輿情的命名實體消岐模型和算法, 藥品安全輿情的實體對齊模型和算法, 藥品安全輿情的實體關(guān)系抽取方法, 藥品安全輿情的事件知識圖譜系統(tǒng)設(shè)計與實現(xiàn), 為藥品安全輿情監(jiān)測、主題發(fā)現(xiàn)、熱點追蹤和輔助輿情引導(dǎo)等精細(xì)化管理提供技術(shù)支持。
第pan>章藥品輿情的結(jié)構(gòu)化語料庫
1.pan>緒論
1.1.pan>研究背景與意義
1.1.2研究現(xiàn)狀和發(fā)展趨勢
1.1.3研究的基本內(nèi)容和擬解決的主要問題。
1.1.4研究方法及措施
1.2藥品輿情語料庫的框架設(shè)計與構(gòu)建方法.
1.2.pan>語料庫的框架設(shè)計。
1.2.2生語料采集處理
1.2.3解析生語料庫
1.2.4基于TextRank算法的關(guān)鍵摘要提取
1.2.5實體知識圖譜的建立
1.3語料庫原型與應(yīng)用
1.3.pan>結(jié)構(gòu)化語料庫
1.3.2語料檢索服務(wù)
1.3.3人工篩臺.
1.3.4實體知識圖譜導(dǎo)出
1.4本章小結(jié)本章參考文獻(xiàn)
第2章基于CRF的藥品輿情的命名實體識別
2.pan>緒論
2.1.pan>研究背景與意義
2.1.2研究現(xiàn)狀與趨勢
2.1.3研究的基本內(nèi)容和擬解決的主要問題
2.1.4研究的方法及措施
2.2基于機(jī)器學(xué)的命名實體識別,
2.2.pan>命名實體識別相關(guān)概述
2.2.2基于CRF模型的命名實體識別
2.3實驗設(shè)計與結(jié)果分析.
2.3.pan>實驗環(huán)境
2.3.2實驗數(shù)據(jù)
2.3.3實驗結(jié)果與分析
2.4本章小結(jié)
本章參考文獻(xiàn)
第3章 基于深度學(xué)的藥品輿情的命名實體識別
3.pan>緒論
3.1.pan>研究背景與意義
3.1.2國內(nèi)外研究現(xiàn)狀和發(fā)展趨勢
3.1.3研究的基本內(nèi)容和擬解決的主要問題
3.1.4研究方法及措施
3.2 N-BiLSTM-CRF模型
3.2.pan>問題描述
3.2.2詞嵌入
3.2.3卷積神經(jīng)網(wǎng)絡(luò)
3.2.4雙向長短期記憶神經(jīng)網(wǎng)絡(luò)
3.2.5 BiLSTM-CRF模型
3.2.6 N-BiLSTM-CRF模型
3.3實驗設(shè)計與結(jié)果分析
3.3.pan>實驗設(shè)計
3.3.2實驗數(shù)據(jù)
3.3.3實驗測試與結(jié)果分析
3.4本章小結(jié)本章參考文獻(xiàn)
第4章基于機(jī)器學(xué)品輿情的實體關(guān)系抽取
4.pan>緒論
4.1.pan>研究背景與意義
4.1.2國內(nèi)外研究現(xiàn)狀和發(fā)展趨勢
4.1.3研究的基本內(nèi)容和擬解決的主要問題
4.1.4研究方法及措施
4.2基于SVM的藥品輿情的實體關(guān)系抽取
4.2.1 jieba中文分詞
4.2.2 Word2Vec原理
4.2.3支持向量機(jī)SVM
4.3實驗設(shè)計與結(jié)果分析
4.3.pan>實驗設(shè)計
4.3.2實驗數(shù)據(jù)
4.3.3實驗結(jié)果與分析
4.4本章小結(jié)本章參考文獻(xiàn)
第5章藥品輿情的命名實體消歧模型和算法
5.pan>緒論
5.1.pan>研究背景與意義
5.1.2國內(nèi)外研究現(xiàn)狀
5.1.3研究的基本內(nèi)容和擬解決的主要問題
5.1.4研究的方法及措施
5.2藥品輿情的命名實體消歧模型與算法
5.2.pan>命名實體消歧
5.2.2詞向量的表示
5.2.3基于KMeans的命名實體消歧算法
5.3實驗設(shè)計與結(jié)果分析.
5.3.pan>實驗設(shè)計
5.3.2實驗數(shù)據(jù)
5.3.3實驗結(jié)果與分析
5.4本章小結(jié)本章參考文獻(xiàn)
第6章藥品輿情的實體對齊模型和算法研究
6.pan>緒論
6.1.pan>研究背景與意義
6.1.2國內(nèi)外研究現(xiàn)狀.
6.1.3研究的基本內(nèi)容與擬解決的主要問題
6.1.4研究方法及措施
6.2藥品輿情的實體對齊模型與算法
6.2.pan>基本概念與模型
6.2.2實體和屬對齊算法
6.3實驗設(shè)計與結(jié)果分析
6.3.pan>實驗設(shè)計
6.3.2實驗數(shù)據(jù)
6.3.3實驗結(jié)果與分析
6.4本章小結(jié)本章參考文獻(xiàn)
第7章藥品輿情知識圖譜管理系統(tǒng)設(shè)計與實現(xiàn)
7.pan>緒論
7.1.pan>研究背景與意義
7.1.2國內(nèi)外研究現(xiàn)狀
7.1.3研究的基本內(nèi)容和擬解決的主要問題
7.1.4研究方法及措施
7.2需求分析
7.2.pan>組織分析
7.2.2需求獲取
7.2.3業(yè)務(wù)建模
7.2.4領(lǐng)域建模
7.2.5提煉業(yè)務(wù)規(guī)則
7.2.6需求分析
7.3系統(tǒng)分析
7.3.pan>建立系統(tǒng)用例
7.3.2分析業(yè)務(wù)規(guī)則
7.3.3用例實現(xiàn)
7.3.4軟件架構(gòu)和框架
7.3.5建立分析模型
7.4系統(tǒng)設(shè)計
7.4.pan>設(shè)計模型
7.4.2接口設(shè)計
7.4.3
7.4.4數(shù)據(jù)庫設(shè)計
7.5系統(tǒng)實現(xiàn)
7.5.pan>藥品輿情知識圖譜節(jié)點模塊
7.5.2藥品輿情知識圖譜關(guān)系管理模塊
7.6本章小結(jié)本章
參考文獻(xiàn)
隨著互聯(lián)網(wǎng)的廣泛使用,越來越多的網(wǎng)民依賴網(wǎng)絡(luò)獲取有關(guān)此類事件的信息,并且互聯(lián)網(wǎng)的輿論在事件的發(fā)展過程中變得越來越重要。為一步提高藥品,維護(hù)人民的健康權(quán),醫(yī)藥工業(yè)的持續(xù)健康發(fā)展,從輿論監(jiān)督的角度研究國內(nèi)外藥品的發(fā)展具有十分重要的意義。
所謂語料庫是指出于某些應(yīng)用目的從各個方面收集的,具有規(guī)模和結(jié)構(gòu),并且可以被計算機(jī)識別的原始語料庫的集合。語料庫的初始構(gòu)建是基于手動分類的,這種方法不僅耗時長,而且成本很高[B-4]。當(dāng)今隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,Web數(shù)據(jù)挖掘技術(shù)為構(gòu)建語料庫提供了很好臺,來自網(wǎng)絡(luò)的大量數(shù)據(jù)不僅可以提供豐富的語料庫來源,還可以不斷更新語料庫的構(gòu)建[5]。
1.1.2研究現(xiàn)狀和發(fā)展趨勢
pan style="font-family: 宋體;">研究資料與方法
(pan style="font-family: 宋體;">)數(shù)據(jù)來源。本章的數(shù)據(jù)來自KI期刊數(shù)據(jù)庫。召回條件:主題標(biāo)題=“輿情”或“構(gòu)建語料庫”,請參閱來源類別中的熱門期刊。搜索時間范圍是03年pan>月25日到2pan>年pan>月15日,搜索日期是2pan>年3月2日。共獲得489篇樣本。
將CiteSpace5.7.R2軟件的數(shù)據(jù)轉(zhuǎn)換和分析周期設(shè)置為03一2pan>年,將時間設(shè)置為pan>年,并根據(jù)節(jié)點的不同類型設(shè)置其他參數(shù)。通過Excel分析文獻(xiàn)量的變化趨勢,并使用CiteSpace可視化和分析不同維度,例如研究作者、研究機(jī)構(gòu)和關(guān)鍵詞共現(xiàn)。本章采用文獻(xiàn)計量法,使用CiteSpace信息可視化軟件對獲得的文行可視化分析和解釋,然后通過對文獻(xiàn)的深入閱讀,對我國OBE的關(guān)鍵研究和發(fā)展趨行分類[6。
(2)研究過程。本研究將從知網(wǎng)獲得的489篇文獻(xiàn)以Refworks格式下載,并轉(zhuǎn)化成CiteSpace能夠識別的WOS格行導(dǎo)入,將時間跨度設(shè)置為03—2pan>年。同時,能界面的節(jié)點類型區(qū)域依次選擇主題(Term)、關(guān)鍵詞(Keyword)和類別(Category)按鈕,采用“路徑搜索算法(Pathfinder)”運(yùn)行程序,終對獲得的網(wǎng)絡(luò)知識圖行分析[7]。
(3)參數(shù)設(shè)置。設(shè)置軟件的時間為03-2pan>年,時間切片為pan>年,節(jié)點分別設(shè)置為作者、機(jī)構(gòu)、關(guān)鍵詞,依行合作網(wǎng)絡(luò)分析和共現(xiàn)聚類分析,作者與機(jī)構(gòu)TopN閾值設(shè)為100,行修剪,關(guān)鍵詞TopN閾值設(shè)為50,修剪方式為Pathfinder。
2.研究概況
(pan style="font-family: 宋體;">)年度發(fā)文量分析
年度出版物的數(shù)量和變化趨勢有助于我們了解這一研究領(lǐng)域的重要和。如圖1-pan style="font-family: 宋體;">所示是對語料庫研究的文獻(xiàn)年度數(shù)行的統(tǒng)計分析,在程度上可以反映出該領(lǐng)域的研究趨勢。從增長速度可以看出,03一14年是該研究的輝煌時期,研究數(shù)量飛速激增,14-17年該研究呈緩慢增長趨勢,17-2pan>年發(fā)表量呈下降趨勢。
基于知識圖譜可視化分析,本章將語料庫研究分為初始期(03一14年)、發(fā)展期(14-17年)和深化期(17-2pan>年)三個階段,從文獻(xiàn)規(guī)模、學(xué)術(shù)社群以及熱點主題等方面全程分析藥品輿情的語料庫研究的歷程。
(2)作者分析
在CiteSpace分析工具的節(jié)點類型中選擇“Author”,TopN設(shè)定為500,TopN%設(shè)定為100,(c,cc,ccv)設(shè)定為(pan>,pan>,),其他使用默認(rèn)參數(shù)(樣本量為504篇)。依據(jù)文獻(xiàn)計量學(xué)中學(xué)者普賴斯(Priced)所提出的計算公行統(tǒng)計[8]。本研究發(fā)文多的是現(xiàn)南京師范大學(xué)的曲維光教授,發(fā)文量22篇。經(jīng)計算,發(fā)文量達(dá)4篇及4篇以上可視為核心作者。表1-pan>所示為該主題的核心發(fā)文作者。