久久午夜伦鲁片免费无码,丰满少妇aaaaaa爰片毛片,无日本码经典在线三级视频

本書在信念網(wǎng)絡(luò)檢索模型的基礎(chǔ)上給出四個(gè)話題模型，其中第二個(gè)動(dòng)態(tài)話題模型歸并了新聞話題的初始證據(jù)和更新證據(jù)，解決了傳統(tǒng)靜態(tài)話題模型、動(dòng)態(tài)話題模型孰優(yōu)孰劣的問題，有效控制了話題漂移現(xiàn)象。為提高話題識(shí)別與追蹤的綜合性能，對(duì)新聞數(shù)據(jù)預(yù)處理階段的特征選擇、權(quán)重計(jì)算和模型優(yōu)化進(jìn)行了相關(guān)研究。

更多科學(xué)出版社服務(wù)，請(qǐng)掃碼獲取。

　　話題識(shí)別與追蹤作為一項(xiàng)旨在幫助人們應(yīng)對(duì)信息過(guò)載問題的研究，現(xiàn)階段主要以網(wǎng)絡(luò)新媒體中的信息流為處理對(duì)象，自動(dòng)發(fā)現(xiàn)話題并把話題相關(guān)的內(nèi)容聯(lián)系在一起，其實(shí)現(xiàn)過(guò)程涉及5個(gè)子任務(wù)，分別是報(bào)道切分、首報(bào)道檢測(cè)、關(guān)聯(lián)檢測(cè)、話題追蹤和話題檢測(cè)。話題識(shí)別與追蹤技術(shù)可用來(lái)監(jiān)控各種語(yǔ)言信息源，在新話題出現(xiàn)時(shí)發(fā)出警告。在早期研究中，考慮到話題識(shí)別與追蹤和信息檢索的共性，研究者們嘗試將信息檢索領(lǐng)域的相關(guān)技術(shù)應(yīng)用于該領(lǐng)域。但二者之間亦存在不同，例如信息檢索一般具備背景知識(shí)和先驗(yàn)需求，而話題識(shí)別與追蹤是在對(duì)話題毫無(wú)了解的情況下進(jìn)行識(shí)別與追蹤，所以完全將信息檢索技術(shù)移植到話題識(shí)別與追蹤是不合理的，但是二者的本源性——模型構(gòu)建基本相通。
　　針對(duì)話題模型的前瞻性研究來(lái)自Allan等，他們借用信息檢索領(lǐng)域廣泛采納的向量空間模型描述話題的特征空間。雖然向量空間模型是目前常用的話題模型之一，但該模型的缺點(diǎn)是不能很好地融合靜態(tài)話題模型和動(dòng)態(tài)話題模型的優(yōu)點(diǎn)從而成功解決二者孰優(yōu)孰劣的問題，且在解決話題漂移問題時(shí)能力有限。信息檢索領(lǐng)域主要包括三個(gè)模型：布爾模型、向量空間模型和概率模型。向量空間模型在話題識(shí)別與追蹤領(lǐng)域中的成功應(yīng)用，從理論上驗(yàn)證了概率模型亦可應(yīng)用于話題識(shí)別與追蹤。貝葉斯網(wǎng)絡(luò)模型是重要的概率模型之一，包括推理網(wǎng)絡(luò)模型、信念網(wǎng)絡(luò)模型和BNR模型。在過(guò)去幾十年，貝葉斯網(wǎng)絡(luò)模型已成功應(yīng)用于信息檢索領(lǐng)域，但目前尚未有人將其應(yīng)用于話題識(shí)別與追蹤，本書在這方面做了相關(guān)研究，試圖為該領(lǐng)域提出新的研究方法。
　　本書結(jié)合信念網(wǎng)絡(luò)模型和新聞報(bào)道的特點(diǎn)，給出四個(gè)基于信念網(wǎng)絡(luò)的話題模型BSTM-I、BSTM-II、BDTM-I和BDTM-II。BSTM-I包括三類節(jié)點(diǎn)：新報(bào)道節(jié)點(diǎn)、術(shù)語(yǔ)節(jié)點(diǎn)和話題節(jié)點(diǎn)，弧體現(xiàn)節(jié)點(diǎn)間的隸屬關(guān)系。BSTM-II在BSTM-I的基礎(chǔ)上加入事件節(jié)點(diǎn)，弧的指向和意義不變，為體現(xiàn)核心報(bào)道、核心事件的重要性，BSTM-II對(duì)核心報(bào)道、核心事件中的術(shù)語(yǔ)權(quán)重進(jìn)行了兩次線性提高調(diào)整。BDTM-I屬于動(dòng)態(tài)話題模型，節(jié)點(diǎn)類型和弧的意義與上述模型相同，不同的是在話題追蹤過(guò)程中，其術(shù)語(yǔ)層會(huì)隨著話題的發(fā)展而不斷更新，重復(fù)出現(xiàn)的術(shù)語(yǔ)權(quán)重采用求和平均的方法更新，新出現(xiàn)的術(shù)語(yǔ)作為新的節(jié)點(diǎn)插入術(shù)語(yǔ)層。以上三個(gè)話題模型沿用傳統(tǒng)建模思想，具備和以往模型相同的優(yōu)缺點(diǎn)。BDTM-II打破傳統(tǒng)建模的思想，運(yùn)用信念網(wǎng)絡(luò)模型提供了一個(gè)靈活框架的優(yōu)勢(shì)，將術(shù)語(yǔ)節(jié)點(diǎn)分為兩類：初始核心術(shù)語(yǔ)節(jié)點(diǎn)和更新術(shù)語(yǔ)節(jié)點(diǎn)，并采用析取手段將它們作為兩類證據(jù)進(jìn)行歸并。依據(jù)模型的拓?fù)浣Y(jié)構(gòu)、貝葉斯概率及條件獨(dú)立性假設(shè)，本書給出了上述四個(gè)模型計(jì)算新聞報(bào)道和話題相似度的概率推導(dǎo)過(guò)程，用于判斷新的新聞報(bào)道是否和話題相關(guān)。
　　為進(jìn)一步提高話題識(shí)別與追蹤系統(tǒng)的綜合性能，本書進(jìn)行了系統(tǒng)的優(yōu)化研究。特征選擇是話題模型構(gòu)建的基礎(chǔ)，互信息是文本處理領(lǐng)域一種有效的特征選擇方法。在基本互信息的基礎(chǔ)上，將出現(xiàn)相同高頻詞的新聞報(bào)道進(jìn)行聚類，計(jì)算聚類后術(shù)語(yǔ)的互信息，將追蹤到的相關(guān)報(bào)道的發(fā)生時(shí)間和話題的發(fā)生時(shí)間量化為時(shí)間距離，使其反比影響互信息的動(dòng)態(tài)更新，得到基于聚類的動(dòng)態(tài)互信息計(jì)算方法，用于計(jì)算新聞報(bào)道中術(shù)語(yǔ)的權(quán)重。為了獲得TDT4語(yǔ)料中每個(gè)話題的初始特征子集規(guī)模，給出基于類內(nèi)距離最小、類間距離最大的目標(biāo)函數(shù)，并采用坐標(biāo)下降法對(duì)其求解，最終完成新聞?wù)Z料的特征選擇。
　　動(dòng)態(tài)話題模型的典型缺點(diǎn)是誤報(bào)率較高，優(yōu)點(diǎn)是其可以體現(xiàn)話題的動(dòng)態(tài)演化過(guò)程。如果能在保持動(dòng)態(tài)話題模型優(yōu)點(diǎn)的同時(shí)，降低其誤報(bào)率，將是該領(lǐng)域的一個(gè)新的突破點(diǎn)。本書通過(guò)系統(tǒng)分析動(dòng)態(tài)話題追蹤的誤報(bào)原因，提出動(dòng)態(tài)話題追蹤中的誤報(bào)檢測(cè)。該方法首先分析時(shí)間距離、相似度差值、相似話題分布及與核心內(nèi)容相似度分別如何影響誤報(bào)檢測(cè)，然后通過(guò)將這四項(xiàng)內(nèi)容線性調(diào)和得到誤報(bào)檢測(cè)因子的計(jì)算方法，用于判斷追蹤到的相關(guān)報(bào)道是否屬于誤報(bào)，若屬于誤報(bào)，則對(duì)部分特征權(quán)重進(jìn)行衰減，并確定模型結(jié)構(gòu)是否需要調(diào)整。實(shí)驗(yàn)采用TDT4語(yǔ)料，結(jié)合DET曲線驗(yàn)證以上研究?jī)?nèi)容的合理性和有效性。
　　專著的出版受到如下項(xiàng)目經(jīng)費(fèi)支持：河北大學(xué)雙一流專項(xiàng)資金項(xiàng)目、河北大學(xué)中西部提升綜合實(shí)力專項(xiàng)資金項(xiàng)目、河北省教育廳青年基金項(xiàng)目“話題特征選擇方法研究（QN2015099）”、河北省自然科學(xué)基金項(xiàng)目“基于貝葉斯網(wǎng)絡(luò)的話題識(shí)別與追蹤方法研究（F2015201142）”、河北省社會(huì)科學(xué)基金項(xiàng)目“京津冀協(xié)同發(fā)展網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)及其應(yīng)用研究（HB15SH064）”。
　　感謝我的博士生導(dǎo)師徐建民先生，是他最初幫我選定了這個(gè)研究方向，并在研究工作中對(duì)我做出了悉心的指導(dǎo)；感謝本書第二作者中央司法警官學(xué)院朱杰博士；感謝我的領(lǐng)導(dǎo)及同事楊會(huì)良教授、宛玲教授、楊秀丹教授、郭子雪教授，他們給我提供了進(jìn)行科研的條件及工作支持；感謝我的師弟王丹青、張猛、武曉波、粟武林、李騰飛，師妹劉暢、孫曉磊等，他們幫我搜集了部分材料并協(xié)助我完成了大量的實(shí)驗(yàn)。
　　由于本人水平所限，所做研究尚有不足，歡迎相關(guān)研究者批評(píng)指正。
收起全部↑

你還可能感興趣

我要評(píng)論