《基于網(wǎng)絡(luò)大數(shù)據(jù)的社會經(jīng)濟(jì)監(jiān)測預(yù)警研究》針對網(wǎng)絡(luò)大數(shù)據(jù)具有時效性強(qiáng)、分布范圍廣的特點(diǎn),提出一個基于網(wǎng)絡(luò)大數(shù)據(jù)的社會經(jīng)濟(jì)監(jiān)測預(yù)警的研究框架,對網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行深入分析和挖掘,在此基礎(chǔ)上就社會轉(zhuǎn)型中的社會經(jīng)濟(jì)關(guān)鍵指標(biāo)進(jìn)行實時監(jiān)測和智能預(yù)測,為政府和相關(guān)管理部門提供有效的分析工具與決策支持!痘诰W(wǎng)絡(luò)大數(shù)據(jù)的社會經(jīng)濟(jì)監(jiān)測預(yù)警研究》結(jié)構(gòu)完整,思路清晰,語言流暢,是網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)用于社會經(jīng)濟(jì)預(yù)測的首本專著,同時也是大數(shù)據(jù)分析和監(jiān)測預(yù)警等相關(guān)領(lǐng)域不可多得的一本體系性參考書。
《基于網(wǎng)絡(luò)大數(shù)據(jù)的社會經(jīng)濟(jì)監(jiān)測預(yù)警研究》可供從事預(yù)測科學(xué)、監(jiān)測技術(shù)和大數(shù)據(jù)應(yīng)用研究的科研人員,政府有關(guān)決策和管理部門的工作人員,金融公司、電子商務(wù)企業(yè)等的從業(yè)人員參考,也可供高等院校管理學(xué)院、信息學(xué)院、金融學(xué)院等相關(guān)專業(yè)的師生閱讀。
更多科學(xué)出版社服務(wù),請掃碼獲取。
《基于網(wǎng)絡(luò)大數(shù)據(jù)的社會經(jīng)濟(jì)監(jiān)測預(yù)警研究》:
2.4.2網(wǎng)絡(luò)大數(shù)據(jù)挖掘的定義
最早的網(wǎng)絡(luò)數(shù)據(jù)挖掘概念是由OrenEtioni于1996年提出來的,他認(rèn)為網(wǎng)絡(luò)數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)上的應(yīng)用,這項技術(shù)綜合了數(shù)據(jù)挖掘、網(wǎng)絡(luò)、計算機(jī)技術(shù)、信息技術(shù)等諸多領(lǐng)域,是一種綜合性的數(shù)據(jù)挖掘技術(shù)。
國內(nèi)外專家學(xué)者對于網(wǎng)絡(luò)數(shù)據(jù)挖掘的定義也是眾說紛紜,《基于網(wǎng)絡(luò)大數(shù)據(jù)的社會經(jīng)濟(jì)監(jiān)測預(yù)警研究》選取一個認(rèn)同率較高的定義:網(wǎng)絡(luò)數(shù)據(jù)挖掘就是指從大量網(wǎng)絡(luò)數(shù)據(jù)集中找到隱藏的信息,如果將大量網(wǎng)絡(luò)數(shù)據(jù)作為這一過程的輸入,將隱藏信息作為這一過程的輸出,則整個網(wǎng)絡(luò)數(shù)據(jù)挖掘過程就是從輸入到輸出的一個映射,即從大量網(wǎng)絡(luò)數(shù)據(jù)集到隱藏信息的一個映射。
網(wǎng)絡(luò)數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個重要分支,但是相比于數(shù)據(jù)挖掘,網(wǎng)絡(luò)數(shù)據(jù)挖掘有著一些特殊之處。
首先,網(wǎng)絡(luò)數(shù)據(jù)挖掘的對象是大量的網(wǎng)絡(luò)數(shù)據(jù)集,這些數(shù)據(jù)集大多是文檔形式,而且具有異質(zhì)性及分散式的特點(diǎn),如服務(wù)器上保存的日志文件、用戶發(fā)生行為留下的個人信息等,處理起來比傳統(tǒng)的數(shù)據(jù)挖掘更加困難。
其次,從邏輯上來講網(wǎng)絡(luò)可以看做一個文檔節(jié)點(diǎn)以及節(jié)點(diǎn)間的鏈接構(gòu)成的圖,因此通過網(wǎng)絡(luò)數(shù)據(jù)挖掘可能會得到網(wǎng)絡(luò)內(nèi)容,也可能會得到網(wǎng)絡(luò)結(jié)構(gòu),具有一定的不確定性。
另外,網(wǎng)絡(luò)數(shù)據(jù)本身不是結(jié)構(gòu)化的(機(jī)器不容易理解),但是傳統(tǒng)的數(shù)據(jù)挖掘是基于結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行的,是建立在關(guān)系數(shù)據(jù)庫的基礎(chǔ)上的。因此,有些時候數(shù)據(jù)挖掘技術(shù)與網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)并不通用,即便要用也需要預(yù)先對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行處理,使其轉(zhuǎn)化為傳統(tǒng)數(shù)據(jù)挖掘技術(shù)可用的結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu),這也是網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)的發(fā)展方向之一。
由于數(shù)據(jù)不斷增長,類型不斷復(fù)雜,網(wǎng)絡(luò)數(shù)據(jù)具有了大數(shù)據(jù)特征,這時的網(wǎng)絡(luò)數(shù)據(jù)挖掘已成為網(wǎng)絡(luò)大數(shù)據(jù)挖掘了。2.4.3網(wǎng)絡(luò)大數(shù)據(jù)挖掘的分類由于網(wǎng)絡(luò)上的數(shù)據(jù)具有多樣性的特征,所以在進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)挖掘時所面臨的任務(wù)也是多種多樣的,這里我們根據(jù)網(wǎng)絡(luò)大數(shù)據(jù)挖掘的對象不同進(jìn)行分類,網(wǎng)絡(luò)大數(shù)據(jù)挖掘技術(shù)可以分為三類,即網(wǎng)絡(luò)結(jié)構(gòu)挖掘、網(wǎng)絡(luò)內(nèi)容挖掘和網(wǎng)絡(luò)應(yīng)用挖掘。
網(wǎng)絡(luò)結(jié)構(gòu)挖掘技術(shù)是指在挖掘過程中關(guān)注網(wǎng)絡(luò)上隱含的鏈接結(jié)構(gòu),根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)之間的關(guān)系(如鏈接間的關(guān)系與組織結(jié)構(gòu))得到隱含信息的過程。這種方式通過分析網(wǎng)頁之間的某個鏈接及與這個鏈接相關(guān)的網(wǎng)頁數(shù)和相關(guān)對象,建立起一個網(wǎng)絡(luò)鏈接結(jié)構(gòu)模型。網(wǎng)絡(luò)結(jié)構(gòu)挖掘可以用來對網(wǎng)頁進(jìn)行分類,從而進(jìn)一步得到網(wǎng)頁之間的相關(guān)聯(lián)程度及近似程度,同時還可以幫助用戶快速地找到與自己相關(guān)的網(wǎng)頁。前文已經(jīng)說過,邏輯上網(wǎng)絡(luò)可以看做一張圖,一張龐大的有向圖。每個網(wǎng)絡(luò)網(wǎng)頁就是圖中的一個節(jié)點(diǎn),而頁面之間的鏈接就是圖中的邊,可以是單向的,也可以是雙向的。這樣我們可以很方便、快捷地找到一個節(jié)點(diǎn)到另一個節(jié)點(diǎn)的最短路徑,應(yīng)用到現(xiàn)實生活中就是可以花費(fèi)最小的時間和精力從一個頁面訪問另一個目標(biāo)頁面。
網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)是指對頁面的本身內(nèi)容進(jìn)行挖掘,頁面內(nèi)容的主要形式有文本、圖片、多媒體音響等,我們要從多種形式的內(nèi)容中挖掘出有價值的信息。目前,廣泛應(yīng)用的一些搜索引擎與推薦系統(tǒng)都是網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)的現(xiàn)實應(yīng)用,這些應(yīng)用都是幫助用戶從大量數(shù)據(jù)中快速找到自己需要的信息。網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)的關(guān)鍵是對網(wǎng)絡(luò)頁面的分類及聚類。分類是指網(wǎng)絡(luò)頁面具有不同的特征,我們根據(jù)這些特征將網(wǎng)絡(luò)頁面劃分為不同的類別;聚類是指,由于不同類別的網(wǎng)絡(luò)頁面之間或多或少都有著某種聯(lián)系,我們將這些頁面聚合到一起,形成不同的簇,盡可能使得同一個簇內(nèi)的網(wǎng)絡(luò)頁面有著最為相近的內(nèi)容,而不同簇之間的網(wǎng)絡(luò)頁面內(nèi)容沒有多大的相近性與關(guān)聯(lián)度。
……