本書首先對異質(zhì)信息網(wǎng)絡分析的發(fā)展以及該領域的一些新穎的數(shù)據(jù)挖掘任務進行了全面的綜述。本書包括兩個部分。在第I部分,包括第1、2和9章,它深入全面地總結(jié)了該領域的進展。這本書第1章深入介紹了異質(zhì)信息網(wǎng)絡,第2章研究了大多數(shù)數(shù)據(jù)挖掘任務的研究進展。此外,根據(jù)發(fā)展和趨勢,我們在第9章中指出了未來研究方向。在第II部分中,它通過第3-8章中的幾類數(shù)據(jù)挖掘任務說明了異質(zhì)信息網(wǎng)絡分析的特征。
現(xiàn)實環(huán)境中的交互和多類型組件構(gòu)成了相互連接的網(wǎng)絡——可以稱為信息網(wǎng)絡。這些無處不在的信息網(wǎng)絡是現(xiàn)代信息基礎架構(gòu)的重要組成部分。近年來,信息網(wǎng)絡分析引起了計算機科學、社會科學、物理學等許多領域研究人員的極大關(guān)注。特別是,在過去的十年中,信息網(wǎng)絡分析已成為數(shù)據(jù)挖掘、數(shù)據(jù)庫和信息檢索領域的主流方向。基本范式是通過從網(wǎng)絡數(shù)據(jù)中挖掘鏈接關(guān)系來發(fā)現(xiàn)隱藏模式。信息網(wǎng)絡分析還涉及社交網(wǎng)絡分析、鏈接挖掘、圖挖掘和網(wǎng)絡科學方面的工作。
當前信息網(wǎng)絡分析通;谕|(zhì)信息網(wǎng)絡,這種網(wǎng)絡中只有一種類型的對象或鏈接。示例之一是作者合作網(wǎng)絡,該網(wǎng)絡僅包含作者和共同作者之間的關(guān)系。這些同質(zhì)信息網(wǎng)絡通常是通過簡單地忽略對象和鏈接的異質(zhì)性或僅考慮一種對象之間的一種鏈接來簡化實際交互系統(tǒng)。但是,大多數(shù)實際的交互系統(tǒng)都包含多種類型的交互組件,這些組件可以建模為包含不同類型的對象和鏈接的異質(zhì)信息網(wǎng)絡。例如,文獻數(shù)據(jù)庫(如DBLP)可以構(gòu)建成一個異質(zhì)信息網(wǎng)絡,其中包括多種類型的對象(例如,論文、作者和會議)和鏈接關(guān)系(例如,作者與論文之間的寫/被寫,論文和會議之間的發(fā)表/發(fā)表于)。顯然,作者合作網(wǎng)絡隱含在異質(zhì)信息網(wǎng)絡中,可以從論文和作者之間的被寫/寫的關(guān)系推導得到。
與同質(zhì)信息網(wǎng)絡相比,異質(zhì)信息網(wǎng)絡可以有效地融合更多的信息,并在對象和鏈接中包含更豐富的語義,從而形成了數(shù)據(jù)挖掘的新發(fā)展。自2009年異質(zhì)信息網(wǎng)絡的概念首次提出,它很快成為數(shù)據(jù)挖掘中的一個熱門研究主題,并且基于這種網(wǎng)絡出現(xiàn)了許多創(chuàng)新的數(shù)據(jù)挖掘任務。此外,一些獨特的分析技術(shù)(例如,基于元路徑的挖掘)的提出,展現(xiàn)了異質(zhì)信息網(wǎng)絡的優(yōu)勢。特別是,隨著大數(shù)據(jù)時代的到來,異質(zhì)信息網(wǎng)絡成為一種建模和分析大數(shù)據(jù)中復雜對象及其關(guān)系的有效方法。
本書首先對異質(zhì)信息網(wǎng)絡分析的最新發(fā)展以及該領域的一些新穎的數(shù)據(jù)挖掘任務進行了全面的綜述。本書從邏輯上分為兩個部分。第一部分包括第1、2、9章,深入全面地總結(jié)了該領域的最新進展。第1章深入介紹異質(zhì)信息網(wǎng)絡,第2章綜述大多數(shù)數(shù)據(jù)挖掘任務的研究進展,此外,根據(jù)最新發(fā)展和趨勢,在第9章中指出了未來的研究方向。在第二部分,通過第3~8章中的幾類數(shù)據(jù)挖掘任務說明了異質(zhì)信息網(wǎng)絡分析的特點。第3章介紹相關(guān)性度量,第4章介紹排名和聚類,第5章介紹推薦,第6章介紹融合學習,第7章介紹模式豐富的異質(zhì)網(wǎng)絡挖掘,第8章討論一些有趣的原型系統(tǒng)。
本書的讀者對象是數(shù)據(jù)挖掘領域(尤其是社交網(wǎng)絡分析領域)的工程師和研究人員,同時也適用于人工智能和信息學領域的工程師及研究人員。更廣泛地講,讀者對象還包括那些統(tǒng)計學、社會科學、物理學和生物學等其他學科中對社交網(wǎng)絡分析感興趣的學者。本書可用做一些課程的教材,例如數(shù)據(jù)挖掘、社交網(wǎng)絡分析、復雜網(wǎng)絡、高級人工智能,適合計算機科學及相關(guān)專業(yè)的高年級本科生或研究生閱讀。建議讀者通過第一部分快速了解該領域,然后深入研究第二部分中的數(shù)據(jù)挖掘任務。
衷心感謝參與本書編寫的所有人員。首先,感謝張佳偉博士在第6章所做的貢獻,這使得本書更加完整。然后,感謝我們的合作者在異質(zhì)信息網(wǎng)絡方面的工作,他們是孔翔南、孫怡舟、吳斌、李依彤、張志強、劉劍、王然、鄭玉艷、鄭靜、曹曉歡、胡嘉偉、孟曉峰、周翀等。我們也要感謝本書編寫過程中的支持者,他們是萬欣、陳曉紀、吉余崗、紀厚業(yè)、張依丁、肖楊、胡斌斌、韓霄天、陳璞迪、宋禮、Govardhana
K.、MelissaFearon、JenniferMalat等。此外,這項工作獲得了中國國家重點基礎研究發(fā)展計劃(973)(No.2013CB329600)、中國國家自然科學基金委員會(No.61375058和61672313)以及美國國家科學基金委(III-1526499)的資助。最后,感謝我們的家人在整個項目中的全力支持。