非結(jié)構(gòu)化大數(shù)據(jù)分析(大數(shù)據(jù)分析統(tǒng)計應用叢書)
定 價:36 元
叢書名:大數(shù)據(jù)分析統(tǒng)計應用叢書
- 作者:李翠平
- 出版時間:2018/11/1
- ISBN:9787300262970
- 出 版 社:中國人民大學出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:128開
非結(jié)構(gòu)化數(shù)據(jù)是與結(jié)構(gòu)化數(shù)據(jù)相對應的概念。結(jié)構(gòu)化數(shù)據(jù)具有固定的格式,看上去非常規(guī)整。與結(jié)構(gòu)化數(shù)據(jù)相反,非結(jié)構(gòu)化數(shù)據(jù)是指無固定格式的數(shù)據(jù),例如,文本、網(wǎng)頁、圖像、視頻、數(shù)據(jù)流、序列、社交網(wǎng)絡、圖結(jié)構(gòu)等,F(xiàn)有數(shù)據(jù)中絕大多數(shù)數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù)。
本書介紹了四種典型非結(jié)構(gòu)化數(shù)據(jù)的分析和挖掘技術(shù),分別是:文本數(shù)據(jù)、社交網(wǎng)絡數(shù)據(jù)、數(shù)據(jù)流數(shù)據(jù)和多媒體數(shù)據(jù)(包括圖像、音頻和視頻)。為了便于讀者學習,大部分內(nèi)容除了理論講解之外,還給出了相應的在大數(shù)據(jù)環(huán)境下的上機實踐案例。
李翠平,女,教授,中國人民大學信息學院副院長、計算機系主任,中國計算機學會杰出會員,大數(shù)據(jù)專家委員會常務委員,數(shù)據(jù)庫專委會委員。2003年畢業(yè)于中科院計算所獲得博士學位,2008年在美國UIUC大學計算機系訪問交流。目前研究方向為數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、社會網(wǎng)絡分析和社會媒體推薦等。主持和參與國家重點研發(fā)計劃課題、自然科學基金、973、863等10多項國家級和省部級項目,先后在SIGKDD、SIGMOD、VLDB、EDBT等重要國際會議和TKDE、KAIS、JCST、軟件學報等國內(nèi)外期刊發(fā)表論文100多篇,出版著作2部,申請國家發(fā)明專利4項,獲得軟件著作權(quán)登記2項。2007年入選北京市組織部優(yōu)秀人才培養(yǎng)資助計劃。2009年入選教育部新世紀優(yōu)秀人才支持計劃。2011年獲得中國計算機學會青年科學家獎。
第1章 文本挖掘概述
1.1 時代背景
1.2 文本挖掘與數(shù)據(jù)挖掘
第2章 文本預處理
2.1 自然語言處理
2.2 分詞技術(shù)
2.3 文本表示
第3章 文本分類
3.1 預測建模
3.2 決策樹分類
3.3 貝葉斯分類
3.4 支持向量機分類
3.5 實踐案例垃圾短信識別
第4章 文本聚類和話題檢測
4.1 概述
4.2 基于相似度的文本聚類
4.3 基于模型的文本聚類
4.4 實踐案例用LDA實現(xiàn)話題檢測
第5章 情感分析和觀點挖掘
5.1 概述
5.2 問題定義
5.3 文檔級情感分析
5.4 句子級情感分析
5.5 方面級情感分析
5.6 存在的問題和挑戰(zhàn)
5.7 實踐案例發(fā)債企業(yè)負面新聞識別系統(tǒng)
第6章 社交網(wǎng)絡及其統(tǒng)計特性
6.1 社交網(wǎng)絡簡介
6.2 相關(guān)基本概念
6.3 常見統(tǒng)計特性
6.4 實踐案例微博用戶關(guān)系分析
第7章 社區(qū)發(fā)現(xiàn)
7.1 概述
7.2 社區(qū)發(fā)現(xiàn)方法
7.3 社區(qū)發(fā)現(xiàn)相關(guān)的研究領(lǐng)域
7.4 實踐案例用邊聚類探測算法發(fā)現(xiàn)社區(qū)
第8章 個體社會影響力分析
8.1 概述
8.2 個體社會影響力及影響強度度量
8.3 實踐案例用PageRank算法計算個體社會影響力
第9章 鏈路預測
9.1 簡介
9.2 基于相似度的鏈路預測算法
9.3 基于等級結(jié)構(gòu)模型的鏈路預測算法
9.4 實踐案例鏈路預測
第10章 網(wǎng)絡信息擴散
10.1 熱點主題的發(fā)現(xiàn)方法
10.2 信息擴散過程的建模與分析
10.3 實踐案例信息擴散計算過程
第11章 數(shù)據(jù)流中的數(shù)據(jù)挖掘
11.1 簡介
11.2 數(shù)據(jù)流中的變化探測
11.3 實時更新數(shù)據(jù)流中的直方圖
11.4 數(shù)據(jù)流中的聚類
11.5 數(shù)據(jù)流的分類
11.6 數(shù)據(jù)流方法的評估
第12章 多媒體數(shù)據(jù)分析
12.1 概述
12.2 基礎知識
12.3 特征提取
12.4 多媒體內(nèi)容檢索
12.5 多媒體內(nèi)容識別
12.6 國際評測
12.7 問題與挑戰(zhàn)