關(guān)于我們
書單推薦
新書推薦
|
大數(shù)據(jù)概論 讀者對(duì)象:學(xué)習(xí)大數(shù)據(jù)的科學(xué)技術(shù)人員及相關(guān)師生
《大數(shù)據(jù)概論》主要介紹大數(shù)據(jù)概論,內(nèi)容包括大數(shù)據(jù)概述、科學(xué)研究第四范式、
分布系統(tǒng)設(shè)計(jì)的CAP 理論、NoSQL 數(shù)據(jù)庫(kù)、復(fù)雜網(wǎng)絡(luò)、MapReduce 分布編 程模型、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)分析、大數(shù)據(jù)挖掘、大數(shù)據(jù)可視化、大數(shù)據(jù)安 全、大數(shù)據(jù)機(jī)器學(xué)習(xí)、大數(shù)據(jù)推薦技術(shù),以及數(shù)據(jù)科學(xué)與數(shù)據(jù)思維!洞髷(shù)據(jù)概論》對(duì) 上述內(nèi)容概念性地介紹,語(yǔ)言精練、內(nèi)容全面。 更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
目錄
前言 第1章 大數(shù)據(jù)概述 1 1.1 問題的提出 2 1.1.1 電子數(shù)據(jù)迅速增加 2 1.1.2 數(shù)據(jù)孕育巨大的經(jīng)濟(jì)價(jià)值 3 1.1.3 數(shù)據(jù)是國(guó)家的核心資產(chǎn) 4 1.2 大數(shù)據(jù)的產(chǎn)生源泉 4 1.2.1 互聯(lián)網(wǎng)世界 5 1.2.2 物理世界 6 1.3 大數(shù)據(jù)的概念 7 1.3.1 數(shù)據(jù)容量 7 1.3.2 數(shù)據(jù)類型 8 1.3.3 價(jià)值密度 8 1.3.4 數(shù)據(jù)傳播速度 9 1.3.5 真實(shí)性 9 1.4 大數(shù)據(jù)的特性 9 1.4.1 價(jià)值 9 1.4.2 非結(jié)構(gòu)性 9 1.4.3 不完備性 10 1.4.4 時(shí)效性 10 1.4.5 安全性 10 1.4.6 可靠性 10 1.5 大數(shù)據(jù)技術(shù)概述 10 1.5.1 大數(shù)據(jù)技術(shù)的主要內(nèi)容 11 1.5.2 大數(shù)據(jù)的處理過(guò)程 12 1.5.3 大數(shù)據(jù)技術(shù)的特征 13 1.5.4 大數(shù)據(jù)的關(guān)鍵問題與關(guān)鍵技術(shù) 14 1.6 大數(shù)據(jù)應(yīng)用趨勢(shì) 16 1.6.1 大數(shù)據(jù)細(xì)分市場(chǎng) 17 1.6.2 大數(shù)據(jù)推動(dòng)企業(yè)發(fā)展 17 1.6.3 大數(shù)據(jù)分析的新方法出現(xiàn) 17 1.6.4 大數(shù)據(jù)與云計(jì)算高度融合 17 1.6.5 大數(shù)據(jù)一體設(shè)備陸續(xù)出現(xiàn) 17 1.6.6 大數(shù)據(jù)安全日益重視 18 1.7 大數(shù)據(jù)應(yīng)用 18 1.7.1 判斷大數(shù)據(jù)應(yīng)用成功的指標(biāo) 18 1.7.2 大數(shù)據(jù)技術(shù)的應(yīng)用 19 1.8 大數(shù)據(jù)的展望 22 1.8.1 資源與投入 23 1.8.2 工程技術(shù) 23 1.8.3 復(fù)雜網(wǎng)絡(luò)分析 23 1.8.4 涉及眾多領(lǐng)域 23 1.8.5 構(gòu)建大數(shù)據(jù)生態(tài)環(huán)境 23 本章小結(jié) 23 第2章 科學(xué)研究四種范式 24 2.1 科學(xué)研究第一范式 25 2.1.1 科學(xué)實(shí)驗(yàn)特點(diǎn) 25 2.1.2 科學(xué)實(shí)驗(yàn)步驟 26 2.1.3 科學(xué)實(shí)驗(yàn)分類 26 2.1.4 科學(xué)實(shí)驗(yàn)構(gòu)成 27 2.1.5 科學(xué)實(shí)驗(yàn)程序 28 2.1.6 科學(xué)研究第一范式使用原則 29 2.2 科學(xué)研究第二范式 30 2.2.1 科學(xué)理論的特征 30 2.2.2 科學(xué)理論的結(jié)構(gòu) 31 2.2.3 科學(xué)理論的價(jià)值 31 2.2.4 建立科學(xué)理論體系的一般方法 32 2.3 科學(xué)研究第三范式 33 2.3.1 概述 33 2.3.2 離散模型的模擬 34 2.3.3 連續(xù)系統(tǒng)的模擬 35 2.3.4 模擬語(yǔ)言 35 2.4 科學(xué)研究第四范式 36 2.4.1 數(shù)據(jù)密集型計(jì)算 36 2.4.2 格雷法則 38 2.4.3 第四范式的核心內(nèi)容 40 本章小結(jié) 41 第3章 分布系統(tǒng)設(shè)計(jì)的CAP 理論 42 3.1 分布式系統(tǒng)的伸縮性 42 3.1.1 可伸縮性的概念 43 3.1.2 影響橫向擴(kuò)展的主要因素 44 3.2 橫向擴(kuò)展方案 47 3.2.1 可伸縮共享數(shù)據(jù)庫(kù) 47 3.2.2 對(duì)等復(fù)制的橫向擴(kuò)展方案 48 3.2.3 鏈接服務(wù)器和分布式查詢 49 3.2.4 分布式分區(qū)視圖 50 3.2.5 數(shù)據(jù)依賴型路由的橫向擴(kuò)展 50 3.3 CAP 理論 51 3.3.1 分布系統(tǒng)設(shè)計(jì)的核心系統(tǒng)需求 51 3.3.2 CAP 定理 53 3.4 BASE 模型 56 3.4.1 三個(gè)核心需求分析 56 3.4.2 ACID、BASE 與CAP 的關(guān)系 57 3.4.3 CAP 與延遲 58 3.4.4 CAP 理論的進(jìn)一步研究 58 3.5 Web 分布式系統(tǒng)設(shè)計(jì) 60 3.5.1 系統(tǒng)核心需求 60 3.5.2 系統(tǒng)服務(wù) 61 3.5.3 冗余 62 3.5.4 分區(qū) 62 本章小結(jié) 64 第4章 NoSQL 數(shù)據(jù)庫(kù) 65 4.1 NoSQL 概述 65 4.1.1 非結(jié)構(gòu)化問題 65 4.1.2 NoSQL 的產(chǎn)生 66 4.2 NoSQL 的特點(diǎn)與問題 67 4.2.1 NoSQL 的特點(diǎn) 67 4.2.2 NoSQL 問題 68 4.3 NoSQL 的主要存儲(chǔ)方式 69 4.3.1 鍵值存儲(chǔ)方式 69 4.3.2 文檔存儲(chǔ)方式 72 4.3.3 列存儲(chǔ)方式 73 4.3.4 圖形存儲(chǔ)方式 76 4.3.5 各種典型的存儲(chǔ)方式所對(duì)應(yīng)的NoSQL 數(shù)據(jù)庫(kù) 77 4.4 常用的NoSQL 數(shù)據(jù)庫(kù) 78 4.4.1 Cassandra 78 4.4.2 Lucene/Solr 78 4.4.3 Riak 79 4.4.4 CouchDB 79 4.4.5 Neo4J 79 4.4.6 Oracle 的NoSQL 79 4.4.7 Hadoop 的HBase 79 4.4.8 Bigtable/ Accumulo/ Hypertable 80 4.4.9 DynamoDB 80 4.4.10 MongoDB 80 本章小結(jié) 82 第5章 復(fù)雜網(wǎng)絡(luò) 83 5.1 概述 83 5.1.1 復(fù)雜網(wǎng)絡(luò)概念 84 5.1.2 社會(huì)網(wǎng)絡(luò)概述 84 5.1.3 社會(huì)計(jì)算 86 5.2 社會(huì)網(wǎng)絡(luò)應(yīng)用 87 5.2.1 知識(shí)獲取分析 87 5.2.2 知識(shí)類型與傳遞 88 5.2.3 知識(shí)創(chuàng)新 89 5.3 社會(huì)網(wǎng)絡(luò)分析 89 5.3.1 社會(huì)網(wǎng)絡(luò)分析概述 89 5.3.2 社會(huì)網(wǎng)絡(luò)分析的原理 90 5.3.3 社會(huì)網(wǎng)絡(luò)分析的特征 90 5.3.4 社會(huì)網(wǎng)絡(luò)分析的常用方法 90 5.4 社會(huì)網(wǎng)絡(luò)中的隱私保護(hù) 91 5.4.1 用戶隱私面臨的威脅 92 5.4.2 身份隱私攻擊與保護(hù) 93 5.4.3 面向用戶關(guān)系的攻擊及保護(hù) 93 5.4.4 萬(wàn)維網(wǎng)用戶隱私保護(hù)規(guī)范 93 5.5 社會(huì)感知計(jì)算 94 5.5.1 社會(huì)感知計(jì)算概念 94 5.5.2 社會(huì)感知計(jì)算的主要內(nèi)容 94 5.6 人類通信方式 95 5.6.1 通信方式的演化 95 5.6.2 六度分隔理論 96 5.6.3 150 法則 98 5.6.4 唯象理論與唯象方法 98 5.7 社交網(wǎng)站 99 5.7.1 社交網(wǎng)站概述 99 5.7.2 社交網(wǎng)站的作用 99 5.7.3 移動(dòng)社交網(wǎng)絡(luò) 100 5.7.4 Web 2.0 網(wǎng)站 101 5.7.5 Web 2.0 開發(fā)平臺(tái)與必備要素 104 5.7.6 Web 3.0 網(wǎng)站 105 本章小結(jié) 105 第6章 MapReduce 分布編程模型 106 6.1 函數(shù)式編程范式 106 6.1.1 函數(shù)型語(yǔ)言 106 6.1.2 函數(shù)式編程 107 6.2 映射函數(shù)與化簡(jiǎn)函數(shù) 108 6.2.1 映射與映射函數(shù) 108 6.2.2 化簡(jiǎn)與化簡(jiǎn)函數(shù) 109 6.3 MapReduce 計(jì)算 110 6.4 基于Hadoop 平臺(tái)的分布式計(jì)算 111 6.4.1 Hadoop 概述 111 6.4.2 分布式系統(tǒng)與Hadoop 112 6.4.3 SQL 數(shù)據(jù)庫(kù)和Hadoop 113 6.4.4 基于Hadoop 的分布式計(jì)算 114 本章小結(jié) 119 第7章 大數(shù)據(jù)存儲(chǔ) 120 7.1 大數(shù)據(jù)存儲(chǔ)概述 120 7.1.1 大數(shù)據(jù)存儲(chǔ)模型 121 7.1.2 大數(shù)據(jù)存儲(chǔ)問題 121 7.2 存儲(chǔ)方式 122 7.2.1 存儲(chǔ)介質(zhì) 122 7.2.2 直接連接存儲(chǔ) 122 7.2.3 網(wǎng)絡(luò)連接存儲(chǔ) 124 7.2.4 存儲(chǔ)域網(wǎng)絡(luò)存儲(chǔ) 125 7.2.5 IP-SAN 126 7.2.6 三種存儲(chǔ)方式的比較 126 7.3 大數(shù)據(jù)的存儲(chǔ) 127 7.3.1 數(shù)據(jù)容量問題 127 7.3.2 大圖數(shù)據(jù) 127 7.3.3 分布式存儲(chǔ)的架構(gòu) 129 7.3.4 數(shù)據(jù)存儲(chǔ)管理 130 7.4 數(shù)據(jù)云存儲(chǔ) 132 7.4.1 云存儲(chǔ)的意義與問題 133 7.4.2 技術(shù)措施 133 7.5 數(shù)據(jù)存儲(chǔ)的可靠性 135 7.5.1 磁盤與磁盤陣列的可靠性 136 7.5.2 文件系統(tǒng)的可靠性 138 本章小結(jié) 138 第8章 大數(shù)據(jù)分析 139 8.1 數(shù)據(jù)分析概述 140 8.1.1 數(shù)據(jù)分析的概念 140 8.1.2 數(shù)據(jù)分析的目的與意義 140 8.1.3 數(shù)據(jù)分析的基本方法 141 8.1.4 數(shù)據(jù)分析的類型 146 8.1.5 數(shù)據(jù)分析的步驟 147 8.2 大數(shù)據(jù)分析基礎(chǔ) 147 8.2.1 可視化分析 148 8.2.2 數(shù)據(jù)挖掘 148 8.2.3 大數(shù)據(jù)預(yù)測(cè)分析 148 8.2.4 語(yǔ)義引擎 148 8.2.5 數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理 148 8.2.6 大數(shù)據(jù)的離線與在線分析 148 8.3 大數(shù)據(jù)預(yù)測(cè)分析 149 8.3.1 大數(shù)據(jù)預(yù)測(cè)分析關(guān)鍵因素 150 8.3.2 大數(shù)據(jù)預(yù)測(cè)分析演進(jìn)方向 150 8.3.3 大數(shù)據(jù)預(yù)測(cè)分析相關(guān)問題 151 8.3.4 輿情監(jiān)測(cè)與分析 152 8.3.5 輿情報(bào)告圖表制作 153 8.4 大數(shù)據(jù)分析應(yīng)用 154 8.4.1 為客戶提供服務(wù) 154 8.4.2 優(yōu)化業(yè)務(wù)流程 154 8.4.3 改善生活 155 8.4.4 提高醫(yī)療條件 155 8.4.5 提高體育成績(jī) 155 8.4.6 優(yōu)化機(jī)器和設(shè)備性能 155 8.4.7 改善安全和執(zhí)法 155 8.4.8 改進(jìn)和優(yōu)化城市 155 8.4.9 金融交易 156 8.4.10 電信業(yè)務(wù) 156 8.4.11 銷售 156 8.5 大數(shù)據(jù)分析平臺(tái)與工具 156 8.5.1 大數(shù)據(jù)分析基礎(chǔ)平臺(tái) 156 8.5.2 大數(shù)據(jù)分析的工具 158 本章小結(jié) 160 第9章 大數(shù)據(jù)挖掘 161 9.1 數(shù)據(jù)挖掘概述 162 9.1.1 數(shù)據(jù)挖掘的定義 162 9.1.2 數(shù)據(jù)挖掘的分類 163 9.1.3 數(shù)據(jù)挖掘的技術(shù) 163 9.2 數(shù)據(jù)挖掘?qū)ο笈c過(guò)程 164 9.2.1 數(shù)據(jù)挖掘?qū)ο?164 9.2.2 數(shù)據(jù)挖掘過(guò)程 164 9.2.3 數(shù)據(jù)挖掘過(guò)程工作量 165 9.3 數(shù)據(jù)挖掘的常用方法 166 9.3.1 神經(jīng)網(wǎng)絡(luò)方法 166 9.3.2 遺傳算法 166 9.3.3 決策樹方法 166 9.3.4 粗集方法 166 9.3.5 覆蓋正例排斥反例方法 167 9.3.6 統(tǒng)計(jì)分析方法 167 9.3.7 模糊集方法 167 9.4 數(shù)據(jù)挖掘的幾個(gè)問題 167 9.4.1 數(shù)據(jù)挖掘與數(shù)據(jù)分析的區(qū)別 167 9.4.2 數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù) 167 9.4.3 數(shù)據(jù)挖掘和OLAP 的比較 168 9.4.4 數(shù)據(jù)挖掘與人工智能 169 9.4.5 軟硬件發(fā)展對(duì)數(shù)據(jù)挖掘的影響 169 9.4.6 數(shù)據(jù)挖掘和統(tǒng)計(jì)分析的區(qū)別 169 9.4.7 Web 挖掘和數(shù)據(jù)挖掘的區(qū)別 170 9.5 關(guān)聯(lián)規(guī)則 170 9.5.1 關(guān)聯(lián)規(guī)則定義 170 9.5.2 關(guān)聯(lián)規(guī)則分類 171 9.5.3 關(guān)聯(lián)規(guī)則的挖掘過(guò)程 171 9.5.4 關(guān)聯(lián)規(guī)則應(yīng)用 172 9.6 數(shù)據(jù)挖掘的經(jīng)典算法 172 9.6.1 Apriori 算法集 173 9.6.2 劃分算法 173 9.6.3 FP-樹頻集算法 173 9.7 大數(shù)據(jù)挖掘技術(shù) 173 9.7.1 大數(shù)據(jù)挖掘關(guān)鍵技術(shù) 174 9.7.2 大數(shù)據(jù)挖掘策略 176 9.8 大數(shù)據(jù)挖掘應(yīng)用 176 9.8.1 市場(chǎng)營(yíng)銷 177 9.8.2 銷售礦泉水 178 9.8.3 物流 178 9.8.4 CRM 179 本章小結(jié) 181 第10章 大數(shù)據(jù)可視化 182 10.1 數(shù)據(jù)可視化技術(shù)概述 182 10.1.1 數(shù)據(jù)可視化技術(shù)的產(chǎn)生史 183 10.1.2 數(shù)據(jù)可視化技術(shù)適用范圍 183 10.1.3 信息展現(xiàn)方式 183 10.1.4 數(shù)據(jù)、信息及知識(shí) 185 10.1.5 交互式處理 185 10.2 科學(xué)可視化 185 10.2.1 科學(xué)可視化的概念與過(guò)程 186 10.2.2 大數(shù)據(jù)科學(xué)可視化的技術(shù) 186 10.3 信息可視化 189 10.3.1 信息可視化概念 189 10.3.2 知識(shí)發(fā)現(xiàn) 190 10.3.3 知識(shí)發(fā)現(xiàn)工具 191 10.3.4 信息可視化技術(shù)的應(yīng)用 191 10.4 數(shù)據(jù)可視化應(yīng)用 192 10.4.1 數(shù)據(jù)可視化的概念 192 10.4.2 數(shù)據(jù)可視化技術(shù)的特點(diǎn) 192 10.4.3 數(shù)據(jù)可視化技術(shù)的相關(guān)概念 193 10.4.4 數(shù)據(jù)可視化技術(shù)的應(yīng)用 193 10.5 大數(shù)據(jù)可視分析 194 10.5.1 大數(shù)據(jù)可視分析的概念 195 10.5.2 大數(shù)據(jù)可視分析的方法 195 本章小結(jié) 198 第11章 大數(shù)據(jù)安全 199 11.1 數(shù)據(jù)安全概述 199 11.1.1 數(shù)據(jù)安全的定義 200 11.1.2 數(shù)據(jù)處理與存儲(chǔ)的安全 200 11.1.3 數(shù)據(jù)安全的基本特點(diǎn) 200 11.1.4 威脅數(shù)據(jù)安全的主要因素 201 11.1.5 安全制度與防護(hù)技術(shù) 202 11.1.6 典型應(yīng)用 203 11.2 安全措施實(shí)現(xiàn) 208 11.2.1 網(wǎng)絡(luò)分段 208 11.2.2 數(shù)據(jù)鏈路層的物理分段 208 11.2.3 VLAN 的劃分 208 11.3 電子商務(wù)安全 209 11.3.1 計(jì)算機(jī)網(wǎng)絡(luò)安全的內(nèi)容 209 11.3.2 計(jì)算機(jī)商務(wù)交易安全的內(nèi)容 210 11.4 大數(shù)據(jù)安全 211 11.4.1 大數(shù)據(jù)的不安全因素 211 11.4.2 大數(shù)據(jù)安全的關(guān)鍵問題 212 11.4.3 大數(shù)據(jù)安全措施 213 11.5 云安全 214 11.5.1 云計(jì)算中用戶的安全需求 214 11.5.2 威脅模型 215 11.5.3 云安全的支撐技術(shù)問題 215 11.5.4 用戶數(shù)據(jù)隱私保護(hù) 216 11.5.5 云計(jì)算執(zhí)行環(huán)境的可信性 216 11.5.6 資源共享問題 217 本章小結(jié) 217 第12章 大數(shù)據(jù)機(jī)器學(xué)習(xí) 218 12.1 機(jī)器學(xué)習(xí)概述 219 12.1.1 機(jī)器學(xué)習(xí)的產(chǎn)生與發(fā)展 219 12.1.2 機(jī)器學(xué)習(xí)的概念 219 12.1.3 機(jī)器學(xué)習(xí)理論及研究 220 12.1.4 機(jī)器學(xué)習(xí)系統(tǒng)的結(jié)構(gòu) 221 12.2 機(jī)器學(xué)習(xí)類型 222 12.2.1 基于學(xué)習(xí)策略的學(xué)習(xí)分類 222 12.2.2 基于應(yīng)用領(lǐng)域的學(xué)習(xí)分類 223 12.2.3 基于綜合因素的學(xué)習(xí)分類 223 12.3 知識(shí)表示形式 224 12.4 大數(shù)據(jù)機(jī)器學(xué)習(xí) 225 12.4.1 大數(shù)據(jù)機(jī)器學(xué)習(xí)的特點(diǎn) 226 12.4.2 大數(shù)據(jù)機(jī)器學(xué)習(xí)的評(píng)測(cè)指標(biāo) 227 12.5 大數(shù)據(jù)機(jī)器學(xué)習(xí)的應(yīng)用 228 12.5.1 基于大數(shù)據(jù)的空氣質(zhì)量推斷 228 12.5.2 人與建筑的關(guān)系分析 228 12.5.3 針對(duì)全球問題的預(yù)測(cè)模型 229 12.5.4 全球地表覆蓋制圖可視化與數(shù)據(jù)分析 229 本章小結(jié) 229 第13章 大數(shù)據(jù)推薦技術(shù) 230 13.1 概述 231 13.1.1 推薦系統(tǒng)的產(chǎn)生與發(fā)展 231 13.1.2 推薦系統(tǒng)的概念 231 13.2 推薦系統(tǒng)架構(gòu) 232 13.2.1 用戶特征提取模塊 232 13.2.2 相關(guān)物品檢索模塊 232 13.2.3 推薦結(jié)果排序模塊 232 13.3 推薦系統(tǒng)類型 232 13.3.1 基于用戶行為數(shù)據(jù)推薦 232 13.3.2 基于用戶標(biāo)簽數(shù)據(jù)推薦 233 13.3.3 基于上下文信息推薦 233 13.3.4 基于社交網(wǎng)絡(luò)數(shù)據(jù)推薦 233 13.4 推薦系統(tǒng)的評(píng)判標(biāo)準(zhǔn) 234 13.5 推薦算法 235 13.5.1 基于人口統(tǒng)計(jì)學(xué)的推薦算法 235 13.5.2 基于內(nèi)容的推薦算法 235 13.5.3 協(xié)同過(guò)濾推薦算法 236 13.5.4 混合推薦算法 238 13.6 推薦模式與系統(tǒng) 238 13.6.1 推薦模式 238 13.6.2 下一代推薦系統(tǒng) 239 13.7 大數(shù)據(jù)推薦技術(shù) 240 13.7.1 數(shù)據(jù)稀疏性 241 13.7.2 大數(shù)據(jù)推薦系統(tǒng)冷啟動(dòng) 241 13.7.3 多樣性與精確性的兩難命題 241 13.7.4 增量計(jì)算 242 13.7.5 推薦系統(tǒng)的魯棒性 242 13.7.6 推薦系統(tǒng)效果評(píng)估 242 13.7.7 用戶行為模式的挖掘和利用 242 13.7.8 用戶界面與用戶體驗(yàn) 243 13.7.9 多維數(shù)據(jù)的交叉利用 243 13.7.10 社會(huì)推薦 244 13.8 大數(shù)據(jù)人才推薦系統(tǒng) 244 本章小結(jié) 245 第14章 數(shù)據(jù)科學(xué)與數(shù)據(jù)思維 246 14.1 數(shù)據(jù)科學(xué)概述 246 14.1.1 數(shù)據(jù)科學(xué)定義與信息化過(guò)程 246 14.1.2 數(shù)據(jù)科學(xué)研究?jī)?nèi)容 247 14.1.3 數(shù)據(jù)科學(xué)的研究過(guò)程與體系框架 248 14.2 大數(shù)據(jù)研究方式 249 14.2.1 大數(shù)據(jù)分析的是全面的數(shù)據(jù) 249 14.2.2 重視數(shù)據(jù)的復(fù)雜性與弱化精確性 251 14.2.3 關(guān)注數(shù)據(jù)的相關(guān)性而非因果關(guān)系 251 14.3 數(shù)據(jù)專家 252 14.3.1 數(shù)據(jù)科學(xué)家 252 14.3.2 數(shù)據(jù)工程師 254 14.4 數(shù)據(jù)思維 254 14.4.1 思維的概念與特征 254 14.4.2 思維的形成 256 14.4.3 計(jì)算思維 258 14.4.4 網(wǎng)絡(luò)思維 260 14.4.5 系統(tǒng)思維 263 14.4.6 大數(shù)據(jù)思維 264 本章小結(jié) 264 參考文獻(xiàn) 265
第 1章大數(shù)據(jù)概述本章主要內(nèi)容
大數(shù)據(jù)概述問題的提出電子數(shù)據(jù)迅速增加數(shù)據(jù)孕育巨大的經(jīng)濟(jì)價(jià)值數(shù)據(jù)是國(guó)家的核心資產(chǎn) 大數(shù)據(jù)的產(chǎn)生源泉互聯(lián)網(wǎng)世界物理世界大數(shù)據(jù)的概念 數(shù)據(jù)容量巨大數(shù)據(jù)類型多價(jià)值密度低數(shù)據(jù)傳播速度 大數(shù)據(jù)的性質(zhì) 價(jià)值非結(jié)構(gòu)性不完備性時(shí)效性安全性可靠性 大數(shù)據(jù)技術(shù)概述 大數(shù)據(jù)技術(shù)的主要內(nèi)容大數(shù)據(jù)的處理過(guò)程大數(shù)據(jù)技術(shù)的特征大數(shù)據(jù)關(guān)鍵問題與關(guān)鍵技術(shù)大數(shù)據(jù)應(yīng)用趨勢(shì)大數(shù)據(jù)細(xì)分市場(chǎng)大數(shù)據(jù)推動(dòng)企業(yè)發(fā)展大數(shù)據(jù)分析的新方法出現(xiàn)大數(shù)據(jù)與云計(jì)算高度融合大數(shù)據(jù)一體設(shè)備陸續(xù)出現(xiàn)大數(shù)據(jù)安全日益重視 大數(shù)據(jù)應(yīng)用判斷大數(shù)據(jù)應(yīng)用成功的指標(biāo)大數(shù)據(jù)技術(shù)的應(yīng)用 大數(shù)據(jù)的展望 資源與投入工程技術(shù)復(fù)雜網(wǎng)絡(luò)分析涉及眾多領(lǐng)域構(gòu)建大數(shù)據(jù)生態(tài)環(huán)境 需求是科學(xué)技術(shù)發(fā)展的原動(dòng)力。目前,大數(shù)據(jù)問題的出現(xiàn)與研究已經(jīng)成為了計(jì)算機(jī)科學(xué)與技術(shù)研究的新熱點(diǎn),并顯示出日益強(qiáng)大的吸引力,科學(xué)大數(shù)據(jù)的出現(xiàn)催生了數(shù)據(jù)密集型知識(shí)發(fā)現(xiàn)的科學(xué)研究第四范式的出現(xiàn)。對(duì)于信息領(lǐng)域,大數(shù)據(jù)帶來(lái)的不僅是機(jī)遇,還有一系列的困難和挑戰(zhàn)。目前,大數(shù)據(jù)技術(shù)與應(yīng)用展現(xiàn)出銳不可當(dāng)?shù)膹?qiáng)大生命力,科學(xué)界與企業(yè)界寄予無(wú)比的厚望。大數(shù)據(jù)成為繼 20世紀(jì)末、21世紀(jì)初互聯(lián)網(wǎng)蓬勃發(fā)展以來(lái)的又一輪 IT工業(yè)革命。 1.1 問題的提出 在全世界范圍內(nèi),以電子方式存儲(chǔ)的數(shù)據(jù)(又簡(jiǎn)稱為電子數(shù)據(jù))總量空前巨大。在 2011年電子數(shù)據(jù)總量已達(dá)到 1.8ZB(1ZB=1024PB),較 2010年同期提高超過(guò) 1ZB,統(tǒng)計(jì)結(jié)果表明,每經(jīng)過(guò) 2年就可以增加 1倍,預(yù)計(jì)到 2020年可達(dá)到 35ZB,如圖 1-1所示。面對(duì)數(shù)據(jù)增長(zhǎng)的速度迅猛提升,數(shù)據(jù)量的飛速增加,對(duì)大量電子數(shù)據(jù)的高效存儲(chǔ)、高效傳輸與快速的處理是必須面對(duì)的研究問題。 圖 1-1 全球數(shù)據(jù)創(chuàng)建及復(fù)制的數(shù)據(jù)總量預(yù)測(cè) 1.1.1 電子數(shù)據(jù)迅速增加 物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、個(gè)人計(jì)算機(jī)( PC)、氣候信息、公開的信息,如雜志、報(bào)紙和文章、交易記錄、網(wǎng)絡(luò)日志、病歷、軍事監(jiān)控、視頻和圖像、檔案及大型電子商務(wù),以及遍布地球各個(gè)角落的各種各樣的傳感器是數(shù)據(jù)來(lái)源或者承載的方式不斷更新與發(fā)展、大型科學(xué)研究設(shè)備產(chǎn)生的數(shù)據(jù),以及社交媒體的快速發(fā)展,構(gòu)成了大數(shù)據(jù)持續(xù)產(chǎn)生的生態(tài)環(huán)境。尤其是近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,來(lái)自人們的日常生活,特別是來(lái)自互聯(lián)網(wǎng)服務(wù)而產(chǎn)生的大量數(shù)據(jù)迅猛增加。據(jù)不完全統(tǒng)計(jì),互聯(lián)網(wǎng)當(dāng)前包含 93億多個(gè)頁(yè)面,80%~85%的數(shù)據(jù)是存儲(chǔ)在數(shù)據(jù)庫(kù)的文本中。互聯(lián)網(wǎng)一天產(chǎn)生的全部?jī)?nèi)容可以刻滿 1.68億張 DVD,發(fā)出的郵件有 2940億封之多,發(fā)出的社區(qū)帖子達(dá) 200萬(wàn)個(gè)(相當(dāng)于《時(shí)代》雜志 770年的文字量),賣出的手機(jī)為 37.8萬(wàn)臺(tái),高于全球每天出生的嬰兒數(shù)量 37.1萬(wàn)……從數(shù)據(jù)統(tǒng)計(jì)角度來(lái)看,電子數(shù)據(jù)量迅速增加。預(yù)計(jì)中國(guó)數(shù)據(jù)技術(shù)和服務(wù)市場(chǎng)未來(lái) 5年的復(fù)合增長(zhǎng)率將達(dá) 51.4%,其中增長(zhǎng)率最高的是存儲(chǔ)市場(chǎng),將達(dá) 60.8%,服務(wù)器市場(chǎng)的增長(zhǎng)率則是 38.3%,遠(yuǎn)遠(yuǎn)高于其他產(chǎn)品相關(guān)的市場(chǎng)。 1.1.2 數(shù)據(jù)孕育巨大的經(jīng)濟(jì)價(jià)值 數(shù)據(jù)本身是無(wú)意義的,而通過(guò)統(tǒng)計(jì)、分類、萃取、特征抽取等一系列技術(shù)手段,可以從數(shù)據(jù)中產(chǎn)生信息與知識(shí)。數(shù)據(jù)是重要的戰(zhàn)略資源,隱含巨大的經(jīng)濟(jì)價(jià)值,因此已經(jīng)引起科學(xué)界和企業(yè)界的高度重視。有效地組織和使用數(shù)據(jù),將對(duì)經(jīng)濟(jì)發(fā)展產(chǎn)生巨大的推動(dòng)作用。大數(shù)據(jù)出現(xiàn)孕育著前所未有的機(jī)遇。對(duì)大數(shù)據(jù)的交換、整合和分析,可以發(fā)現(xiàn)新的知識(shí),創(chuàng)造新的價(jià)值。 越來(lái)越多的企業(yè)等機(jī)構(gòu)意識(shí)到數(shù)據(jù)正在成為最重要的資產(chǎn),數(shù)據(jù)分析能力正在成為核心競(jìng)爭(zhēng)力。經(jīng)過(guò)了由 PC成功轉(zhuǎn)向了軟件和服務(wù),而這次將遠(yuǎn)離服務(wù)與咨詢,更多地專注于因數(shù)據(jù)分析而帶來(lái)的全新業(yè)務(wù)增長(zhǎng)點(diǎn)。數(shù)據(jù)將成為各行業(yè)中決定勝負(fù)的根本因素,最終數(shù)據(jù)將成為人類至關(guān)重要的自然資源。各著名的大型公司已經(jīng)致力于開發(fā)自己的大數(shù)據(jù)處理和存儲(chǔ)系統(tǒng),目前已經(jīng)到了數(shù)據(jù)化運(yùn)營(yíng)的黃金時(shí)期,如何整合這些數(shù)據(jù)成為未來(lái)的關(guān)鍵任務(wù)。 在互聯(lián)網(wǎng)、電信、金融等行業(yè),幾乎已經(jīng)到了數(shù)據(jù)就是業(yè)務(wù)本身的地步。物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新的互聯(lián)網(wǎng)技術(shù)在為人們帶來(lái)便利的同時(shí),也產(chǎn)生了大量的數(shù)據(jù)。如何有效地存儲(chǔ)和查詢這些數(shù)據(jù),如何通過(guò)數(shù)據(jù)挖掘,從數(shù)據(jù)中獲得有用的信息,為用戶提供好的用戶體驗(yàn),增強(qiáng)企業(yè)的競(jìng)爭(zhēng)力,是一個(gè)挑戰(zhàn)。研究表明,數(shù)字領(lǐng)域存在著 1.8萬(wàn)億 GB的數(shù)據(jù),企業(yè)數(shù)據(jù)正在以 55%的速度逐年增長(zhǎng)。目前,兩天就能創(chuàng)造出自人類文明誕生以來(lái)到 2003年所產(chǎn)生的數(shù)據(jù)總量。大數(shù)據(jù)已經(jīng)成為重要的時(shí)代特征,充分利用大數(shù)據(jù)可幫助全球個(gè)人定位服務(wù)提供商增加 1000億美元的收入,幫助歐洲公共部門的管理每年提升 2500億美元產(chǎn)值,幫助美國(guó)醫(yī)療保健行業(yè)每年提升 3000億美元產(chǎn)值,并可幫助美國(guó)零售業(yè)獲得 60%以上的凈利潤(rùn)增長(zhǎng)率。由此可見,充分使用大數(shù)據(jù)和挖掘大數(shù)據(jù)商業(yè)價(jià)值將為行業(yè)企業(yè)帶來(lái)強(qiáng)大經(jīng)濟(jì)效益與競(jìng)爭(zhēng)力。 大數(shù)據(jù)既是對(duì)信息技術(shù)發(fā)展的高度抽象和概括,同時(shí)也體現(xiàn)了信息技術(shù)服務(wù)于數(shù)據(jù)蘊(yùn)藏的巨大價(jià)值。大數(shù)據(jù)給數(shù)據(jù)的采集、存儲(chǔ)、維護(hù)、共享帶來(lái)了具有研究意義的現(xiàn)象和挑戰(zhàn),但更多的意義是可以處理、分析并使用大量數(shù)據(jù),通過(guò)這些數(shù)據(jù)的處理、整合和分析,可以發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值,帶來(lái)大知識(shí)、大科學(xué)和大發(fā)展,逐漸走向創(chuàng)新社會(huì)化的新信息時(shí)代。 大數(shù)據(jù)全生命周期可以劃分為“數(shù)據(jù)產(chǎn)生—數(shù)據(jù)采集—數(shù)據(jù)傳輸—數(shù)據(jù)存儲(chǔ)—數(shù)據(jù)處理—數(shù)據(jù)分析—數(shù)據(jù)發(fā)布、展示和應(yīng)用—產(chǎn)生新數(shù)據(jù)”等階段。已經(jīng)形成了大數(shù)據(jù)的“生產(chǎn)與集聚層—組織與管理層—分析與發(fā)現(xiàn)層—應(yīng)用與服務(wù)層”的產(chǎn)業(yè)鏈,而 IT基礎(chǔ)設(shè)施為這各環(huán)節(jié)提供基礎(chǔ)支撐。 據(jù)統(tǒng)計(jì), 2012年市場(chǎng)規(guī)模達(dá)到 4.5億元, 2016年估計(jì)可達(dá)到百億規(guī)模,如圖 1-2所示。 圖 1-2 中國(guó)大數(shù)據(jù)應(yīng)用市場(chǎng)規(guī)模與增長(zhǎng) 1.1.3 數(shù)據(jù)是國(guó)家的核心資產(chǎn) 一個(gè)國(guó)家擁有數(shù)據(jù)的規(guī)模、活性及解釋運(yùn)用的能力將成為綜合國(guó)力的重要組成部分,對(duì)數(shù)據(jù)的占有和控制,甚至將成為陸權(quán)、海權(quán)、空權(quán)之外的另一種國(guó)家核心資產(chǎn)。聯(lián)合國(guó)也在 2012年發(fā)布了大數(shù)據(jù)政務(wù)白皮書,指出大數(shù)據(jù)對(duì)于聯(lián)合國(guó)和各國(guó)政府是一個(gè)歷史性的機(jī)遇,通過(guò)使用極為豐富的數(shù)據(jù)資源,對(duì)社會(huì)經(jīng)濟(jì)進(jìn)行前所未有的實(shí)時(shí)分析,幫助政府更好地響應(yīng)社會(huì)和經(jīng)濟(jì)運(yùn)行。 數(shù)據(jù)為王的大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),對(duì)數(shù)據(jù)的占有和控制也將成為國(guó)家間和企業(yè)間新的爭(zhēng)奪點(diǎn)。大數(shù)據(jù)技術(shù)的專業(yè)人才,特別是數(shù)據(jù)分析復(fù)合型人才的稀缺將會(huì)影響該市場(chǎng)的發(fā)展。 在技術(shù)層面上,大數(shù)據(jù)、海量數(shù)據(jù)與超大規(guī)模數(shù)據(jù)并無(wú)本質(zhì)的區(qū)別,它們都是指用傳統(tǒng)處理方法無(wú)法處理的大量數(shù)據(jù)。通過(guò)對(duì)大數(shù)據(jù)的高速有效處理,可以發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)藏的規(guī)律與規(guī)則,進(jìn)而為各種關(guān)鍵決策提供依據(jù)與指導(dǎo),正確的預(yù)測(cè)與決策將導(dǎo)致巨大財(cái)富的產(chǎn)生。技術(shù)與工具密不可分,目前常用的數(shù)據(jù)處理技術(shù)與工具是小數(shù)據(jù)處理技術(shù)與工具,一些海量數(shù)據(jù)處理方法與工具是一種過(guò)度性的方法與工具,大數(shù)據(jù)處理技術(shù)與工具的研究是一項(xiàng)有理論意義和實(shí)際價(jià)值的工作。簡(jiǎn)言之,大數(shù)據(jù)技術(shù)就是從各種各樣類型的數(shù)據(jù)中,快速獲得智慧的技術(shù)。信息要能轉(zhuǎn)化成智慧,至少要滿足以下三個(gè)標(biāo)準(zhǔn)。 1.可破譯性 可破譯性是大數(shù)據(jù)時(shí)代特有的問題,但非結(jié)構(gòu)化的數(shù)據(jù)不是一定都可破譯。例如,記錄了某客戶在網(wǎng)站上三次翻頁(yè)的時(shí)間間隔分別是 5s、4s、15s,卻忘記標(biāo)注這三個(gè)時(shí)間代表什么,也就是說(shuō),知道這些數(shù)據(jù)是信息,卻不可破譯,所以不可能成為知識(shí)。 2.關(guān)聯(lián)性 關(guān)聯(lián)性即是相關(guān)性。無(wú)關(guān)的信息可以被看成噪聲。 3.新穎性 新穎性是指無(wú)法僅僅根據(jù)擁有的數(shù)據(jù)和信息進(jìn)行判斷。例如,某電子商務(wù)公司通過(guò)一組數(shù)據(jù)/信息,分析出了客戶愿意為當(dāng)天送貨的產(chǎn)品多支付 10元錢,然后又通過(guò)另一組完全獨(dú)立的數(shù)據(jù)/信息得到了同樣的內(nèi)容,這樣的情況下,后者就不具備新穎性。但是,很多時(shí)候,只有在處理了大量的數(shù)據(jù)和信息以后,才能判斷它們是否具有新穎性。 1.2 大數(shù)據(jù)的產(chǎn)生源泉 大數(shù)據(jù)是人類活動(dòng)的產(chǎn)物,來(lái)自人們改造客觀世界的過(guò)程中,是生產(chǎn)與生活在網(wǎng)絡(luò)空間的投影。信息爆炸是對(duì)信息快速發(fā)展的一種逼真的描述,形容信息發(fā)展的速度如同爆炸一般席卷整個(gè)地球。在 20世紀(jì) 40~50年代,信息爆炸主要指的是科學(xué)文獻(xiàn)的快速增長(zhǎng);而經(jīng)過(guò) 50年的發(fā)展,到 20世紀(jì) 90年代,由于計(jì)算機(jī)和通信技術(shù)廣泛應(yīng)用,信息爆炸主要指的是所有社會(huì)信息快速增長(zhǎng),包括正式交流過(guò)程和非正式交流過(guò)程所產(chǎn)生的電子式的和非電子式的信息,而到 21世紀(jì)的今天,信息爆炸是由于數(shù)據(jù)洪流的產(chǎn)生和發(fā)展所造成的。在技術(shù)方面,新型的硬件與數(shù)據(jù)中心、分布式計(jì)算、云計(jì)算、大容量數(shù)據(jù)存儲(chǔ)與處理技術(shù)、社會(huì)化網(wǎng)絡(luò)、移動(dòng)終端設(shè)備、多樣化的數(shù)據(jù)采集方式使大數(shù)據(jù)的產(chǎn)生和記錄成為可能。在用戶方面,日益人性化的用戶界面、信息行為模式都容易作為數(shù)據(jù)而記錄,用戶既可成為數(shù)據(jù)的制造者,也可以成為數(shù)據(jù)的使用者?梢钥闯觯S著云計(jì)算、物聯(lián)網(wǎng)計(jì)算和移動(dòng)計(jì)算的發(fā)展,世界上所產(chǎn)生的新數(shù)據(jù),包括位置、狀態(tài)、思考、過(guò)程和行動(dòng)等產(chǎn)生的數(shù)據(jù)都能夠匯入數(shù)據(jù)洪流,導(dǎo)致數(shù)據(jù)洪流席卷互聯(lián)網(wǎng)。 歸納起來(lái),大數(shù)據(jù)主要來(lái)自物理世界與互聯(lián)網(wǎng)世界。 1.2.1 互聯(lián)網(wǎng)世界 大數(shù)據(jù)時(shí)代,需要更加全面的數(shù)據(jù)來(lái)提高預(yù)測(cè)的準(zhǔn)確度,因此需要更多廉價(jià)、便捷、自動(dòng)的數(shù)據(jù)生產(chǎn)工具。 大數(shù)據(jù)是計(jì)算機(jī)和互聯(lián)網(wǎng)結(jié)合的產(chǎn)物,計(jì)算機(jī)實(shí)現(xiàn)了數(shù)據(jù)的數(shù)字化,互聯(lián)網(wǎng)實(shí)現(xiàn)了數(shù)據(jù)的網(wǎng)絡(luò)化;兩者結(jié)合才賦予了大數(shù)據(jù)生命力。隨著互聯(lián)網(wǎng)如同空氣、水、電一樣無(wú)處不在地滲透到我們的工作和生活,加上移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、可穿戴聯(lián)網(wǎng)設(shè)備的普及,新的數(shù)據(jù)正在以指數(shù)級(jí)別的速度產(chǎn)生,目前世界上 90%的數(shù)據(jù)是在互聯(lián)網(wǎng)出現(xiàn)以后迅速產(chǎn)生的。 大數(shù)據(jù)來(lái)自人類社會(huì),尤其互聯(lián)網(wǎng)的發(fā)展為數(shù)據(jù)的存儲(chǔ)、傳輸與應(yīng)用創(chuàng)造了基礎(chǔ)與環(huán)境。依據(jù)基于唯象假設(shè)的六度分割理論而建立的社交網(wǎng)絡(luò)服務(wù)( Social Network Service,SNS),以認(rèn)識(shí)朋友的朋友為基礎(chǔ),擴(kuò)展自己的人脈。基于 Web 2.0網(wǎng)站建立的社交網(wǎng)絡(luò),用戶既是網(wǎng)站信息的使用者,也是網(wǎng)站信息的制作者。社交網(wǎng)站記錄人們之間的交互,搜索引擎記錄人們的搜索行為和搜索結(jié)果,電子商務(wù)網(wǎng)站記錄了人們購(gòu)買商品的喜好,微博網(wǎng)站記錄了人們所產(chǎn)生的即時(shí)想法和意見,圖片視頻分享網(wǎng)站記錄了人們的視覺觀察,百科全書網(wǎng)站記錄了人們對(duì)抽象概念的認(rèn)識(shí),幻燈片分享網(wǎng)站記錄了人們的各種正式和非正式的演講發(fā)言,機(jī)構(gòu)知識(shí)庫(kù)和開放獲取期刊記錄了學(xué)術(shù)研究成果等。歸納起來(lái),來(lái)自互聯(lián)網(wǎng)的數(shù)據(jù)可以劃分為下述六種類型。 1.視頻 視頻圖像是大數(shù)據(jù)的主要來(lái)源之一,電影、電視節(jié)目可以產(chǎn)生大量的視頻圖像,各種室內(nèi)外的視頻攝像頭晝夜不停地產(chǎn)生巨量的視頻圖像。視頻圖像以每秒幾十幀的速度連續(xù)記錄運(yùn)動(dòng)著的物體,一個(gè)小時(shí)的標(biāo)準(zhǔn)清晰視頻經(jīng)過(guò)壓縮后,所需的存儲(chǔ)空間為 GB數(shù)量級(jí),對(duì)于高清晰度視頻所需的存儲(chǔ)空間就更大了。 2.圖片與照片 圖片與照片也是大數(shù)據(jù)的主要來(lái)源之一,截至 2011年 9月,用戶向臉譜( Facebook)上傳了 1400億張以上的照片,臉譜是美國(guó)最大的一個(gè)社交網(wǎng)站,類似于中國(guó)的新浪微博。如果拍攝者為了保存拍攝時(shí)的原始文件,平均每張照片大小為 1MB,則這些照片的總數(shù)據(jù)量就是 140G×1MB=140PB,如果單臺(tái)服務(wù)器磁盤容量為 10TB,則存儲(chǔ)這些照片需要 14000臺(tái)服務(wù)器,而且這些上傳的照片僅僅是人們拍攝到的照片的很少一部分。此外,許多遙感系統(tǒng)一天 24小時(shí)不停地拍攝并產(chǎn)生大量照片。 3.音頻 DVD光盤采用了雙聲道 16位采樣,采樣頻率為 44.1kHz,可達(dá)到多媒體欣賞水平。如果某音樂劇的長(zhǎng)度為 5.5min,計(jì)算其占用的存儲(chǔ)容量為 存儲(chǔ)容量 =(采樣頻率 ×采樣位數(shù) ×聲道數(shù) ×?xí)r間) / 8 = (44.1×1000×16×2×5.5×60)/8 = 12.6MB 4.日志 網(wǎng)絡(luò)設(shè)備、系統(tǒng)及服務(wù)程序等,在運(yùn)行時(shí)都會(huì)產(chǎn)生 log的事件記錄,每一行日志都記載著日期、時(shí)間、使用者及動(dòng)作等相關(guān)操作的描述。Windows網(wǎng)絡(luò)操作系統(tǒng)設(shè)有各種各樣的日志文件,如應(yīng)用程序日志、安全日志、系統(tǒng)日志、 Scheduler服務(wù)日志、 FTP日志、WWW日志、DNS服務(wù)器日志等,并且根據(jù)系統(tǒng)開啟的服務(wù)的
你還可能感興趣
我要評(píng)論
|