l 數(shù)據(jù)倉(cāng)庫(kù)、大數(shù)據(jù)、數(shù)據(jù)科學(xué)的簡(jiǎn)單介紹。
l 了解企業(yè)建立數(shù)據(jù)湖的各種途徑。
l 探索如何構(gòu)建自助服務(wù)模型,以及如何讓分析師便捷訪問(wèn)數(shù)據(jù)的最佳實(shí)踐。
l 使用不同的方法來(lái)構(gòu)建數(shù)據(jù)湖。
l 了解不同行業(yè)專家實(shí)現(xiàn)數(shù)據(jù)湖的方法。
前言
近些年來(lái),很多企業(yè)開(kāi)始嘗試使用大數(shù)據(jù)和云技術(shù)來(lái)構(gòu)建數(shù)據(jù)湖(data lake),用于支持?jǐn)?shù)據(jù)驅(qū)動(dòng)的企業(yè)文化和決策,但這些項(xiàng)目經(jīng)常會(huì)陷入停滯甚至失敗。因?yàn)楹芏嗷ヂ?lián)網(wǎng)公司的工作方式未必適合這些企業(yè),而市面上又沒(méi)有全面實(shí)用的指南來(lái)指導(dǎo)大家如何進(jìn)行相應(yīng)的調(diào)整。在這個(gè)背景下我寫了這本書,目的是希望能在這方面提供幫助。
我曾在IBM 和Informatica(主要的數(shù)據(jù)技術(shù)供應(yīng)商)任管理職務(wù),在Menlo Ventures(一家領(lǐng)先的VC 公司)擔(dān)任常駐企業(yè)家,目前是Waterline(一家大數(shù)據(jù)初創(chuàng)企業(yè))的創(chuàng)始人兼CTO,在此期間我有幸能和上百位專家、有想法的人、行業(yè)分析師以及一線從業(yè)者討論關(guān)于成功建立數(shù)據(jù)湖、培養(yǎng)數(shù)據(jù)驅(qū)動(dòng)文化的挑戰(zhàn)。本書正是我對(duì)各個(gè)行業(yè)(從社交媒體到銀行和政府機(jī)構(gòu))和各種角色(從首席數(shù)據(jù)官和其他IT 主管到數(shù)據(jù)架構(gòu)師、數(shù)據(jù)科學(xué)家和業(yè)務(wù)分析師)將會(huì)遇到的不同場(chǎng)景及其最佳實(shí)踐的總結(jié)。
大數(shù)據(jù)、數(shù)據(jù)科學(xué)和數(shù)據(jù)分析實(shí)現(xiàn)了數(shù)據(jù)驅(qū)動(dòng)決策,并有望在許多方面帶來(lái)前所未有的洞察力和效率,例如我們處理數(shù)據(jù)的方式、與客戶合作的方式以及尋找治愈癌癥的方法,但數(shù)據(jù)科學(xué)和數(shù)據(jù)分析都需要訪問(wèn)歷史數(shù)據(jù)。認(rèn)識(shí)到了這一點(diǎn),許多公司開(kāi)始部署大數(shù)據(jù)湖,將所有數(shù)據(jù)集中在一個(gè)地方并開(kāi)始保存歷史記錄,使得數(shù)據(jù)科學(xué)家和分析人員可以訪問(wèn)他們需要的信息,以實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的決策。企業(yè)大數(shù)據(jù)湖彌合了不同的現(xiàn)代互聯(lián)網(wǎng)公司自由文化之間的鴻溝,在這種統(tǒng)一的文化中,數(shù)據(jù)是所有實(shí)踐的核心,每個(gè)人都是分析師,大部分人都可以對(duì)自己的數(shù)據(jù)集進(jìn)行編碼和處理。
想要取得成功,企業(yè)數(shù)據(jù)湖必須提供三項(xiàng)新的能力:
?? 高性價(jià)比、可擴(kuò)展的存儲(chǔ)和計(jì)算能力,用于在存儲(chǔ)和分析大量數(shù)據(jù)的同時(shí)不至于引入過(guò)高的計(jì)算開(kāi)銷。
?? 經(jīng)濟(jì)高效的數(shù)據(jù)獲取和治理方式,使得每個(gè)人在查找和使用正確數(shù)據(jù)的同時(shí)避免進(jìn)行編程或手工臨時(shí)取數(shù),從而避免引入過(guò)高的人力成本。
?? 分層的、受管理的訪問(wèn)方式,根據(jù)不同的用戶需求、技術(shù)水平和適用的數(shù)據(jù)管理策略,不同級(jí)別的數(shù)據(jù)可供不同用戶使用。
Hadoop、Spark、NoSQL 數(shù)據(jù)庫(kù)和基于彈性云的系統(tǒng)是令人興奮的新技術(shù),它們提供了第一項(xiàng)能力——高性價(jià)比、可擴(kuò)展的存儲(chǔ)和計(jì)算能力。雖然它們?nèi)蕴幵谥饾u成熟的過(guò)程中,并面臨著任何新技術(shù)固有的一些挑戰(zhàn),但它們已迅速趨向穩(wěn)定并成為主流。然而這些強(qiáng)大的技術(shù)并不能提供另外兩項(xiàng)能力——經(jīng)濟(jì)高效和分層數(shù)據(jù)訪問(wèn)。因此,當(dāng)企業(yè)創(chuàng)建大型集群并收集大量數(shù)據(jù)后,最終得到的是數(shù)據(jù)沼澤而不是數(shù)據(jù)湖。這是由不可用數(shù)據(jù)集組成的大型存儲(chǔ)庫(kù),人們無(wú)法查找或理解這些數(shù)據(jù)集,也無(wú)法依賴它做任何決策,因?yàn)檫@太危險(xiǎn)了。
本書主要講解為全面實(shí)現(xiàn)大數(shù)據(jù)湖的三項(xiàng)能力所經(jīng)歷的思考以及最佳實(shí)踐,討論了創(chuàng)建和發(fā)展數(shù)據(jù)湖的各種方法,包括數(shù)據(jù)水洼(data puddle,用作分析沙盒)和數(shù)據(jù)池(data pond,用作大數(shù)據(jù)倉(cāng)庫(kù)),以及從零開(kāi)始構(gòu)建數(shù)據(jù)湖的方法。書中探討了自建、云上和虛擬三種不同體系結(jié)構(gòu)數(shù)據(jù)湖的優(yōu)缺點(diǎn),內(nèi)容包括如何建立不同的區(qū)域來(lái)存儲(chǔ)原始未處理的數(shù)據(jù)、精心管理和匯總的數(shù)據(jù),以及如何管理對(duì)這些區(qū)域的訪問(wèn)。它解釋了如何啟用自助服務(wù)以便用戶能夠自助查找、理解和取用數(shù)據(jù),如何為具有不同技術(shù)能力的用戶提供不同的交互,以及如何在此過(guò)程中不違反企業(yè)的數(shù)據(jù)管理政策。
目標(biāo)讀者
本書的目標(biāo)讀者是在大型傳統(tǒng)企業(yè)工作的下面這幾類人員:
?? 數(shù)據(jù)服務(wù)和治理團(tuán)隊(duì):首席數(shù)據(jù)官和數(shù)據(jù)管理員。
?? IT 主管和架構(gòu)師:首席技術(shù)官和大數(shù)據(jù)架構(gòu)師。
?? 分析團(tuán)隊(duì):數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師、數(shù)據(jù)分析師和分析主管。
?? 合規(guī)團(tuán)隊(duì):首席信息安全官、數(shù)據(jù)保護(hù)官、信息安全分析師和合規(guī)檢查主管。
本書內(nèi)容得益于我在30 年的職業(yè)生涯中接觸過(guò)的先進(jìn)數(shù)據(jù)技術(shù),以及幫助世界上那些超大型企業(yè)解決過(guò)的棘手?jǐn)?shù)據(jù)問(wèn)題。它借鑒了世界領(lǐng)先的大數(shù)據(jù)公司和企業(yè)的最佳實(shí)踐,以及來(lái)自一線從業(yè)者和行業(yè)專家的短文和成功案例,為成功構(gòu)建和部署大數(shù)據(jù)湖提供了全面的指導(dǎo)。如果你想充分利用這些令人興奮的新型大數(shù)據(jù)技術(shù)和方法給企業(yè)帶來(lái)優(yōu)勢(shì),那么本書是一個(gè)很好的起點(diǎn)。對(duì)于管理層來(lái)說(shuō),他們可以先讀一遍此書,當(dāng)工作中遇到大數(shù)據(jù)問(wèn)題時(shí)再來(lái)翻閱。對(duì)于一線從業(yè)者來(lái)說(shuō),他們可以將此書作為規(guī)劃和執(zhí)行大數(shù)據(jù)湖項(xiàng)目的實(shí)用參考。
排版約定
本書采用下述排版約定。
斜體(Italic)
表示新術(shù)語(yǔ)、URL、電子郵件地址、文件名和擴(kuò)展名。
等寬字體(Constant Width)
表示程序清單,在段落中出現(xiàn)則表示程序元素,例如變量、函數(shù)名、數(shù)據(jù)類型、環(huán)境變量、語(yǔ)句和關(guān)鍵字。
斜體等寬字體(Constant Width Italic)
表示應(yīng)該替換成用戶提供的值,或者由上下文決定的值。
O’Reilly 在線學(xué)習(xí)平臺(tái)(O’Reilly Online Learning)
近40 年來(lái),O’Reilly Media 致力于提供技術(shù)和商業(yè)培訓(xùn)、知識(shí)和卓越見(jiàn)解,來(lái)幫助眾多公司取得成功。
我們擁有獨(dú)一無(wú)二的專家和革新者組成的龐大網(wǎng)絡(luò),他們通過(guò)圖書、文章、會(huì)議和我們的在線學(xué)習(xí)平臺(tái)分享他們的知識(shí)和經(jīng)驗(yàn)。O’Reilly 的在線學(xué)習(xí)平臺(tái)允許你按需訪問(wèn)現(xiàn)場(chǎng)培訓(xùn)課程、深入的學(xué)習(xí)路徑、交互式編程環(huán)境,以及O’Reilly 和200 多家其他出版商提供的大量文本和視頻資源。有關(guān)的更多信息,請(qǐng)?jiān)L問(wèn)http://oreilly.com。
聯(lián)系我們
請(qǐng)把對(duì)本書的評(píng)價(jià)和問(wèn)題發(fā)給出版社。
美國(guó):
O’Reilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中國(guó):
北京市西城區(qū)西直門南大街2號(hào)成銘大廈C座807室(100035)
奧萊利技術(shù)咨詢(北京)有限公司
這本書有專屬網(wǎng)頁(yè),你可以在那兒找到本書的勘誤、示例和其他信息,地址是:http://bit.ly/Enterprise-Big-Data-Lake。
如果你對(duì)本書有一些評(píng)論或技術(shù)上的建議, 請(qǐng)發(fā)送電子郵件到bookquestions@oreilly.com。
要了解O’Reilly 圖書、培訓(xùn)課程、會(huì)議和新聞的更多信息,請(qǐng)?jiān)L問(wèn)我們的網(wǎng)站,地址是:http://www.oreilly.com。
我們的Facebook:http://facebook.com/oreilly。
我們的Twitter:http://twitter.com/oreillymedia。
我們的YouTube 視頻: http://www.youtube.com/oreillymedia。
致謝
首先我要對(duì)所有與我分享故事、專業(yè)知識(shí)和最佳實(shí)踐的專家和從業(yè)者們表示深深的感謝,這是一本關(guān)于你們的書,也是為你們而寫的書!
此外也非常感謝所有幫助我完成本書書寫的人,這是我的第一本書,沒(méi)有你們的幫助我肯定無(wú)法完成。感謝:
O’Reilly 團(tuán)隊(duì):我的O’Reilly 編輯Andy Oram,他在我精疲力竭的時(shí)候?yàn)楸緯⑷肓诵碌幕盍,并幫助它從意識(shí)流轉(zhuǎn)變?yōu)檫B貫的內(nèi)容;產(chǎn)品編輯Tim McGovern,他幫助此書出版;文案編輯Rachel Head,她讓我震驚的是,即便經(jīng)過(guò)了兩年多的寫作、編輯、重寫、評(píng)論,以及反復(fù)的修改與重寫,這本書仍然可以改進(jìn)那么多。
通過(guò)短文分享了自己想法和最佳實(shí)踐的行業(yè)貢獻(xiàn)者,你可以在書中相應(yīng)論文旁找到他們的名字和履歷。
以全新的視角、批判性的眼光和行業(yè)專業(yè)知識(shí)為本書做出巨大改進(jìn)的審校者:Sanjeev Mohan、Opinder Bawa 和Nicole Schwartz。
最后,感謝我的妻子Irina,我的孩子Hannah、Jane、Lisa 和John,我的媽媽Regina,我的朋友以及Waterline 大家庭的各位。如果沒(méi)有你們的支持和愛(ài),就不會(huì)有這本書。
Alex Gorelik是Waterline Data的首席技術(shù)官和創(chuàng)始人,也是三家初創(chuàng)公司的創(chuàng)始人。他曾經(jīng)擔(dān)任Informatica的數(shù)據(jù)質(zhì)量部經(jīng)理,負(fù)責(zé)管理公司的平臺(tái)和數(shù)據(jù)集成技術(shù)。此外,他還曾是IBM杰出的工程師,也是Exeros和Acta Technology的聯(lián)合創(chuàng)始人、首席技術(shù)官和工程副總裁。
前言 1
第1 章 數(shù)據(jù)湖概述 7
數(shù)據(jù)湖的成熟度 9
數(shù)據(jù)水洼 11
數(shù)據(jù)池 12
創(chuàng)建成功的數(shù)據(jù)湖 12
適合的平臺(tái) 13
適合的數(shù)據(jù) 14
適合的界面 16
數(shù)據(jù)沼澤 18
成功實(shí)施數(shù)據(jù)湖的路線圖 20
建立數(shù)據(jù)湖 20
規(guī)劃數(shù)據(jù)湖 21
構(gòu)建自助服務(wù)的數(shù)據(jù)湖 23
構(gòu)建數(shù)據(jù)湖 28
云上數(shù)據(jù)湖 29
邏輯數(shù)據(jù)湖 29
小結(jié) 34
第2 章 歷史背景 35
數(shù)據(jù)自助服務(wù)驅(qū)動(dòng)——數(shù)據(jù)庫(kù)的誕生 36
分析必要性驅(qū)動(dòng)——數(shù)據(jù)倉(cāng)庫(kù)的誕生 39
數(shù)據(jù)倉(cāng)庫(kù)生態(tài)系統(tǒng) 40
存儲(chǔ)和查詢數(shù)據(jù) 41
加載數(shù)據(jù)——數(shù)據(jù)集成工具 47
組織和管理數(shù)據(jù) 51
消費(fèi)數(shù)據(jù) 57
小結(jié) 58
第3 章 大數(shù)據(jù)和數(shù)據(jù)科學(xué)概述 59
Hadoop 引領(lǐng)大數(shù)據(jù)的歷史性轉(zhuǎn)變 60
Hadoop 文件系統(tǒng) 60
MapReduce 作業(yè)中計(jì)算和存儲(chǔ)如何交互 61
Schema on Read 63
Hadoop 項(xiàng)目 64
數(shù)據(jù)科學(xué) 65
你的分析機(jī)構(gòu)應(yīng)該關(guān)注什么? 67
機(jī)器學(xué)習(xí) 71
可解釋性 72
變更管理 73
小結(jié) 74
第4 章 建立數(shù)據(jù)湖 75
為什么是Hadoop 75
防止數(shù)據(jù)水洼擴(kuò)散 78
利用大數(shù)據(jù)的優(yōu)勢(shì) 79
以數(shù)據(jù)科學(xué)為先導(dǎo) 80
策略1: 遷移已有功能 83
策略2: 為新項(xiàng)目建立數(shù)據(jù)湖 85
策略3: 建立數(shù)據(jù)治理中心 85
哪種策略最適合你? 86
小結(jié) 88
第5 章 從數(shù)據(jù)池/ 大數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)湖 89
數(shù)據(jù)倉(cāng)庫(kù)的基本功能 90
用于分析的維度模型 91
整合不同源的數(shù)據(jù) 92
使用緩慢變化維保存歷史記錄 93
數(shù)據(jù)倉(cāng)庫(kù)作為歷史庫(kù)的局限性 93
遷移至數(shù)據(jù)池 94
數(shù)據(jù)池中保存歷史數(shù)據(jù) 94
在數(shù)據(jù)池中使用緩慢變化維 96
數(shù)據(jù)池演化為數(shù)據(jù)湖——加載數(shù)據(jù)倉(cāng)庫(kù)中未包含的數(shù)據(jù) 98
原始數(shù)據(jù) 98
外部數(shù)據(jù) 99
IoT 與其他流式數(shù)據(jù) 102
實(shí)時(shí)數(shù)據(jù)湖 103
Lambda 架構(gòu) 105
數(shù)據(jù)轉(zhuǎn)換 106
目標(biāo)系統(tǒng) 108
數(shù)據(jù)倉(cāng)庫(kù) 109
業(yè)務(wù)數(shù)據(jù)存儲(chǔ) 109
實(shí)時(shí)應(yīng)用和數(shù)據(jù)產(chǎn)品 110
小結(jié) 111
第6 章 自助服務(wù)優(yōu)化 112
自助服務(wù)起源 113
業(yè)務(wù)分析師 115
發(fā)現(xiàn)和理解數(shù)據(jù)——企業(yè)數(shù)據(jù)歸檔 116
建立信任 119
數(shù)據(jù)預(yù)置 126
為分析準(zhǔn)備數(shù)據(jù) 128
數(shù)據(jù)湖數(shù)據(jù)整理 129
用Hadoop 來(lái)準(zhǔn)備數(shù)據(jù) 129
數(shù)據(jù)預(yù)處理的常見(jiàn)案例 130
分析和可視化 133
自助式商業(yè)智能的新世界 133
新的分析工作流 134
門衛(wèi)向店主的角色轉(zhuǎn)變 136
管理自助服務(wù) 137
小結(jié) 137
第7 章 數(shù)據(jù)湖架構(gòu) 139
規(guī)劃數(shù)據(jù)湖 139
原始區(qū) 141
產(chǎn)品區(qū) 142
工作區(qū) 144
敏感區(qū) 145
多數(shù)據(jù)湖 146
保持各數(shù)據(jù)湖獨(dú)立的優(yōu)勢(shì) 147
合并多數(shù)據(jù)湖的優(yōu)勢(shì) 147
云上數(shù)據(jù)湖 148
虛擬數(shù)據(jù)湖 151
數(shù)據(jù)聯(lián)邦 151
大數(shù)據(jù)虛擬化 152
消除冗余 154
小結(jié) 156
第8 章 數(shù)據(jù)湖元數(shù)據(jù) 157
組織數(shù)據(jù) 157
技術(shù)元數(shù)據(jù) 159
業(yè)務(wù)元數(shù)據(jù) 164
打標(biāo) 166
自動(dòng)編目 167
邏輯數(shù)據(jù)管理 169
敏感數(shù)據(jù)管理和訪問(wèn)控制 169
數(shù)據(jù)質(zhì)量 170
連接分散的數(shù)據(jù) 172
建立血緣關(guān)系 174
數(shù)據(jù)預(yù)置 176
創(chuàng)建目錄的工具 176
工具對(duì)比 177
數(shù)據(jù)洋 178
小結(jié) 179
第9 章 數(shù)據(jù)訪問(wèn)控制 180
授權(quán)與訪問(wèn)控制 181
基于標(biāo)簽的控制策略 182
數(shù)據(jù)脫敏 186
數(shù)據(jù)主權(quán)與法規(guī) 189
自助服務(wù)訪問(wèn)管理 191
預(yù)置數(shù)據(jù) 196
小結(jié) 204
第10 章 行業(yè)案例 205
金融服務(wù)大數(shù)據(jù) 206
消費(fèi)者、數(shù)字化和數(shù)據(jù)正在改變我們所熟知的金融行業(yè) 206
拯救銀行 208
新數(shù)據(jù)提供新機(jī)遇 212
使用數(shù)據(jù)湖的關(guān)鍵過(guò)程 215
數(shù)據(jù)湖為金融服務(wù)領(lǐng)域帶來(lái)的價(jià)值 218
保險(xiǎn)行業(yè)中的數(shù)據(jù)湖 220
智慧城市 222
醫(yī)療大數(shù)據(jù) 224
作者介紹 227
封面介紹 227