在互聯(lián)網(wǎng)+時(shí)代,數(shù)據(jù)是炙手可熱的重要資源,網(wǎng)絡(luò)使用基礎(chǔ)的提升,數(shù)據(jù)流量增大,用戶需求多樣化和多變對(duì)架構(gòu)設(shè)計(jì)提出嚴(yán)峻考驗(yàn),而Hadoop為快速響應(yīng)用戶需求提供了重要技術(shù)支撐。作者Rajiv Tiwari從事數(shù)據(jù)研究近15年,在Hadoop應(yīng)用方面有許多實(shí)戰(zhàn)經(jīng)驗(yàn),他通過(guò)實(shí)際案例幫助讀者學(xué)習(xí)如何借助Hadoop來(lái)處理巨大數(shù)據(jù)信息,對(duì)于開發(fā)者、分析師、架構(gòu)師、管理者等都具有很好的指導(dǎo)。
你將從本書中得到什么?
了解大數(shù)據(jù)和Hadoop基礎(chǔ),包括實(shí)際的金融使用案例。
了解基于Hadoop的金融項(xiàng)目的闡述和解決方案、大數(shù)據(jù)監(jiān)管,以及如何保持Hadoop的勢(shì)頭。
在Hadoop平臺(tái)上開發(fā)一系列從小規(guī)模到大規(guī)模的數(shù)據(jù)項(xiàng)目的解決方案。
了解如何從云上掌握大數(shù)據(jù)。
在當(dāng)前的實(shí)際業(yè)務(wù)情況下,在企業(yè)級(jí)管理上擴(kuò)大現(xiàn)有平臺(tái)。
數(shù)據(jù)正以驚人的速度增加,而公司要么疲于應(yīng)付,要么急于利用這些數(shù)據(jù)進(jìn)行分析。Hadoop是一個(gè)優(yōu)秀的開源框架,可以應(yīng)付這些大數(shù)據(jù)問(wèn)題。
在過(guò)去的幾年里,我一直在金融部門使用Hadoop,但在使用的過(guò)程中,一直沒有發(fā)現(xiàn)有關(guān)Hadoop在金融應(yīng)用中的任何案例資源或書籍。我遇到的關(guān)于Hadoop、Hive或一些MapReduce模式的書籍大都是用各種各樣的方式統(tǒng)計(jì)單詞數(shù)量或分析Twitter信息。
我寫這本書旨在解釋Hadoop和其他相關(guān)產(chǎn)品在處理金融案例大數(shù)據(jù)中的基本應(yīng)用。在書中,介紹了很多案例并提供了一個(gè)非常實(shí)用的方法。
這本書包含什么
第1章,大數(shù)據(jù)回顧。本章包含大數(shù)據(jù)概覽、前景和技術(shù)演變,也介紹了Hadoop架構(gòu)的基本知識(shí)、組成部分和分布式框架。如果你之前已經(jīng)了解Hadoop,這一章可以忽略。
第2章,金融服務(wù)中的大數(shù)據(jù)。本章將延伸到站在一個(gè)金融機(jī)構(gòu)的角度去看大數(shù)據(jù)。主要介紹大數(shù)據(jù)在金融部門的演進(jìn)故事,在項(xiàng)目落地時(shí)的一些挑戰(zhàn),以及利用相關(guān)工具和技術(shù)處理金融案例的應(yīng)用。
第3章,在云端使用Hadoop。本章包含大數(shù)據(jù)在云端使用的概覽,以及基于端到端數(shù)據(jù)處理的樣本投資組合風(fēng)險(xiǎn)模擬項(xiàng)目。
第4章,使用Hadoop進(jìn)行數(shù)據(jù)遷移。本章討論了將歷史數(shù)據(jù)從傳統(tǒng)數(shù)據(jù)源遷到Hadoop上的幾種常用項(xiàng)目。
第5章,入門。本章包含了一個(gè)非常大的企業(yè)數(shù)據(jù)平臺(tái)的實(shí)施項(xiàng)目,以支持各種風(fēng)險(xiǎn)和監(jiān)管要求。
第6章,變得有經(jīng)驗(yàn)。本章給出了實(shí)時(shí)分析的概覽和檢測(cè)欺詐交易的樣本項(xiàng)目。
第7章,深入擴(kuò)展Hadoop的企業(yè)級(jí)應(yīng)用。本章包含的主題擴(kuò)展到Hadoop在公司中的使用,如企業(yè)數(shù)據(jù)湖、Lambda架構(gòu)和數(shù)據(jù)管理。還介紹了更多基本的財(cái)務(wù)案例與簡(jiǎn)短的解決方案。
第8章,Hadoop的快速增長(zhǎng)。本章討論了Hadoop分布式架構(gòu)的升級(jí)周期,并用最佳實(shí)踐和標(biāo)準(zhǔn)完成此書。
閱讀這本書你需要哪些基礎(chǔ)知識(shí)
因?yàn)镠adoop是一個(gè)數(shù)據(jù)處理和分析的技術(shù)框架,因此在數(shù)據(jù)庫(kù)、項(xiàng)目和分析工具上有一些經(jīng)驗(yàn)對(duì)讀者會(huì)有幫助。
這本書是一個(gè)入門指南,包含了大量外部引用的大數(shù)據(jù)產(chǎn)品。因此,如果在任何時(shí)候需要深入了解Hadoop,我們鼓勵(lì)讀者參考書中提到的外部資源。
哪些人適合讀這本書
本書主要面向致力于使用Hadoop的金融部門工作人員,包含數(shù)據(jù)項(xiàng)目開發(fā)人員、分析師、架構(gòu)師和管理人員。
它也有助于來(lái)自其他行業(yè)最近轉(zhuǎn)換或想將業(yè)務(wù)領(lǐng)域轉(zhuǎn)向金融部門的技術(shù)專業(yè)人士。
王小寧,中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院14級(jí)碩士、16級(jí)博士,統(tǒng)計(jì)之都副主編,中國(guó)人民大學(xué)數(shù)據(jù)挖掘中心分布式計(jì)算負(fù)責(zé)人,中國(guó)人民大學(xué)中國(guó)調(diào)查與數(shù)據(jù)中心研究員,研究興趣包括統(tǒng)計(jì)機(jī)器學(xué)習(xí)、缺失數(shù)據(jù)處理和數(shù)據(jù)流抽樣。
Rajiv Tiwari,是一位有著超過(guò) 15年經(jīng)驗(yàn)的自由大數(shù)據(jù)架構(gòu)師,他的研究方向包括大數(shù)據(jù)、數(shù)據(jù)分析、數(shù)據(jù)管理、數(shù)據(jù)架構(gòu)、數(shù)據(jù)清洗 /數(shù)據(jù)整合、數(shù)據(jù)倉(cāng)庫(kù),以及銀行和其他金融組織中的數(shù)據(jù)智能等。
他畢業(yè)于瓦拉納西印度理工學(xué)院( IIT)電子工程專業(yè),在英國(guó)工作了 10年有余,大部分時(shí)間居住在英國(guó)金融城——倫敦。從 2010年起, Rajiv 就開始使用 Hadoop,當(dāng)時(shí)銀行部門使用 Hadoop 的還很少。他目前正在幫助 1級(jí)投資銀行( Tier 1 Investment Bank)在 Hadoop平臺(tái)上實(shí)施一個(gè)大型風(fēng)險(xiǎn)分析項(xiàng)目。
目 錄
第 1章 大數(shù)據(jù)回顧. ...................................................................... 1
大數(shù)據(jù)是什么 ........ 1
數(shù)據(jù)量 ............ 2
數(shù)據(jù)速度 .......... 2
數(shù)據(jù)類型 .......... 3
大數(shù)據(jù)技術(shù)的演 ...... 3
過(guò)去 ................... 3
現(xiàn)在 .................... 4
未來(lái) ................ 5
大數(shù)據(jù)愿景 ............ 5
存儲(chǔ) .................. 6
NoSQL ............ 6
NoSQL數(shù)據(jù)庫(kù)類型 ....... 7
資源管理 ........... 7
數(shù)據(jù)治理 ............ 8
批量計(jì)算 ............ 8
實(shí)時(shí)計(jì)算 ............. 8
數(shù)據(jù)整合工具 ........... 9
機(jī)器學(xué)習(xí) ........... 9
商務(wù)智能和可視化 ......... 9
大數(shù)據(jù)相關(guān)的職業(yè) ........ 10
Hadoop架構(gòu) ..............11
HDFS集群 ............. 12
MapReduce V1 ........ 14
MapReduce V2——YARN ......... 15
Hadoop生態(tài)圈簡(jiǎn)介 ...... 18
馴服大數(shù)據(jù) .... 18
Hadoop——英雄 ......... 19
HDFS——Hadoop分布式系統(tǒng) ............ 19
Hadoop版本 .... 23
發(fā)行版——本地部署 .......... 25
發(fā)行版——云端 ................. 27
總結(jié) .............................. 28
第 2章 金融服務(wù)中的大數(shù)據(jù).................. 29
各個(gè)行業(yè)的大數(shù)據(jù)使用情況 .......................... 29
衛(wèi)生保健 ............................. 30
人類科學(xué) ............................. 30
電信 ..................................... 31
在線零售商 ......................... 31
為什么金融部門需要大數(shù)據(jù) 31
金融部門的大數(shù)據(jù)應(yīng)用案例 34
HDFS上的數(shù)據(jù)歸檔 ......... 34
監(jiān)管 ..................................... 35
欺詐檢測(cè) .............................. 35
交易數(shù)據(jù) .............................. 36
風(fēng)險(xiǎn)管理 ............................. 36
客戶行為預(yù)測(cè) ...................... 36
情感分析——非結(jié)構(gòu)化 ..... 36
其他應(yīng)用案例 ..................... 37
金融大數(shù)據(jù)的演進(jìn)過(guò)程 ........ 37
應(yīng)該如何學(xué)習(xí)金融大數(shù)據(jù) .... 41
把你的數(shù)據(jù)上傳到 HDFS上 .................... 41
從 HDFS上查詢數(shù)據(jù) ........ 42
在 Hadoop上的 SQL............. 43
實(shí)時(shí) ..................................... 44
數(shù)據(jù)治理和運(yùn)營(yíng) ................. 44
ETL工具 .............................. 45
數(shù)據(jù)分析和商業(yè)智能 ......... 45
金融大數(shù)據(jù)的實(shí)現(xiàn) ................ 46
關(guān)鍵挑戰(zhàn) ............................. 46
克服挑戰(zhàn) .............................. 47
總結(jié) ........................................ 50
第 3章 在云端使用 Hadoop........ 51
大數(shù)據(jù)云的故事 .................... 51
原因 ...................................... 52
時(shí)機(jī) ...................................... 53
收獲 ..................................... 54
項(xiàng)目細(xì)節(jié)——在云中進(jìn)行風(fēng)險(xiǎn)模擬 .............................. 54
解決方案 ............................. 55
現(xiàn)實(shí)世界 ............................. 55
目標(biāo)世界 ............................. 57
數(shù)據(jù)轉(zhuǎn)換 ............................. 60
數(shù)據(jù)分析 ............................. 62
總結(jié) ........................................ 63
第 4章 使用 Hadoop進(jìn)行數(shù)據(jù)遷移. ............. 65
項(xiàng)目細(xì)節(jié)——?dú)w檔你的交易數(shù)據(jù) ................. 65
解決方案 ............................. 67
項(xiàng)目第一階段——分裂交易數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)和 Hadoop ......... 68
項(xiàng)目第二階段——完成數(shù)據(jù)從關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)到 Hadoop的遷移 ..... 77
總結(jié) ......................................... 83
第 5章 入門. .............................. 85
項(xiàng)目詳細(xì)信息——風(fēng)險(xiǎn)和監(jiān)管報(bào)告 ............. 86
解決方案 .............................. 87
現(xiàn)實(shí)世界 ............................. 87
目標(biāo)世界 ............................. 88
數(shù)據(jù)收集 ............................. 89
數(shù)據(jù)轉(zhuǎn)換 ............................. 97
數(shù)據(jù)分析 ............................112
總結(jié) .......................................116
第 6章 變得有經(jīng)驗(yàn). ....... 117
實(shí)時(shí)大數(shù)據(jù) ...........................117
項(xiàng)目細(xì)節(jié)——識(shí)別欺詐交易 ....................119
解決方案 ........................... 120
現(xiàn)實(shí)世界 ............................... 120
目標(biāo)世界 ............................ 120
馬爾科夫鏈模型執(zhí)行——批處理模式 ............... 121
數(shù)據(jù)收集 ............................. 126
數(shù)據(jù)轉(zhuǎn)換 ........................... 128
總結(jié) .......................... 132
第 7章 深入擴(kuò)展 Hadoop的企業(yè)級(jí)應(yīng)用................ 133
擴(kuò)展開來(lái)——實(shí)際上的水平 ..................... 134
更多的大數(shù)據(jù)使用案例 ................................. 135
使用案例——再談欺詐問(wèn)題 ................. 136
解決方案 ........................................... 136
使用案例——用戶投訴 ........................ 137
解決方案 ........................................ 137
使用案例——算法交易 ................... 137
解決方案 ................ 138
使用案例——外匯交易 .................................. 138
解決方案...................... 138
使用案例——基于社交媒體的交易數(shù)據(jù) ......... 139
解決方案 ........................................ 139
使用案例——非大數(shù)據(jù) ................... 140
解決方案 ............................. 140
數(shù)據(jù)湖 .................................. 140
Lambda架構(gòu) ........................ 143
大數(shù)據(jù)管理 .......................... 144
Apache Falcon概覽 ......... 146
安全性 .................................. 147
總結(jié) ...................................... 149
第 8章 Hadoop的快速增長(zhǎng)..................... 151
Hadoop發(fā)行版的升級(jí)周期 .................. 151
最佳實(shí)踐和標(biāo)準(zhǔn) ...................................... 154
環(huán)境 ............................................... 154
與 BI和 ETL工具的集成 ................ 155
提示 ............................................. 155
新的趨勢(shì) ................................... 157
總結(jié) ................ 158