劍指大數據——企業(yè)級電商數據倉庫項目實戰(zhàn)(精華版)
定 價:95 元
叢書名:程序員硬核技術叢書
- 作者:尚硅谷教育
- 出版時間:2024/4/1
- ISBN:9787121475214
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP311.13
- 頁碼:312
- 紙張:
- 版次:01
- 開本:16開
本書完整講解了電商行業(yè)數據倉庫項目的構建過程,并提供了詳盡的思路分析。在整個項目構建過程中,介紹了關鍵技術框架的安裝部署流程和經典數據指標的解決方案,并在其中穿插了大數據和數據倉庫的經典理論知識。本書從邏輯上可以分為兩大部分:第一部分是第1~3章,重點講解數據倉庫的相關概念和項目需求分析,并初步介紹了數據倉庫項目所需的基本環(huán)境;第二部分是第4~8章,這一部分是數據倉庫項目構建的關鍵部分,講解了如何對海量數據進行采集、存儲和分層計算,以及如何計算得到所有的項目需求指標。本書適合具有一定編程基礎且對大數據有興趣的讀者閱讀參考。通過本書,讀者可以快速了解大數據和數據倉庫,掌握數據倉庫項目的完整構建流程。
尚硅谷教育是一家專業(yè)的IT教育培訓機構,開設了JavaEE、大數據、HTML5前端等多門學科,在互聯網上發(fā)布的JavaEE、大數據、HTML5前端、區(qū)塊鏈、C語言、Python等技術視頻教程廣受贊譽。
目 錄
第1章 數據倉庫概論 1
1.1 數據倉庫的概念與特點 1
1.2 數據倉庫的演進過程 2
1.3 數據倉庫技術 3
1.4 數據倉庫基本架構 5
1.5 數據庫和數據倉庫的區(qū)別 8
1.6 學前導讀 8
1.6.1 學習的基礎要求 8
1.6.2 你將學到什么 9
1.7 本章總結 9
第2章 項目需求描述 10
2.1 前期調研 10
2.2 項目架構分析 11
2.2.1 電商數據倉庫產品描述 11
2.2.2 系統功能結構 12
2.2.3 系統流程圖 12
2.3 項目業(yè)務概述 13
2.3.1 數據采集模塊業(yè)務描述 13
2.3.2 數據倉庫需求業(yè)務描述 14
2.3.3 數據可視化業(yè)務描述 15
2.4 系統運行環(huán)境 16
2.4.1 硬件環(huán)境 16
2.4.2 軟件環(huán)境 16
2.5 本章總結 18
第3章 項目部署的環(huán)境準備 19
3.1 集群規(guī)劃與服務器配置 19
3.2 安裝JDK與Hadoop 19
3.2.1 虛擬機環(huán)境準備 19
3.2.2 安裝JDK 23
3.2.3 安裝Hadoop 24
3.2.4 Hadoop的分布式集群部署 25
3.3 本章總結 31
第4章 用戶行為數據采集模塊 32
4.1 日志生成 32
4.1.1 數據埋點 32
4.1.2 用戶行為日志格式 32
4.1.3 數據模擬 37
4.2 消息隊列Kafka 40
4.2.1 安裝ZooKeeper 40
4.2.2 ZooKeeper集群啟動、停止腳本 42
4.2.3 安裝Kafka 43
4.2.4 Kafka集群啟動、停止腳本 45
4.2.5 Kafka topic相關操作 45
4.3 采集日志的Flume 46
4.3.1 Flume組件 46
4.3.2 Flume安裝 47
4.3.3 采集日志的Flume配置 48
4.3.4 采集日志的Flume測試 49
4.3.5 采集日志的Flume啟動、停止腳本 50
4.4 消費日志的Flume 51
4.4.1 消費日志的Flume配置 51
4.4.2 時間戳攔截器 53
4.4.3 消費日志的Flume測試 56
4.4.4 消費日志的Flume啟動、停止腳本 56
4.5 本章總結 57
第5章 業(yè)務數據采集模塊 58
5.1 電商業(yè)務概述 58
5.1.1 電商業(yè)務流程 58
5.1.2 電商常識 59
5.1.3 電商業(yè)務表結構 59
5.1.4 數據同步策略 70
5.1.5 數據同步工具選擇 72
5.2 業(yè)務數據采集 72
5.2.1 MySQL安裝 72
5.2.2 業(yè)務數據生成 75
5.2.3 DataX安裝 77
5.2.4 Maxwell安裝 78
5.2.5 全量同步 83
5.2.6 增量同步 88
5.3 采集通道啟動和停止腳本 96
5.4 本章總結 97
第6章 數據倉庫搭建模塊 98
6.1 數據倉庫理論準備 98
6.1.1 數據建模概述 98
6.1.2 關系模型與范式理論 99
6.1.3 維度模型 102
6.1.4 維度建模理論之事實表 103
6.1.5 維度建模理論之維度表 106
6.1.6 雪花模型、星形模型與星座模型 109
6.2 數據倉庫建模實踐 111
6.2.1 名詞概念 111
6.2.2 為什么要分層 112
6.2.3 數據倉庫搭建流程 113
6.2.4 數據倉庫開發(fā)規(guī)范 120
6.3 數據倉庫搭建環(huán)境準備 123
6.3.1 Hive安裝 123
6.3.2 Hive on Spark配置 126
6.3.3 YARN容量調度器并發(fā)度問題 128
6.3.4 數據倉庫開發(fā)環(huán)境配置 129
6.3.5 模擬數據準備 131
6.3.6 復雜數據類型 133
6.4 數據倉庫搭建——ODS層 134
6.4.1 用戶行為日志數據 134
6.4.2 ODS層用戶行為日志數據導入腳本 136
6.4.3 業(yè)務數據 138
6.4.4 ODS層業(yè)務數據導入腳本 151
6.5 數據倉庫搭建——DIM層 154
6.5.1 商品維度表(全量) 154
6.5.2 優(yōu)惠券維度表(全量) 159
6.5.3 活動維度表(全量) 161
6.5.4 地區(qū)維度表(全量) 163
6.5.5 營銷坑位維度表 165
6.5.6 營銷渠道維度表 165
6.5.7 時間維度表(特殊) 166
6.5.8 用戶維度表(拉鏈表) 167
6.5.9 DIM層首日數據裝載腳本 173
6.5.10 DIM層每日數據裝載腳本 173
6.6 數據倉庫搭建——DWD層 173
6.6.1 交易域加購物車事務事實表 174
6.6.2 交易域下單事務事實表 176
6.6.3 交易域支付成功事務事實表 180
6.6.4 交易域購物車周期快照事實表 185
6.6.5 交易域交易流程累積快照事實表 186
6.6.6 工具域優(yōu)惠券使用(支付)事務事實表 192
6.6.7 互動域收藏事務事實表 194
6.6.8 流量域頁面瀏覽事務事實表 195
6.6.9 用戶域用戶注冊事務事實表 197
6.6.10 用戶域用戶登錄事務事實表 200
6.6.11 DWD層首日業(yè)務數據裝載腳本 202
6.6.12 DWD層每日業(yè)務數據裝載腳本 202
6.7 數據倉庫搭建——DWS層 202
6.7.1 最近1日匯總表 203
6.7.2 最近n日匯總表 218
6.7.3 歷史至今匯總表 221
6.8 數據倉庫搭建——ADS層 226
6.8.1 流量主題指標 226
6.8.2 用戶主題指標 230
6.8.3 商品主題指標 240
6.8.4 交易主題指標 247
6.8.5 優(yōu)惠券主題指標 249
6.8.6 ADS層數據導入腳本 249
6.9 數據模型評估及優(yōu)化 250
6.10 本章總結 250
第7章 DolphinScheduler全流程調度 251
7.1 DolphinScheduler概述與安裝部署 251
7.1.1 DolphinScheduler概述 251
7.1.2 DolphinScheduler安裝部署 252
7.2 創(chuàng)建MySQL數據庫和表 258
7.3 DataX數據導出 262
7.4 全流程調度 268
7.4.1 數據準備 268
7.4.2 全流程調度配置 268
7.5 電子郵件報警 277
7.5.1 注冊郵箱 277
7.5.2 配置電子郵件報警 278
7.6 本章總結 281
第8章 數據可視化模塊 282
8.1 Superset部署 282
8.1.1 環(huán)境準備 282
8.1.2 Superset安裝 284
8.2 Superset使用 287
8.2.1 對接MySQL數據源 287
8.2.2 制作儀表盤 289
8.3 Superset實戰(zhàn) 294
8.3.1 制作柱狀圖 294
8.3.2 制作餅狀圖 295
8.3.3 制作桑基圖 297
8.3.4 合成儀表盤頁面 299
8.4 ECharts可視化 299
8.5 本章總結 301