ETL數(shù)據(jù)整合與處理(Kettle)
定 價(jià):49.8 元
- 作者:王雪松,張良均
- 出版時(shí)間:2021/2/1
- ISBN:9787115552204
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁(yè)碼:0
- 紙張:
- 版次:01
- 開本:16開
本書以Kettle實(shí)現(xiàn)ETL流程為目標(biāo),將ETL知識(shí)點(diǎn)與任務(wù)相結(jié)合,配套真實(shí)案例,深入淺出地介紹了ETL數(shù)據(jù)整合與處理的相關(guān)內(nèi)容。全書共8章,第1章介紹了ETL概念和ETL工具,讓讀者在了解ETL相關(guān)的概念后,立刻上手ETL工具Kettle;第2~6章介紹了Kettle工具轉(zhuǎn)換相關(guān)的組件,包括源數(shù)據(jù)獲取、記錄處理、字段處理、高級(jí)轉(zhuǎn)換、遷移和裝載等內(nèi)容,內(nèi)容與ETL流程匹配,能幫助讀者快速掌握ETL;第7章介紹了Kettle工具任務(wù)的相關(guān)組件,能夠幫助讀者串聯(lián)不同的任務(wù),以及實(shí)現(xiàn)調(diào)度的功能;第8章介紹了無(wú)人售貨機(jī)ETL項(xiàng)目,通過(guò)項(xiàng)目案例的形式,幫助讀者將所學(xué)知識(shí)融會(huì)貫通。
本書采用了以任務(wù)為導(dǎo)向的教學(xué)模式,按照解決實(shí)際任務(wù)的工作流程路線,逐步展開介紹相關(guān)的理論知識(shí)點(diǎn),推導(dǎo)生成可行的解決方案,最后落實(shí)在任務(wù)實(shí)現(xiàn)環(huán)節(jié)。
書中案例全部源于企業(yè)真實(shí)項(xiàng)目,可操作性強(qiáng),引導(dǎo)讀者融會(huì)貫通,并提供源代碼等相關(guān)學(xué)習(xí)資源,幫助讀者快速掌握ETL數(shù)據(jù)整合與處理相關(guān)技能。
王雪松,佛山職業(yè)技術(shù)學(xué)院,計(jì)算機(jī)應(yīng)用專業(yè),教授。主編規(guī)劃教材6部,發(fā)表專業(yè)學(xué)術(shù)論文30余篇。
張良均,廣東泰迪智能科技股份有限公司董事長(zhǎng),高級(jí)信息系統(tǒng)項(xiàng)目管理師,廣東省工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì)常務(wù)理事,中國(guó)信訪大數(shù)據(jù)學(xué)術(shù)與應(yīng)用研究聯(lián)盟副理事長(zhǎng),“泰迪杯”數(shù)據(jù)挖掘挑戰(zhàn)賽發(fā)起人。華南師范大學(xué)、中南財(cái)經(jīng)政法大學(xué)、廣東工業(yè)大學(xué)、西安理工大學(xué)、廣西科技大學(xué)、重慶交通大學(xué)、湖北工程學(xué)院等兼職教授或兼職碩導(dǎo)。近5年,在國(guó)內(nèi)外重要學(xué)術(shù)刊物上發(fā)表論文10余篇;主導(dǎo)編寫圖書專著26部,承擔(dān)國(guó)家級(jí)項(xiàng)目1項(xiàng),省部級(jí)項(xiàng)目6項(xiàng)。獲得SAS、SPSS數(shù)據(jù)挖掘認(rèn)證及Hadoop開發(fā)工程師證書,具有信訪、電力、電信、銀行、制造企業(yè)、電子商務(wù)和電子政務(wù)的項(xiàng)目經(jīng)驗(yàn)和行業(yè)背景。
第 1章 開啟ETL之旅 1
任務(wù)1.1 認(rèn)識(shí)ETL 1
1.1.1 了解ETL 1
1.1.2 選擇ETL工具 4
任務(wù)1.2 配置Kettle運(yùn)行環(huán)境 7
1.2.1 安裝JDK 8
1.2.2 安裝MySQL數(shù)據(jù)庫(kù) 9
1.2.3 配置Kettle 10
任務(wù)1.3 熟悉Kettle基本操作 11
1.3.1 認(rèn)識(shí)Kettle界面 11
1.3.2 新建轉(zhuǎn)換與任務(wù) 17
1.3.3 運(yùn)行與查看結(jié)果面板 20
小結(jié) 22
課后習(xí)題 22
第 2章 源數(shù)據(jù)獲取 23
任務(wù)2.1 創(chuàng)建數(shù)據(jù)庫(kù)連接 23
2.1.1 建立數(shù)據(jù)庫(kù)連接 23
2.1.2 設(shè)置參數(shù) 24
2.1.3 測(cè)試和瀏覽數(shù)據(jù)庫(kù)連接結(jié)果 26
2.1.4 建立/停止共享數(shù)據(jù)庫(kù)連接 27
任務(wù)2.2 表輸入 28
2.2.1 建立表輸入轉(zhuǎn)換工程 28
2.2.2 設(shè)置參數(shù) 29
2.2.3 預(yù)覽結(jié)果數(shù)據(jù) 32
任務(wù)2.3 CSV文件輸入 32
2.3.1 建立CSV文件輸入轉(zhuǎn)換工程 32
2.3.2 設(shè)置參數(shù) 33
2.3.3 預(yù)覽結(jié)果數(shù)據(jù) 35
任務(wù)2.4 Excel輸入 36
2.4.1 建立Excel輸入轉(zhuǎn)換工程 36
2.4.2 設(shè)置參數(shù) 37
2.4.3 預(yù)覽結(jié)果數(shù)據(jù) 44
任務(wù)2.5 生成記錄 44
2.5.1 建立生成記錄轉(zhuǎn)換工程 45
2.5.2 設(shè)置參數(shù) 45
2.5.3 預(yù)覽結(jié)果數(shù)據(jù) 47
任務(wù)2.6 生成隨機(jī)數(shù) 47
2.6.1 建立生成隨機(jī)數(shù)轉(zhuǎn)換工程 47
2.6.2 設(shè)置參數(shù) 48
2.6.3 預(yù)覽結(jié)果數(shù)據(jù) 49
任務(wù)2.7 獲取系統(tǒng)信息 49
2.7.1 建立獲取系統(tǒng)信息轉(zhuǎn)換工程 50
2.7.2 設(shè)置參數(shù) 50
2.7.3 預(yù)覽結(jié)果數(shù)據(jù) 51
小結(jié) 51
課后習(xí)題 52
第3章 記錄處理 53
任務(wù)3.1 排序記錄 53
3.1.1 建立排序記錄轉(zhuǎn)換工程 53
3.1.2 設(shè)置參數(shù) 54
3.1.3 預(yù)覽結(jié)果數(shù)據(jù) 56
任務(wù)3.2 去除重復(fù)記錄 56
3.2.1 建立去除重復(fù)記錄轉(zhuǎn)換工程 56
3.2.2 設(shè)置參數(shù) 57
3.2.3 預(yù)覽結(jié)果數(shù)據(jù) 59
任務(wù)3.3 替換NULL值 59
3.3.1 建立替換NULL值轉(zhuǎn)換工程 59
3.3.2 設(shè)置參數(shù) 60
3.3.3 預(yù)覽結(jié)果數(shù)據(jù) 62
任務(wù)3.4 過(guò)濾記錄 62
3.4.1 建立過(guò)濾記錄轉(zhuǎn)換工程 62
3.4.2 設(shè)置參數(shù) 63
3.4.3 預(yù)覽結(jié)果數(shù)據(jù) 67
任務(wù)3.5 值映射 67
3.5.1 建立值映射轉(zhuǎn)換工程 67
3.5.2 設(shè)置參數(shù) 68
3.5.3 預(yù)覽結(jié)果數(shù)據(jù) 69
任務(wù)3.6 字符串替換 70
3.6.1 建立字符串替換轉(zhuǎn)換工程 70
3.6.2 設(shè)置參數(shù) 70
3.6.3 預(yù)覽結(jié)果數(shù)據(jù) 72
任務(wù)3.7 字符串操作 72
3.7.1 建立字符串操作轉(zhuǎn)換工程 72
3.7.2 設(shè)置參數(shù) 73
3.7.3 預(yù)覽結(jié)果數(shù)據(jù) 74
任務(wù)3.8 分組 74
3.8.1 建立分組轉(zhuǎn)換工程 75
3.8.2 設(shè)置參數(shù) 76
3.8.3 預(yù)覽結(jié)果數(shù)據(jù) 78
小結(jié) 78
課后習(xí)題 79
第4章 字段處理 80
任務(wù)4.1 字段選擇 80
4.1.1 建立字段選擇轉(zhuǎn)換工程 80
4.1.2 設(shè)置參數(shù) 81
4.1.3 預(yù)覽結(jié)果數(shù)據(jù) 85
任務(wù)4.2 增加常量 86
4.2.1 建立增加常量轉(zhuǎn)換工程 86
4.2.2 設(shè)置參數(shù) 87
4.2.3 預(yù)覽結(jié)果數(shù)據(jù) 88
任務(wù)4.3 將字段值設(shè)置為常量 88
4.3.1 建立將字段值設(shè)置為常量轉(zhuǎn)換工程 89
4.3.2 設(shè)置參數(shù) 89
4.3.3 預(yù)覽結(jié)果數(shù)據(jù) 90
任務(wù)4.4 剪切字符串 91
4.4.1 建立剪切字符串轉(zhuǎn)換工程 91
4.4.2 設(shè)置參數(shù) 92
4.4.3 預(yù)覽結(jié)果數(shù)據(jù) 93
任務(wù)4.5 拆分字段 93
4.5.1 建立拆分字段轉(zhuǎn)換工程 93
4.5.2 設(shè)置參數(shù) 94
4.5.3 預(yù)覽結(jié)果數(shù)據(jù) 96
任務(wù)4.6 數(shù)值范圍 96
4.6.1 建立數(shù)值范圍轉(zhuǎn)換工程 97
4.6.2 設(shè)置參數(shù) 97
4.6.3 預(yù)覽結(jié)果數(shù)據(jù) 99
任務(wù)4.7 計(jì)算器 99
4.7.1 建立計(jì)算器轉(zhuǎn)換工程 99
4.7.2 設(shè)置參數(shù) 100
4.7.3 預(yù)覽結(jié)果數(shù)據(jù) 101
任務(wù)4.8 增加序列 102
4.8.1 建立增加序列轉(zhuǎn)換工程 102
4.8.2 設(shè)置參數(shù) 103
4.8.3 預(yù)覽結(jié)果數(shù)據(jù) 105
小結(jié) 105
課后習(xí)題 105
第5章 高級(jí)轉(zhuǎn)換 107
任務(wù)5.1 記錄集連接 107
5.1.1 建立記錄集連接轉(zhuǎn)換工程 107
5.1.2 設(shè)置參數(shù) 109
5.1.3 預(yù)覽結(jié)果數(shù)據(jù) 110
任務(wù)5.2 多路數(shù)據(jù)合并連接 111
5.2.1 建立多路數(shù)據(jù)合并連接轉(zhuǎn)換工程 111
5.2.2 設(shè)置參數(shù) 112
5.2.3 預(yù)覽結(jié)果數(shù)據(jù) 114
任務(wù)5.3 單變量統(tǒng)計(jì) 115
5.3.1 建立單變量統(tǒng)計(jì)轉(zhuǎn)換工程 115
5.3.2 設(shè)置參數(shù) 116
5.3.3 預(yù)覽結(jié)果數(shù)據(jù) 117
任務(wù)5.4 公式 118
5.4.1 建立公式轉(zhuǎn)換工程 118
5.4.2 設(shè)置參數(shù) 119
5.4.3 預(yù)覽結(jié)果數(shù)據(jù) 120
任務(wù)5.5 利用Janino計(jì)算Java表達(dá)式 120
5.5.1 建立利用Janino計(jì)算Java表達(dá)式轉(zhuǎn)換工程 121
5.5.2 設(shè)置參數(shù) 122
5.5.3 預(yù)覽結(jié)果數(shù)據(jù) 123
任務(wù)5.6 JavaScript代碼 123
5.6.1 建立JavaScript代碼轉(zhuǎn)換工程 123
5.6.2 設(shè)置參數(shù) 124
5.6.3 預(yù)覽結(jié)果數(shù)據(jù) 127
任務(wù)5.7 設(shè)置變量 128
5.7.1 建立設(shè)置變量轉(zhuǎn)換工程 128
5.7.2 設(shè)置參數(shù) 130
5.7.3 預(yù)覽結(jié)果數(shù)據(jù) 131
任務(wù)5.8 獲取變量 131
5.8.1 建立獲取變量轉(zhuǎn)換工程 131
5.8.2 設(shè)置參數(shù) 132
5.8.3 預(yù)覽結(jié)果數(shù)據(jù) 133
小結(jié) 133
課后習(xí)題 133
第6章 遷移和裝載 135
任務(wù)6.1 表輸出 135
6.1.1 建立表輸出轉(zhuǎn)換工程 135
6.1.2 設(shè)置參數(shù) 136
6.1.3 預(yù)覽結(jié)果數(shù)據(jù) 139
任務(wù)6.2 插入/更新 139
6.2.1 建立插入/更新轉(zhuǎn)換工程 140
6.2.2 設(shè)置參數(shù) 140
6.2.3 預(yù)覽結(jié)果數(shù)據(jù) 143
任務(wù)6.3 Excel輸出 143
6.3.1 建立Excel輸出轉(zhuǎn)換工程 143
6.3.2 設(shè)置參數(shù) 143
6.3.3 預(yù)覽結(jié)果數(shù)據(jù) 148
任務(wù)6.4 文本文件輸出 148
6.4.1 建立文本文件輸出轉(zhuǎn)換工程 148
6.4.2 設(shè)置參數(shù) 149
6.4.3 預(yù)覽結(jié)果數(shù)據(jù) 153
任務(wù)6.5 SQL文件輸出 153
6.5.1 建立SQL文件輸出轉(zhuǎn)換工程 153
6.5.2 設(shè)置參數(shù) 153
6.5.3 預(yù)覽結(jié)果數(shù)據(jù) 156
小結(jié) 156
課后習(xí)題 157
第7章 任務(wù) 158
任務(wù)7.1 開始 158
7.1.1 建立開始任務(wù)工程 158
7.1.2 設(shè)置參數(shù) 159
7.1.3 運(yùn)行任務(wù) 160
任務(wù)7.2 轉(zhuǎn)換 161
7.2.1 建立轉(zhuǎn)換任務(wù)工程 162
7.2.2 設(shè)置參數(shù) 162
7.2.3 運(yùn)行任務(wù) 166
任務(wù)7.3 添加文件到結(jié)果文件中 167
7.3.1 建立添加文件到結(jié)果文件中任務(wù)工程 167
7.3.2 設(shè)置參數(shù) 167
7.3.3 運(yùn)行任務(wù) 168
任務(wù)7.4 發(fā)送郵件 169
7.4.1 建立發(fā)送郵件任務(wù)工程 169
7.4.2 設(shè)置參數(shù) 170
7.4.3 運(yùn)行任務(wù) 174
任務(wù)7.5 成功 175
7.5.1 建立成功任務(wù) 175
7.5.2 設(shè)置參數(shù) 176
7.5.3 運(yùn)行任務(wù) 176
任務(wù)7.6 檢查表是否存在 177
7.6.1 建立檢查表是否存在任務(wù)工程 177
7.6.2 設(shè)置參數(shù) 177
7.6.3 運(yùn)行任務(wù) 178
任務(wù)7.7 SQL 179
7.7.1 建立SQL任務(wù)工程 179
7.7.2 設(shè)置參數(shù) 179
7.7.3 運(yùn)行任務(wù) 180
任務(wù)7.8 檢查列是否存在 181
7.8.1 建立檢查列是否存在任務(wù)工程 181
7.8.2 設(shè)置參數(shù) 181
7.8.3 運(yùn)行任務(wù) 183
任務(wù)7.9 檢查一個(gè)文件是否存在 183
7.9.1 建立檢查一個(gè)文件是否存在任務(wù)工程 183
7.9.2 設(shè)置參數(shù) 184
7.9.3 運(yùn)行任務(wù) 184
任務(wù)7.10 檢查多個(gè)文件是否存在 185
7.10.1 建立檢查多個(gè)文件是否存在任務(wù)工程 185
7.10.2 設(shè)置參數(shù) 185
7.10.3 運(yùn)行任務(wù) 186
小結(jié) 187
課后習(xí)題 187
第8章 無(wú)人售貨機(jī)項(xiàng)目實(shí)戰(zhàn) 188
任務(wù)8.1 了解無(wú)人售貨機(jī)項(xiàng)目背景與目標(biāo) 188
8.1.1 了解項(xiàng)目背景 188
8.1.2 熟悉項(xiàng)目目標(biāo) 189
8.1.3 熟悉數(shù)據(jù)字段 189
任務(wù)8.2 分組聚合客戶訂單 192
8.2.1 分析任務(wù)數(shù)據(jù)需求 192
8.2.2 熟悉任務(wù)流程 193
8.2.3 實(shí)現(xiàn)聚合客戶訂單 193
任務(wù)8.3 計(jì)算各商品銷售金額 197
8.3.1 分析任務(wù)數(shù)據(jù)需求 197
8.3.2 熟悉任務(wù)流程 197
8.3.3 實(shí)現(xiàn)各商品銷售金額計(jì)算 198
任務(wù)8.4 統(tǒng)計(jì)各售貨機(jī)日銷售金額 202
8.4.1 分析任務(wù)數(shù)據(jù)需求 202
8.4.2 熟悉任務(wù)流程 202
8.4.3 實(shí)現(xiàn)各售貨機(jī)銷售金額統(tǒng)計(jì) 203
任務(wù)8.5 整理各售貨機(jī)銷售情況 207
8.5.1 分析任務(wù)數(shù)據(jù)需求 208
8.5.2 熟悉任務(wù)流程 208
8.5.3 實(shí)現(xiàn)各售貨機(jī)銷售情況整理 209
小結(jié) 216
課后習(xí)題 216