關(guān)于我們
書單推薦
新書推薦
|
數(shù)據(jù)倉庫工具箱(第3版)——維度建模權(quán)威指南(大數(shù)據(jù)應(yīng)用與技術(shù)叢書) 隨著The Data Warehouse Toolkit(1996)第1版的出版發(fā)行,Ralph Kimball為整個(gè)行業(yè)引入了維度建模技術(shù)。從此,維度建模成為一種被廣泛接受的表達(dá)數(shù)據(jù)倉庫和商業(yè)智能(DW/BI)系統(tǒng)中數(shù)據(jù)的方法。該經(jīng)典書籍被認(rèn)為是維度建模技術(shù)、模式和最佳實(shí)踐的權(quán)威資源。 這本《數(shù)據(jù)倉庫工具箱(第3版)——維度建模權(quán)威指南》匯集了到目前為止最全面的維度建模技術(shù)。本書采用新的思路和最佳實(shí)踐對上一版本進(jìn)行了全面修訂,給出了設(shè)計(jì)維度模型的全面指南,既適合數(shù)據(jù)倉庫新手,也適合經(jīng)驗(yàn)豐富的專業(yè)人員。 本書涉及的所有技術(shù)都基于作者實(shí)際從事DW/BI的設(shè)計(jì)經(jīng)驗(yàn),通過實(shí)際案例加以描述。
主要內(nèi)容 ◆實(shí)用設(shè)計(jì)技術(shù)——有關(guān)維度和事實(shí)表的基本和高級技術(shù) ◆ 14個(gè)案例研究,涉及零售業(yè)、電子商務(wù)、客戶關(guān)系管理、采購、庫存、訂單管理、會(huì)計(jì)、人力資源、金融服務(wù)、醫(yī)療衛(wèi)生、保險(xiǎn)、教育、電信和運(yùn)輸?shù)?/p> ◆為12個(gè)案例研究提供了數(shù)據(jù)倉庫總線矩陣示例 ◆需要避免的維度建模陷阱和錯(cuò)誤 ◆增強(qiáng)的緩慢變化維度(SCD)技術(shù)類型0~類型7 ◆用于處理參差不齊的可變深度層次和多值屬性的橋接表 ◆大數(shù)據(jù)分析的最佳實(shí)踐 ◆與業(yè)務(wù)參與方合作、交互設(shè)計(jì)會(huì)議的指南 ◆有關(guān)Kimball DW/BI項(xiàng)目生命周期方法論的概論 ◆對ETL系統(tǒng)和設(shè)計(jì)思考的總結(jié) ◆構(gòu)建維度和事實(shí)表的34個(gè)ETL子系統(tǒng)和技術(shù)
自Ralph Kimball于1996年首次出版The Data Warehouse Toolkit(Wiley)一書以來,數(shù)據(jù)倉庫和商業(yè)智能(Data Warehousing and Business Intelligence,DW/BI)行業(yè)漸趨成熟。盡管初期僅有部分大型公司采用,但從那時(shí)起,DW/BI逐漸為各種規(guī)模的公司所青睞。業(yè)界已建立了數(shù)以千計(jì)的DW/BI系統(tǒng)。隨著數(shù)據(jù)倉庫原子數(shù)據(jù)的不斷增加以及更新越來越頻繁,數(shù)據(jù)容量不斷增長。在我們的職業(yè)生涯中,我們見證了數(shù)據(jù)庫容量從MB到GB再到TB甚至PB的發(fā)展過程,但是,DW/BI系統(tǒng)面臨的基本挑戰(zhàn)并未發(fā)生重大變化。我們的工作就是管理組織中的數(shù)據(jù)并將其用于業(yè)務(wù)用戶的決策制定過程中。總的來說,您必須實(shí)現(xiàn)這一目標(biāo),確保商務(wù)人士制定更好的決策,并從他們的DW/BI投資中獲得回報(bào)。
自The DataWarehouse Toolkit第1版出版以來,維度建模作為一種主要的DW/BI展現(xiàn)技術(shù)受到廣泛認(rèn)可。從業(yè)者與學(xué)者都認(rèn)識到數(shù)據(jù)展現(xiàn)要獲得成功,就必須建立在簡單性的基礎(chǔ)之上。簡單性是使用戶能夠方便地理解數(shù)據(jù)庫,使軟件能夠方便地訪問數(shù)據(jù)庫的基礎(chǔ)性的關(guān)鍵要素。許多情況下,維度建模就是時(shí)刻考慮如何能夠提供簡單性。堅(jiān)定不移地回到業(yè)務(wù)驅(qū)動(dòng)的場景,堅(jiān)持以用戶的可理解性和查詢性能為目標(biāo),才能建立始終如一地服務(wù)于組織的分析需求的設(shè)計(jì)。維度建?蚣軐⒊蔀锽I的平臺;谖覀兌嗄陙矸e累的經(jīng)驗(yàn)以及大量實(shí)踐者的反饋,我們相信維度建模是DW/BI項(xiàng)目成功的關(guān)鍵。 維度建模還是建立集成化的DW/BI系統(tǒng)的主導(dǎo)結(jié)構(gòu)。當(dāng)您使用維度模型的一致性維度和一致性事實(shí)時(shí),可以增量式地建立具有可實(shí)踐的、可預(yù)測的、分布式的復(fù)雜DW/BI系統(tǒng)的 自Ralph Kimball于1996年首次出版The Data Warehouse Toolkit(Wiley)一書以來,數(shù)據(jù)倉庫和商業(yè)智能(Data Warehousing and Business Intelligence,DW/BI)行業(yè)漸趨成熟。盡管初期僅有部分大型公司采用,但從那時(shí)起,DW/BI逐漸為各種規(guī)模的公司所青睞。業(yè)界已建立了數(shù)以千計(jì)的DW/BI系統(tǒng)。隨著數(shù)據(jù)倉庫原子數(shù)據(jù)的不斷增加以及更新越來越頻繁,數(shù)據(jù)容量不斷增長。在我們的職業(yè)生涯中,我們見證了數(shù)據(jù)庫容量從MB到GB再到TB甚至PB的發(fā)展過程,但是,DW/BI系統(tǒng)面臨的基本挑戰(zhàn)并未發(fā)生重大變化。我們的工作就是管理組織中的數(shù)據(jù)并將其用于業(yè)務(wù)用戶的決策制定過程中?偟膩碚f,您必須實(shí)現(xiàn)這一目標(biāo),確保商務(wù)人士制定更好的決策,并從他們的DW/BI投資中獲得回報(bào)。 自The DataWarehouse Toolkit第1版出版以來,維度建模作為一種主要的DW/BI展現(xiàn)技術(shù)受到廣泛認(rèn)可。從業(yè)者與學(xué)者都認(rèn)識到數(shù)據(jù)展現(xiàn)要獲得成功,就必須建立在簡單性的基礎(chǔ)之上。簡單性是使用戶能夠方便地理解數(shù)據(jù)庫,使軟件能夠方便地訪問數(shù)據(jù)庫的基礎(chǔ)性的關(guān)鍵要素。許多情況下,維度建模就是時(shí)刻考慮如何能夠提供簡單性。堅(jiān)定不移地回到業(yè)務(wù)驅(qū)動(dòng)的場景,堅(jiān)持以用戶的可理解性和查詢性能為目標(biāo),才能建立始終如一地服務(wù)于組織的分析需求的設(shè)計(jì)。維度建?蚣軐⒊蔀锽I的平臺。基于我們多年來積累的經(jīng)驗(yàn)以及大量實(shí)踐者的反饋,我們相信維度建模是DW/BI項(xiàng)目成功的關(guān)鍵。 維度建模還是建立集成化的DW/BI系統(tǒng)的主導(dǎo)結(jié)構(gòu)。當(dāng)您使用維度模型的一致性維度和一致性事實(shí)時(shí),可以增量式地建立具有可實(shí)踐的、可預(yù)測的、分布式的復(fù)雜DW/BI系統(tǒng)的框架。 盡管業(yè)界的一切始終在變化,但RalphKimball于17年前提出的核心維度建模技術(shù)經(jīng)受住了時(shí)間的考驗(yàn)。諸如一致性維度、緩慢變化維度、異構(gòu)產(chǎn)品、無事實(shí)的事實(shí)表以及企業(yè)數(shù)據(jù)倉庫總線矩陣等概念仍然是全球范圍內(nèi)設(shè)計(jì)論壇所討論的問題。最初的概念通過新的和互補(bǔ)的技術(shù)被逐漸完善并強(qiáng)化。我們決定對Kimball的書籍發(fā)行第3版,因?yàn)槲覀兏械接斜匾獙⑽覀兯占降木S度建模經(jīng)驗(yàn)匯集到一本書中。我們每個(gè)人都具有30年以上的關(guān)注決策支持、數(shù)據(jù)倉庫和業(yè)務(wù)智能的經(jīng)歷。我們希望分享在職業(yè)生涯中反復(fù)利用的維度建模模式。本書還包含基于現(xiàn)實(shí)場景的特定的實(shí)踐性的設(shè)計(jì)建議。 本書的目標(biāo)是提供維度建模技術(shù)的一站式商店。正如書名所體現(xiàn)的那樣,本書是一本維度設(shè)計(jì)原則和技術(shù)的工具箱。本書既能滿足那些剛剛進(jìn)入維度DW/BI行業(yè)的新手的需要,也描述了許多高級概念以滿足那些長期戰(zhàn)斗在這一行業(yè)的老手的需要。我們相信本書在維度建模主題方面所涵蓋內(nèi)容的深度是獨(dú)一無二的。本書是權(quán)威性的指南。 預(yù)期讀者 本書面向數(shù)據(jù)倉庫和商業(yè)智能設(shè)計(jì)人員、實(shí)踐人員和管理人員。此外,積極參與DW/BI項(xiàng)目的業(yè)務(wù)分析人員和數(shù)據(jù)管理者也會(huì)發(fā)現(xiàn)本書內(nèi)容對他們來說是非常有益的。 即使您并未直接負(fù)責(zé)維度模型的開發(fā)工作,但我們相信熟悉維度建模的概念對項(xiàng)目組所有成員都是非常重要的。維度模型對DW/BI實(shí)現(xiàn)的許多方面都有影響,從業(yè)務(wù)需求的轉(zhuǎn)換開始,通過獲取、轉(zhuǎn)換和加載(ETL)過程,最后到通過商業(yè)智能應(yīng)用發(fā)布數(shù)據(jù)倉庫的整個(gè)過程。由于涉及內(nèi)容的廣泛性,無論您是主要負(fù)責(zé)項(xiàng)目管理、業(yè)務(wù)分析、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫設(shè)計(jì)、ETL和BI應(yīng)用,還是教育和支持,都需要熟悉維度建模。本書適合于方方面面的讀者。 對那些已經(jīng)閱讀過本書前期版本的讀者來說,在本書中將發(fā)現(xiàn)一些熟悉的案例研究,然而,這些案例都被更新了,增加了更豐富的內(nèi)容,幾乎每個(gè)案例都包括樣例企業(yè)數(shù)據(jù)倉庫總線矩陣。我們?yōu)樾碌闹黝}區(qū)域(包括大數(shù)據(jù)分析)提供了相應(yīng)內(nèi)容。 本書內(nèi)容偏向?qū)夹g(shù)的討論。主要從關(guān)系數(shù)據(jù)庫環(huán)境出發(fā)討論維度建模,這一環(huán)境與聯(lián)機(jī)分析處理(OLAP)存在的細(xì)微差別在適當(dāng)之處都進(jìn)行了說明。本書假定讀者對關(guān)系數(shù)據(jù)庫概念有一定的了解,例如表、行、鍵和連接等。鑒于我們在討論維度模型時(shí)不采用某一特定的方法,所以不會(huì)就某一特定數(shù)據(jù)庫管理系統(tǒng)具體的物理設(shè)計(jì)和調(diào)整指導(dǎo)展開深入的討論。 各章預(yù)覽 本書將圍繞一系列商業(yè)場景或案例研究進(jìn)行組織。我們相信通過實(shí)例來研究設(shè)計(jì)技術(shù)是最有效的方法,因?yàn)檫@樣做可以使我們分享非常實(shí)際的指導(dǎo)以及現(xiàn)實(shí)世界的適用經(jīng)驗(yàn)。盡管未提供完整的應(yīng)用或業(yè)界解決方案,但這些案例可用來討論出現(xiàn)在維度建模中的模式。據(jù)我們的經(jīng)驗(yàn)來看,通過遠(yuǎn)離自己所熟悉的復(fù)雜問題,更容易抓住設(shè)計(jì)技術(shù)的要素。閱讀過本書以前各版本的讀者對這一方法的反應(yīng)非常積極。 請注意我們在第2章未采用案例研究方法。鑒于Kimball集團(tuán)所發(fā)明的維度建模技術(shù)得到行業(yè)的廣泛認(rèn)可,我們整理出了這些技術(shù),并簡短地進(jìn)行了描述。盡管并不指望讀者會(huì)像閱讀其他章節(jié)那樣從頭到尾仔細(xì)閱讀,但我們覺得這一以技術(shù)為中心的章節(jié)對讀者來說是一種有益的參考。 除第2章以外,本書其他章節(jié)相互關(guān)聯(lián)。我們以基本概念開始,隨著內(nèi)容的展開,介紹了更高級的內(nèi)容。讀者應(yīng)該順序閱讀各章。例如,除非您閱讀了第16章之前有關(guān)零售、采購、訂單管理和客戶關(guān)系管理的那幾章的內(nèi)容,否則很難理解第16章的相關(guān)內(nèi)容。 對那些已經(jīng)閱讀過本書以前版本的讀者來說,可能會(huì)忽略前面幾章。盡管對前面的事實(shí)和維度比較熟悉,但不希望讀者跳過太多的章節(jié),否則可能會(huì)錯(cuò)過一些已經(jīng)更新的基本概念。 第1章:數(shù)據(jù)倉庫、商業(yè)智能及維度建模初步 本書以數(shù)據(jù)倉庫、商業(yè)智能及維度建模入門開始,探討了整個(gè)DW/BI結(jié)構(gòu)的所有組件并建立了本書其他章節(jié)所用到的核心詞匯。消除了一些有關(guān)維度建模的神化和誤解。 第2章:Kimball維度建模技術(shù)概述 本章描述了超過75個(gè)維度建模技術(shù)以及模式。 第3章:零售業(yè)務(wù) 零售是用于描述維度建模的經(jīng)典實(shí)例。我們之所以從該行業(yè)開始討論是因?yàn)樵撔袠I(yè)為大眾所熟悉。并不需要大家都對該行業(yè)有非常深入的了解,因?yàn)槲覀冎饕窍Mㄟ^該章的學(xué)習(xí)使大家能夠關(guān)注核心的維度建模概念。該章以設(shè)計(jì)維度模型常用的4步過程開始,對維度表開展了深入的研究,包括貫穿全書反復(fù)使用的日期維度。同時(shí),我們還討論了退化維度、雪花維度以及代理鍵。即使您并不從事零售行業(yè)的工作,也需要仔細(xì)閱讀這一章,因?yàn)樵撜率瞧渌髡碌幕A(chǔ)。 第4章:庫存 該章是對第3章零售業(yè)討論的延伸,討論了零售業(yè)的另一個(gè)案例,但請將注意力轉(zhuǎn)移到零售業(yè)的另一個(gè)業(yè)務(wù)過程上。該章介紹了企業(yè)數(shù)據(jù)倉庫總線架構(gòu)以及具有一致性維度的總線矩陣。這些概念對那些希望建立集成的、可擴(kuò)展的DW/BI架構(gòu)的人來說是非常關(guān)鍵的一章。我們還討論了三種基礎(chǔ)類型的事實(shí)表:事務(wù)、周期快照和累積快照。 第5章:采購 該章強(qiáng)調(diào)了在構(gòu)思DW/BI環(huán)境時(shí),企業(yè)組織的價(jià)值鏈的重要性。我們還探討了用于處理緩慢變化維度屬性的一系列基礎(chǔ)的和高級的技術(shù);討論了基本的類型1(重寫)、類型2(增加行)和類型3(增加列),并在此基礎(chǔ)上介紹了類型0,以及類型4~類型7。 第6章:訂單管理 在研究該案例時(shí),我們考察了在DW/BI系統(tǒng)中常常需要首先考慮實(shí)現(xiàn)的業(yè)務(wù)過程,因?yàn)檫@些過程支持核心業(yè)務(wù)性能度量——我們將哪些商品以何種價(jià)格賣給哪些顧客?討論了在模式中扮演多種角色的維度。還討論了在處理訂單管理信息時(shí),建模人員將會(huì)面對的常見挑戰(zhàn),例如,表頭/列表項(xiàng)考慮、多幣種或多種度量單位,以及五花八門的事務(wù)標(biāo)識符的雜項(xiàng)維度等。 第7章:會(huì)計(jì) 該章主要討論了建模數(shù)據(jù)倉庫中的總賬信息。描述了處理年度-日期(year-to-date)事實(shí)和多種財(cái)政日歷,以及將多個(gè)業(yè)務(wù)過程中的數(shù)據(jù)合并到事實(shí)表的適當(dāng)方法。還對維度屬性層次提供了詳細(xì)的指導(dǎo),從簡單的規(guī)范的固定深度層次到包含參差不齊的可變深度層次的橋接表。 第8章:客戶關(guān)系管理 大量的DW/BI系統(tǒng)建立在需要更好地理解客戶并向其提供服務(wù)的前提下。該章討論了客戶維度,包括標(biāo)準(zhǔn)化地址和處理多值維度屬性的橋接表。該章還討論了對復(fù)雜的客戶行為建模的模式,以及如何從多個(gè)數(shù)據(jù)源中合并客戶數(shù)據(jù)的方法。 第9章:人力資源管理 該章討論了人力資源維度模型具有的幾種特性,包括那些維度表行為類似事實(shí)表的情況。該章討論了分析方案軟件包,以及對遞歸管理層次及調(diào)查問卷的處理方法。對幾種處理多值技能關(guān)鍵詞屬性的方法進(jìn)行了比較。 第10章:金融服務(wù) 銀行案例研究探討了那些每個(gè)業(yè)務(wù)列表項(xiàng)具有特定描述性屬性和性能度量的異構(gòu)產(chǎn)品的超類和子類模式的概念。顯然,并不是只有金融服務(wù)行業(yè)需要處理異構(gòu)產(chǎn)品。該章還討論了賬戶、客戶和家庭之間所存在的復(fù)雜關(guān)系。 第11章:電信 該章從結(jié)構(gòu)上來看與前幾章有一些差別,主要是為了鼓勵(lì)讀者在執(zhí)行維度模型設(shè)計(jì)評審時(shí)辯證地考慮問題。該章從乍看似乎是合理的維度設(shè)計(jì)開始。您能夠從中發(fā)現(xiàn)什么問題?此外,該章還討論了地理位置維度的特性。 第12章:交通運(yùn)輸 該章的案例考察了不同粒度級別的相關(guān)事實(shí)表,指出描述旅程或網(wǎng)絡(luò)中區(qū)段的事實(shí)表的特性。進(jìn)一步深入考察了日期和時(shí)間維度,包括特定國家日歷和跨多個(gè)時(shí)區(qū)的同步問題。 第13章:教育 該章考察了幾類無事實(shí)的事實(shí)表。此外,探討了處理學(xué)生應(yīng)用和研究基金申請流水線的累積快照事實(shí)表。該章為讀者提供了了解教育團(tuán)體中各種各樣業(yè)務(wù)過程的機(jī)會(huì)。 第14章:醫(yī)療衛(wèi)生 我們所遇見的最復(fù)雜的模型來自醫(yī)療衛(wèi)生行業(yè)。該章描述了處理此類復(fù)雜性的方法,包括使用橋接表建模多項(xiàng)診斷以及與病人治療事件相關(guān)的提供商。 第15章:電子商務(wù) 該章主要關(guān)注點(diǎn)擊流Web數(shù)據(jù)的細(xì)節(jié),包括其獨(dú)有的多維性。該章還介紹了用于更好地理解包含順序步驟的任何過程的步驟維度。 第16章:保險(xiǎn)業(yè)務(wù) 作為本書提供的最后一個(gè)案例研究,我們將書中前述的各個(gè)模式關(guān)聯(lián)到一起。可將該章看成是對以前各個(gè)章節(jié)的總結(jié),因?yàn)檫@些建模技術(shù)按層次劃分。 第17章:Kimball DW/BI生命周期概述 通過前述章節(jié)的介紹,您已經(jīng)熟悉了維度模型的設(shè)計(jì)方法,該章概述了在典型的DW/BI項(xiàng)目生命周期中將會(huì)遇到的活動(dòng)。該章是對由我們與Bob Becker、Joy Mundy和Warren Thornthwaite共同編寫的The Data Warehouse Lifecycle Toolkit, Second Edition(Wiley, 2008)一書的簡短概述。 第18章:維度建模過程與任務(wù) 該章對處理Kimball生命周期中的維度建模任務(wù)提出了具體的建議。本書的前16章包含維度建模技術(shù)和設(shè)計(jì)模式;該章描述責(zé)任、操作方式,以及維度建模設(shè)計(jì)活動(dòng)的發(fā)布物。 第19章:ETL子系統(tǒng)與技術(shù) 在構(gòu)建DW/BI環(huán)境時(shí),ETL(獲取、轉(zhuǎn)換、加載)系統(tǒng)將會(huì)消耗大量的時(shí)間和精力,與其他部分工作比較,幾乎不成比例。仔細(xì)考慮的最佳實(shí)踐揭示了在幾乎所有維度數(shù)據(jù)倉庫后端都將發(fā)現(xiàn)的34個(gè)子系統(tǒng)。該章首先討論了在設(shè)計(jì)ETL系統(tǒng)之前必須考慮的需求和約束,然后描述了34個(gè)與獲取、清洗、一致性、發(fā)布和管理有關(guān)的子系統(tǒng)。 第20章:ETL系統(tǒng)設(shè)計(jì)與開發(fā)過程和任務(wù) 該章深入探討了與ETL設(shè)計(jì)和開發(fā)活動(dòng)有關(guān)或無關(guān)的具體技術(shù)。那些對ETL負(fù)有責(zé)任的讀者都應(yīng)該閱讀本章。 第21章:大數(shù)據(jù)分析 最后一章主要關(guān)注大數(shù)據(jù)這一正在流行的主題。我們認(rèn)為,大數(shù)據(jù)是對DW/BI系統(tǒng)的自然擴(kuò)展。首先討論了幾種可選的結(jié)構(gòu),包括MapReduce和Hadoop,描述了這些可選系統(tǒng)如何與當(dāng)前的DW/BI結(jié)構(gòu)共存的問題。接著討論了針對大數(shù)據(jù)的管理、結(jié)構(gòu)、數(shù)據(jù)建模和數(shù)據(jù)治理的最佳實(shí)踐。 Web資源 Kimball集團(tuán)網(wǎng)站www.kimballgroup.com包含許多補(bǔ)充的維度建模內(nèi)容和資源: ● 注冊Kimball Design Tips可收到有關(guān)維度建模和DW/BI主題的實(shí)踐指導(dǎo)。 ● 訪問目錄可獲得300個(gè)設(shè)計(jì)技巧和文章。 ● 通過學(xué)習(xí)Kimball大學(xué)公開的和現(xiàn)場的課程,可獲得高質(zhì)量、獨(dú)立于提供商的教育,并分享我們的經(jīng)驗(yàn)和文章。 ● 獲得Kimball集團(tuán)咨詢服務(wù)以利用我們幾十年積累的有關(guān)DW/BI的寶貴經(jīng)驗(yàn)。 ● 向Kimball論壇的其他維度設(shè)計(jì)參與者提問。 小結(jié) 本書的寫作目標(biāo)是基于作者60多年來從實(shí)際業(yè)務(wù)環(huán)境中獲得的經(jīng)驗(yàn)和來之不易的教訓(xùn),為讀者提供正式的維度設(shè)計(jì)和開發(fā)技術(shù)。DW/BI系統(tǒng)必須以業(yè)務(wù)用戶的需求來驅(qū)動(dòng),如此才能真正從維度角度設(shè)計(jì)和展現(xiàn)。我們堅(jiān)信,如果您能夠接受這一前提,將會(huì)朝建立成功的DW/BI系統(tǒng)邁出巨大的一步。 既然知道從何開始,請開始仔細(xì)閱讀本書。在第1章中將討論DW/BI和維度建模的基本內(nèi)容,確保每個(gè)人對關(guān)鍵術(shù)語和結(jié)構(gòu)性概念具有統(tǒng)一的認(rèn)識。
Ralph Kimball博士自1982年以來,一直是數(shù)據(jù)倉庫和商業(yè)智能行業(yè)的思想開拓者。自1996年以來,The Data Warehouse Toolkit系列書籍一直是最受讀者歡迎的暢銷書。 Margy Ross是Kimball集團(tuán)總裁,她與Ralph Kimball合作撰寫了5本工具箱系列書籍。她關(guān)注數(shù)據(jù)倉庫和商業(yè)智能已有30多年的歷史。 目 錄
第1章 數(shù)據(jù)倉庫、商業(yè)智能及維度建模初步 1 1.1 數(shù)據(jù)獲取與數(shù)據(jù)分析的區(qū)別 1 1.2 數(shù)據(jù)倉庫與商業(yè)智能的目標(biāo) 2 1.3 維度建模簡介 5 1.3.1 星型模式與OLAP多維數(shù)據(jù)庫 6 1.3.2 用于度量的事實(shí)表 7 1.3.3 用于描述環(huán)境的維度表 9 1.3.4 星型模式中維度與事實(shí)的連接 11 1.4 Kimball的DW/BI架構(gòu) 14 1.4.1 操作型源系統(tǒng) 14 1.4.2 獲取-轉(zhuǎn)換-加載(ETL)系統(tǒng) 14 1.4.3 用于支持商業(yè)智能決策的展現(xiàn)區(qū) 16 1.4.4 商業(yè)智能應(yīng)用 17 1.4.5 以餐廳為例描述Kimball架構(gòu) 17 1.5 其他DW/BI架構(gòu) 19 1.5.1 獨(dú)立數(shù)據(jù)集市架構(gòu) 19 1.5.2 輻射狀企業(yè)信息工廠Inmon架構(gòu) 20 1.5.3 混合輻射狀架構(gòu)與Kimball架構(gòu) 22 1.6 維度建模神話 22 1.6.1 神話1:維度模型僅包含匯總數(shù)據(jù) 23 1.6.2 神話2:維度模型是部門級而不是企業(yè)級的 23 1.6.3 神話3:維度模型是不可擴(kuò)展的 23 1.6.4 神話4:維度模型僅用于預(yù)測 23 1.6.5 神話5:維度模型不能被集成 24 1.7 考慮使用維度模型的更多理由 24 1.8 本章小結(jié) 25 第2章 Kimball維度建模技術(shù)概述 27 2.1 基本概念 27 2.1.1 收集業(yè)務(wù)需求與數(shù)據(jù)實(shí)現(xiàn) 27 2.1.2 協(xié)作維度建模研討 27 2.1.3 4步驟維度設(shè)計(jì)過程 28 2.1.4 業(yè)務(wù)過程 28 2.1.5 粒度 28 2.1.6 描述環(huán)境的維度 28 2.1.7 用于度量的事實(shí) 29 2.1.8 星型模式與OLAP多維數(shù)據(jù)庫 29 2.1.9 方便地?cái)U(kuò)展到維度模型 29 2.2 事實(shí)表技術(shù)基礎(chǔ) 29 2.2.1 事實(shí)表結(jié)構(gòu) 29 2.2.2 可加、半可加、不可加事實(shí) 29 2.2.3 事實(shí)表中的空值 30 2.2.4 一致性事實(shí) 30 2.2.5 事務(wù)事實(shí)表 30 2.2.6 周期快照事實(shí)表 30 2.2.7 累積快照事實(shí)表 30 2.2.8 無事實(shí)的事實(shí)表 31 2.2.9 聚集事實(shí)表或OLAP多維數(shù)據(jù)庫 31 2.2.10 合并事實(shí)表 31 2.3 維度表技術(shù)基礎(chǔ) 31 2.3.1 維度表結(jié)構(gòu) 31 2.3.2 維度代理鍵 32 2.3.3 自然鍵、持久鍵和超自然鍵 32 2.3.4 下鉆 32 2.3.5 退化維度 32 2.3.6 非規(guī)范化扁平維度 32 2.3.7 多層次維度 32 2.3.8 文檔屬性的標(biāo)識與指示器 33 2.3.9 維度表中的空值屬性 33 2.3.10 日歷日期維度 33 2.3.11 扮演角色的維度 33 2.3.12 雜項(xiàng)維度 33 2.3.13 雪花維度 33 2.3.14 支架維度 34 2.4 使用一致性維度集成 34 2.4.1 一致性維度 34 2.4.2 縮減維度 34 2.4.3 跨表鉆取 34 2.4.4 價(jià)值鏈 34 2.4.5 企業(yè)數(shù)據(jù)倉庫總線架構(gòu) 35 2.4.6 企業(yè)數(shù)據(jù)倉庫總線矩陣 35 2.4.7 總線矩陣實(shí)現(xiàn)細(xì)節(jié) 35 2.4.8 機(jī)會(huì)/利益相關(guān)方矩陣 35 2.5 處理緩慢變化維度屬性 35 2.5.1 類型0:原樣保留 35 2.5.2 類型1:重寫 35 2.5.3 類型2:增加新行 36 2.5.4 類型3:增加新屬性 36 2.5.5 類型4:增加微型維度 36 2.5.6 類型5:增加微型維度及類型1支架 36 2.5.7 類型6:增加類型1屬性到類型2維度 36 2.5.8 類型7:雙類型1和類型2維度 36 2.6 處理維度層次關(guān)系 37 2.6.1 固定深度位置的層次 37 2.6.2 輕微參差不齊/可變深度層次 37 2.6.3 具有層次橋接表的參差不齊/可變深度層次 37 2.6.4 具有路徑字符屬性的可變深度層次 37 2.7 高級事實(shí)表技術(shù) 37 2.7.1 事實(shí)表代理鍵 37 2.7.2 蜈蚣事實(shí)表 38 2.7.3 屬性或事實(shí)的數(shù)字值 38 2.7.4 日志/持續(xù)時(shí)間事實(shí) 38 2.7.5 頭/行事實(shí)表 38 2.7.6 分配的事實(shí) 38 2.7.7 利用分配建立利潤與損失事實(shí)表 38 2.7.8 多種貨幣事實(shí) 39 2.7.9 多種度量事實(shí)單位 39 2.7.10 年-日事實(shí) 39 2.7.11 多遍SQL以避免事實(shí)表間的連接 39 2.7.12 針對事實(shí)表的時(shí)間跟蹤 39 2.7.13 遲到的事實(shí) 40 2.8 高級維度技術(shù) 40 2.8.1 維度表連接 40 2.8.2 多值維度與橋接表 40 2.8.3 隨時(shí)間變化的多值橋接表 40 2.8.4 標(biāo)簽的時(shí)間序列行為 40 2.8.5 行為研究分組 40 2.8.6 聚集事實(shí)作為維度屬性 41 2.8.7 動(dòng)態(tài)值范圍 41 2.8.8 文本注釋維度 41 2.8.9 多時(shí)區(qū) 41 2.8.10 度量類型維度 41 2.8.11 步驟維度 41 2.8.12 熱交換維度 42 2.8.13 抽象通用維度 42 2.8.14 審計(jì)維度 42 2.8.15 最后產(chǎn)生的維度 42 2.9 特殊目的模式 42 2.9.1 異構(gòu)產(chǎn)品的超類與子類模式 43 2.9.2 實(shí)時(shí)事實(shí)表 43 2.9.3 錯(cuò)誤事件模式 43 第3章 零售業(yè)務(wù) 45 3.1 維度模型設(shè)計(jì)的4步過程 46 3.1.1 第1步:選擇業(yè)務(wù)過程 46 3.1.2 第2步:聲明粒度 46 3.1.3 第3步:確定維度 47 3.1.4 第4步:確定事實(shí) 47 3.2 零售業(yè)務(wù)案例研究 47 3.2.1 第1步:選擇業(yè)務(wù)過程 49 3.2.2 第2步:聲明粒度 49 3.2.3 第3步:確定維度 50 3.2.4 第4步:確定事實(shí) 50 3.3 維度表設(shè)計(jì)細(xì)節(jié) 53 3.3.1 日期維度 53 3.3.2 產(chǎn)品維度 56 3.3.3 商店維度 59 3.3.4 促銷維度 60 3.3.5 其他零售業(yè)維度 62 3.3.6 事務(wù)號碼的退化維度 63 3.4 實(shí)際的銷售模式 63 3.5 零售模式的擴(kuò)展能力 64 3.6 無事實(shí)的事實(shí)表 65 3.7 維度與事實(shí)表鍵 66 3.7.1 維度表代理鍵 66 3.7.2 維度中自然和持久的超自然鍵 68 3.7.3 退化維度的代理鍵 68 3.7.4 日期維度的智能鍵 68 3.7.5 事實(shí)表的代理鍵 69 3.8 抵制規(guī)范化的沖動(dòng) 70 3.8.1 具有規(guī)范化維度的雪花模式 70 3.8.2 支架表 72 3.8.3 包含大量維度的蜈蚣事實(shí)表 72 3.9 本章小結(jié) 74 第4章 庫存 75 4.1 價(jià)值鏈簡介 75 4.2 庫存模型 76 4.2.1 庫存周期快照 76 4.2.2 庫存事務(wù) 79 4.2.3 庫存累積快照 80 4.3 事實(shí)表類型 81 4.3.1 事務(wù)事實(shí)表 81 4.3.2 周期快照事實(shí)表 82 4.3.3 累積快照事實(shí)表 82 4.3.4 輔助事實(shí)表類型 83 4.4 價(jià)值鏈集成 83 4.5 企業(yè)數(shù)據(jù)倉庫總線架構(gòu) 84 4.5.1 理解總線架構(gòu) 84 4.5.2 企業(yè)數(shù)據(jù)倉庫總線矩陣 85 4.6 一致性維度 89 4.6.1 多事實(shí)表鉆取 89 4.6.2 相同的一致性維度 89 4.6.3 包含屬性子集的縮減上卷一致性維度 90 4.6.4 包含行子集的縮減一致性維度 91 4.6.5 總線矩陣的縮減一致性維度 91 4.6.6 有限一致性 92 4.6.7 數(shù)據(jù)治理與管理的重要性 92 4.6.8 一致性維度與敏捷開發(fā) 94 4.7 一致性事實(shí) 94 4.8 本章小結(jié) 95 第5章 采購 97 5.1 采購案例研究 97 5.2 采購事務(wù)與總線矩陣 98 5.2.1 單一事務(wù)事實(shí)表與多事務(wù)事實(shí)表 98 5.2.2 輔助采購快照 101 5.3 緩慢變化維度(SCD)基礎(chǔ) 101 5.3.1 類型0:保留原始值 102 5.3.2 類型1:重寫 102 5.3.3 類型2:增加新行 104 5.3.4 類型3:增加新屬性 106 5.3.5 類型4:增加微型維度 108 5.4 混合緩慢變化維度技術(shù) 110 5.4.1 類型5:微型維度與類型1支架表 110 5.4.2 類型6:將類型1屬性增加到類型2維度 111 5.4.3 類型7:雙重類型1與類型2維度 112 5.5 緩慢變化維度總結(jié) 113 5.6 本章小結(jié) 114 第6章 訂單管理 115 6.1 訂單管理總線矩陣 116 6.2 訂單事務(wù) 116 6.2.1 事實(shí)表規(guī)范化 117 6.2.2 維度角色扮演 117 6.2.3 重新審視產(chǎn)品維度 119 6.2.4 客戶維度 120 6.2.5 交易維度 122 6.2.6 針對訂單號的退化維度 123 6.2.7 雜項(xiàng)維度 124 6.2.8 應(yīng)該避免的表頭/明細(xì)模式 125 6.2.9 多幣種 126 6.2.10 不同粒度的事務(wù)事實(shí) 128 6.2.11 另外一種需要避免的表頭/明細(xì)模式 129 6.3 發(fā)票事務(wù) 130 6.3.1 作為事實(shí)、維度或兩者兼顧的服務(wù)級性能 131 6.3.2 利潤與損益事實(shí) 131 6.3.3 審計(jì)維度 133 6.4 用于訂單整個(gè)流水線的累積快照 134 6.4.1 延遲計(jì)算 136 6.4.2 多種度量單位 137 6.4.3 超越后視鏡 138 6.5 本章小結(jié) 138 第7章 會(huì)計(jì) 139 7.1 會(huì)計(jì)案例研究與總線矩陣 139 7.2 總賬數(shù)據(jù) 141 7.2.1 總賬周期快照 141 7.2.2 會(huì)計(jì)科目表 141 7.2.3 結(jié)賬 141 7.2.4 年度-日期事實(shí) 143 7.2.5 再次討論多幣種問題 143 7.2.6 總賬日記賬事務(wù) 143 7.2.7 多種財(cái)務(wù)會(huì)計(jì)日歷 144 7.2.8 多級別層次下鉆 145 7.2.9 財(cái)務(wù)報(bào)表 145 7.3 預(yù)算編制過程 146 7.4 維度屬性層次 148 7.4.1 固定深度的位置層次 148 7.4.2 具有輕微不整齊的可變深度層次 149 7.4.3 不整齊可變深度層次 149 7.4.4 不規(guī)則層次中的共享所有權(quán) 152 7.4.5 隨時(shí)間變化的不規(guī)則層次 153 7.4.6 修改不規(guī)則層次 153 7.4.7 其他不規(guī)則層次的建模方法 154 7.4.8 應(yīng)用于不規(guī)則層次的橋接表方法的優(yōu)點(diǎn) 156 7.5 合并事實(shí)表 156 7.6 OLAP角色及分析方案包 157 7.7 本章小結(jié) 158 第8章 客戶關(guān)系管理 159 8.1 客戶關(guān)系管理概述 160 8.2 客戶維度屬性 162 8.2.1 名字與地址的語法分析 162 8.2.2 國際姓名和地址的考慮 164 8.2.3 客戶為中心的日期 165 8.2.4 作為維度屬性的聚集事實(shí) 166 8.2.5 分段屬性與記分 166 8.2.6 包含類型2維度變化的計(jì)算 169 8.2.7 低粒度屬性集合的支架表 169 8.2.8 客戶層次的考慮 170 8.3 應(yīng)用于多值維度的橋接表 171 8.3.1 稀疏屬性的橋接表 172 8.3.2 應(yīng)用于客戶多種聯(lián)系方式的橋接表 173 8.4 復(fù)雜的客戶行為 173 8.4.1 客戶隊(duì)列的行為研究分組 173 8.4.2 連續(xù)行為的步驟維度 175 8.4.3 時(shí)間范圍事實(shí)表 176 8.4.4 使用滿意度指標(biāo)標(biāo)記事實(shí)表 177 8.4.5 使用異常情景指標(biāo)標(biāo)記事實(shí)表 178 8.5 客戶數(shù)據(jù)集成方法 178 8.5.1 建立單一客戶維度的主數(shù)據(jù)管理 179 8.5.2 多客戶維度的局部一致性 180 8.5.3 避免對應(yīng)事實(shí)表的連接 180 8.6 低延遲的實(shí)現(xiàn)檢查 181 8.7 本章小結(jié) 182 第9章 人力資源管理 183 9.1 雇員檔案跟蹤 183 9.1.1 精確的有效和失效時(shí)間范圍 184 9.1.2 維度變化原因跟蹤 185 9.1.3 作為類型2屬性或事實(shí)事件的檔案變化 185 9.2 雇員總數(shù)周期快照 186 9.3 人力資源過程的總線矩陣 187 9.4 分析解決方案軟件包與數(shù)據(jù)模型 188 9.5 遞歸式雇員層次 189 9.5.1 針對嵌入式經(jīng)理主鍵變化的跟蹤 190 9.5.2 上鉆或下鉆管理層次 190 9.6 多值技能關(guān)鍵字屬性 191 9.6.1 技能關(guān)鍵字橋接表 191 9.6.2 技能關(guān)鍵字文本字符串 192 9.7 調(diào)查問卷數(shù)據(jù) 193 9.8 本章小結(jié) 194 第10章 金融服務(wù) 195 10.1 銀行案例研究與總線矩陣 195 10.2 分類維度以避免出現(xiàn)維度太少的情況 196 10.2.1 家庭維度 199 10.2.2 多值維度與權(quán)重因子 199 10.2.3 再談微型維度 200 10.2.4 在橋接表中增加微型維度 202 10.2.5 動(dòng)態(tài)值范圍事實(shí) 202 10.3 異構(gòu)產(chǎn)品的超類和子類模式 203 10.4 熱可交換維度 205 10.5 本章小結(jié) 205 第11章 電信 207 11.1 電信業(yè)案例研究與總線矩陣 207 11.2 設(shè)計(jì)評審的一般性考慮 209 11.2.1 業(yè)務(wù)需求與實(shí)際可用資源的權(quán)衡 209 11.2.2 關(guān)注業(yè)務(wù)過程 209 11.2.3 粒度 210 11.2.4 統(tǒng)一的事實(shí)表粒度 210 11.2.5 維度的粒度和層次 210 11.2.6 日期維度 211 11.2.7 退化維度 211 11.2.8 代理鍵 212 11.2.9 維度解碼與描述符 212 11.2.10 一致的承諾 212 11.3 設(shè)計(jì)評審指導(dǎo) 212 11.4 草案設(shè)計(jì)訓(xùn)練的討論 214 11.5 重新建模已存在的數(shù)據(jù)結(jié)構(gòu) 215 11.6 地理位置維度 216 11.7 本章小結(jié) 216 第12章 交通運(yùn)輸 217 12.1 航空案例研究與總線矩陣 217 12.1.1 多種事實(shí)表粒度 218 12.1.2 連接區(qū)段形成旅程 220 12.1.3 相關(guān)事實(shí)表 221 12.2 擴(kuò)展至其他行業(yè) 221 12.2.1 貨物托運(yùn)人 221 12.2.2 旅行服務(wù) 222 12.3 相關(guān)維度合并 222 12.3.1 服務(wù)類別 223 12.3.2 始發(fā)地與目的地 224 12.4 更多有關(guān)日期和時(shí)間的考慮 225 12.4.1 用作支架表的特定國家日歷 225 12.4.2 多時(shí)區(qū)的日期和時(shí)間 226 12.5 本地化概要 226 12.6 本章小結(jié) 227 第13章 教育 229 13.1 大學(xué)案例研究與總線矩陣 229 13.2 累積快照事實(shí)表 231 13.2.1 申請流水線 231 13.2.2 科研資助項(xiàng)目流水線 232 13.3 無事實(shí)的事實(shí)表 232 13.3.1 招生事件 233 13.3.2 課程注冊 233 13.3.3 設(shè)施使用 235 13.3.4 學(xué)生考勤 236 13.4 更多關(guān)于教育分析的情況 237 13.5 本章小結(jié) 237 第14章 醫(yī)療衛(wèi)生 239 14.1 醫(yī)療衛(wèi)生案例研究與總線矩陣 239 14.2 報(bào)銷單據(jù)與支付 241 14.2.1 日期維度角色扮演 243 14.2.2 多值診斷 243 14.2.3 收費(fèi)的超類與子類 245 14.3 電子醫(yī)療記錄 246 14.3.1 度量稀疏事實(shí)的類型維度 246 14.3.2 自由文本注釋 247 14.3.3 圖像 247 14.4 設(shè)施/設(shè)備的庫存利用 247 14.5 處理可追溯的變化 248 14.6 本章小結(jié) 248 第15章 電子商務(wù) 249 15.1 點(diǎn)擊流源數(shù)據(jù) 249 15.2 點(diǎn)擊流維度模型 252 15.2.1 網(wǎng)頁維度 252 15.2.2 事件維度 253 15.2.3 會(huì)話維度 254 15.2.4 推薦維度 254 15.2.5 點(diǎn)擊流會(huì)話事實(shí)表 255 15.2.6 點(diǎn)擊流網(wǎng)頁事件事實(shí)表 256 15.2.7 步驟維度 258 15.2.8 聚集點(diǎn)擊流事實(shí)表 258 15.2.9 Google Analytics(GA) 259 15.3 將點(diǎn)擊流集成到Web零售商總線矩陣中 259 15.4 包含Web的跨渠道贏利能力 261 15.5 本章小結(jié) 263 第16章 保險(xiǎn)業(yè)務(wù) 265 16.1 保險(xiǎn)案例研究 266 16.1.1 保險(xiǎn)業(yè)價(jià)值鏈 266 16.1.2 總線矩陣草案 267 16.2 保單事務(wù) 268 16.2.1 維度角色扮演 268 16.2.2 緩慢變化維度 268 16.2.3 針對大型和快速變化維度的微型維度 269 16.2.4 多值維度屬性 269 16.2.5 作為事實(shí)或維度的數(shù)值屬性 270 16.2.6 退化維度 270 16.2.7 低粒度維度表 270 16.2.8 審計(jì)維度 270 16.2.9 保單事務(wù)事實(shí)表 270 16.2.10 異構(gòu)的超類和子類產(chǎn)品 271 16.2.11 輔助保險(xiǎn)累積快照 272 16.3 保費(fèi)周期快照 272 16.3.1 一致性維度 272 16.3.2 一致性事實(shí) 273 16.3.3 預(yù)付事實(shí) 273 16.3.4 再談異構(gòu)超類與子類 273 16.3.5 再談多值維度 274 16.4 更多保險(xiǎn)案例研究背景 274 16.4.1 更新保險(xiǎn)行業(yè)總線矩陣 275 16.4.2 總線矩陣實(shí)現(xiàn)細(xì)節(jié) 275 16.5 索賠事務(wù) 277 16.6 索賠累積快照 278 16.6.1 復(fù)雜工作流的累積快照 279 16.6.2 時(shí)間范圍累積快照 279 16.6.3 周期而不是累積快照 280 16.7 保單/索賠合并的周期快照 280 16.8 無事實(shí)的意外事件 280 16.9 需要避免的常見維度建模錯(cuò)誤 281 16.9.1 錯(cuò)誤10:在事實(shí)表中放入文本屬性 281 16.9.2 錯(cuò)誤9:限制使用冗長的描述符以節(jié)省空間 281 16.9.3 錯(cuò)誤8:將層次劃分為多個(gè)維度 282 16.9.4 錯(cuò)誤7:忽略對維度變化進(jìn)行跟蹤的需要 282 16.9.5 錯(cuò)誤6:使用更多的硬件解決所有的性能問題 282 16.9.6 錯(cuò)誤5:使用操作型鍵連接維度和事實(shí) 282 16.9.7 錯(cuò)誤4:忽視對事實(shí)粒度的聲明并混淆事實(shí)粒度 282 16.9.8 錯(cuò)誤3:使用報(bào)表設(shè)計(jì)維度模型 283 16.9.9 錯(cuò)誤2:希望用戶查詢規(guī)范化的原子數(shù)據(jù) 283 16.9.10 錯(cuò)誤1:違反事實(shí)和維度的一致性要求 283 16.10 本章小結(jié) 284 第17章 Kimball DW/BI生命周期概述 285 17.1 生命周期路標(biāo) 286 17.2 生命周期初始活動(dòng) 287 17.2.1 程序/項(xiàng)目規(guī)劃與管理 287 17.2.2 業(yè)務(wù)需求定義 290 17.3 生命周期技術(shù)路徑 294 17.3.1 技術(shù)架構(gòu)設(shè)計(jì) 294 17.3.2 產(chǎn)品選擇與安裝 296 17.4 生命周期數(shù)據(jù)路徑 297 17.4.1 維度建模 297 17.4.2 物理設(shè)計(jì) 297 17.4.3 ETL設(shè)計(jì)與開發(fā) 299 17.5 生命周期BI應(yīng)用路徑 299 17.5.1 BI應(yīng)用規(guī)范 299 17.5.2 BI應(yīng)用開發(fā) 299 17.6 生命周期總結(jié)活動(dòng) 300 17.6.1 部署 300 17.6.2 維護(hù)和發(fā)展 300 17.7 應(yīng)當(dāng)避免的常見錯(cuò)誤 301 17.8 本章小結(jié) 302 第18章 維度建模過程與任務(wù) 303 18.1 建模過程概述 303 18.2 組織工作 304 18.2.1 確定參與人,特別是業(yè)務(wù)代表們 304 18.2.2 業(yè)務(wù)需求評審 305 18.2.3 利用建模工具 305 18.2.4 利用數(shù)據(jù)分析工具 306 18.2.5 利用或建立命名規(guī)則 306 18.2.6 日歷和設(shè)施的協(xié)調(diào) 306 18.3 維度模型設(shè)計(jì) 307 18.3.1 統(tǒng)一對高層氣泡圖的理解 307 18.3.2 開發(fā)詳細(xì)的維度模型 308 18.3.3 模型評審與驗(yàn)證 311 18.3.4 形成設(shè)計(jì)文檔 312 18.4 本章小結(jié) 312 第19章 ETL子系統(tǒng)與技術(shù) 313 19.1 需求綜合 314 19.1.1 業(yè)務(wù)需求 314 19.1.2 合規(guī)性 314 19.1.3 數(shù)據(jù)質(zhì)量 314 19.1.4 安全性 315 19.1.5 數(shù)據(jù)集成 315 19.1.6 數(shù)據(jù)延遲 316 19.1.7 歸檔與世系 316 19.1.8 BI發(fā)布接口 316 19.1.9 可用的技能 317 19.1.10 傳統(tǒng)的許可證書 317 19.2 ETL的34個(gè)子系統(tǒng) 317 19.3 獲。簩(shù)據(jù)插入到數(shù)據(jù)倉庫中 318 19.3.1 子系統(tǒng)1:數(shù)據(jù)分析 318 19.3.2 子系統(tǒng)2:變化數(shù)據(jù)獲取系統(tǒng) 319 19.3.3 子系統(tǒng)3:獲取系統(tǒng) 320 19.4 清洗與整合數(shù)據(jù) 321 19.4.1 提高數(shù)據(jù)質(zhì)量文化與過程 322 19.4.2 子系統(tǒng)4:數(shù)據(jù)清洗系統(tǒng) 323 19.4.3 子系統(tǒng)5:錯(cuò)誤事件模式 324 19.4.4 子系統(tǒng)6:審計(jì)維度裝配器 325 19.4.5 子系統(tǒng)7:重復(fù)數(shù)據(jù)刪除(deduplication)系統(tǒng) 326 19.4.6 子系統(tǒng)8:一致性系統(tǒng) 326 19.5 發(fā)布:準(zhǔn)備展現(xiàn) 328 19.5.1 子系統(tǒng)9:緩慢變化維度管理器 328 19.5.2 子系統(tǒng)10:代理鍵產(chǎn)生器 332 19.5.3 子系統(tǒng)11:層次管理器 332 19.5.4 子系統(tǒng)12:特定維度管理器 333 19.5.5 子系統(tǒng)13:事實(shí)表建立器 335 19.5.6 子系統(tǒng)14:代理鍵流水線 336 19.5.7 子系統(tǒng)15:多值維度橋接表建立器 337 19.5.8 子系統(tǒng)16:遲到數(shù)據(jù)處理器 338 19.5.9 子系統(tǒng)17:維度管理器系統(tǒng) 339 19.5.10 子系統(tǒng)18:事實(shí)提供者系統(tǒng) 339 19.5.11 子系統(tǒng)19:聚集建立器 340 19.5.12 子系統(tǒng)20:OLAP多維數(shù)據(jù)庫建立器 340 19.5.13 子系統(tǒng)21:數(shù)據(jù)傳播管理器 340 19.6 管理ETL環(huán)境 341 19.6.1 子系統(tǒng)22:任務(wù)調(diào)度器 341 19.6.2 子系統(tǒng)23:備份系統(tǒng) 342 19.6.3 子系統(tǒng)24:恢復(fù)與重啟系統(tǒng) 343 19.6.4 子系統(tǒng)25:版本控制系統(tǒng) 344 19.6.5 子系統(tǒng)26:版本遷移系統(tǒng) 345 19.6.6 子系統(tǒng)27:工作流監(jiān)視器 345 19.6.7 子系統(tǒng)28:排序系統(tǒng) 346 19.6.8 子系統(tǒng)29:世系及依賴分析器 346 19.6.9 子系統(tǒng)30:問題提升系統(tǒng) 346 19.6.10 子系統(tǒng)31:并行/流水線系統(tǒng) 347 19.6.11 子系統(tǒng)32:安全系統(tǒng) 347 19.6.12 子系統(tǒng)33:合規(guī)性管理器 348 19.6.13 子系統(tǒng)34:元數(shù)據(jù)存儲(chǔ)庫管理器 350 19.7 本章小結(jié) 350 第20章 ETL系統(tǒng)設(shè)計(jì)與開發(fā)過程和任務(wù) 351 20.1 ETL過程概覽 351 20.2 ETL開發(fā)規(guī)劃 351 20.2.1 第1步:設(shè)計(jì)高層規(guī)劃 352 20.2.2 第2步:選擇ETL工具 352 20.2.3 第3步:開發(fā)默認(rèn)策略 353 20.2.4 第4步:按照目標(biāo)表鉆取數(shù)據(jù) 354 20.2.5 開發(fā)ETL規(guī)范文檔 355 20.3 開發(fā)一次性的歷史加載過程 356 20.3.1 第5步:用歷史數(shù)據(jù)填充維度表 356 20.3.2 第6步:完成事實(shí)表歷史加載 360 20.4 開發(fā)增量式ETL過程 363 20.4.1 第7步:維度表增量處理過程 363 20.4.2 第8步:事實(shí)表增量處理過程 365 20.4.3 第9步:聚集表與OLAP加載 367 20.4.4 第10步:ETL系統(tǒng)操作與自動(dòng)化 368 20.5 實(shí)時(shí)的影響 368 20.5.1 實(shí)時(shí)分類 369 20.5.2 實(shí)時(shí)結(jié)構(gòu)權(quán)衡 370 20.5.3 展現(xiàn)服務(wù)器上的實(shí)時(shí)分區(qū) 371 20.6 本章小結(jié) 372 第21章 大數(shù)據(jù)分析 373 21.1 大數(shù)據(jù)概覽 373 21.1.1 擴(kuò)展的RDBMS結(jié)構(gòu) 374 21.1.2 MapReduce/Hadoop結(jié)構(gòu) 375 21.1.3 大數(shù)據(jù)結(jié)構(gòu)比較 376 21.2 推薦的應(yīng)用于大數(shù)據(jù)的最佳實(shí)踐 376 21.2.1 面向大數(shù)據(jù)管理的最佳實(shí)踐 376 21.2.2 面向大數(shù)據(jù)結(jié)構(gòu)的最佳實(shí)踐 377 21.2.3 應(yīng)用于大數(shù)據(jù)的數(shù)據(jù)建模最佳實(shí)踐 381 21.2.4 大數(shù)據(jù)的數(shù)據(jù)治理最佳實(shí)踐 383 21.3 本章小結(jié) 384
你還可能感興趣
我要評論
|