《大數(shù)據技術原理與操作應用》圍繞Hadoop生態(tài)圈相關組件系統(tǒng)介紹大數(shù)據架構。全書共10章,其中,第1、2章主要介紹Hadoop的概述以及如何搭建Hadoop的集群;第3章~第5章介紹分布式文件系統(tǒng)(HDFS)、分布式計算框架(Ma-pReduce)以及分布式協(xié)調服務;第6章介紹Hadoop 2.0新特性,包含YARN和高可用集群的原理。第7章-第9章主要介紹Hadoop生態(tài)圈的相關輔助系統(tǒng),包含Hive、Flume、Sqoop;第10章是綜合案例的開發(fā),利用Hadoop的相關組件進行項目的開發(fā),同時加深對Hadoop生態(tài)圈的技術的理解。
《大數(shù)據技術原理與操作應用》可以作為高職高專計算機相關專業(yè)、信息系統(tǒng)相關專業(yè)、數(shù)據科學相關專業(yè)的大數(shù)據平臺課程教材,也可供一線技術人員參考。
信息社會最重要的特征之一,就是每時每刻都在產生著海量的數(shù)據。海量的生產數(shù)據、處理數(shù)據和應用數(shù)據,將伴隨著物聯(lián)網、移動互聯(lián)網、數(shù)字家庭、社會化網絡等新一代信息技術應用不斷地增長。未來在智慧城市、電信、金融、衛(wèi)生、電子商務以及電子政務等領域將是大數(shù)據技術與應用的最佳行業(yè)的沃土,對大數(shù)據的處理和分析成為新一代信息技術的融合發(fā)展的核心支撐。
本書的章節(jié)設置是為適應大數(shù)據開發(fā)應用產業(yè)對高素質技術技能型人才的職業(yè)需求,覆蓋大數(shù)據行業(yè)典型工作流程崗位,包括大數(shù)據平臺與相關工具配置、數(shù)據處理與計算、數(shù)據分析與可視化展現(xiàn)等。綜合項目章節(jié)選取典型的大數(shù)據真實業(yè)務分析應用場景,圍繞對Hadoop集群的安裝配置、管理及MapReduce計算,并包含大數(shù)據處理相關算法應用與軟件工具運用,從而激發(fā)學生對大數(shù)據知識和技術的學習興趣,提升學生職業(yè)素養(yǎng)和職業(yè)技能,努力為我國大數(shù)據應用產業(yè)發(fā)展儲備及輸送人才。
本書理念先進、內容新穎,并以注重實用、提高技能為目的,通過大量的實例和實訓內容,幫助讀者提高應用技能,本書基于VMware workstation 14平臺和Linux Centos 7操作系統(tǒng)為基礎搭建Hadoop環(huán)境,除了講解基礎原理,更是在操作細節(jié)、使用交互等方面給予了詳細的介紹。
全書由王倩進行整體規(guī)劃和內容組織。王倩、閻紅負責內容統(tǒng)稿并擔任主編,由鄭麗、安厚霖、崔俊鵬、潘旭等參與編寫。
全書的第1章、第3章、第6章由天津職業(yè)大學安厚霖編寫;第2章、第4章由天津職業(yè)大學鄭麗編寫;第7章、第9章由天津中德應用技術大學崔俊鵬編寫;第5章、第10章由天津職業(yè)大學王倩編寫;第8章由天津職業(yè)大學閻紅編寫;全書的習題由國網天津市電力公司檢修公司潘旭編寫。
由于編者水平有限、經驗不足,書中難免有錯誤與疏漏,懇請廣大讀者和同行批評指正。
第1章 初識Hadoop
1.1 大數(shù)據的介紹
1.2 Hadoop的介紹
習題1
第2章 Hadoop集群構建
2.1 Linux系統(tǒng)安裝
2.2 Linux系統(tǒng)網絡配置
2.3 創(chuàng)建普通用戶
2.4 構建Hadoop完全分布式集群環(huán)境
2.5 Hadoop平臺運行及測試
習題2
第3章 HDFS分布式文件系統(tǒng)
3.1 Hadoop的文件系統(tǒng)
3.2 HDFS的簡介
3.3 HDFS的架構及原理
3.4 HDFS的Shell操作
3.5 HDFS的Java API操作
習題3
第4章 MapReduce分布式計算系統(tǒng)
4.1 MapReduce的介紹
4.2 MapReduce運行機制
4.3 案例:使用MapReduce實現(xiàn)反向索引
習題4
第5章 ZooKeeper分布式協(xié)調服務
5.1 認識ZooKeeper
5.2 ZooKeeper的數(shù)據模型
5.3 ZooKeeper的Watch機制
5.4 ZooKeeper的選舉機制
5.5 ZooKeeper分布式集群部署
5.6 ZooKeeper的Shell操作
5.7 ZooKeeper Java API操作
5.8 ZooKeeper應用場景
習題5
第6章 Hadoop2.O新特性
6.1 Hadoop 2.0的改進與提升
6.2 YARN體系結構
6.3 YARN工作流程
6.4 HDFS HA的搭建方法
習題6
第7章 Hive數(shù)據倉庫
7.1 Hive的介紹
7.2 Hive的安裝部署
7.3 Hive的基本操作
習題7
第8章 日志采集系統(tǒng)
8.1 Flume的介紹
8.2 Flume基本使用方法
8.3 Flume采集方案配置說明
8.4 Flume的可靠性保證
8.5 Flume攔截器
8.6 案例——日志采集
習題8
第9章 Sqoop數(shù)據遷移
9.1 Sqoop的介紹
9.2 Sqoop數(shù)據導入
9.3 Sqoop數(shù)據導出
習題9
第10章 綜合項目案例
10.1 最高氣溫統(tǒng)計案例
10.2 電子商務離線數(shù)據統(tǒng)計案例
參考文獻