本書以大學生大數(shù)據(jù)技能競賽、智警杯大數(shù)據(jù)技能競賽為背景,全面系統(tǒng)地講述了大數(shù)據(jù)技術的基本原理和應用。
本書共5章,主要介紹了Linux操作系統(tǒng)的常用命令和服務的使用;MySQL數(shù)據(jù)庫操作與管理、非關系型數(shù)據(jù)庫NoSQL;圍繞大數(shù)據(jù)框架講述了Hadoop技術、Hive數(shù)據(jù)倉庫等大數(shù)據(jù)組件架構的應用;數(shù)據(jù)采集與分析;數(shù)據(jù)挖掘與數(shù)據(jù)可視化、業(yè)務分析報告撰寫等內(nèi)容。
本書內(nèi)容循序漸進,條理性強,全部內(nèi)容基于項目需求進行設計,同時對所需的系統(tǒng)環(huán)境、軟件版本、數(shù)據(jù)等信息進行詳細說明,有助于讀者本地環(huán)境的復現(xiàn)和練習。
為提升學習效果,書中結合實際應用提供了大量的案例,并配以完善的學習資料,包括課件、軟件、數(shù)據(jù)、源碼、答案、在線競賽模擬平臺,為讀者帶來全方位的學習體驗。掃描關注機械工業(yè)出版社計算機分社官方微信訂閱號IT有得聊,回復73112。即可獲取本書配套資源下載鏈接。
本書既可作為大數(shù)據(jù)技能競賽的參賽輔導書,也可作為高等院校本、?茢(shù)據(jù)科學與大數(shù)據(jù)技術以及其他計算機相關專業(yè)大數(shù)據(jù)技術綜合實訓教材。
全國大學生大數(shù)據(jù)技能競賽、智警杯大數(shù)據(jù)技能競賽指導書;
依照《大數(shù)據(jù)分析與應用開發(fā)職業(yè)技能等級標準》編寫;
80 個知識點、100 個實驗全面覆蓋Linux操作系統(tǒng)、MySQL數(shù)據(jù)庫、主流大數(shù)據(jù)平臺、數(shù)據(jù)采集與分析、數(shù)據(jù)挖掘與可視化5項大數(shù)據(jù)核心技術;
由青椒課堂提供在線實訓及考試平臺支持,適用于各類大數(shù)據(jù)技能競賽輔導。
近年來,隨著各行各業(yè)數(shù)據(jù)資源的極大豐富及大數(shù)據(jù)技術的不斷發(fā)展,大數(shù)據(jù)相關產(chǎn)業(yè)迎來了空前的發(fā)展機遇。大數(shù)據(jù)相關技術在各領域得到了廣泛的應用,例如,金融大數(shù)據(jù)、商業(yè)大數(shù)據(jù)、網(wǎng)絡輿情大數(shù)據(jù)及醫(yī)療與健康大數(shù)據(jù)等。對大數(shù)據(jù)人才的市場需求呈現(xiàn)井噴式增長。
各類大數(shù)據(jù)相關學科競賽的舉辦,有效促進了高等院校大數(shù)據(jù)相關專業(yè)教學模式的探索性改良,推進相關專業(yè)課程體系、教學內(nèi)容和教學方法等教學資源的質量提升和豐富完善,對于高校大數(shù)據(jù)相關專業(yè)建設的發(fā)展起到很好的促進作用。通過大數(shù)據(jù)學科競賽,能夠激發(fā)學生的自主學習熱情,培養(yǎng)學生的團隊意識和創(chuàng)新意識,提高了學生在平臺搭建、數(shù)據(jù)采集、數(shù)據(jù)分析與挖掘等方面的實踐能力,提高學生的專業(yè)技能,并踐行了理實一體化做學教一體化的教學模式。
本書是作者在長期從事大數(shù)據(jù)分析技術、數(shù)據(jù)挖掘教學和科學研究成果的基礎上,以大學生大數(shù)據(jù)技能競賽、智警杯公安系統(tǒng)大數(shù)據(jù)技能競賽為背景,以大數(shù)據(jù)分析與應用職業(yè)技能等級標準為參考編寫而成。全書共5章,系統(tǒng)介紹了Linux操作系統(tǒng)、數(shù)據(jù)庫技術、大數(shù)據(jù)平臺技術、數(shù)據(jù)采集與分析、數(shù)據(jù)挖掘與數(shù)據(jù)可視化等內(nèi)容。
第1章為Linux操作系統(tǒng),主要介紹主機名、Hosts映射、防火墻配置等Linux常用命令,同時對時間同步、定時任務、遠程訪問等服務進行介紹。
第2章為數(shù)據(jù)庫技術,主要介紹了數(shù)據(jù)庫的安裝和配置、數(shù)據(jù)庫操作管理、數(shù)據(jù)表操作管理、視圖、權限管理、備份與還原、非關系型數(shù)據(jù)庫NoSQL等。
第3章為大數(shù)據(jù)平臺技術,主要介紹了Hadoop分布式大數(shù)據(jù)框架、Hive數(shù)據(jù)倉庫、HBase數(shù)據(jù)庫、Spark技術框架、ZooKeeper協(xié)調(diào)框架、Flume數(shù)據(jù)收集、Sqoop數(shù)據(jù)傳輸、Azkaban任務調(diào)度工具等大數(shù)據(jù)組件架構的應用,還介紹了故障排查、性能調(diào)優(yōu)等平臺運維管理方案。
第4章為數(shù)據(jù)采集與分析,主要介紹了HTTP原理、網(wǎng)頁組成、網(wǎng)絡請求、XPath解析、數(shù)據(jù)存儲等網(wǎng)絡信息獲取技術,同時對數(shù)據(jù)進行了統(tǒng)計分析方法介紹,包括描述性分析、探索性分析、缺失值分析等方法。
第5章為數(shù)據(jù)挖掘與數(shù)據(jù)可視化,介紹通過算法提取挖掘數(shù)據(jù)中的有用信息,主要內(nèi)容包括線性回歸、邏輯回歸、決策樹等算法,介紹如何對數(shù)據(jù)進行可視化呈現(xiàn)和數(shù)據(jù)分析報告的撰寫。
本書詳細介紹了大數(shù)據(jù)及數(shù)據(jù)分析的技術構成,理論和實踐緊密結合,可以幫助讀者梳理思路,對比不同技術的優(yōu)勢并做出選擇,從而更加符合產(chǎn)業(yè)發(fā)展的需求。
本書結合歷年競賽真題知識的解析,可作為參加大數(shù)據(jù)類競賽的輔導用書,同時配有全套教學課件、數(shù)據(jù)集、視頻、環(huán)境等實訓資源,亦可作為高等院校大數(shù)據(jù)相關專業(yè)、相關課程的實訓教材,或是培訓機構的培訓教材。
本書主編為李輝、張瑩、盧興民,副主編為胡健、張福華、蔣紅蘭,參編人員為王新猛、李鳳蓮、王彥平、李超、楊海迎。在本書編寫過程中,特別是真題梳理驗證過程中,北京紅亞華宇科技有限公司提供了資料協(xié)助和平臺支持,在此表示衷心感謝。
大數(shù)據(jù)技能競賽知識點解析與實踐由于編者水平有限,加之大數(shù)據(jù)技術的發(fā)展日新月異,書中難免會有疏漏和不妥之處,敬請廣大讀者批評指正。
編者
李輝,博士,中國農(nóng)業(yè)大學計算中心兼農(nóng)業(yè)大數(shù)據(jù)實驗室主任,全國大學生大數(shù)據(jù)技能競賽、全國高校大數(shù)據(jù)能力提升大賽等大數(shù)據(jù)類賽項裁判長,中國大數(shù)據(jù)技術與應用聯(lián)盟智庫專家,北京市大數(shù)據(jù)教學實踐基地負責人;曾獲中國大數(shù)據(jù)學術創(chuàng)新獎、全國高校人工智能與大數(shù)據(jù)教學創(chuàng)新獎;主講數(shù)據(jù)庫原理及應用基礎Python語言程序設計大數(shù)據(jù)可視化分析等本科生課程;主持新工科項目2項,發(fā)表學術論文20多篇,申請軟件著作權50多項,專利3項;出版《數(shù)據(jù)庫系統(tǒng)原理及MySQL應用教程》教材第1版和第2版被國內(nèi)眾多院校選用,為機械工業(yè)出版社計算機分社20周年金牌作者。
青椒課堂(大數(shù)據(jù)人工智能教學實訓平臺)是依據(jù)大數(shù)據(jù)產(chǎn)業(yè)數(shù)字化人才能力要求,基于院校對大數(shù)據(jù)技術應用型人才培養(yǎng)的需求,結合企業(yè)大數(shù)據(jù)業(yè)務場景,以技術為驅動打造青椒課堂,助力高校大數(shù)據(jù)專業(yè)領域數(shù)字化人才培養(yǎng)。
大數(shù)據(jù)人工智能教學實訓平臺的設計全面落實教、訓、用、監(jiān)、評一體化的思想和模式。從教學、實訓、使用、監(jiān)控、評估等多方面注重專業(yè)人才和特色人才的培養(yǎng)。平臺是集專業(yè)度、便捷性、安全性及可擴展性的理實一體化教學實訓平臺,平臺主要涵蓋了教師備課、授課,學生實操、實訓,考試競賽,數(shù)據(jù)統(tǒng)計分析及教學規(guī)劃等全流程控制的綜合平臺。
實驗環(huán)境配置說明
第1章Linux操作系統(tǒng)
1.1主機名配置
1.1.1設置主機名
1.1.2Hosts映射
1.2防火墻配置與管理
1.2.1防火墻操作命令
1.2.2配置防火墻規(guī)則
1.3時間同步
1.3.1同步網(wǎng)絡時間
1.3.2同步服務器時間
1.4定時任務管理
1.5SSH遠程訪問
1.5.1SSH協(xié)議
1.5.2SSH連接工具
1.6軟件包管理
1.6.1軟件配置
1.6.2下載安裝軟件
思考與練習
第2章數(shù)據(jù)庫技術
2.1MySQL數(shù)據(jù)庫
2.1.1MySQL的安裝
2.1.2數(shù)據(jù)庫操作管理
2.1.3數(shù)據(jù)表操作管理
2.1.4數(shù)據(jù)操作管理
2.1.5視圖
2.1.6權限管理
2.1.7備份與還原
2.1.8SQL優(yōu)化
2.2非關系型數(shù)據(jù)庫NoSQL
2.2.1HBase列式數(shù)據(jù)庫
2.2.2Redis數(shù)據(jù)庫
2.2.3MongoDB文件數(shù)據(jù)庫
思考與練習
第3章大數(shù)據(jù)平臺技術
3.1Hadoop分布式大數(shù)據(jù)框架
3.1.1搭建Hadoop偽分布式集群
3.1.2搭建Hadoop完全分布式集群
3.1.3命令行方式管理HDFS
3.1.4使用開發(fā)工具連接Hadoop
集群
3.1.5Java API操作HDFS
3.1.6分布式計算框架之MapReduce
3.1.7編寫MapReduce方法
3.1.8配置Hadoop集群高可用
(HA)
3.2Hive數(shù)據(jù)倉庫
3.2.1本地模式安裝Hive數(shù)據(jù)倉庫
3.2.2Hive數(shù)據(jù)倉庫的常見屬性
3.2.3Hive DDL操作
3.2.4Hive DML操作
3.2.5Hive中的數(shù)據(jù)查詢
3.2.6Hive中的窗口函數(shù)
3.2.7案例:國內(nèi)主要城市房屋出租
情況統(tǒng)計分析
3.3HBase數(shù)據(jù)庫
3.3.1搭建HBase偽分布式集群
3.3.2HBase的Shell操作
3.3.3HBase的Java API操作
3.3.4使用HBase的過濾器
3.3.5HBase與MapReduce的集成
3.3.6HBase與Hive的集成
3.3.7HBase與Sqoop的集成
3.4Spark技術框架
3.4.1集群安裝部署
3.4.2Spark Shell
3.4.3Spark SQL
3.4.4Spark Streaming
3.4.5Spark MLlib
3.4.6Structured Streaming實時計算
3.5大數(shù)據(jù)平臺運維與管理
3.5.1故障排查
3.5.2性能調(diào)優(yōu)
3.6大數(shù)據(jù)框架應用
3.6.1協(xié)調(diào)框架:ZooKeeper
3.6.2數(shù)據(jù)收集:Flume
3.6.3數(shù)據(jù)傳輸:Sqoop
3.6.4任務調(diào)度工具:Azkaban
思考與練習
第4章數(shù)據(jù)采集與分析
目錄4.1報表數(shù)據(jù)處理
4.1.1數(shù)據(jù)預處理
4.1.2數(shù)據(jù)分析
4.2網(wǎng)絡信息獲取技術
4.2.1HTTP基本原理
4.2.2網(wǎng)頁組成
4.2.3網(wǎng)絡請求
4.2.4正則表達式
4.2.5XPath解析
4.2.6Beautiful Soup
4.2.7數(shù)據(jù)存儲
4.3數(shù)據(jù)統(tǒng)計分析
4.3.1描述性分析
4.3.2探索性分析
4.3.3缺失值分析
4.3.4方差分析
4.3.5T檢驗
4.3.6卡方檢驗
思考與練習
第5章數(shù)據(jù)挖掘與數(shù)據(jù)可視化
5.1數(shù)據(jù)挖掘
5.1.1線性回歸
5.1.2邏輯回歸
5.1.3支持向量機
5.1.4樸素貝葉斯
5.1.5決策樹
5.1.6時間序列分析
5.1.7關聯(lián)分析
5.1.8K-Means聚類
5.1.9主成分分析
5.2數(shù)據(jù)可視化
5.2.1報表可視化
5.2.2Matplotlib可視化
5.2.3Seaborn可視化
5.2.4ECharts實現(xiàn)數(shù)據(jù)可視化
5.2.5D3實現(xiàn)數(shù)據(jù)可視化
5.2.6FineBI實現(xiàn)數(shù)據(jù)可視化
5.2.7Tableau實現(xiàn)數(shù)據(jù)可視化
5.3業(yè)務分析報告撰寫
5.3.1明確背景與目的
5.3.2尋找合適數(shù)據(jù)
5.3.3數(shù)據(jù)分析與圖表
5.3.4報告結論與建議
5.3.5邏輯結構清晰
思考與練習