久久这里只有精品任你色,欧美精品一区二区三区观,欧美精品久久久91

數(shù)據(jù)作為企業(yè)的一種資產(chǎn)的觀念在大數(shù)據(jù)時代愈發(fā)明確。本書結(jié)合Python在數(shù)據(jù)分析領(lǐng)域的特點，介紹如何在數(shù)據(jù)平臺上的集成使用Python。全書內(nèi)容可以分為3大部分。第一部分從第一章到第三章中是準備工作，搭建開發(fā)環(huán)境和導(dǎo)入測試數(shù)據(jù)；第二部分從第四章到第十二章是Python對HDFS、Hive、Pig、HBase、Spark的操作，主要對常用API的說明使用；第三部分從第十三章到第十六章，在第二部分的基礎(chǔ)上進行數(shù)據(jù)的分析、挖掘、可視化。本書學(xué)習(xí)的前提條件是對Python有一點基礎(chǔ)，并能夠使用Linux。本書適合對大數(shù)據(jù)、人工智能等感興趣的讀者閱讀。

第一章為什么選擇用Python11.1 易于使用3 1.2 兼容Hadoop3 1.3 可擴展和靈活性3 1.4 良好的社區(qū)支持和開發(fā)環(huán)境3 1.5 在數(shù)據(jù)分析領(lǐng)域的優(yōu)勢4 1.6 總結(jié)4 第二章大數(shù)據(jù)開發(fā)環(huán)境的搭建52.1 安裝大數(shù)據(jù)集成環(huán)境HDP6 2.2 安裝Spark環(huán)境（Windows）9 2.3 自行安裝大數(shù)據(jù)開發(fā)環(huán)境10 2.4 總結(jié)21 第三章構(gòu)建分析數(shù)據(jù)223.1 分析數(shù)據(jù)的說明23 3.2 導(dǎo)入數(shù)據(jù)到HDP SandBox中25 3.3 導(dǎo)入自安裝的環(huán)境中使用28 3.4 導(dǎo)入Windows的Spark中29 3.5 導(dǎo)入 Northwind 數(shù)據(jù)庫30 3.6 總結(jié)32 第四章 Python對Hadoop的操作334.1 Snakebite的說明34 4.2 HDFS命令說明36 4.3 Snakebite Client類的使用38 4.4 Snakebite CLI的使用40 4.5 總結(jié)42 第五章 Python對Hive的操作435.1 Hive說明44 5.2 使用PyHive47 5.3 使用Python編寫Hive UDF49 5.4 Impyla的使用51 5.5 Hive SQL調(diào)優(yōu)方法52 5.6 總結(jié)53 第六章 Python對HBase的操作546.1 HBase說明55 6.2 HBase Shell命令57 6.3 HappyBase說明62 6.4 HappyBase的使用66 6.5 總結(jié)70 第七章 Python集成到Pig717.1 Pig說明72 7.2 Pig Latin的使用74 7.3 Python Pig的整合78 7.4 總結(jié)81 第八章 PySpark Shell應(yīng)用838.1 操作步驟84 8.2 應(yīng)用對象84 8.3 Spark核心模塊86 8.4 Spark Shell的使用87 8.5 PySpark Shell的使用92 8.6 總結(jié)95 第九章 PySpark對RDD操作969.1 Spark RDD說明97 9.2 RDD API說明101 9.3 在API函數(shù)中使用Lambda表達式108 9.4 從HDFS中讀取數(shù)據(jù)并以SequenceFile格式存儲110 9.5 讀取CSV文件處理并存儲112 9.6 讀取Json文件處理114 9.7 通過RDD計算圓周率115 9.8 查看RDD計算的狀態(tài)116 9.9 總結(jié)118 第十章 PySpark對DataFrame的操作11910.1 Spark DataFrame說明120 10.2 DataFrame API總述122 10.3 DataFrame數(shù)據(jù)結(jié)構(gòu)API126 10.4 DataFrame數(shù)據(jù)處理API140 10.5 Postgresql和DataFrame145 10.6 CSV和DataFrame147 10.7 Json和DataFrame149 10.8 Numpy、Pandas和DataFrame151 10.9 RDD和DataFrame152 10.10 HDFS和DataFrame153 10.11 Hive和DataFrame154 10.12 HBase和DataFrame155 10.13 總結(jié)157 第十一章 PySpark對Streaming的操作15811.1 Spark Streaming說明159 11.2 Spark Streaming API160 11.3 網(wǎng)絡(luò)數(shù)據(jù)流165 11.4 文件數(shù)據(jù)流167 11.5 Kafka數(shù)據(jù)流171 11.6 Flume數(shù)據(jù)流173 11.7 QueueStream數(shù)據(jù)流174 11.8 使用StreamingListener監(jiān)聽數(shù)據(jù)流175 11.9 總結(jié)177 第十二章 PySpark SQL17812.1 關(guān)于Spark SQL179 12.2 Spark SQL相關(guān)API180 12.3 Spark SQL使用步驟189 12.4 Postgresql和Spark SQL190 12.5 CSV和Spark SQL192 12.6 Json和Spark SQL193 12.7 HDFS和Spark SQL194 12.8 Hive和Spark SQL195 12.9 UDF和Spark SQL197 12.10 Streaming和Spark SQL199 12.11 Spark SQL優(yōu)化200 12.12 總結(jié)201 第十三章分析方法及構(gòu)架的說明20213.1 統(tǒng)計的概念和數(shù)據(jù)可視化203 13.2 數(shù)據(jù)分析方法的探討206 13.3 開發(fā)構(gòu)架說明209 13.4 總結(jié)整合說明210 第十四章集成分析21414.1 SQL窗口函數(shù)的說明215 14.2 Hive SQL分析221 14.3 Spark SQL分析225 14.4 HBase SQL分析229 14.5 對接Numpy、Pandas的分析232 14.6 對接Blaze分析241 14.7 總結(jié)244 第十五章數(shù)據(jù)挖掘24515.1 關(guān)于機器學(xué)習(xí)246 15.2 PySpark機器學(xué)習(xí)包248 15.3 特征的抽取、轉(zhuǎn)換和選擇250 15.4 PySpark機器學(xué)習(xí)包的使用256 15.5 集成TensorFlow277 15.6 集成scikit-learn279 15.7 總結(jié)282 第十六章數(shù)據(jù)可視化28316.1 標(biāo)簽云284 16.2 Zeppelin的使用289 16.3 Mathplotlib的使用293 16.4 Superset的使用301 16.5 總結(jié)308

你還可能感興趣

我要評論