主要內容
·大數據技術和Spark概述。
·通過實例學習DataFrame、SQL、Dataset等Spark的核心API。
·了解Spark的低級API實現,包括RDD以及SQL和DataFrame的執(zhí)行過程。
·了解Spark如何在集群上運行。
·Spark集群和應用程序的調試、監(jiān)控、和調優(yōu)。
·學習Spark強大的流處理引擎——結構化流處理。
·學習MLlib并了解如何應用它解決包括分類、推薦,以及其他多種實際問題。
通過本書你將了解到如何使用、部署和維護Apache Spark開源集群計算框架。本書由Spark的創(chuàng)始人所撰寫,重點介紹Spark新版本的新功能和新特點。本書將Spark功能分解為若干獨立主題來進行全面介紹。
你將接觸到Spark的基本操作和常用函數,還包括一種全新的構建端到端流數據應用的結構化流處理API。開發(fā)人員和系統管理員將了解到Spark的監(jiān)控、調優(yōu),以及調試的原則和方法,并通過使用Spark提供的可擴展機器學習庫Mllib來了解機器學習算法的實現技術。
作者介紹
Bill Chambers是Databricks的一名產品經理,致力于使用Spark和Databricks幫助客戶完成大規(guī)模數據分析的任務。Bill還定期寫關于數據科學和大數據方面的博客, 并常在各種會議和見面會上展示產品。他擁有加州大學伯克利分校信息學院的信息系統碩士學位, 研究方向為數據科學。
Matei Zaharia是斯坦福大學計算機科學系助理教授和Databricks的首席技術官。他于2009年在加州大學伯克利分校創(chuàng)立了Spark項目, 那時他是一名博士生, 并繼續(xù)擔任Apache Spark項目的副主席。Matei Zaharia還是Apache Mesos項目的聯合創(chuàng)始人,也是Apache Hadoop項目的貢獻者。Matei Zaharia以他出色的研究工作獲得了2014年美國計算機學會博士論文獎和VMware系統研究獎。
譯者介紹
張巖峰,東北大學教授,在國內外從事大數據分布式處理研究工作10余年,中國計算機學會數據庫專委會委員,大數據專委會通訊委員,研究設計了iMapReduce、Maiter等大數據迭代計算分布式框架,承擔和參與國家自然科學基金、國家重點研發(fā)計劃等多項課題,在SIGMOD、VLDB、ICDE、PPoPP、TPDS、TKDE等頂D級國際會議和期刊上發(fā)表論文10余篇,曾獲云計算國際會議ACM SOCC 2011優(yōu)秀論文獎及多項國內外獎勵和榮譽。