本書通過全彩圖解+視頻講解的方式, 詳細介紹了利用R語言進行數(shù)據(jù)分析的相關(guān)知識與實操案例。主要內(nèi)容包括: R語言快速入門、R語言數(shù)據(jù)管理與操作、R語言數(shù)據(jù)可視化、R語言數(shù)據(jù)分析、綜合案例1-中藥材鑒別、綜合案例2-抗乳腺癌候選藥物分析、綜合案例3-新聞文本內(nèi)容數(shù)據(jù)分析。
本書主要具有以下特色:
1.內(nèi)容全面,循序漸進。本書圍繞R語言數(shù)據(jù)分析相關(guān)語法和常用數(shù)據(jù)分析包展開,內(nèi)容由淺入深,非常適合初學(xué)者學(xué)習(xí)。
2.案例豐富,實用性強。書中選取了不同場合下的各種數(shù)據(jù)分析案例,不僅中間穿插有小案例,書末還有綜合性的大案例,通過案例實操,讓讀者能夠快速掌握所學(xué)知識,并應(yīng)用到實際工作中。
3.全彩圖解,直觀易懂。本書采用全彩印刷,書中通過大量的彩色圖片展示,讓讀者一目了然,迅速了解并掌握具體的操作方法、步驟以及實現(xiàn)效果。
4.學(xué)習(xí)資源,超值贈送。重要知識點及實戰(zhàn)案例均配有二維碼視頻講解,掃碼觀看,學(xué)習(xí)更便捷。此外,還附贈相關(guān)實例素材源文件、電子書等資源,方便實踐練習(xí)與知識拓展。
R語言是一套完整的數(shù)據(jù)準備、處理、分析與可視化的科學(xué)系統(tǒng),對數(shù)據(jù)科學(xué)、機器學(xué)習(xí)及深度學(xué)習(xí),均有一套完備的解決方案。其最先在國外流行,傳入我國后,迅速受到高校以及各行業(yè)的喜愛,大多數(shù)高校都將R語言作為統(tǒng)計學(xué)的編程入門課,其受歡迎程度遠遠領(lǐng)先于大多數(shù)商業(yè)統(tǒng)計軟件。
本書是R語言在數(shù)據(jù)分析方面從入門到提升的教程,將R語言編程與數(shù)據(jù)分析實戰(zhàn)案例緊密結(jié)合,可幫助讀者快速掌握R語言進行數(shù)據(jù)分析。
本書一共有8章。各章的內(nèi)容設(shè)置如下。
第1章 R語言與數(shù)據(jù)分析。該章主要介紹R與RStudio的安裝與使用,數(shù)據(jù)分析的簡要內(nèi)容,以及R語言在數(shù)據(jù)分析上的優(yōu)勢等。幫助讀者快速建立起對R語言數(shù)據(jù)分析的全面認知,為后面的學(xué)習(xí)做準備。
第2章 R語言快速入門。該章主要是對R語言的使用進行快速入門,詳細介紹向量、矩陣、數(shù)組、數(shù)據(jù)框、列表、判斷與循環(huán)語句,以及如何編寫R函數(shù)等內(nèi)容。
第3章 R語言數(shù)據(jù)管理與操作。該章主要介紹R語言中如何對數(shù)據(jù)進行導(dǎo)入與保存、缺失值處理,數(shù)據(jù)并行計算,數(shù)據(jù)選擇、分組計算,數(shù)據(jù)融合以及數(shù)據(jù)長寬變換,時間數(shù)據(jù)與文本數(shù)據(jù)的操作等內(nèi)容。
第4章 R語言數(shù)據(jù)可視化。該章主要介紹R語言中流行的數(shù)據(jù)可視化方式的使用,主要包括基礎(chǔ)數(shù)據(jù)可視化包graphics的使用,ggplot2繪圖系統(tǒng)的使用,以及R語言中其它常用的第三方數(shù)據(jù)可視化包的使用。
第5章 R語言數(shù)據(jù)分析。該章主要介紹常用數(shù)據(jù)分析方法,如相關(guān)性分析、方差分析、數(shù)據(jù)降維算法、數(shù)據(jù)回歸分析、數(shù)據(jù)分類算法、數(shù)據(jù)聚類算法以及時間序列預(yù)測相關(guān)的算法等,并使用R語言結(jié)合實際的數(shù)據(jù)集進行數(shù)據(jù)分析實戰(zhàn)。
第6章 綜合案例1:中藥材鑒別。該章從數(shù)據(jù)分析實戰(zhàn)應(yīng)用出發(fā),結(jié)合真實的中藥材紅外特征數(shù)據(jù)集,介紹了如何利用R語言將數(shù)據(jù)可視化、數(shù)據(jù)分析,以及機器學(xué)習(xí)算法相結(jié)合,對中藥材鑒別中的相關(guān)問題進行分析和處理。在應(yīng)用無監(jiān)督學(xué)習(xí)時,主要使用聚類算法對數(shù)據(jù)進行聚類分析,使用數(shù)據(jù)降維算法對數(shù)據(jù)進行降維分析;在使用有監(jiān)督學(xué)習(xí)時,主要以特征選擇、數(shù)據(jù)降維與分類算法相結(jié)合的方式,對數(shù)據(jù)進行分類。
第7章 綜合案例2:抗乳腺癌候選藥物分析。該章使用R語言分析了一個抗乳腺癌候選藥物數(shù)據(jù)分析案例,主要介紹數(shù)據(jù)可視化探索分析、數(shù)據(jù)重要特征選擇、數(shù)據(jù)回歸分析算法、數(shù)據(jù)降維算法,以及數(shù)據(jù)分類等算法的應(yīng)用。
第8章 綜合案例3:文本內(nèi)容數(shù)據(jù)分析。該章以R語言對新聞文本數(shù)據(jù)、《三國演義》文本數(shù)據(jù)進行分析為例,主要介紹在文本分析中常用的數(shù)據(jù)準備與清洗、特征提取、文本數(shù)據(jù)可視化、文本聚類、文本分類等相關(guān)方法的應(yīng)用。
本書內(nèi)容豐富,由易到難、逐步深入,所選用的案例很有代表性,且每章均配有大量的示例代碼和詳細注釋(關(guān)于程序和數(shù)據(jù)文件,可前往化學(xué)工業(yè)出版社官網(wǎng)www.cip.com.cn/Service/Download搜索本書并獲取配套資源的下載地址),便于讀者自己動手練習(xí)。
由于編著者水平有限,編寫時間倉促,書中難免存在疏漏,敬請讀者不吝指正。
編著者