本書是為所有有意提高數(shù)據(jù)素養(yǎng)的讀者撰寫的入門讀物,它旨在幫助讀者站在大數(shù)據(jù)時代的風口知道數(shù)據(jù)的價值、樹立提升數(shù)據(jù)素養(yǎng)的意識、明確提升數(shù)據(jù)素養(yǎng)的方法和途徑、了解提升數(shù)據(jù)素養(yǎng)的終級目標。
本書全面介紹了與數(shù)據(jù)素養(yǎng)有關的概念,再現(xiàn)了各個概念出現(xiàn)的背景和發(fā)展歷程,建立了數(shù)據(jù)素養(yǎng)內(nèi)涵模型,對比分析了現(xiàn)階段國內(nèi)外數(shù)據(jù)素養(yǎng)教育現(xiàn)狀,介紹了膠水語言Python的主要使用場景和大數(shù)據(jù)時代研究數(shù)據(jù)素養(yǎng)所必須知道的相關理論,舉例說明了如何運用Python及其常見的工具庫實現(xiàn)數(shù)據(jù)存取、數(shù)據(jù)清洗、數(shù)據(jù)分析和數(shù)據(jù)可視化,進一步展現(xiàn)了Python在實踐數(shù)據(jù)素養(yǎng)中的重要價值。
本書集數(shù)據(jù)素養(yǎng)理論與實踐于一體,無論是數(shù)據(jù)素養(yǎng)的理論研究者,還是打算依托Python提升數(shù)據(jù)素養(yǎng)的實踐者,都會看到自己關注的內(nèi)容。
“小愛同學!”“我在!薄敖裉焯鞖庠趺礃影?”“今天氣溫……”若干年以前,很難想象,一位畢生都與黃土打交道的67歲老人,在早上起床后會第一時間與一個“盒子”有這樣的一段對話。然而,在21世紀20年代的當下,類似的事情屢見不鮮。
以5G+ABC為代表的“智慧未來”已悄然到來。其中,5G并不僅僅指帶寬的增加,其更是互聯(lián)網(wǎng)基礎建設完善化的代名詞,它也是未來超級信息化社會基建工程的標的物;ABC則分別指代人工智能(AI)、大數(shù)據(jù)(Big Data)和云計算(Cloud Computing)。
如果說ABC是個組織結構,那么組成這個龐大、高效“巨無霸”的基元就是數(shù)據(jù)。在這個時代,數(shù)據(jù)不僅是資源,更是資產(chǎn),身居這個時代的人們,要學著去組織和管理這些無形的獨立實體。世界經(jīng)濟論壇報告曾經(jīng)預測,未來的大數(shù)據(jù)將成為新的財富高地,其價值可能堪比石油,而“大數(shù)據(jù)之父”維克托也樂觀地表示,把數(shù)據(jù)列入企業(yè)資產(chǎn)負債表只是時間問題。企業(yè)已經(jīng)意識到要實現(xiàn)數(shù)字化轉型,那么個人如何才能在這個風口展翅翱翔?毫無疑問,提升個人的數(shù)據(jù)素養(yǎng)是唯一的途徑。只有如此,人們才能坦然面對ABC給我們帶來的一切好與不好,才能找到自己在未來中的角色和位置。
本書是陸紅教授主持的北京市教育委員會科技計劃立項課題“基于機器學習方法的房價大數(shù)據(jù)分析模型構建研究”的研究成果之一,主要由“數(shù)據(jù)素養(yǎng)概述”“國內(nèi)外DL教育的現(xiàn)狀分析”“邁向DL的第一步:走近Python”“實踐Python與DL的千絲萬縷關系”“DL行而不輟,DT未來可期”五部分組成。
第1章主要介紹了數(shù)據(jù)素養(yǎng)相關的概念,包含數(shù)、數(shù)據(jù)、大數(shù)據(jù)以及數(shù)據(jù)素養(yǎng)。在每個概念的闡述中引用了大量前人的研究成果和網(wǎng)絡上提供的史料圖片,再現(xiàn)了各個概念出現(xiàn)的背景和發(fā)展歷程。除此之外,還運用了多個官方網(wǎng)站的數(shù)據(jù)資源,對數(shù)據(jù)的類別以及數(shù)據(jù)與信息、知識、智慧之間的關系進行了詮釋。最后通過分析、概括、總結本書對數(shù)據(jù)素養(yǎng)內(nèi)涵的定義,建立了數(shù)據(jù)素養(yǎng)內(nèi)涵模型。
第2章主要分析了國內(nèi)現(xiàn)階段高校數(shù)據(jù)素養(yǎng)涉及的領域,分析了我國數(shù)據(jù)素養(yǎng)教育現(xiàn)存的問題。通過對比國外數(shù)據(jù)素養(yǎng)教育現(xiàn)狀,如美國、歐盟、日本等國家和地區(qū)在數(shù)據(jù)素養(yǎng)教育過程中國家戰(zhàn)略實施的過程,總結得出了在我國實施數(shù)據(jù)素養(yǎng)教育需要共建數(shù)據(jù)素養(yǎng)教育生態(tài)圈,只有在以個人需求為導向、以學校教育為基礎、社會實踐相融合、政策有力支持保障的情況下才能將數(shù)據(jù)素養(yǎng)教育推向新層次的結論。
第3章主要介紹了什么是計算機程序設計語言,什么是Python,Python的主要特點和優(yōu)勢。在此前提下,介紹了Python的主要使用場景,并對一些不適合使用Python的情況進行了簡略分析;詳細介紹了在Windows操作系統(tǒng)中如何配置Python開發(fā)環(huán)境,并以“你好,Python”為例說明了如何創(chuàng)建Python項目和程序,以及如何運行Python程序和查看程序運行結果;系統(tǒng)闡述了Python中變量、對象、基本數(shù)據(jù)類型、組合對象、自定義函數(shù)、流程控制、異常及異常處理、注釋等重要內(nèi)容。
第4章主要介紹了如何運用Python及其常見的工具庫實現(xiàn)數(shù)據(jù)存取、數(shù)據(jù)清洗和數(shù)據(jù)可視化,進一步體現(xiàn)了Python在提升數(shù)據(jù)素養(yǎng)中的重要價值。其中,數(shù)據(jù)存取部分根據(jù)數(shù)據(jù)存取位置,分別對各類方法做了詳細介紹;在數(shù)據(jù)清洗中對如何使用正則表達式、如何處理數(shù)據(jù)缺失值、如何使用Beautiful Soup做了詳細說明。在這兩個前提下,分別介紹了Pandas和NumPy & Matplotlib等在數(shù)據(jù)分析和可視化中的應用方式。
第5章主要介紹了在大數(shù)據(jù)時代研究數(shù)據(jù)素養(yǎng)所必須知道的數(shù)學理論,包括統(tǒng)計學、信息論和混沌理論等。在此前提下,介紹了探索性數(shù)據(jù)分析的工作方式,包括異常值分析、對比分析和回歸分析等;詳細介紹了在大數(shù)據(jù)領域常用的智能算法,比如降維算法、遺傳算法、RBM算法和AdaBoost元算法等;系統(tǒng)闡述了模式識別、機器學習和深度學習等方面的應用場景和常用的算法;提出在大數(shù)據(jù)時代,運用數(shù)據(jù)素養(yǎng)相關方法搞清“問題是什么”是第一步,分辨“問題在哪里”是第二步,衡量“問題的大小或數(shù)量多少”是第三步,找到“問題如何解決”才是終極目標。
本書結構清晰、簡約、嚴密,理論方面涉及數(shù)據(jù)素養(yǎng)方面的基本概念、模型(第1章),國內(nèi)外數(shù)據(jù)素養(yǎng)教育的現(xiàn)狀(第2章),以及數(shù)據(jù)素養(yǎng)中不可忽略的各種算法(第5章)等;實踐方面則詳細介紹了使用Python完成數(shù)據(jù)讀取、數(shù)據(jù)處理、數(shù)據(jù)分析和數(shù)據(jù)可視化等的具體方法和步驟(第3章和第4章)。有志于在數(shù)據(jù)素養(yǎng)方面有所研究和突破的讀者,通過閱讀本書,不僅可以學習數(shù)據(jù)素養(yǎng)的相關理論,還可以完成一些有利于提升數(shù)據(jù)素養(yǎng)的實踐項目。
本書在撰寫過程中,得到了陸紅、劉瑞新等同人的幫助,書中的部分插圖由李子豪繪制,在此特別感謝。另外,如果沒有家人的支持,沒有父親、母親無微不至的關心,也許本書還需要更長時間才能與讀者見面,在此一并感謝。
由于Python及其插件不斷升級,加之數(shù)據(jù)素養(yǎng)涉及的領域比較廣泛,也許書中處理某些問題的途徑有更優(yōu)的替代方案,這都有待于日后不斷深入研究,真誠希望讀者能夠提出寶貴的建議。
作者
2021年2月(除夕)
范美英,北京信息職業(yè)技術學院副教授,軟件與信息學院骨干教師,北京市高等學校青年英才,國家級教師創(chuàng)新團隊成員。主要研究領域為Web前端開發(fā)技術、移動應用開發(fā)技術、軟件開發(fā)技術、軟件UI設計等。曾主持教育部職業(yè)教育計算機應用技術專業(yè)教學資源庫 “Android移動應用開發(fā)” 課程子庫建設,榮獲優(yōu)秀項目獎。近年來,在各級教師教學能力大賽中屢獲獎項。