微生物是普遍存在于自然界中且具有重要意義的生命體,以微生物群落的形式存在。一個微生物群落包含幾十到數(shù)千種微生物,這些微生物相互協(xié)作以適應環(huán)境的變化;同時,它們的生命活動也會對環(huán)境產生巨大影響。微生物組研究以這些微生物為基礎,研究對象包括微生物群落中所有的遺傳物質、相關環(huán)境參數(shù)和代謝產物,以及它們之間的復雜關系和動態(tài)變化特征等,研究過程具有極高的復雜性。
近年來,隨著人們對微生物越來越深入的了解,有關微生物群落的基礎研究及其在健康、環(huán)境等領域的應用研究的重要性愈發(fā)凸顯,各國也越來越重視微生物組研究的發(fā)展。2016年,美國啟動了"國家微生物組計劃(NationalMicrobiome Initiative,NMI),此項研究計劃投資1億多美元。我國也在醞釀啟動微生物組研究計劃,并于2016年在《十三五國家戰(zhàn)略性新興產業(yè)發(fā)展規(guī)劃》中重點強調"腸道微生物宏基因組學等關鍵技術創(chuàng)新與精準營養(yǎng)食品創(chuàng)制,科技部在2017年將微生物組研究列為重大顛覆性技術之一。
微生物組的生物信息學分析主要依賴于微生物組學相關的海量測序數(shù)據和數(shù)據挖掘方法。隨著高通量測序技術和下一代信息技術的日臻完善,微生物組研究日新月異,已經涵蓋從群落結構到群落功能、從基因挖掘到規(guī)律發(fā)掘、從免疫到營養(yǎng)、從人體健康到環(huán)境監(jiān)控等各類基礎和應用研究方向。因此,微生物組學已經從傳統(tǒng)意義上的生物學分支學科,轉變?yōu)樯飳W、生物技術、大數(shù)據、人工智能等多學科交叉的綜合類學科。
在微生物組數(shù)據整合與深入分析時,大數(shù)據技術和機器學習技術非常適用。首先,微生物組數(shù)據具備大數(shù)據的4V特點:①數(shù)據量大(volume);②類型繁多(variety);③速度快、時效高(velocity);④價值密度低(value)。其次,微生物組學大數(shù)據需要深入挖掘。從龐大的數(shù)據中提取未知、隱含且具備潛在價值的信息是一個艱難的過程,但微生物組學大數(shù)據的挖掘最終將直接服務于臨床診斷、預測和潛在治療方案的提出,具有明顯的臨床轉化價值和意義。
然而,目前國內微生物組學大數(shù)據挖掘方面的相關書籍十分欠缺,特別是有關利用人工智能技術挖掘微生物組學大數(shù)據的圖書基本屬于空白。這種現(xiàn)狀與國內微生物組研究如火如荼的趨勢形成了鮮明對比,甚至影響了國內微生物組研究,尤其是在數(shù)據分析和挖掘方面的進展。行業(yè)內亟須一本介紹微生物組學大數(shù)據挖掘的學術專著,服務于微生物組研究相關的廣大師生和科研人員,以及對微生物組感興趣的大眾讀者。
本書包括微生物組數(shù)據整理和整合、微生物組數(shù)據挖掘方法、微生物組數(shù)據挖掘案例等多個部分。筆者團隊組織多方力量,較為全面地介紹了21世紀前20年微生物組研究中有關數(shù)據分析挖掘和轉化應用方面的知識與進展。
其中,第1章主要由寧康和楊朋碩組織整理,第2章主要由查毓國組織整理,第3章主要由計磊組織整理,第4章主要由李玉雪組織整理。最后,寧康在第5章就微生物組學大數(shù)據挖掘的發(fā)展趨勢和應用潛力進行了展望和總結。本書附錄提供了微生物基因組基礎知識、基因功能注釋、微生物組研究重大里程碑事件等內容,有助于讀者獲取當前微生物組大數(shù)據挖掘相關的全方位信息。
本書理論聯(lián)系實際,較為全面和深入地介紹了微生物組學,特別是微生物組學大數(shù)據和數(shù)據挖掘方面的知識與研究進展。希望通過閱讀本書,讀者能夠較為全面地掌握微生物組學相關大數(shù)據挖掘分析的方法,并能夠通過實例指導自己的項目設計與分析。
需要強調的是,當今微生物組學研究成果層出不窮,建議讀者主動閱讀相關文獻,這樣既可以加深對微生物組學的理解,更好地學習相關新技術和新發(fā)現(xiàn);又有助于不斷提高業(yè)務水平,提升自己的微生物組研究洞察力和研究效率。
最后,祝大家在微生物組學習和研究的過程中,享受學習知識和探究科學的樂趣,同時取得更好的成果!讓我們一起推動微生物組研究領域不斷進步!
第1章微生物組1
11基本概念1
111微生物群2
112宏基因組4
113微生物組5
12微生物組高通量測序5
121擴增子測序6
122宏基因組測序7
123測序技術的發(fā)展9
124鳥槍法宏基因組測序的拓展研究11
13微生物組測序數(shù)據和基本分析流程14
小結16
參考文獻16
第2章微生物組大數(shù)據及其主流分析方法20
21基本概念及分類20
22微生物組大數(shù)據的特征22
23微生物組的主流數(shù)據庫23
24微生物組的主流數(shù)據分析方法和軟件24
241擴增子分析軟件27
242宏基因組分析軟件27
243統(tǒng)計和可視化工具28
25微生物組數(shù)據整合中的批次效應28
251平均中心方法30
252Zscore方法30
253基于比值的方法31
254距離加權判別法31
255ComBat方法31
256基于奇異值分解方法31
257替代變量分析法31
26微生物數(shù)據分析流程32
26116S擴增子數(shù)據分析流程33
262宏基因組數(shù)據分析流程35
小結37
參考文獻37
第3章微生物組大數(shù)據挖掘43
31微生物組大數(shù)據挖掘概述43
311微生物組數(shù)據挖掘背景43
312人工智能簡介44
313人工智能和高性能計算47
314機器學習的概念及方法47
315深度學習的概念及方法52
316計算機經典算法簡介58
32微生物組數(shù)據挖掘方法61
321微生物組大數(shù)據挖掘主流方法及其特征61
322微生物組數(shù)據挖掘技術簡介62
323微生物標志物挖掘及經典案例64
324微生物組樣本比對和特征預測及經典案例65
325微生物組時序網絡挖掘及經典案例66
33微生物組大數(shù)據挖掘的人工智能方法67
331在生物研究中的人工智能方法67
332在微生物組研究中的人工智能方法71
333人工智能應用實例73
34微生物組數(shù)據挖掘的瓶頸問題及應對策略77
341微生物組大數(shù)據挖掘瓶頸77
342微生物組大數(shù)據挖掘瓶頸問題的應對策略78
小結80
參考文獻81
第4章微生物組大數(shù)據的應用85
41不同宿主環(huán)境下的微生物組數(shù)據研究86
411大黃蜂微生物組研究86
412魚類微生物組研究87
413小龍蝦微生物組研究89
414從抗生素耐藥性角度研究水稻小龍蝦共養(yǎng)模式90
415雞微生物組研究91
416歐洲野兔微生物組研究91
417家畜微生物組研究92
42人體微生物組數(shù)據研究93
421腸型分析96
422腸道微生物亞群與飲食、代謝疾病的關聯(lián)分析97
423人類飲食與腸道菌群的個性化關聯(lián)98
424體育鍛煉與腸道菌群的相關性研究98
425幼兒腸道微生物組的時間發(fā)育變化100
426腸道菌群與年齡預測101
427微生物組與癌癥相關性研究101
428腸道菌群與非酒精性脂肪肝的防治102
429腸易激綜合征患者腸道菌群的研究103
4210類風濕性關節(jié)炎患者微生物失調和代謝紊亂研究104
4211下呼吸道細菌性感染診斷研究105
4212腸道菌群可塑性研究105
43環(huán)境和工程領域的微生物組數(shù)據研究106
431土壤微生物組研究107
432污水處理廠微生物群落挖掘108
433植物根際微生物群落研究109
434甘草基因表達微生物群落代謝產物調控模式研究110
435地下水微生物來源分析111
436水體抗生素抗性基因研究112
437湖泊抗生素抗性基因研究113
438全球海洋宏轉錄組研究114
439海洋微生物群落中的抗生素抗性基因研究115
4310利用海洋宏基因組學預測新蛋白質家族116
4311重癥監(jiān)護病房微生物研究117
4312微生物溯源研究118
4313本體感知深度學習應用于微生物溯源的研究119
4314遷移學習應用于微生物分類研究120
小結121
參考文獻122
第5章微生物組大數(shù)據挖掘的發(fā)展趨勢和未來態(tài)勢129
51人工智能賦能的微生物組大數(shù)據挖掘的總體知識框架131
52新技術和新發(fā)現(xiàn)驅動微生物組研究的不斷進步131
53微生物組暗物質和大數(shù)據挖掘137
參考文獻140
附錄143
附錄1術語解釋144
附錄2微生物基因組概述150
附錄3基因組功能注釋153
附錄4人類微生物組研究的30個重大里程碑事件157