本書是一部介紹有關(guān)新一代測(cè)序(NGS)數(shù)據(jù)分析方法的著作。書中全面系統(tǒng)地介紹了新—代測(cè)序技術(shù)的生物學(xué)意義、測(cè)序原理、分析過程和應(yīng)用領(lǐng)域等;詳細(xì)介紹了新—代測(cè)序數(shù)據(jù)的分析方法,包括其在基因組從頭測(cè)序和重測(cè)序、轉(zhuǎn)錄組測(cè)序、小RNA測(cè)序、ChIP測(cè)序、表觀基因組測(cè)序及宏基因組測(cè)序等應(yīng)用中的具體分析方法,對(duì)讀者學(xué)習(xí)新一代測(cè)序技術(shù)、促進(jìn)該技術(shù)在生命科學(xué)各個(gè)領(lǐng)域中的應(yīng)用有著重要意義。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
目錄
第一部分 細(xì)胞與分子生物學(xué)概論
1 細(xì)胞系統(tǒng)與生命密碼 3
1.1 細(xì)胞面臨的挑戰(zhàn) 3
1.2 細(xì)胞如何面對(duì)挑戰(zhàn) 3
1.3 細(xì)胞內(nèi)的各種分子 4
1.4 細(xì)胞內(nèi)結(jié)構(gòu)與空間 4
1.4.1 細(xì)胞核 5
1.4.2 細(xì)胞膜 6
1.4.3 細(xì)胞質(zhì) 6
1.4.4 內(nèi)體、溶酶體和過氧化物酶體 7
1.4.5 核糖體 7
1.4.6 內(nèi)質(zhì)網(wǎng) 8
1.4.7 高爾基體 8
1.4.8 細(xì)胞骨架 8
1.4.9 線粒體 9
1.4.10 葉綠體 10
1.5 細(xì)胞是一個(gè)系統(tǒng) 11
1.5.1 細(xì)胞系統(tǒng) 11
1.5.2 細(xì)胞的系統(tǒng)生物學(xué) 11
1.5.3 如何研究細(xì)胞系統(tǒng) 12
2 DNA序列:基因組基礎(chǔ) 13
2.1 DNA雙螺旋和堿基序列 13
2.2 DNA分子如何復(fù)制和保持穩(wěn)定性 13
2.3 DNA中保存的遺傳信息如何轉(zhuǎn)化為蛋白質(zhì) 15
2.4 基因組概覽 16
2.4.1 最小基因組 16
2.4.2 基因組大小 17
2.4.3 基因組中的蛋白質(zhì)編碼區(qū) 17
2.4.4 基因組非編碼區(qū) 18
2.5 DNA包裝、序列訪問和DNA-蛋白質(zhì)互作 20
2.5.1 DNA包裝 20
2.5.2 序列訪問 20
2.5.3 DNA-蛋白質(zhì)互作 20
2.6 DNA序列的突變與多樣性 21
2.7 基因組演化 23
2.8 表觀基因組與DNA甲基化 24
2.9 基因組測(cè)序與疾病風(fēng)險(xiǎn) 25
2.9.1 孟德爾(單基因)疾病 25
2.9.2 多基因控制的復(fù)雜疾病 25
2.9.3 基因組不穩(wěn)定導(dǎo)致的疾病 26
2.9.4 表觀基因組/表觀遺傳疾病 26
3 RNA:轉(zhuǎn)錄后的序列 27
3.1 RNA作為信使 27
3.2 RNA的分子結(jié)構(gòu) 27
3.3 mRNA的產(chǎn)生、加工與周轉(zhuǎn) 28
3.3.1 DNA模板 28
3.3.2 原核生物基因的轉(zhuǎn)錄 28
3.3.3 真核生物基因pre-mRNA的初始轉(zhuǎn)錄 30
3.3.4 從mRNA前體到成熟的mRNA 31
3.3.5 運(yùn)輸與定位 33
3.3.6 穩(wěn)定性與降解 33
3.3.7 mRNA轉(zhuǎn)錄水平上調(diào)控的主要步驟 34
3.4 RNA不僅僅是信使 35
3.4.1 核酶 35
3.4.2 核小RNA和核仁小RNA 36
3.4.3 端粒復(fù)制中的RNA 36
3.4.4 RNAi和非編碼小RNA 36
3.4.5 長非編碼RNA 39
3.4.6 其他非編碼RNA 40
3.5 細(xì)胞轉(zhuǎn)錄組學(xué)研究概覽 40
第二部分 新一代測(cè)序技術(shù)及數(shù)據(jù)分析概論
4 新一代測(cè)序技術(shù)的來龍去脈 43
4.1 怎樣做DNA測(cè)序:從第一代到新一代 43
4.2 典型的NGS實(shí)驗(yàn)流程 45
4.3 不同NGS測(cè)序平臺(tái)的詳細(xì)介紹 48
4.3.1 Illumina可逆染色終止子測(cè)序 48
4.3.2 Ion Torrent半導(dǎo)體測(cè)序 52
4.3.3 PacBio單分子實(shí)時(shí)測(cè)序 53
4.4 測(cè)序的偏好性及其他影響NGS數(shù)據(jù)準(zhǔn)確性的負(fù)面因素 54
4.4.1 文庫構(gòu)建中的偏好性 55
4.4.2 測(cè)序過程中的偏好性和其他因素 56
4.5 NGS的主要應(yīng)用 56
4.5.1 轉(zhuǎn)錄組特征和可變剪接檢測(cè) 56
4.5.2 遺傳突變與變異的發(fā)現(xiàn) 57
4.5.3 基因組的從頭組裝 57
4.5.4 蛋白質(zhì)與DNA的互作分析(ChIP-Seq) 57
4.5.5 表觀基因組學(xué)與DNA甲基化研究 57
4.5.6 宏基因組學(xué) 58
5 新一代測(cè)序數(shù)據(jù)前期分析的常見步驟 59
5.1 堿基識(shí)別、FASTQ文件格式和堿基質(zhì)量值 60
5.2 NGS數(shù)據(jù)的質(zhì)量控制與處理 61
5.3 讀段的定位 63
5.3.1 定位方法與算法 63
5.3.2 定位算法和參考基因組序列的選擇 65
5.3.3 標(biāo)準(zhǔn)定位文件格式SAM/BAM 66
5.3.4 定位文件的檢驗(yàn)與操作 67
5.4 第三階段分析 70
6 新一代測(cè)序數(shù)據(jù)管理與分析的計(jì)算能力需求 71
6.1 NGS數(shù)據(jù)的存儲(chǔ)、傳輸與共享 71
6.2 NGS數(shù)據(jù)分析所需的計(jì)算能力 72
6.3 NGS數(shù)據(jù)分析所需軟件 74
6.4 NGS數(shù)據(jù)分析所需的生物信息學(xué)技能 75
第三部分 新一代測(cè)序數(shù)據(jù)分析的具體應(yīng)用
7 轉(zhuǎn)錄組測(cè)序 79
7.1 轉(zhuǎn)錄組測(cè)序的原理 79
7.2 實(shí)驗(yàn)設(shè)計(jì) 79
7.2.1 因子設(shè)計(jì) 79
7.2.2 重復(fù)與隨機(jī)化 80
7.2.3 樣本制備 80
7.2.4 測(cè)序策略 81
7.3 轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析 82
7.3.1 數(shù)據(jù)質(zhì)控與讀段定位 82
7.3.2 轉(zhuǎn)錄組測(cè)序數(shù)據(jù)的均一化 84
7,3.3 差異表達(dá)基因的鑒定 85
7.3.4 可變剪接分析 87
7.3.5 轉(zhuǎn)錄組測(cè)序數(shù)據(jù)的可視化 88
7.3.6 被識(shí)別基因的功能分析 88
7.4 利用轉(zhuǎn)錄組測(cè)序發(fā)現(xiàn)新基因 88
8 小RNA測(cè)序 90
8.1 小RNA新一代測(cè)序數(shù)據(jù)生成和上游處理 91
8.1.1 數(shù)據(jù)生成 91
8.1.2 預(yù)處理 92
8.1.3 定位 92
8.1.4 小RNA的注釋和預(yù)測(cè) 93
8.1.5 均一化 94
8.2 鑒別差異表達(dá)的小RNA 94
8.3 已鑒定小RNA的功能分析 94
9 用全基因組重測(cè)序方法分析基因型和發(fā)現(xiàn)基因組變異 96
9.1 數(shù)據(jù)預(yù)處理、比對(duì)、再比對(duì)和再校準(zhǔn) 96
9.2 單堿基變異和indel檢測(cè) 98
9.2.1 SNV檢測(cè) 98
9.2.2 新突變位點(diǎn)的檢測(cè) 99
9.2.3 Indel檢測(cè) 99
9.2.4 轉(zhuǎn)錄組測(cè)序數(shù)據(jù)的變異檢測(cè) 101
9.2.5 變異檢測(cè)格式文件 101
9.2.6 評(píng)估VCF結(jié)果 102
9.3 結(jié)構(gòu)變異檢測(cè) 103
9.3.1 基于配對(duì)讀段的SV檢測(cè) 103
9.3.2 斷點(diǎn)的確定 104
9.3.3 基于從頭組裝的SV檢測(cè) 104
9,3.4 CNV檢測(cè) 104
9.3.5 綜合SV分析 105
9.4 檢測(cè)變異的注釋 105
9.5 變異與疾病或性狀關(guān)聯(lián)的檢驗(yàn) 105
10 用新一代測(cè)序結(jié)果進(jìn)行基因組從頭組裝 107
10.1 從頭組裝的基因組因素與測(cè)序策略 107
10.1.1 影響從頭組裝的基因組因素 107
10.1.2 從頭組裝的測(cè)序策略 108
10.2 重疊群的組裝 109
10.2.1 測(cè)序數(shù)據(jù)的預(yù)處理、錯(cuò)誤修正與基因組特征的評(píng)估 109
10.2.2 重疊群組裝的算法 111
10.3 組裝骨架 112
10.4 組裝質(zhì)量評(píng)估 113
10.5 補(bǔ)齊缺口 114
10.6 局限性與未來的發(fā)展 114
11 用ChIP-Seq法對(duì)蛋白質(zhì)-DNA互作定位 116
11.1 ChIP-Seq的原理 116
11.2 實(shí)驗(yàn)設(shè)計(jì) 118
11.2.1 實(shí)驗(yàn)對(duì)照 118
11.2.2 測(cè)序深度 118
11.2.3 重復(fù) 118
11.3 讀段定位、峰值確定與峰值可視化 119
11.3.1 數(shù)據(jù)質(zhì)控與讀段定位 119
11.3.2 峰值確定 121
11.3.3 峰值可視化 127
11.4 不同的結(jié)合點(diǎn)分析 127
11.5 功能分析 129
11.6 基序分析 129
11.7 整合ChIP-Seq數(shù)據(jù)分析 130
12 用新一代測(cè)序進(jìn)行表觀基因組學(xué)和DNA甲基化分析 132
12.1 DNA甲基化測(cè)序策略 132
12.1.1 全基因組亞硫酸氫鹽測(cè)序 133
12.1.2 簡化的亞硫酸氫鹽測(cè)序 134
12.1.3 基于甲基化DNA富集的甲基化測(cè)序 134
12.1.4 區(qū)分胞嘧啶甲基化與亞硫酸氫鹽測(cè)序中去甲基化產(chǎn)物 135
12.2 DNA甲基化測(cè)序數(shù)據(jù)分析 135
12.2.1 數(shù)據(jù)質(zhì)量控制和預(yù)處理 135
12.2.2 讀段定位 135
12.2.3 DNA甲基化的定量 137
12.2.4 DNA甲基化數(shù)據(jù)的可視化 138
12.3 甲基化胞嘧啶位點(diǎn)及差異區(qū)域的檢測(cè) 140
12.4 數(shù)據(jù)檢驗(yàn)、核實(shí)和解析 140
13 用新一代測(cè)序進(jìn)行宏基因組學(xué)研究 142
13.1 實(shí)驗(yàn)設(shè)計(jì)與樣本制備 143
13.1.1 宏基因組樣本采集 143
13.1.2 宏基因組樣本制備 144
13.2 測(cè)序方法 145
13.3 全基因組鳥槍法宏基因組測(cè)序數(shù)據(jù)分析 145
13.4 測(cè)序數(shù)據(jù)的質(zhì)控和預(yù)處理 147
13.5 微生物群落的分類學(xué)特征 147
13.5.1 宏基因組的組裝 147
13.5.2 序列的分bin 148
13.5.3 在宏基因組序列中識(shí)別可讀框和其他基因組元素 149
13.5.4 系統(tǒng)遺傳學(xué)標(biāo)記分析 150
13.6 微生物群落的功能性特征 150
13.6.1 基因功能注釋 150
13.6.2 代謝途徑的重建 151
13.7 比較宏基因組分析 151
13.7.1 宏基因組測(cè)序數(shù)據(jù)均一化 152
13.7.2 識(shí)別不同豐度的物種或操作分類單位 152
13.8 整合宏基因組數(shù)據(jù)分析管道 152
13.9 宏基因組數(shù)據(jù)庫 153
第四部分 發(fā)展中的新一代測(cè)序技術(shù)與數(shù)據(jù)分析
14 新一代測(cè)序?qū)⒆呦蚝畏剑?157
14.1 發(fā)展中的新一代測(cè)序 157
14.2 高通量測(cè)序數(shù)據(jù)分析的生物信息學(xué)工具的快速涌現(xiàn)與變化 159
14.3 NGS分析管道的規(guī)范化與流程化 160
14.4 并行計(jì)算 160
14.5 云計(jì)算 161
參考文獻(xiàn) 164
附錄A 新一代測(cè)序數(shù)據(jù)分析常用文件格式 188
附錄B 詞匯表 190