第1章概述
1.1算與計(jì)算工具
1.2處理器
1.2.1微處理器
1.2.2 協(xié)處理器
1.3異構(gòu)計(jì)算簡(jiǎn)介
1.3.1 GPGPU 計(jì)算
1.3.2異構(gòu)計(jì)算應(yīng)用
本章小結(jié)
第2章異構(gòu)計(jì)算系統(tǒng)結(jié)構(gòu)
2.1 GPU體系結(jié)構(gòu)
2.2CPU-GPU異構(gòu)計(jì)算系統(tǒng)
2.2.1體系結(jié)構(gòu)視角的CPU-GPU異構(gòu)計(jì)算系統(tǒng)
2.2.2單結(jié)點(diǎn)單GPU異構(gòu)計(jì)算系統(tǒng)
2.2.3單結(jié)點(diǎn)多GPU異構(gòu)計(jì)算系統(tǒng)
2.3 GPU與AI計(jì)算
本章小結(jié)
第3章異構(gòu)計(jì)算編程模型
3.1CUDA程序設(shè)計(jì)模型
3.1.1 CUDA線程模型
3.1.2 CUDA存儲(chǔ)模型
3.1.3 CUDA編譯流程
3.2 CUDA 相關(guān)軟件庫
3.3CUDA性能分析工具
本章小結(jié)
第4章線程池計(jì)算模型
4.1 模型設(shè)計(jì)
4.1.1 線程池模型
4.1.2 基本設(shè)計(jì)原理和優(yōu)點(diǎn)
4.1.3模型結(jié)構(gòu)設(shè)計(jì)·..
4.1.4支持單結(jié)點(diǎn)多GPU 的 CAGTP 模型
4.2模型運(yùn)行機(jī)制
4.2.1 CAGTP模型構(gòu)造
4.2.2 分配任務(wù)槽
4.2.3計(jì)算線程塊級(jí)任務(wù)調(diào)度
4.2.4 啟動(dòng)任務(wù)復(fù)用 Kernel 函數(shù)
4.3 程序設(shè)計(jì)接口
4.4模型擴(kuò)展變體
4.4.1無任務(wù)隊(duì)列的CAGTP 模型
4.4.2 帶有輪轉(zhuǎn)雙任務(wù)槽的 CAGTP 模型.
4.4.3支持流多處理器劃分的CAGTP模型·
4.5模型性能測(cè)試與分析
4.5.1 模型討論
4.5.2 性能分析
4.5.3微基準(zhǔn)測(cè)試
本章小結(jié)
第5章線性代數(shù)算法實(shí)現(xiàn)
5.1 通用稠密矩陣乘
5.1.1 概述
5.1.2 GEMM 的 CAGTP 實(shí)現(xiàn)
5.1.3 GEMM在CAGTP 上的性能分析
5.2批量細(xì)度GEMM的CAGTP實(shí)現(xiàn)與性能分析
5.3 Cholesky分解
5.3.1 Cholesky 分解介紹
5.3.2 Cholesky分解的CAGTP 實(shí)現(xiàn)
5.3.3 Cholesky分解在CAGTP 上的性能分析
5.4混合任務(wù)計(jì)算
5.4.1 SPMV與Black Scholes 算法介紹
5.4.2混合任務(wù)計(jì)算的CAGTP 實(shí)現(xiàn)
5.4.3混合任務(wù)計(jì)算在CAGTP 上的性能分析
……
第6章機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)
第7章高光譜圖像分類算法實(shí)現(xiàn)
第8章FPGA異構(gòu)計(jì)算
參考文獻(xiàn)