人體動作識別是計算機視覺以及相關(guān)領(lǐng)域的重要研究內(nèi)容,旨在識別出具有高層語義的人體動作?陀^環(huán)境的復(fù)雜性以及運動的多樣性使基于視覺的人體姿態(tài)估計和動作識別極具挑戰(zhàn)性,因此研究人體動作識別方法具有十分重要的理論意義和應(yīng)用價值。本書在總結(jié)分析人體動作識別研究現(xiàn)狀的基礎(chǔ)上,從單人動作和群組動作兩個層面研究人體動作識別技術(shù),即人體2D姿態(tài)估計、人體3D姿態(tài)估計、單人動作識別,以及群體動作識別。本書結(jié)構(gòu)合理,內(nèi)容全面,既有嚴格的理論基礎(chǔ),又有實際的應(yīng)用。。
李侃,教授,博士生導(dǎo)師,副所長。國家重點研發(fā)計劃評審專家、國家863項目評審專家,北京市自然科學(xué)基金/重點基金評審專家、博士點基金/博士后基金評審專家,國際期刊NLPR主編,以及其它期刊的編委。在澳大利亞、加拿大、中國香港等國家、地區(qū)任職或?qū)W術(shù)研究。目前主要從事機器學(xué)習(xí)、模式識別及大數(shù)據(jù)分析方面的研究。主持了國家重點研發(fā)專項課題、國家973課題、863重大和和國家自然科學(xué)基金等多項國家級和部級項目,獲得了多項國防科技進步獎和?萍汲晒坏泉劦瓤蒲歇剟睢T赥KDE等國內(nèi)外期刊、IJCAI、ACM MM等學(xué)術(shù)會議上發(fā)表SCI/EI檢索論文近百篇,發(fā)明專利20余項。出版了教育部和北京市精品教材、獲得了全國高校人工智能與大數(shù)據(jù)教學(xué)創(chuàng)新獎、T-more優(yōu)秀教師獎、迪文優(yōu)秀教師獎、教學(xué)成果獎一等獎等教學(xué)獎勵。
第1章 緒論 001
1.1 研究目的和意義 001
1.2 國內(nèi)外研究現(xiàn)狀 005
1.2.1 人體姿態(tài)估計 005
1.2.2 基于視頻的人體動作識別 011
1.2.3 基于骨架序列的人體動作識別 014
1.2.4 基于互動關(guān)系的視覺人體動作識別 015
1.2.5 視頻群體動作識別 027
1.3 研究內(nèi)容 032
1.4 本書結(jié)構(gòu)安排 034
第2章 基于時序一致性探索的人體2D姿態(tài)估計 036
2.1 引言 036
2.2 相關(guān)工作 038
2.2.1 基于深度學(xué)習(xí)的視頻人體2D姿態(tài)估計 038
2.2.2 卷積長短時記憶網(wǎng)絡(luò)和可變形卷積 038
2.3 問題定義 039
2.4 圖像人體2D姿態(tài)估計網(wǎng)絡(luò) 040
2.5 視頻時序一致性探索 041
2.5.1 變形操作 042
2.5.2 聚合操作 043
2.5.3 雙向時序一致性探索 043
2.5.4 多尺度時序一致性探索 044
2.6 視頻人體2D姿態(tài)估計網(wǎng)絡(luò) 044
2.7 實驗結(jié)果 046
2.7.1 實驗設(shè)置 046
2.7.2 性能比較 048
2.7.3 模型控制變量分析與實驗結(jié)果 051
2.8 本章小結(jié) 055
第3章 多視角幾何驅(qū)動的自監(jiān)督人體3D姿態(tài)估計 057
3.1 引言 057
3.2 相關(guān)工作 059
3.2.1 基于深度學(xué)習(xí)的單目人體3D姿態(tài)估計 060
3.2.2 弱/自監(jiān)督單目人體3D姿態(tài)估計 060
3.3 自監(jiān)督人體3D姿態(tài)估計方法 061
3.3.1 雙分支自監(jiān)督訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu) 061
3.3.2 損失函數(shù) 062
3.3.3 訓(xùn)練 064
3.4 實驗結(jié)果 065
3.4.1 實驗設(shè)置 065
3.4.2 模型控制變量分析與實驗結(jié)果 066
3.4.3 性能比較 070
3.5 本章小結(jié) 071
第4章 基于人體形狀與相機視角一致分解的人體3D姿態(tài)估計 072
4.1 引言 072
4.2 相關(guān)工作 074
4.2.1 基于字典學(xué)習(xí)的單目人體3D姿態(tài)估計方法 074
4.2.2 運動恢復(fù)非剛體結(jié)構(gòu) 075
4.3 問題定義 075
4.4 一致分解網(wǎng)絡(luò) 076
4.5 層次化字典學(xué)習(xí) 077
4.6 模型訓(xùn)練 079
4.7 實驗結(jié)果 079
4.7.1 實驗設(shè)置 079
4.7.2 模型控制變量分析與實驗結(jié)果 080
4.7.3 性能比較 083
4.8 本章小結(jié) 084
第5章 基于多時空特征的人體動作識別 086
5.1 引言 086
5.2 相關(guān)工作 088
5.2.1 基于表觀的時空表示學(xué)習(xí) 088
5.2.2 基于骨架序列的時空表示學(xué)習(xí) 089
5.3 多時空特征人體動作識別方法概述 089
5.4 多層級表觀特征聚合 090
5.4.1 局部演化描述符提取 090
5.4.2 局部演化描述符編碼 092
5.4.3 深度監(jiān)督的多層級特征聚合 092
5.5 時空圖卷積網(wǎng)絡(luò) 093
5.5.1 時空圖卷積 094
5.5.2 網(wǎng)絡(luò)細節(jié) 095
5.6 實驗結(jié)果 096
5.6.1 實驗設(shè)置 096
5.6.2 模型控制變量分析與實驗結(jié)果 097
5.6.3 性能比較 099
5.7 本章小結(jié) 100
第6章 基于扁平式互動關(guān)系分析的多人動作識別 101
6.1 引言 101
6.2 相關(guān)工作 109
6.3 特征表征 111
6.3.1 肢體角度描述符特征 113
6.3.2 空間布局特征 114
6.3.3 基于融合受限玻爾茲曼機的特征融合 116
6.4 線索互動關(guān)系模型 126
6.5 扁平式動作識別方法 127
6.6 局部線索與局部識別 129
6.7 基于目標(biāo)子空間度量的動作相關(guān)性分析 130
6.8 全局線索整合與動作識別 131
6.8.1 全局-局部線索整合算法 131
6.8.2 改進全局-局部線索整合算法 132
6.9 實驗結(jié)果與分析 136
6.9.1 數(shù)據(jù)集及實驗設(shè)置 136
6.9.2 算法結(jié)果與分析 138
6.9.3 與現(xiàn)有方法的對比 146
6.10 本章小結(jié) 149
第7章 基于層級式互動關(guān)系分析的群組動作識別 150
7.1 引言 150
7.2 相關(guān)工作 152
7.3 混合群組動作模型 154
7.4 混合群組動作模型的概率分布 157
7.5 基于混合群組動作模型的動作識別算法 161
7.6 實驗與算法分析 162
7.6.1 數(shù)據(jù)集和實驗設(shè)置 162
7.6.2 算法結(jié)果和分析 163
7.6.3 與現(xiàn)有方法的對比 168
7.7 本章小結(jié) 170
第8章 融合動作相關(guān)性的群體動作識別 171
8.1 引言 171
8.2 相關(guān)工作 172
8.3 問題定義 173
8.4 動作表示 173
8.4.1 多尺度特征 174
8.4.2 動作表示提取 175
8.5 動作關(guān)系推理 177
8.5.1 動作相關(guān)性 177
8.5.2 關(guān)系推理 179
8.5.3 算法描述 180
8.6 時空表示 181
8.7 模型訓(xùn)練 184
8.8 實驗分析 185
8.8.1 數(shù)據(jù)集與評價指標(biāo) 185
8.8.2 實驗設(shè)置 187
8.8.3 實驗結(jié)果分析 187
8.9 本章小結(jié) 193
第9章 結(jié)論與展望 194