《視覺語言交互中的視覺推理研究》的作者牛玉磊博士于2020年在中國(guó)人民大學(xué)取得博士學(xué)會(huì),后前往美國(guó)哥倫比亞大學(xué)開展博士后研究工作。本書從知識(shí)建模和知識(shí)推斷兩方面入手,深入研究了視覺語言交互任務(wù)中的視覺推理問題。
《視覺語言交互中的視覺推理研究》共五章:
第1章主要介紹了計(jì)算機(jī)視覺與自然語言處理交叉領(lǐng)域中交互類問題的研究背景,并分別從單輪交互、多輪交互、知識(shí)偏差三個(gè)角度選取了指稱語理解、視覺對(duì)話、視覺問答三個(gè)經(jīng)典任務(wù)展開討論。
第2章主要介紹了單輪交互情形的代表性視覺推理任務(wù),即指稱語理解問題,提出了變分背景框架,根據(jù)視覺圖像和指稱語文本的聯(lián)系及視覺物體之間的關(guān)系提取語義背景信息,并根據(jù)背景信息對(duì)指稱語進(jìn)行定位。
第3章介紹了多輪交互情形的代表性視覺推理任務(wù),即視覺對(duì)話問題,提出了遞歸注意力機(jī)制,通過視覺指代消解的思想對(duì)圖像、對(duì)話和問題之間的聯(lián)系進(jìn)行建模,優(yōu)化視覺表示。
第4章介紹了知識(shí)偏差情形的代表性視覺推理任務(wù),即視覺問答問題,基于因果推理提出了反事實(shí)視覺問答框架,在訓(xùn)練環(huán)境和測(cè)試環(huán)境的答案分布不一致情況下,通過因果效應(yīng)的視角提取并去除語言偏差。
第5章對(duì)本書進(jìn)行了總結(jié),并對(duì)未來研究方向進(jìn)行了展望。
適讀人群 :研究生、科研人員、從業(yè)者等
◆中國(guó)計(jì)算機(jī)領(lǐng)域具有重要突破或重要?jiǎng)?chuàng)新的博士研究生科研成果
◆2021年度CCF優(yōu)秀博士學(xué)位論文獎(jiǎng)
◆知識(shí)建模和知識(shí)推斷兩個(gè)方面
◆單輪交互和多輪交互兩個(gè)場(chǎng)景
◆去除直接因果效應(yīng),克服模型對(duì)語言偏差的依賴
視覺語言是計(jì)算機(jī)視覺與自然語言處理的交叉領(lǐng)域,對(duì)機(jī)器的感知和認(rèn)知能力均有較高的要求。隨著深度學(xué)習(xí)的發(fā)展和計(jì)算能力的提高,機(jī)器的感知能力得到了顯著提升,于是研究者們開始探索機(jī)器的認(rèn)知能力,尤其是推理能力。本書從知識(shí)建模和知識(shí)推斷兩方面入手,對(duì)視覺語言交互任務(wù)中的視覺推理問題進(jìn)行研究。其中,知識(shí)建模指通過模型的構(gòu)建,從視覺媒介和自然語言中提取視覺與語言知識(shí),并進(jìn)行特征表示;知識(shí)推斷指機(jī)器對(duì)視覺和語言兩個(gè)模態(tài)的知識(shí)進(jìn)行綜合考慮,并進(jìn)行無偏的推斷與估計(jì)。
牛玉磊,美國(guó)哥倫比亞大學(xué)博士后,2015年和2020年于中國(guó)人民大學(xué)分別獲得學(xué)士與博士學(xué)位。研究方向包括計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、因果推理、多模態(tài)學(xué)習(xí)等,在國(guó)際著名學(xué)術(shù)會(huì)議和期刊上發(fā)表論文20余篇。擔(dān)任BMVC 2022領(lǐng)域主席,AAAI 2023、IJCAI 2021高級(jí)程序委員會(huì)委員等學(xué)術(shù)職務(wù)。獲2021年度CCF優(yōu)秀博士學(xué)位論文獎(jiǎng)、CVPR 2019視覺對(duì)話挑戰(zhàn)賽冠軍,被評(píng)為NeurIPS 2022、ICLR 2021、ICCV 2021的杰出審稿人。
第1章 引言
1.1 研究背景 1
1.2 研究現(xiàn)狀 5
1.2.1 指稱語理解 6
1.2.2 視覺對(duì)話 8
1.2.3 視覺問答 11
1.3 研究?jī)?nèi)容與貢獻(xiàn) 14
1.4 組織結(jié)構(gòu) 17
第2章 單輪交互情形下的指稱語理解
2.1 研究概述 20
2.2 相關(guān)工作 23
2.3 變分背景框架 26
2.3.1 問題表述 26
2.3.2 指稱語理解 29
2.3.3 指稱語生成 31
2.3.4 模型實(shí)現(xiàn) 32
2.4 實(shí)驗(yàn)結(jié)果 40
2.4.1 實(shí)驗(yàn)設(shè)置 40
2.4.2 指稱語理解實(shí)驗(yàn)結(jié)果 44
2.4.3 指稱語生成實(shí)驗(yàn)結(jié)果 55
2.5 小結(jié) 57
第3章 多輪交互情形下的視覺對(duì)話
3.1 研究概述 60
3.2 相關(guān)工作 64
3.3 預(yù)備知識(shí) 66
3.4 遞歸視覺注意力模型 66
3.4.1 判別模塊 68
3.4.2 匹配模塊 69
3.4.3 注意力模塊 72
3.5 其他模塊 73
3.5.1 語言特征表示 73
3.5.2 視覺特征表示 75
3.5.3 特征優(yōu)化與融合 76
3.5.4 非線性映射 78
3.5.5 Gumbel離散采樣 79
3.6 實(shí)驗(yàn)結(jié)果 80
3.6.1 實(shí)驗(yàn)設(shè)置 80
3.6.2 實(shí)現(xiàn)細(xì)節(jié) 82
3.6.3 對(duì)比方法 82
3.6.4 實(shí)驗(yàn)結(jié)果分析 85
3.7 小結(jié) 93
第4章 知識(shí)偏差情形下的視覺問答
4.1 研究概述 96
4.2 相關(guān)工作 101
4.3 預(yù)備知識(shí) 104
4.3.1 因果圖 105
4.3.2 反事實(shí)表示 105
4.3.3 因果效應(yīng) 106
4.4 基于簡(jiǎn)化因果圖的反事實(shí)視覺問答 107
4.4.1 反事實(shí)視覺問答框架 108
4.4.2 技術(shù)實(shí)現(xiàn) 110
4.5 基于完全因果圖的反事實(shí)視覺問答 115
4.5.1 反事實(shí)視覺問答框架 115
4.5.2 技術(shù)實(shí)現(xiàn) 116
4.6 實(shí)現(xiàn)細(xì)節(jié) 119
4.7 實(shí)驗(yàn)結(jié)果 120
4.7.1 實(shí)驗(yàn)設(shè)置 120
4.7.2 簡(jiǎn)化因果圖實(shí)驗(yàn)結(jié)果 122
4.7.3 完全因果圖實(shí)驗(yàn)結(jié)果 134
4.8 小結(jié) 137
第5章 總結(jié)與展望
5.1 創(chuàng)新總結(jié) 139
5.2 未來工作展望 141
5.2.1 視覺推理任務(wù) 142
5.2.2 知識(shí)建模 142
5.2.3 知識(shí)偏差 143