本書詳細(xì)論述了立體視覺信號質(zhì)量評價(jià)的作用、方法及其性能度量,其中立體視覺信號質(zhì)量評價(jià)方法面向多種立體視覺信號,包括三維圖像、合成圖像和自由視點(diǎn)視頻。本書分為三部分:第一部分論述了立體視覺信號質(zhì)量評價(jià)的發(fā)展背景及作用、二維圖像質(zhì)量評價(jià)、三維圖像質(zhì)量評價(jià)、合成圖像質(zhì)量評價(jià)和合成視頻質(zhì)量評價(jià),并論述了方法性能度量;第二部分論述了面向三維圖像、合成圖像和自由視點(diǎn)視頻的質(zhì)量評價(jià)方法,并對其性能進(jìn)行了詳細(xì)比較;第三部分總結(jié)了全書并介紹了潛在的研究方向。本書對關(guān)鍵問題進(jìn)行了詳細(xì)的數(shù)學(xué)描述,并給出了大量的圖示和性能對比表格,以易于讀者閱讀和理解。本書適合作為高等院校計(jì)算機(jī)科學(xué)與技術(shù)和相關(guān)專業(yè)數(shù)字圖像處理和計(jì)算機(jī)視覺課程教材,也可供對視覺質(zhì)量評價(jià)領(lǐng)域感興趣的人員參考。
立體視覺信號質(zhì)量評價(jià)在多媒體信息管理中不可或缺,具有重要的研究價(jià)值和應(yīng)用價(jià)值。本書面向三維圖像、合成圖像和自由視點(diǎn)視頻三種立體視覺信號,論述立體視覺信號質(zhì)量評價(jià)研究工作,旨在讓讀者了解新式媒體應(yīng)用中的視覺質(zhì)量度量問題,從而進(jìn)一步了解當(dāng)前科技發(fā)展的前沿,如虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、人機(jī)交互等。
立體成像技術(shù)的迅速發(fā)展使得立體視覺信號成為人們生活中重要的多媒體數(shù)據(jù),立體成像技術(shù)也給人們的日常生活帶來了巨大的變化。多媒體立體視覺技術(shù)在服務(wù)人們?nèi)粘I罴疤嵘钯|(zhì)量的同時(shí),也帶來了多媒體信息管理的難題。比如,海量的立體視覺信號的質(zhì)量參差不齊,如何準(zhǔn)確地預(yù)測立體視覺信號的質(zhì)量并篩選出低質(zhì)量立體視覺信號是十分必要的,該操作可以有效地節(jié)約存儲空間并提高多媒體資源的利用率。另外,隨著人們對多媒體立體視覺技術(shù)帶來的視覺體驗(yàn)要求逐漸增加,如何提升多媒體立體視覺技術(shù)成為學(xué)術(shù)界和工業(yè)界追求的目標(biāo)。立體視覺信號質(zhì)量評價(jià)旨在準(zhǔn)確地預(yù)測立體視覺信號的質(zhì)量,是海量立體視覺信號篩選的重要手段。同時(shí),它可為立體視覺信號處理算法優(yōu)化和立體視覺系統(tǒng)優(yōu)化提供直接的優(yōu)化目標(biāo)。因此,立體視覺信號質(zhì)量評價(jià)在多媒體信息管理中不可或缺,具有重要的研究價(jià)值和應(yīng)用價(jià)值。
本書面向三維圖像、合成圖像和自由視點(diǎn)視頻三種立體視覺信號,論述立體視覺信號質(zhì)量評價(jià)研究工作,旨在讓讀者了解新式媒體應(yīng)用中的視覺質(zhì)量度量問題,從而進(jìn)一步了解當(dāng)前科技發(fā)展的前沿,如虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、人機(jī)交互等。本書的主要內(nèi)容如下:
(1)針對大部分現(xiàn)有三維圖像質(zhì)量評價(jià)模型僅考慮高級語義特征融合問題,本書提出融合多層級語義特征的三維圖像質(zhì)量評價(jià)模型,它包含一個(gè)權(quán)值共享的特征提取模塊、一個(gè)特征融合模塊和一個(gè)質(zhì)量回歸模塊。首先,受多層級視覺感知機(jī)制啟發(fā),使用一個(gè)權(quán)值共享的深度卷積神經(jīng)網(wǎng)絡(luò),提取左右視圖低級、中級和高級語義特征。其次,考慮到雙目視覺特性,構(gòu)建特征融合模塊。該模塊先分別融合左右視圖的不同層級語義特征,再通過兩個(gè)卷積操作進(jìn)一步融合多層級語義特征。最后,構(gòu)建包含多個(gè)全連接網(wǎng)絡(luò)的質(zhì)量回歸模塊,輸出三維圖像的質(zhì)量分?jǐn)?shù)。本書在兩個(gè)常用的三維圖像質(zhì)量評價(jià)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明所提出的模型性能超過了其他對比的模型。
(2)針對當(dāng)前公開的三維圖像質(zhì)量評價(jià)數(shù)據(jù)集規(guī)模過小導(dǎo)致模型性能比較可信度不足的問題,本書開展基于弱監(jiān)督學(xué)習(xí)的三維圖像質(zhì)量評價(jià)研究。首先,構(gòu)建首個(gè)大規(guī)模三維圖像質(zhì)量評價(jià)數(shù)據(jù)集,并自動生成三維圖像對的相對質(zhì)量作為粗粒度標(biāo)簽,生成單一視圖質(zhì)量作為偽標(biāo)簽。其次,利用構(gòu)建的三維圖像質(zhì)量評價(jià)數(shù)據(jù)集,重新訓(xùn)練當(dāng)前主流的三維圖像質(zhì)量評價(jià)模型,以更加公平的方式比較不同的模型,并探索網(wǎng)絡(luò)框架、輸入尺寸和額外的監(jiān)督信號對模型性能的影響。所有的測試模型均在當(dāng)前公開的數(shù)據(jù)集上測試,實(shí)驗(yàn)結(jié)果證明了本書構(gòu)建的三維圖像數(shù)據(jù)集的必要性,并獲得了關(guān)于三維圖像質(zhì)量評價(jià)模型多維度的比較。
(3)針對DIBR過程引入的非均勻失真難度量問題,本書提出結(jié)合局部變化感知和全局自然性建模的合成圖像質(zhì)量評價(jià)方法。首先,使用局部高斯導(dǎo)數(shù)計(jì)算圖像的局部泰勒展開,用于表征圖像局部結(jié)構(gòu)信息。進(jìn)一步地,使用局部二值模式表示初始結(jié)構(gòu)特征,并使用局部結(jié)構(gòu)特征幅值對初始結(jié)構(gòu)特征進(jìn)行加權(quán),得到最終的結(jié)構(gòu)特征。同時(shí),計(jì)算圖像的色度信息和顏色角度信息。類似地,計(jì)算得到顏色特征。結(jié)構(gòu)特征和顏色特征共同用于感知局部變化。其次,使用全局自然性度量全局變化,包括亮度自然性和結(jié)構(gòu)自然性。其中,亮度圖通過局部歸一化操作獲得;結(jié)構(gòu)圖通過計(jì)算合成圖與其低通濾波圖的差異圖得到。最后,結(jié)合局部變化和全局自然性共同度量合成圖像質(zhì)量。實(shí)驗(yàn)證明,本書提出的方法能夠有效地度量合成圖像的質(zhì)量。并且,通過剝離實(shí)驗(yàn)證明了局部感知和全局建模在度量合成圖像質(zhì)量變化上的有效性和互補(bǔ)性。
(4)針對當(dāng)前自由視點(diǎn)視頻體驗(yàn)質(zhì)量評價(jià)研究中內(nèi)容簡單、數(shù)據(jù)量少的問題,開展自由視點(diǎn)視頻體驗(yàn)質(zhì)量評價(jià)研究?紤]到應(yīng)用場景僅有兩種(中國男子籃球聯(lián)賽和綜藝節(jié)目),本書提出有限場景內(nèi)的多樣化數(shù)據(jù)收集策略,構(gòu)建首個(gè)大規(guī)模自由視點(diǎn)視頻體驗(yàn)質(zhì)量評價(jià)數(shù)據(jù)集。其次,提出從粗至細(xì)的兩階段主觀數(shù)據(jù)標(biāo)注法。第一階段為挑出確定的樣本,即受試者對此類樣本的評分一致性概率較高;第二階段則繼續(xù)為不確定的樣本打分。通過深入分析主觀數(shù)據(jù),研究深度信息和人物聚集程度對自由視點(diǎn)視頻體驗(yàn)的影響。另外,考慮到模型性能和效率的平衡,設(shè)計(jì)快速、有效的自由視點(diǎn)視頻體驗(yàn)質(zhì)量預(yù)測基準(zhǔn)模型。率先探索幀稀疏采樣對模型性能的影響,測試多種稀疏采樣策略。實(shí)驗(yàn)證明,僅使用自由視點(diǎn)視頻的部分幀,就可以準(zhǔn)確地預(yù)測整個(gè)自由視點(diǎn)視頻的體驗(yàn)質(zhì)量。
本書各章之間的關(guān)系如圖1所示,內(nèi)容圍繞立體視覺信號展開,具體組織結(jié)構(gòu)如下。第1章是導(dǎo)論,首先介紹立體視覺信號質(zhì)量評價(jià)的作用,然后分別介紹二維圖像質(zhì)量評價(jià)、三維圖像質(zhì)量評價(jià)、合成圖像質(zhì)量評價(jià)、合成視頻質(zhì)量評價(jià)研究,最后詳細(xì)介紹立體視覺信號質(zhì)量評價(jià)方法性能度量。第2章提出融合多層級語義特征的三維圖像質(zhì)量評價(jià)框架?紤]雙目視覺特性和多層級視覺感知特性,設(shè)計(jì)融合多層級語義特征的三維圖像質(zhì)量評價(jià)模型。該模型使用孿生網(wǎng)絡(luò)分別提取三維圖像左右視圖的低、中和高級語義特征,再分別融合不同層級語義特征,最后融合不同層級交互特征,通過非線性映射,得到三維圖像質(zhì)量分?jǐn)?shù)。第3章提出基于弱監(jiān)督學(xué)習(xí)的三維圖像質(zhì)量評價(jià)框架。針對有限訓(xùn)練集容易造成模型過擬合問題,進(jìn)而降低模型的可擴(kuò)展能力,且難以確定不同模型真正的優(yōu)劣,提出基于弱監(jiān)督學(xué)習(xí)的三維圖像質(zhì)量評價(jià)框架。為了解決數(shù)據(jù)量少的問題,構(gòu)建大型三維圖像質(zhì)量評價(jià)數(shù)據(jù)集(僅包含粗粒度標(biāo)簽和偽標(biāo)簽),并在該數(shù)據(jù)集上使用排序?qū)W習(xí)訓(xùn)練不同的基準(zhǔn)模型,探究當(dāng)前主流三維圖像質(zhì)量評價(jià)模型性能優(yōu)劣。進(jìn)一步地,研究輸入大小對模型的影響,以及三維圖像對之間的視覺偏好約束和單視圖預(yù)測約束對模型性能的影響。第4章提出融合局部感知和全局建模的合成圖像質(zhì)量評價(jià)方法。針對虛擬合成圖像非均勻失真度量難問題,分別使用局部感知度量局部失真引起的質(zhì)量變化和全局建模度量全局質(zhì)量變化。其中,使用局部二值模式表征結(jié)構(gòu)信息和顏色信息,感知局部變化;使用全局自然性度量全局變化;結(jié)合局部和全局變化度量,計(jì)算虛擬合成圖像質(zhì)量分?jǐn)?shù)。第5章開展體驗(yàn)質(zhì)量研究。本書考慮有限應(yīng)用場景內(nèi)的數(shù)據(jù)多樣性,收集多視角合成視頻數(shù)據(jù),構(gòu)建一個(gè)大規(guī)模真實(shí)場景下的體驗(yàn)質(zhì)量評價(jià)數(shù)據(jù)集;提出從粗至細(xì)的兩階段主觀數(shù)據(jù)標(biāo)注法,節(jié)省約17%標(biāo)注人力;結(jié)合多種稀疏采樣策略,設(shè)計(jì)快速、有效的體驗(yàn)質(zhì)量預(yù)測基準(zhǔn)模型。其中,第2、3章的研究對象是三維圖像,第4章的研究對象是合成圖像,第5章的研究對象是自由視點(diǎn)視頻。第6章提出方法總結(jié)與潛在的研究方向,總結(jié)本書的研究工作,并指出未來潛在的發(fā)展方向。
在本書編寫過程中,參考了國內(nèi)外眾多研究者的工作,在此衷心感謝他們對立體視覺信號質(zhì)量評價(jià)工作的貢獻(xiàn)。
衷心希望本書能夠給讀者帶來啟發(fā),引發(fā)更多有意義的研究工作。著者相信,立體視覺技術(shù)將得到進(jìn)一步的發(fā)展,造福社會。由于著者水平有限,書中不妥和疏漏之處在所難免,歡迎廣大讀者批評指正。
著者
2023年6月
鄢杰斌,男,1994年12月生,博士,江西財(cái)經(jīng)大學(xué)信息管理學(xué)院講師,專業(yè)方向?yàn)槎嗝襟w處理和人工智能,主授課程包括多媒體技術(shù)基礎(chǔ)、人工智能實(shí)踐和學(xué)術(shù)論文寫作等,榮獲碩士研究生國家獎學(xué)金、博士研究生國家獎學(xué)金、江西省博士十佳學(xué)術(shù)之星、江西財(cái)經(jīng)大學(xué)研究生標(biāo)兵等榮譽(yù)。