序
眾所周知,人類視覺(jué)具有非凡的環(huán)境感知能力,似乎毫不費(fèi)力就可以對(duì)周圍環(huán)境的典型目標(biāo)進(jìn)行識(shí)別。隨著人類對(duì)自身視覺(jué)系統(tǒng)的深入了解,借助人類視覺(jué)的信息處理機(jī)制來(lái)增強(qiáng)機(jī)器視覺(jué)的認(rèn)知能力已是計(jì)算機(jī)視覺(jué)領(lǐng)域的熱點(diǎn)研究?jī)?nèi)容之一。然而,如何模擬大腦視覺(jué)系統(tǒng)的典型功能或信息處理機(jī)制,使計(jì)算機(jī)擁有人類所具備的觀察和理解世界的能力,卻是計(jì)算機(jī)視覺(jué)領(lǐng)域面臨的一大挑戰(zhàn)。
本書(shū)借鑒人類視網(wǎng)膜、視皮層的信息處理機(jī)制以及視覺(jué)心理認(rèn)知組織準(zhǔn)則,構(gòu)建具有人類某些視覺(jué)功能特性的計(jì)算模型或方法,以機(jī)器視覺(jué)感知的自然環(huán)境信息——自然圖像[1] 為處理對(duì)象,實(shí)現(xiàn)自然圖像的顯著性處理與自然環(huán)境的典型目標(biāo)識(shí)別,為機(jī)器人自動(dòng)導(dǎo)航提供視覺(jué)環(huán)境感知和信息選擇性傳輸機(jī)制的可計(jì)算方法。
基于視覺(jué)認(rèn)知的自然圖像目標(biāo)識(shí)別屬于神經(jīng)生理學(xué)、認(rèn)知心理學(xué)、生物物理學(xué)、計(jì)算機(jī)信息學(xué)以及自動(dòng)化等眾多學(xué)科交叉形成的新興研究課題。作為交叉領(lǐng)域里的一項(xiàng)基礎(chǔ)性研究工作,本書(shū)在研究方法與思路上有所突破,主要可概括為以下7個(gè)方面:
① 系統(tǒng)、全面地總結(jié)了國(guó)內(nèi)外神經(jīng)科學(xué)家在視覺(jué)信息處理上取得的功能性實(shí)驗(yàn)成果,分析和討論了視覺(jué)信息處理中的層次(初級(jí)、中級(jí)、高級(jí))功能。在總結(jié)國(guó)內(nèi)外相關(guān)工作的基礎(chǔ)上,重點(diǎn)探討了基于生物視覺(jué)特性的自然圖像目標(biāo)識(shí)別所涉及的關(guān)鍵技術(shù)與難點(diǎn)。
② 詳細(xì)分析了人類視網(wǎng)膜感知外部環(huán)境的信息處理機(jī)制,提出了一種空間可變分辨率的自然圖像處理方法。在人類的視覺(jué)感知過(guò)程中,視網(wǎng)膜成像的分辨率隨著注視點(diǎn)空間位置的變化而不同。依據(jù)這一生物事實(shí),本書(shū)模擬了人類視覺(jué)系統(tǒng)視網(wǎng)膜的感知機(jī)制。所提出的自然圖像顯著性處理方法在海量圖像數(shù)據(jù)的遠(yuǎn)程傳輸以及基于圖像的遠(yuǎn)程目標(biāo)識(shí)別中具有較高的應(yīng)用價(jià)值。
③ 受生物視覺(jué)初級(jí)視皮層(V1)環(huán)境感知機(jī)制的啟發(fā),提出了一種以gabor積分模塊為核心的自然圖像目標(biāo)輪廓提取模型與方法,以復(fù)雜背景的自然圖像為處理對(duì)象,驗(yàn)證了用該方法提取自然圖像顯著性輪廓特征的可行性與優(yōu)越性。
④ 受視覺(jué)“what pathway”信息處理機(jī)制的啟發(fā),提出了一種基于感知不變性特征的自然場(chǎng)景目標(biāo)識(shí)別模型與方法。該方法通過(guò)有效提取目標(biāo)的感知不變性特征與可塑性學(xué)習(xí)實(shí)現(xiàn)自然場(chǎng)景的目標(biāo)識(shí)別。實(shí)驗(yàn)結(jié)果表明,該方法能有效地分類識(shí)別出自然場(chǎng)景中建筑物、樹(shù)、天空、道路、行人、汽車以及自行車等典型目標(biāo),并具有較強(qiáng)的魯棒性和較高的識(shí)別率。
⑤ 受認(rèn)知心理學(xué)有關(guān)研究的啟發(fā),分析了傳統(tǒng)流形認(rèn)知方法(LLE)在特征學(xué)習(xí)以及分類識(shí)別中的不足,對(duì)傳統(tǒng)的 LLE 方法進(jìn)行了一種有監(jiān)督的擴(kuò)展。該方法在基于自然圖像的數(shù)字手寫(xiě)體識(shí)別實(shí)驗(yàn)中,具有較高的正確識(shí)別率。
⑥ 針對(duì)自然圖像數(shù)據(jù)的非高斯分布特性,對(duì)一種自主心智發(fā)育認(rèn)知方法進(jìn)行了改進(jìn),即在傳統(tǒng)的發(fā)育方法(HDR)上,提出一種基于獨(dú)立成分特征空間的分級(jí)判別回歸樹(shù)(ICS-HDR)。將改進(jìn)后的方法用于人臉自然圖像的身份識(shí)別和機(jī)器人導(dǎo)航時(shí)障礙物方向判斷。實(shí)驗(yàn)結(jié)果表明,該方法在識(shí)別率和消耗時(shí)間上都具有一定的優(yōu)越性。
⑦ 受簡(jiǎn)單視覺(jué)細(xì)胞以及非經(jīng)典感受野的聯(lián)合啟發(fā),本部分將前述的神經(jīng)信息計(jì)算方法用于視頻圖像的處理。結(jié)合視頻動(dòng)態(tài)行為分析的難點(diǎn),本書(shū)提出的方法能較好地挖掘出視頻信息中的動(dòng)態(tài)行為能量特征,其反應(yīng)現(xiàn)象與人類大腦特征具有一致性。實(shí)驗(yàn)結(jié)果表明,該方法通過(guò)計(jì)算視頻幀的能量,能較好地辨識(shí)出視頻中的動(dòng)態(tài)行為,在基于視頻的公共安防領(lǐng)域中有重要的應(yīng)用價(jià)值。由于篇幅限制,特將此部分通過(guò)論文形式附在書(shū)后,以供參閱。
李作進(jìn)
2016年2月
[1] 自然圖像是一個(gè)沒(méi)有準(zhǔn)確定義的概念,是科學(xué)家為了研究人對(duì)所觀察的外部環(huán)境產(chǎn)生的一些視覺(jué)神經(jīng)反應(yīng)而提出的。從信息獲取角度來(lái)看,自然圖像就是人類視覺(jué)系統(tǒng)能觀測(cè)到的信息或者機(jī)器所采集到的自然環(huán)境信息。因此,用計(jì)算機(jī)模擬或仿真自然環(huán)境下某些視覺(jué)功能時(shí)所處理的對(duì)象就是自然圖像。