《模式識別核方法的理論研究與應(yīng)用》論述了模式識別核方法的理論與應(yīng)用。核方法具有堅實的理論基礎(chǔ),這使得核方法及其理論不僅在數(shù)學(xué)理論領(lǐng)域得到了非常重要的研究和發(fā)展,而且在模式識別、機器學(xué)習(xí)、數(shù)據(jù)挖掘等研究領(lǐng)域也得到了極為廣泛的關(guān)注與應(yīng)用。
《模式識別核方法的理論研究與應(yīng)用》可供從事模式識別核方法理論和應(yīng)用研究的高校和科研院所的研究人員、研究生、本科生學(xué)習(xí)和參考,也可為企業(yè)的技術(shù)人員提供參考和借鑒。
核方法及其理論以雙射函數(shù)和變換理論為基礎(chǔ),主要研究希爾伯特空間上的一些半正定函數(shù)及其相關(guān)應(yīng)用;诤说臋C器學(xué)習(xí)方法不僅適用于以特征向量表示的模式,也適用于結(jié)構(gòu)化數(shù)據(jù)的模式,前者對應(yīng)的是向量核方法,后者對應(yīng)的是圖核方法。因此,模式識別的核方法主要可以分為兩類:向量核方法和圖核方法。早期主要集中于對向量核進行研究,在這一方面不論在理論上,還是在應(yīng)用上都得到了較大的發(fā)展,也吸引了很多領(lǐng)域的學(xué)者對基于核方法的機器學(xué)習(xí)的理論與應(yīng)用技術(shù)進行了應(yīng)用和推廣;圖核發(fā)展較晚,近幾年才慢慢被人們所知并得到了應(yīng)用和推廣,尤其是在數(shù)字圖像的結(jié)構(gòu)圖建模、特征描述和匹配等研究領(lǐng)域,被越來越多的學(xué)者關(guān)注,圖核因其能夠描述圖的結(jié)構(gòu)特征,所以在結(jié)構(gòu)模式識別領(lǐng)域具有得天獨厚的優(yōu)勢。
模式識別核方法具有堅實的理論基礎(chǔ),這使得核方法及其理論不僅在數(shù)學(xué)理論領(lǐng)域得到了非常重要的研究和發(fā)展,而且在模式識別、機器學(xué)習(xí)、數(shù)據(jù)挖掘等研究領(lǐng)域也得到了極為廣泛的關(guān)注與應(yīng)用。因此,進一步研究核方法的理論與應(yīng)用具有非常重要的意義。
筆者在承擔(dān)安徽省自然基金面上項目“多層深度匹配圖核學(xué)習(xí)算法研究及其在輿情監(jiān)測中的應(yīng)用”(1908085MF185)、安徽省高校自然科學(xué)研究重大項目“基于深度多尺度圖核技術(shù)的公共安全監(jiān)測系統(tǒng)的研發(fā)及應(yīng)用”(KJ2019ZD61)、安徽省高校優(yōu)秀青年人才支持計劃重點項目(gxyq2019113)等的基礎(chǔ)上編寫了本書,希望能夠以此為從事模式識別核方法理論和應(yīng)用研究的高校和科研院所的研究人員、研究生、本科生,企業(yè)的技術(shù)人員提供相關(guān)的理論參考和技術(shù)借鑒。
本書內(nèi)容的主要創(chuàng)新之處如下:
第一,提出了一種再生核希爾伯特空間上的多核學(xué)習(xí)方法。首先,通過狄拉克函數(shù)介紹了一類廣義微分方程的基本解,并分析了這個基本解是H2空間上的再生核。其次,基于這個H2空間上的再生核設(shè)計了一種新的多核學(xué)習(xí)方法,由多核代替單核能增強支持向量機決策函數(shù)的可解釋性,并且可以獲得更優(yōu)的分類性能。最后,用大量的實驗驗證了這一新方法的有效性。
第二,提出了一種多屬性的具有再生性的卷積核方法。首先,通過狄拉克函數(shù)介紹了一類廣義微分方程的解,并基于這個解設(shè)計了一個多屬性卷積核函數(shù)。其次,驗證了這個多屬性函數(shù)滿足默瑟核的條件,且這個多屬性核函數(shù)具備三個屬性:L1范數(shù)、L2范數(shù)和拉普拉斯核。再次,與傳統(tǒng)的希爾伯特空間核方法相比,該卷積核方法在考慮多個屬性的情況下,融合了每個屬性的特點,有助于提高基于多屬性核函數(shù)支持向量機的分類精度。最后,在實驗數(shù)據(jù)集上驗證了該方法擁有較好的分類能力。
第三,提出了一種基于Weisfeiler-Lehman(WL)圖核的三種組合圖核方法。首先,給出WL圖核的基本理論和相關(guān)知識,并進一步介紹了基于WL圖核的子樹核、邊核和最短路徑核。其次,基于WL圖核定義了三種組合圖核,第一種為加權(quán)組合圖核,它是參數(shù)組合圖核;第二種為精度比組合圖核;第三種為乘積組合圖核。后兩種圖核屬于無參數(shù)圖核。最后,實驗結(jié)果表明基于WL圖核的組合圖核在所選實驗數(shù)據(jù)集上與相應(yīng)的單個圖核比較,可以獲得較好的分類精度。因此,研究組合圖核的理論與應(yīng)用具有非常重要的實際意義。
第四,提出了一種基于逼近的馮·諾依曼熵的再生性圖核方法。首先,給出了無向圖的一個信息熵逼近表達式,這個表達式依賴于對圖的頂點的度的統(tǒng)計,然后通過這個逼近的馮·諾依曼熵來度量結(jié)構(gòu)圖信息。其次,通過一個廣義微分方程的基本解來給出Hl空間上的Hl核函數(shù)。最后,基于逼近的馮·諾依曼信息熵與Hl核函數(shù)定義了一個逼近的馮·諾依曼熵再生性圖核。實驗結(jié)果表明,與其他圖核方法相比,這一分類方法的精度在所選的大多數(shù)數(shù)據(jù)集上能夠超過其他圖核方法,并且計算用時較短。
本書的資料主要來源于筆者的科研成果,在本書的創(chuàng)作過程中,筆者得到了中國科學(xué)技術(shù)大學(xué)陳恩紅教授、安徽大學(xué)羅斌教授、德國明斯特大學(xué)江曉怡教授等有關(guān)專家給予的指導(dǎo)和幫助,在此一并表示感謝。
徐立祥,著。 徐立祥,安徽大學(xué)-德國明斯特大學(xué)聯(lián)合培養(yǎng)工學(xué)博士,副教授,主要研究方向為模式識別與數(shù)據(jù)挖掘。現(xiàn)任合肥學(xué)院信息與計算科學(xué)專業(yè)教研室主任,安徽省人工智能理事。主持教育部人文社會科學(xué)青年基金、安徽省高校自然科學(xué)研究重點基金、安徽省高校很好青年骨干人才國外訪學(xué)研修重點基金、安徽省教育廳高等學(xué)校很好青年人才基金、安徽省科技廳重點實驗室開放基金等研究基金各1項,參與國家自然基金1項,發(fā)明1項。