音樂是人類精神文明的重要產(chǎn)物,是人類靈魂的安慰劑。在中華民族五千年的文明中,禮樂文明是重要的組成部分,其中樂就是指音樂。古代先賢十分重視音樂在社會文明發(fā)展、社會秩序維護方面的重要作用,認(rèn)為音樂可以幫助維護社會和諧,即所謂樂至則無怨,禮至則不爭的社會發(fā)展理想境界?鬃娱_經(jīng)授課,講授《詩》《書》《禮》《樂》,這些著作構(gòu)筑了儒家博大精深的政治理論體系,孔子也曾在齊國聞《韶》樂而三月不知肉味,可見音樂對社會和個人精神文明的深遠(yuǎn)影響。
隨著網(wǎng)絡(luò)和大規(guī)模數(shù)字音樂產(chǎn)業(yè)的發(fā)展,音樂的獲取和收聽以更加便捷的方式呈現(xiàn)在用戶面前,如何從海量的互聯(lián)網(wǎng)數(shù)字音樂數(shù)據(jù)中,找到用戶喜聞樂見的音樂,成為音樂信息檢索領(lǐng)域要解決的關(guān)鍵問題和主要目標(biāo)。常見的音樂檢索都是以文本檢索為主要手段,需要大量的人工標(biāo)注,大大阻礙了音樂作品的檢索和傳播,成為數(shù)字音樂產(chǎn)業(yè)發(fā)展的瓶頸問題。
音樂是人類思維的產(chǎn)物,以物理波形為載體,傳遞著人們對生活的理解和主觀感受。情感是音樂先天的屬性,音樂是能夠表達人類思想和傳播文化的途徑。人工智能發(fā)展到今天也不同程度地遇到了語義瓶頸,如何讓機器理解和表達人類情感,成為人工智能技術(shù)無法跨越的鴻溝。
為了探索機器理解語義的方法,本書從音樂這一情感載體入手,詳細(xì)論述了從基于音樂內(nèi)容到音樂語義的信息檢索模式,從而為機器理解人類情感打開一扇有趣的窗口。本書的研究思路、研究方法及其發(fā)展歷程,在文本、圖像和視頻領(lǐng)域有相通之處,本書也能使讀者進一步理解多媒體信號語義提取方法和應(yīng)用。
本書融合了作者十余年來在該領(lǐng)域?qū)W習(xí)研究的經(jīng)驗,對相關(guān)算法和方法的IV AI探視人類情感原理與實踐人工智能驅(qū)動的音樂信息檢索論述深入淺出,使得讀者能夠理論聯(lián)系實際,更快地從事該領(lǐng)域的工作。
作為計算機領(lǐng)域的專業(yè)書籍、科普讀物,本書總結(jié)、回顧了計算機領(lǐng)域?qū)σ魳窓z索做出的研究工作,為計算機科普人員、青少年讀者、模式識別和人工智能領(lǐng)域研究人員、語音處理和互聯(lián)網(wǎng)多媒體技術(shù)研究人員、IT從業(yè)者、數(shù)字音樂產(chǎn)業(yè)服務(wù)人員、音樂服務(wù)提供商進一步學(xué)習(xí)和從事音樂信息檢索方向的工作,提供堅實的理論和實踐案例。
感謝北京師范大學(xué)周明全教授、西北大學(xué)耿國華教授、大連理工大學(xué)林鴻飛教授提供的指導(dǎo),感謝安雯、孫法莉、馬雪倩、高福杰、王偉濱、蔣卓同學(xué)的幫助。
衷心感謝清華大學(xué)出版社的大力支持和協(xié)助,使本書能夠順利出版。
由于作者的水平有限,書中難免有不足和疏漏之處,懇請各位讀者提出批評和建議,以便進一步修訂和改進。
秦靜
第1章 音樂信息檢索的產(chǎn)生與發(fā)展 // 001
1.1 音樂信息檢索歷史與發(fā)展 //003
1.2 音樂信息檢索建模與表達 //005
1.3 音樂信息檢索相關(guān)研究 //006
1.4 國內(nèi)外研究進展 //010
1.4.1 音樂檢索 // 010
1.4.2 音樂推薦 // 014
1.4.3 音樂播放列表生成 // 015
1.4.4 音樂瀏覽界面 // 016
1.4.5 其他檢索應(yīng)用 // 019
1.5 研究思路 //021
1.5.1 框架 // 021
1.5.2 研發(fā)思路 // 022
第2章 音樂計算理論 // 023
2.1 音樂特征提取 //025
2.1.1 時域和頻域特征 // 025
2.1.2 低層特征和音色 // 028
2.1.3 音高特征 // 030
2.1.4 旋律、和弦和音調(diào) // 035
2.2 音樂相似度 //038
2.2.1 自相似性分析與音樂結(jié)構(gòu) // 038
2.2.2 全局相似度 // 038
2.2.3 基于向量空間模型的音樂相似度 // 039
2.2.4 基于共現(xiàn)分析的音樂相似度 // 041
2.3 本章小結(jié) //045
第3章 基于旋律的哼唱音樂檢索模型 // 047
3.1 哼唱旋律的表示模型及其匹配技術(shù)框架 //048
3.2 基于遺傳算法的旋律輪廓對齊算法 //050
3.2.1 染色體編碼設(shè)計 // 052
3.2.2 適應(yīng)度函數(shù)定義 // 053
3.2.3 算法描述 // 053
3.2.4 加權(quán)綜合旋律模板匹配算法 // 054
3.3 旋律模板的局部敏感哈希 //055
3.3.1 音樂文件的模板生成 // 056
3.3.2 局部哈希算法 // 057
3.3.3 面向歐氏距離的LSH函數(shù)族 // 058
3.3.4 基于局部哈希算法的哼唱檢索 // 059
3.4 實驗結(jié)果與分析 //060
3.4.1 遺傳算法實驗結(jié)果及其分析 // 061
3.4.2 哼唱檢索系統(tǒng)檢索結(jié)果及其分析 // 064
3.5 本章小結(jié) //066
第4章 基于示例內(nèi)容的音樂檢索模型 // 067
4.1 基于流形排序的音樂檢索技術(shù)框架 //068
4.2 流形排序 //069
4.3 音頻流形排序算法設(shè)計 //071
4.3.1 特征選擇 // 071
4.3.2 流形排序算法設(shè)計 // 072
4.3.3 相關(guān)反饋算法設(shè)計 // 074
4.4 實驗結(jié)果與分析 //077
4.5 本章小結(jié) //081
第5章 基于示例語義的音樂檢索模型 // 083
5.1 基于示例語義的音樂檢索 //084
5.2 基于示例語義的音樂檢索系統(tǒng)框架 //086
5.3 基于深度學(xué)習(xí)算法的模型設(shè)計 //087
5.3.1 問題描述 // 087
5.3.2 模型設(shè)計 // 091
5.3.3 算法描述 // 094
5.4 模型改進 //096
5.4.1 損失函數(shù)調(diào)整 // 097
5.4.2 SMOTE算法 // 098
5.4.3 基于ELM的語義向量生成 // 100
5.5 實驗結(jié)果與分析 //101
5.5.1 數(shù)據(jù)集與語義特征提取 // 101
5.5.2 標(biāo)注性能評價 // 102
5.5.3 檢索性能評價 // 103
5.5.4 實驗結(jié)果分析 // 103
5.6 本章小結(jié) //111
第6章 基于示例語義的音樂檢索與交互技術(shù)應(yīng)用 // 113
6.1 音樂檢索交互系統(tǒng) //114
6.2 基于語義的音樂檢索交互系統(tǒng)框架 //116
6.3 基于語義的音樂檢索交互系統(tǒng)設(shè)計 //117
6.3.1 基于語義的音樂檢索算法實現(xiàn) // 117
6.3.2 基于交互信息的音樂推薦算法實現(xiàn) // 118
6.3.3 用戶語義配置文件的生成 // 119
6.4 系統(tǒng)實現(xiàn) //120
6.4.1 檢索數(shù)據(jù)集的建立 // 120
6.4.2 檢索交互系統(tǒng)實現(xiàn) // 122
6.5 本章小結(jié) //125
第7章 人工智能在音樂檢索技術(shù)中的應(yīng)用 // 127
7.1 音樂語義提取及應(yīng)用 //128
7.1.1 音樂語義標(biāo)注的深度神經(jīng)網(wǎng)絡(luò)模型 // 128
7.1.2 可解釋模型音樂語義模型 // 133
7.2 跨模態(tài)音樂檢索 //133
7.2.1 音樂-視頻跨模態(tài)檢索 // 133
7.2.2 音樂-歌詞跨模態(tài)檢索 // 134
7.3 智能音樂交互及發(fā)現(xiàn)工具 //136
7.3.1 基于LibROSA的音樂信息檢索系統(tǒng)評估工具 // 136
7.3.2 基于語義圖表的音樂元數(shù)據(jù)復(fù)雜性建模 // 139
7.3.3 MusicWeb:具有開放鏈接語義元數(shù)據(jù)的音樂發(fā)現(xiàn) // 139
7.3.4 基于肢體動作相似度的舞蹈音樂檢索系統(tǒng) // 141
7.3.5 語義音樂播放器 // 143
7.4 本章小結(jié) //143
參考文獻 // 145