- 相關(guān)推薦
基于內容的音頻與音樂(lè )分析綜述
摘要:機器聽(tīng)覺(jué)包括三大研究領(lǐng)域:語(yǔ)音信號處理與識別、一般音頻信號分析、基于內容的音樂(lè )信號分析。其中,語(yǔ)音信號處理與識別早已成為一個(gè)傳統的研究熱點(diǎn)。隨著(zhù)信息科學(xué)與技術(shù)的迅速發(fā)展,基于內容的音頻與音樂(lè )信號分析也逐漸成為一個(gè)新的研究熱點(diǎn),近幾年來(lái)取得了大量研究成果。文章將對1990年以后該領(lǐng)域上所取得的研究成果進(jìn)行綜述,包括基于內容的音頻或音樂(lè )信號自動(dòng)分類(lèi)、分割、檢索以及音樂(lè )作品自動(dòng)分析等內容。
關(guān)鍵詞:音樂(lè )分類(lèi);識別;分割;檢索;音樂(lè )分析;自動(dòng)摘要;音頻信號處理;模式識別
1、引言
聽(tīng)覺(jué)是一個(gè)非常重要的信息來(lái)源,如何能讓計算機具有人類(lèi)的聽(tīng)覺(jué)能力是一個(gè)十分有趣的問(wèn)題,有著(zhù)廣闊的應用前景。由于實(shí)際應用的需要,同時(shí)也為了研究方便,學(xué)者們將機器聽(tīng)覺(jué)分為三大領(lǐng)域:語(yǔ)音信號處理與識別、一般音頻信號分析、基于內容的音樂(lè )分析。在這三個(gè)研究領(lǐng)域當中,有關(guān)語(yǔ)音識別的研究最為深入,每年都有大量的相關(guān)研究工作被報道。由于已經(jīng)存在許多有關(guān)語(yǔ)音識別方面的綜述性文章[1’2],本文將不再對該領(lǐng)域的研究工作做進(jìn)一步的歸納和整理。
所謂一般音頻信號是指除了語(yǔ)音信號以外的各種音頻信號,其中也包括音樂(lè )。而音樂(lè )也是一般音頻信號中最重要的一個(gè)類(lèi)別。我們知道音樂(lè )是一種復雜的非自然的聲音現象,它是人類(lèi)智慧與感性思維的體現。許多無(wú)法用語(yǔ)言準確描述的思想感情可以通過(guò)音樂(lè )表達出來(lái),優(yōu)秀的音樂(lè )作品往往會(huì )使人產(chǎn)生情感上的共鳴。因此,音樂(lè )被認為是全人類(lèi)的共同語(yǔ)言,是人類(lèi)幾千年文化發(fā)展的成果,對它的研究無(wú)疑具有非常重要的價(jià)值。由于音樂(lè )本身包含著(zhù)大量不同層次的信息,對音樂(lè )信號進(jìn)行自動(dòng)分析是十分困難的。此外,人類(lèi)社會(huì )已經(jīng)進(jìn)入數字化時(shí)代,娛樂(lè )業(yè)與信息產(chǎn)業(yè)愈來(lái)愈緊密地結合在一起。如何快速有效地搜索、管理和分析多媒體數據已經(jīng)成為一個(gè)非常重要的問(wèn)題,而基于內容的音頻和音樂(lè )信號分析則有助于這一難題的解決。
和語(yǔ)音信號處理與識別相比,有關(guān)基于內容的音樂(lè )和一般音頻信號分析的研究工作相對較少。但進(jìn)入20世紀90年代以后,這個(gè)領(lǐng)域的研究工作取得了很大進(jìn)展,國際上發(fā)表的有關(guān)論文數量大幅增長(cháng)。而目前有關(guān)該領(lǐng)域的比較全面的綜述文章還是截止到1988年,因此我們認為非常有必要對近幾年的研究工作進(jìn)行一下總結。在本文中,我們將對1990年以來(lái)基于內容的音頻和音樂(lè )分析領(lǐng)域的研究工作進(jìn)行全面、完整的綜述,其中主要介紹最近七八年的研究成果,之前的研究工作請參看文獻[3].
此外,具體的有關(guān)遺傳算法在音樂(lè )分析領(lǐng)域中的應用綜述請參看文獻[4].這個(gè)研究領(lǐng)域中比較重要的期刊和會(huì )議包括IEEE Transaction on Speech andAudio Processing;IEEE Transaction on PatternAnalysis and Machine Intelligence;IEEE(Transac—tion on)Multimedia;IEEE Transaction on SignalProcessing; IEEE International Conference onAcoustics, Speech, and Signal Processing(IC—ASSP);IEEE International Conference on Multi—media and Expo(1CME)和International Symposi—um on Music Information Retrieval(ISMIR)等。
本文將按照不同的研究工作所處理的具體問(wèn)題組織全文,安排如下:第2節介紹基于內容的音頻和音樂(lè )分類(lèi)與識別方面的研究工作;第3節介紹基于內容的音頻流分割;第4節則介紹基于內容的音頻或音樂(lè )檢索;第5節介紹音樂(lè )作品分析以及樂(lè )譜自動(dòng)識別方面的工作;第6節介紹有關(guān)計算機音樂(lè )分析與理解方面的一些其他工作;最后在第7節中則是我們對該領(lǐng)域今后研究工作的一些認識。
2、基于內容的音頻和音樂(lè )分類(lèi)與識別
基于內容的音頻數據自動(dòng)分類(lèi)是一個(gè)十分重要的研究方向,它可成為其他許多應用研究的基礎,如基于內容的分割、檢索等。依據研究對象的不同,我們可以將這個(gè)領(lǐng)域的研究工作分為以下三個(gè)部分。
2.1 針對音樂(lè )類(lèi)數據的自動(dòng)分類(lèi)與識別
由于音樂(lè )類(lèi)數據具有高度的復雜性,根據研究對象的不同我們可以將這部分工作進(jìn)一步細分為如下幾個(gè)問(wèn)題。
2.1.1針對不同音樂(lè )類(lèi)型的自動(dòng)分類(lèi)
(1)兩類(lèi)分類(lèi)問(wèn)題兩類(lèi)分類(lèi)問(wèn)題是指,研究對象中僅僅包含有兩種不同的混合音樂(lè )類(lèi)型的數據。由于應用需求的不同,學(xué)者們所感興趣的具體研究對象也是不同的。
如:Bickerstaffe等人研究了如何利用最小消息長(cháng)度準則(MML)對搖滾樂(lè )和古典音樂(lè )進(jìn)行自動(dòng)分類(lèi)[5].
在他們的工作中比較了一種稱(chēng)為“Snob”的非監督學(xué)習方法和三種監督分類(lèi)方法:決策樹(shù)、決策圖和人工神經(jīng)網(wǎng)絡(luò ),結果表明在這個(gè)問(wèn)題中監督分類(lèi)方法要明顯優(yōu)于非監督分類(lèi)方法;為了方便進(jìn)行歌詞自動(dòng)識別,Berenzweig等人研究了如何區分流行歌曲中的演唱部分和純伴奏部分[6],他們利用一個(gè)在說(shuō)話(huà)人識別領(lǐng)域中常用的分類(lèi)器對類(lèi)似語(yǔ)音的聲音信號進(jìn)行檢測。由于具有背景伴奏音樂(lè )的歌手演唱信號與一般的語(yǔ)音信號有著(zhù)很大的不同,對于那些無(wú)法直接通過(guò)“說(shuō)話(huà)人識別分類(lèi)器”來(lái)確定類(lèi)別的聲音片段,作者將進(jìn)一步采用一個(gè)基于HMM框架的方法來(lái)最終判斷其類(lèi)別。
(2)多類(lèi)分類(lèi)問(wèn)題在針對不同音樂(lè )類(lèi)型的自動(dòng)分類(lèi)問(wèn)題中,多類(lèi)分類(lèi)問(wèn)題是比較常見(jiàn)的[710J.由于研究興趣與具體應用需求的差異,學(xué)者們所關(guān)心的音樂(lè )類(lèi)別往往不盡相同,但基本上都是采用基于樣本訓練的分類(lèi)方法?偟膩(lái)說(shuō),研究所涉及的音樂(lè )類(lèi)別越多則研究難度越大。Tzanetakis等人設計了一個(gè)以音樂(lè )類(lèi)數據為主的三層音頻分類(lèi)樹(shù)(見(jiàn)圖1),其內容覆蓋了大部分西方現代音樂(lè )和一部分古典音樂(lè )[7],其中在具有十種音樂(lè )類(lèi)別的分類(lèi)層次上可以達到61%的平均分類(lèi)正確率。在他們的工作中使用了三種分別代表音色紋理、旋律內容和音高內容的特征集,并對這些特征的性能做了比較性研究。Lambrou等人利用萬(wàn)方數據計算機學(xué)報小波系數作為特征,對搖滾樂(lè )、爵士樂(lè )和鋼琴曲這三類(lèi)音樂(lè )信號進(jìn)行自動(dòng)分類(lèi)[8],同時(shí)比較了不同的小波構造方法和分類(lèi)器對于這個(gè)三類(lèi)問(wèn)題的區分能力。文獻[9]將音樂(lè )信號的分形維數作為特征對12類(lèi)音樂(lè )信號進(jìn)行了自動(dòng)分類(lèi)研究,實(shí)驗結果表明音樂(lè )信號的分形維數可以作為一種有效的特征用于音樂(lè )數據的自動(dòng)分類(lèi)。
(3)非監督分類(lèi)——聚類(lèi)前面所討論的兩類(lèi)與多類(lèi)音樂(lè )分類(lèi)問(wèn)題都屬于監督分類(lèi)問(wèn)題,也就是說(shuō)分類(lèi)問(wèn)題的類(lèi)別是已知的,并且研究者可以獲得類(lèi)別已知的樣本數據,這類(lèi)情況比較常見(jiàn)。與此相對應的則被稱(chēng)為非監督分類(lèi)問(wèn)題,此時(shí)研究者可能無(wú)法獲得足夠的類(lèi)別已知的樣本數據,有時(shí)甚至連類(lèi)別數都無(wú)法知道。非監督分類(lèi)問(wèn)題又稱(chēng)為聚類(lèi)分析,關(guān)于針對音樂(lè )數據進(jìn)行聚類(lèi)分析的研究報導較少,因為聚類(lèi)結果強烈依賴(lài)于所定義的相似性度量,并且所產(chǎn)生的聚類(lèi)結果很難滿(mǎn)足某種具體的應用需要。Cilibrasi等提出了一種基于Kolmogorov復雜性和信息距離的音樂(lè )分級聚類(lèi)方法[11|,它不使用任何音樂(lè )背景知識并可以直接用于其它領(lǐng)域的聚類(lèi)分析。Shao等則提出了一種基于HMM的非監督音樂(lè )分類(lèi)方法[1 2I,為了獲得更好的結果,他們還對音樂(lè )信號的節奏進(jìn)行分析并在此基礎上提取特征。
2.1.2基于內容的樂(lè )器(音色)自動(dòng)分類(lèi)與識別
如何從一段給定的音樂(lè )信號中識別出參加演奏的樂(lè )器是一個(gè)非常有趣的問(wèn)題。這樣的任務(wù)對于人類(lèi)來(lái)說(shuō)也許是非常輕松的,但對于機器來(lái)說(shuō)卻十分困難。識別或區分某種樂(lè )器主要依靠它特有的音色,從物理學(xué)上看音色則是由物體的振動(dòng)狀態(tài)所決定的,不同物體的振動(dòng)狀態(tài)決定了它的泛音及波形的不同,一個(gè)固定音高的音由于其中所含各階諧頻成分的比例不同,其音色也不同。對于某種具體的樂(lè )器來(lái)說(shuō),這種頻譜的變化又是十分復雜的,同一種樂(lè )器由于演奏技法的不同其音色也會(huì )發(fā)生顯著(zhù)的變化。
因此,如何方便而準確地描述音色是一個(gè)難題。有關(guān)樂(lè )器識別或音色識別方面的研究工作比較少,它們可以分為以下兩種情況:
(1)獨立演奏情況下的樂(lè )器識別
大多數關(guān)于樂(lè )器自動(dòng)識別的工作都是在獨立演奏的假設下完成的,這使得工作變得相對容易了一些。Kermit等人研究了如何對吉他、鍵盤(pán)樂(lè )器和鼓這三種樂(lè )器進(jìn)行自動(dòng)識別[13|,他們首先采用Haar小波變換對音頻信號進(jìn)行預處理以提取特征,然后通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò )對測試數據進(jìn)行分類(lèi)。他們的方法也可以用來(lái)對一些語(yǔ)音數據進(jìn)行自動(dòng)分類(lèi),如一些元音和字詞。在文獻[14]中,作者采用一種稱(chēng)為ARTMAP的神經(jīng)網(wǎng)絡(luò )來(lái)區分五類(lèi)樂(lè )器所演奏的單音符信號,這五類(lèi)樂(lè )器分別為鋼琴、吉他、小號、薩克斯和長(cháng)笛。在文獻[15]中,作者采用頻譜特征對來(lái)自27種樂(lè )器所演奏的1007段音頻信號進(jìn)行了自動(dòng)分類(lèi)研究。實(shí)驗結果表明二次分類(lèi)器所取得的效果最好,它要優(yōu)于目前比較流行的SVM分類(lèi)器和傳統的最近鄰分類(lèi)器。該分類(lèi)器對來(lái)自具體樂(lè )器所演奏的音符的平均分類(lèi)錯誤率為7.19%,對樂(lè )器族的平均識別錯誤率僅為3.13%。Eronen針對16種西方管弦樂(lè )器的自動(dòng)識別問(wèn)題做了特征比較研究[16【,他考慮的特征包括Mel頻率、線(xiàn)性預測倒譜系數和delta倒譜系數等。他所報道的對樂(lè )器族的最高識別正確率僅為77%。Krishna等同樣在單音符樂(lè )器識別問(wèn)題中比較了不同特征(MFCC和LPCC)以及分類(lèi)方法(高斯混合模型和K近鄰法)的作用[1?,他們所報道的針對14種樂(lè )器的最高平均識別正確率為90%。
(2)混合情況下的樂(lè )器識別
在實(shí)際演奏的情況下,尤其是在多樂(lè )器混響的情況下進(jìn)行樂(lè )器自動(dòng)識別是非常困難的,相關(guān)的研究報道非常少。Josephson等人研究了模糊專(zhuān)家系統在混響情況下樂(lè )器識別問(wèn)題中的有效性,并列舉了幾個(gè)應用實(shí)例n 8|.他們建議采用定量的物理分析與模糊專(zhuān)家系統相結合的方法對音色進(jìn)行識別。其中專(zhuān)家系統的知識庫是這樣建立的:專(zhuān)家的知識+從音樂(lè )信號中直接提取出的音質(zhì)特性,如基頻、諧波泛音強度、諧波相位偏移量等。但是該文并沒(méi)有詳細給出系統的實(shí)現方法。Kostek研究了如何從二重奏音樂(lè )信號中識別樂(lè )器并將其分割出來(lái)[1 9|,他使用神經(jīng)網(wǎng)絡(luò )作為最后的決策系統。Sakuraba等則對四重奏音樂(lè )信號下的樂(lè )器識別問(wèn)題做了特征比較研究。
2.1.3歌手自動(dòng)識別
如何讓計算機分辨出一首歌曲是哪位歌手所演唱的是一個(gè)十分有趣的問(wèn)題。由于人們在日常生活中所欣賞的音樂(lè )大多都是歌曲,解決該問(wèn)題會(huì )十分有助于歌曲類(lèi)多媒體數據的自動(dòng)管理和檢索。這個(gè)問(wèn)題與語(yǔ)音識別領(lǐng)域中的說(shuō)話(huà)人識別非常類(lèi)似,解決的思路也基本類(lèi)似。但是由于人在演唱時(shí)嗓音的動(dòng)態(tài)范圍比說(shuō)話(huà)時(shí)要大的多,再加上往往會(huì )有伴奏音樂(lè ),所以歌手識別問(wèn)題要比說(shuō)話(huà)人識別更加困難。
有關(guān)該問(wèn)題的文獻不多,它們可以分為以下兩種情況:
(1)無(wú)伴奏情況下的歌手識別在文獻[21]中,作者對12位美聲唱法歌手的清唱歌聲做了自動(dòng)識別研究。他們采用頻譜包絡(luò )的主成分作為特征,并用一個(gè)二次分類(lèi)器對來(lái)自不同歌手的歌聲做自動(dòng)識別。通過(guò)交叉驗證實(shí)驗,對歌手的平均正確識別率為95%。Kim則通過(guò)訓練HMM對來(lái)自4名美聲歌手所演唱的簡(jiǎn)單音調做了識別,平均正確率可達90%左右[2引。
(2)有伴奏情況下的歌手識別“u等提出了一種方法用于在MP3格式下做歌手識別[2引。他們首先通過(guò)一系列多項濾波器將訓練集中的MP3音樂(lè )信號進(jìn)行分解得到一系列音符(或音素),然后從每個(gè)音符中提取特征訓練分類(lèi)器對測試集中的歌曲進(jìn)行歌手識別。Zhang基于說(shuō)話(huà)人識別系統的一般框架提出了一種歌手自動(dòng)識別方法口“。她為訓練集中的每位歌手的嗓音特性訓練了一個(gè)統計模型。對于一首待測試的歌曲,她首先檢測歌曲中演唱部分的起始點(diǎn),然后從這個(gè)起始點(diǎn)開(kāi)始截取出一段定長(cháng)的演唱片斷,最后從這個(gè)演唱片斷中提取音頻特征與訓練集中的歌手嗓音模型進(jìn)行匹配以完成歌手識別任務(wù)。在一個(gè)不大的測試集上,她的方法可以達到大約80%的平均識別正確率。此外,她還針對歌手之間的嗓音相似性做了一些聚類(lèi)分析。Maddage等也提出了一種歌手自動(dòng)識別方法嘶],他們首先采用SVM分類(lèi)器來(lái)檢測歌曲中的演唱片斷,然后通過(guò)高斯混合模型來(lái)對歌手的嗓音進(jìn)行建模和識別。在一個(gè)包含了100首獨唱歌曲的數據庫中,他們的方法可以達到87%的平均正確率。Tsai等則研究了如何在具有背景伴奏和其他歌手存在的情況下,如何檢測和跟蹤某個(gè)特定歌手的演唱‘2引。
2.2包含音樂(lè )類(lèi)數據的一般音頻分類(lèi)
包含音樂(lè )類(lèi)數據的一般音頻自動(dòng)分類(lèi)是指在分類(lèi)對象中至少包含一種屬于音樂(lè )類(lèi)別的數據或者音樂(lè )與其他類(lèi)別音頻信號(如語(yǔ)音)的混和數據。我們可以將這部分研究工作進(jìn)一步細分為如下兩部分。
2.2.1語(yǔ)音與音樂(lè )類(lèi)數據的區分
由于語(yǔ)音和音樂(lè )是非常重要的兩類(lèi)音頻數據,如何有效地區分語(yǔ)音和音樂(lè )就顯得非常重要。關(guān)于這方面研究的文獻資料比較多[27。30f,他們通常也被當作復雜情況下語(yǔ)音識別所必需的預處理工作。
Feng等采用最大熵模型,并結合一些通用特征對語(yǔ)音和音樂(lè )進(jìn)行分類(lèi)[2?.Hughes等采用小波變換與神經(jīng)網(wǎng)絡(luò )相結合的方法來(lái)解決這個(gè)問(wèn)題[28|.Chou等則著(zhù)重強調了語(yǔ)音信號與歌曲類(lèi)信號的區分,并為此提出了一些新的特征[2 9I.Beierholm等提出了一種無(wú)需訓練的語(yǔ)音、音樂(lè )區分算法口?。在他們的方法中,對語(yǔ)音和音樂(lè )信號分別采用了不同的特征類(lèi)別和模型階數。
2.2.2其他多類(lèi)分類(lèi)問(wèn)題
在包含音樂(lè )類(lèi)數據的一般音頻自動(dòng)分類(lèi)問(wèn)題中,多類(lèi)分類(lèi)問(wèn)題也是比較常見(jiàn)的。31。3“。由于研究者的興趣和實(shí)際應用需求的不同,他們所關(guān)心的音頻類(lèi)別數和具體的音頻類(lèi)別往往不盡相同,但又十分相似。Lu和Zhang等首先通過(guò)K近鄰結合線(xiàn)性譜對向量量化法(LSPLVQ)將音頻信號分為語(yǔ)音和非語(yǔ)音兩大類(lèi)[3¨,然后利用基于規則的分類(lèi)方法將菲語(yǔ)音類(lèi)音頻信號進(jìn)一步分為音樂(lè )、環(huán)境聲音和靜音。
為此,他們還提出了自己定義的一些特征,如:噪音幀數比和頻帶周期。在文獻[32]中,他們比較了SVM、K近鄰法和高斯混和模型在~個(gè)五類(lèi)的音頻分類(lèi)問(wèn)題中的性能差異,這五類(lèi)音頻分別為靜音、環(huán)境聲音、語(yǔ)音、非純語(yǔ)音和音樂(lè )。實(shí)驗結果表明SVM要明顯優(yōu)于其它兩種分類(lèi)器。Li等研究了在一般音頻信號分類(lèi)中的特征選擇問(wèn)題[3?,他們將音頻信號分為七類(lèi):靜音、環(huán)境噪音、單人語(yǔ)音、多人語(yǔ)音、音樂(lè )、語(yǔ)音和音樂(lè )的混合信號、噪音背景下的語(yǔ)音。研究結果表明倒譜類(lèi)特征(如MFCC)和線(xiàn)性預測系數(LPC)要優(yōu)于一般的時(shí)域和頻域特征,他們所報道的最高平均分類(lèi)正確率為90%。Zhang使用能量函數、平均過(guò)零率、基頻和譜峰軌跡作為特征,并通過(guò)一個(gè)基于規則的啟發(fā)式的分類(lèi)方法將一般音頻信號分為八類(lèi):和諧的環(huán)境聲音、純樂(lè )曲、歌曲、帶有背景音樂(lè )的語(yǔ)音、帶有背景音樂(lè )的環(huán)境聲音、純語(yǔ)音、非和諧的環(huán)境聲音和靜音口4|.他們的方法也可以達到90%的平均分類(lèi)正確率。
2.3不包含音樂(lè )類(lèi)數據的一般音頻分類(lèi)
有關(guān)這方面研究工作的報道比較少。Guo等利萬(wàn)方數據計算機學(xué)報用SVM構建了一個(gè)二叉分類(lèi)樹(shù)[35|,對來(lái)自“MuscleFish”數據庫中的16類(lèi)共409段音頻數據進(jìn)行自動(dòng)分類(lèi)。這些音頻類(lèi)別包括動(dòng)物的叫聲、男聲、女聲、鈴聲、掌聲、笑聲、機器的嘈雜聲等等,平均分類(lèi)正確率可達89%。Li在最近鄰方法的基礎上提出了一種稱(chēng)為最近特征線(xiàn)(NFL)的分類(lèi)方法[36|,并將其在“Muscle Fish”數據庫上進(jìn)行了測試。實(shí)驗結果表明最近特征線(xiàn)分類(lèi)方法要優(yōu)于傳統的最近鄰法,其平均分類(lèi)正確率可以達到90%。Couvreur等通過(guò)時(shí)頻分析技術(shù)結合HMM建立了一個(gè)環(huán)境噪聲監測系統[37|,它可以區分五類(lèi)噪聲源:小汽車(chē)、卡車(chē)、摩托車(chē)、飛機和火車(chē),平均分類(lèi)正確率可以達到95%。
Wold等提出了一種基于內容的聲音文件的分類(lèi)方法[38|.作者對一小段聲音的WAV文件提取各種特征(持續時(shí)間、音高、振幅、帶寬、明亮度)并計算它們的均值、方差、自相關(guān)等統計量,將這些特征及其統計量組成特征向量,用這個(gè)特征向量來(lái)表示這段聲音。在此基礎上,作者定義了聲音文件之間的相似性度量(歐幾里的距離)使得基于內容的相似性成為可計算的量。隨后作者用帶標簽的一組樣本來(lái)定義一個(gè)特定的類(lèi),并計算其均值特征向量和協(xié)方差矩陣作為該類(lèi)的數學(xué)模型。最后用近鄰法來(lái)做進(jìn)一步的分類(lèi)和檢索工作。
2.4小結
從前面的介紹中不難發(fā)現,有關(guān)基于內容的一般音頻和音樂(lè )數據自動(dòng)分類(lèi)是一個(gè)十分開(kāi)放的研究領(lǐng)域。由于研究對象的復雜性和開(kāi)放性,使得這個(gè)領(lǐng)域中擁有層出不窮的新問(wèn)題有待學(xué)者們去探索和研究,這也是其能夠成為近年來(lái)的一個(gè)研究熱點(diǎn)的重要原因。另一方面,與一些傳統的研究領(lǐng)域(如語(yǔ)音識別、人臉識別、指紋識別等)相比,這個(gè)新興的研究領(lǐng)域也存在一些問(wèn)題,比如缺乏一個(gè)可以被學(xué)者們所廣泛接受的數據庫。目前的情況是幾乎每個(gè)學(xué)者都在使用不同的數據,研究不同的問(wèn)題。這使得我們很難對不同的算法在性能上有一個(gè)直觀(guān)的比較,這在一定程度上制約了有效的學(xué)術(shù)交流。從研究方法上看,幾乎所有的算法都是采用基于數據的機器學(xué)習框架。這一方面得益于近年來(lái)機器學(xué)習領(lǐng)域的迅速發(fā)展,而另一方面也反映出我們在研究事物本質(zhì)特征方面的滯后。模式識別問(wèn)題的核心是特征的提取與選擇。目前在有關(guān)音樂(lè )數據自動(dòng)分類(lèi)研究領(lǐng)域中被廣泛使用的仍然是一些低層次的音頻特征,如MFCC、線(xiàn)性預測系數以及各種時(shí)域、頻域特征及其統計量,這些特征顯然不足以反映音樂(lè )現象的本質(zhì)。如何提取出更有效的可以揭示音樂(lè )現象本質(zhì)的特征是一個(gè)亟待解決的難題。
3、基于內容的音頻流分割
基于內容的音頻流分割是指將一段音頻流數據按其內容自動(dòng)地分為若干片段,使得每個(gè)片段在內容類(lèi)別上具有一致性。它是基于內容的音頻和多媒體數據分析領(lǐng)域中的一個(gè)十分重要的問(wèn)題。例如,一段電臺或電視臺的音頻信號,其中可能包含古典音樂(lè )、流行歌曲、傳統戲曲以及廣告、語(yǔ)音等內容。如果能將其按這些內容屬性合理地分割開(kāi)來(lái),就能夠方便聽(tīng)眾和觀(guān)眾選擇收聽(tīng)、收視,也能夠方便多媒體數據的分類(lèi)保存和進(jìn)一步的剪輯加工等。面對海量的多媒體數據,如果能開(kāi)發(fā)出一種自動(dòng)的、基于內容的音頻流分割方法,無(wú)疑會(huì )大大地提高工作效率。有關(guān)音頻流分割的文獻比較多,按照研究對象的不同這些工作又可以分為以下幾個(gè)方面。
3.1說(shuō)話(huà)人分割
說(shuō)話(huà)人分割是指根據說(shuō)話(huà)人嗓音特性的不同,將音頻流中屬于不同說(shuō)話(huà)者的聲音片斷分割出來(lái)。Delacourt等將一些二階統計量作為特征用于連續語(yǔ)音信號中的說(shuō)話(huà)人分割[3 9|.他們的方法不需要知道說(shuō)話(huà)者的數目和其它一些先驗信息,但是要求說(shuō)話(huà)人不能同時(shí)講話(huà)。Kim等比較了聲譜投影(audiospectrum projection)和MFCC這兩種特征在說(shuō)話(huà)人分割問(wèn)題中的有效性[40I.他們從不同說(shuō)話(huà)人的聲音片段中分別提取這兩種特征并訓練HMM模型用于說(shuō)話(huà)人分割,實(shí)驗結果表明MFCC的效果要好于A(yíng)SP.
3.2語(yǔ)音/音樂(lè )數據流分割
有不少研究工作都是專(zhuān)門(mén)針對語(yǔ)音和音樂(lè )類(lèi)音頻數據流的分割問(wèn)題的。事實(shí)上,在2.2.1節中討論過(guò)的關(guān)于語(yǔ)音與音樂(lè )區分的許多算法都可以用于語(yǔ)音和音樂(lè )數據流分割。此外,Ajmera等提出了一種針對廣播信號的語(yǔ)音/音樂(lè )數據自動(dòng)分割算法[41I,它可以作為廣播新聞自動(dòng)翻譯工作的預處理。他們首先用純語(yǔ)音信號訓練出一個(gè)神經(jīng)網(wǎng)絡(luò ),并將其作為信道模型。然后在這個(gè)神經(jīng)網(wǎng)絡(luò )的輸出端計算熵和信號的動(dòng)態(tài)特性。最后通過(guò)一個(gè)兩狀態(tài)的各態(tài)歷經(jīng)HMM模型對音頻流信號進(jìn)行分割。
3.3其它多類(lèi)音頻流分割問(wèn)題
關(guān)于這類(lèi)音頻分割問(wèn)題的研究報道比較多口。32’42-45],從研究方法上看這些工作可以大致分為兩類(lèi):一類(lèi)屬于非監督的音頻流分割方法,如文獻[42—43].它們主要通過(guò)檢測音頻特征值的突變點(diǎn)或對音頻信號做局部相似性分析而對音頻流進(jìn)行分割。Pandit等在一個(gè)三類(lèi)音頻流分割問(wèn)題(單人語(yǔ)音、多人語(yǔ)音和音樂(lè ))中比較了幾種基于距離度量和線(xiàn)性判別分析(LDA)的相似度計算準則[43【。實(shí)驗結果表明基于Mahalonabis距離度量的相似度計算準則要優(yōu)于基于其它距離度量方式和LDA的準則;另一類(lèi)則屬于有監督的音頻流分割方法。依據具體應用要求的不同,利用各種樣本數據學(xué)習訓練得到的音頻流分割方法往往能夠得到比較理想的分割性能。在這類(lèi)方法中,比較有代表性的是文獻[31—32].
在文獻[31]中,作者提出了一種方法將音頻流分割為語(yǔ)音、音樂(lè )、環(huán)境聲音和靜音。他們采用了一種完全基于小尺度分類(lèi)的分割方法,其基本分類(lèi)單元為1s的音頻片段。首先,音頻信號被分為語(yǔ)音信號和非語(yǔ)音信號兩類(lèi),然后進(jìn)一步將非語(yǔ)音信號分為音樂(lè )、環(huán)境聲音和靜音。在他們的方法中僅僅給出了分類(lèi)器的平均正確率,而沒(méi)有對整個(gè)分割算法的效果進(jìn)行評價(jià)。Nitanda等也提出了一種音頻流分割方法“引,他們首先采用模糊C均值聚類(lèi)法檢測可能的分割點(diǎn),然后設計分類(lèi)器將分割點(diǎn)之間的音頻片段分為五類(lèi)(靜音、音樂(lè )、語(yǔ)音、具有背景音樂(lè )的語(yǔ)音、具有背景噪音的語(yǔ)音),通過(guò)對音頻片段進(jìn)行分類(lèi)也可以達到去除一部分虛假分割點(diǎn)的目的。此外,我們經(jīng)過(guò)研究發(fā)現大尺度音頻片段的分類(lèi)正確率要明顯高于小尺度音頻片段的分類(lèi)正確率,并且這個(gè)趨勢與分類(lèi)器選擇無(wú)關(guān);谶@個(gè)事實(shí)和減少虛假分割點(diǎn)的目的,我們提出了一種新的音頻流分割方法H5c.首先,我們采用基于大尺度音頻分類(lèi)的分割方法對音頻流進(jìn)行粗分割,以減少虛假分割點(diǎn);然后我們定義了分割點(diǎn)評價(jià)函數,并利用它在邊界區域中進(jìn)一步精確定位分割點(diǎn)。實(shí)驗結果表明我們的音頻流分割方法可以比較精確地獲取真實(shí)分割點(diǎn)的位置,同時(shí)大大減少了虛假分割點(diǎn)的出現。
3.4利用音頻分析技術(shù)的視聽(tīng)多媒體數據分割
在當今社會(huì )中,數字技術(shù)越來(lái)越多地應用于多媒體數據的管理,如電視制作、節目檢索等方面。如,對于類(lèi)似電視、電影等既有圖像又有聲音的多媒體數據,如何快速有效地從大量數據中找出自己關(guān)心的片斷是一個(gè)十分有趣的問(wèn)題。傳統的方法一般從視頻數據人手去尋找線(xiàn)索,對視聽(tīng)數據進(jìn)行分割,音頻數據中所包含的信息沒(méi)有被利用上。但是在許多情況下,僅僅利用視頻信息進(jìn)行分割是非常困難的,如果能將音頻信息利用起來(lái)無(wú)疑可以大大提高分割效率和正確率。這方面的文獻也比較多[34“6‘4 7……如Zhang和Jay Kuo介紹了一種視聽(tīng)數據分割方法口引,其算法流程見(jiàn)圖2.她先將背景聲音進(jìn)行分割和分類(lèi),然后利用背景聲音的分類(lèi)結果將圖像序列分割并歸類(lèi)為一個(gè)個(gè)“視聽(tīng)場(chǎng)景”,并為之標上“標簽”以便檢索。在他們的方法中首先從每個(gè)1s的音頻片段中提取特征,然后檢測出音頻流中的特征突變點(diǎn)并用這些特征突變點(diǎn)將音頻流分割開(kāi)來(lái),最后再利用一種基于啟發(fā)式規則的方法將這些片段進(jìn)行分類(lèi)。與文獻[31]類(lèi)似,他們只給出了分類(lèi)器的正確率而沒(méi)有對整個(gè)分割算法的精度、真實(shí)分割點(diǎn)檢測率以及虛假分割率進(jìn)行探討。Strobel等則利用音頻一視頻聯(lián)合的技術(shù)進(jìn)行目標定位與跟蹤等提出的基于音頻分析的視聽(tīng)數據自動(dòng)分割與檢索算法流程圖Ⅲ3萬(wàn)方數據計算機學(xué)報。
3.5 小結
總的來(lái)說(shuō),基于內容的音頻流分割算法可以分為兩大類(lèi):一類(lèi)算法是基于特征值突變檢測或音頻流局部相似性分析的。原則上說(shuō),這類(lèi)算法可用于分割任意音頻流數據。但是在實(shí)際應用中,由于分割對象往往過(guò)于復雜并且算法不具有針對性,因而很難取得理想的效果;另一類(lèi)算法是基于對音頻片段的監督分類(lèi)的。在第2小節中所介紹的有關(guān)音頻信號監督分類(lèi)的算法一般都可以用于構造相應的音頻流分割算法。由于這類(lèi)音頻流分割算法具有較強的針對性,因而當應用環(huán)境比較穩定時(shí)這類(lèi)算法可以取得較好的效果。但是當應用環(huán)境發(fā)生較大變化或應用于新的分割問(wèn)題時(shí),這類(lèi)算法都需要重新收集樣本數據訓練并更新相應的分類(lèi)器,甚至需要重新設計分類(lèi)器。因而這類(lèi)音頻流分割算法的應用靈活性相對較差。
對于一個(gè)特定的分割算法,我們認為其分割精度、真實(shí)分割點(diǎn)檢測率和虛假分割率都是非常重要的指標。但令人遺憾的是到目前為止,幾乎所有文獻都只給出有關(guān)分割精度和正確分割率的報道,而沒(méi)有對分割算法的虛假分割性能做出分析。在許多應用中,人們不僅會(huì )在意分割點(diǎn)的精度,而且會(huì )更加關(guān)心虛假分割的比例,面對原本屬于同一內容卻被分割的支離破碎的音頻片段,即使其真實(shí)端點(diǎn)的定位精度再高也已經(jīng)失去了應用價(jià)值。例如,當用戶(hù)從音頻流中選聽(tīng)自己感興趣的內容或跳過(guò)不感興趣的內容(如廣告等)時(shí),如果頻繁的錯誤出現自己并不感興趣的段落或將自己感興趣的段落錯誤跳過(guò)時(shí),會(huì )嚴重影響他們對算法的使用熱情。但是在保證一定分割精度的前提下,提高真實(shí)分割點(diǎn)檢測率和降低虛假分割率是相互矛盾的。如何在設計算法時(shí)根據實(shí)際需要合理地平衡這些指標是一個(gè)值得認真考慮的問(wèn)題。
4、基于內容的音頻數據自動(dòng)檢索
基于內容的音頻數據自動(dòng)檢索是一個(gè)十分重要的應用問(wèn)題,事實(shí)上前面所介紹的關(guān)于音頻數據自動(dòng)分類(lèi)和音頻流分割的工作都可用于檢索目的。從檢索對象上看,相關(guān)工作可以分為兩大類(lèi)。
4.1針對音樂(lè )類(lèi)數據的自動(dòng)檢索
目前互聯(lián)網(wǎng)上已有的音樂(lè )曲目的數量非常巨大,面對浩如煙海的音樂(lè )數據庫,傳統的檢索方法主要依據曲名、演唱者、出版商等附屬文字信息,但僅依靠這些檢索手段往往不能滿(mǎn)足用戶(hù)快速有效地查找音樂(lè )作品的需要。如果通過(guò)某種技術(shù)可以直接查找音樂(lè )文件的內容將會(huì )大大提高檢索結果的有效性和準確性,圖3是一個(gè)典型的基于內容的音樂(lè )自動(dòng)檢索和索引系統工作流程圖;趦热莸囊魳(lè )類(lèi)數據自動(dòng)檢索目前已經(jīng)成為一個(gè)研究熱點(diǎn),相關(guān)文獻報道比較多,其中一半以上都是最近三四年內的最新研究成果。從檢索方式來(lái)看這些工作可以分為以下幾類(lèi)。
4.1.1 基于原曲局部相似性匹配檢索
這類(lèi)音樂(lè )檢索工作的特點(diǎn)是允許用戶(hù)提供希望查找的音樂(lè )的某一片斷,系統經(jīng)過(guò)對這一片斷進(jìn)行處理,提取特征,在音樂(lè )庫中自動(dòng)尋找到該音樂(lè )的完整文件或與之內容相似的作品Ⅲ。5引。Mo等提出了一種針對MIDI格式的音樂(lè )文件的檢索方法m3,并給出了一種基于主旋律的音樂(lè )文件之間相似性程度的計算方法。他們認為音樂(lè )的基本曲調(主旋律)可萬(wàn)方數據5期張一彬等:基于內容的音頻與音樂(lè )分析綜述719以看成是~系列具有一定的音高和音長(cháng)的音符集合?梢詫⒔(jīng)過(guò)分解和規范化后的兩段音樂(lè )的對應樂(lè )句作為基本比對單元。通過(guò)計算對應樂(lè )句中對應音符的相對音高的相似性和兩音符之間關(guān)系的相似性來(lái)得到對應樂(lè )句的相似性值,從而最終得到兩個(gè)音樂(lè )MIDI文件之間的相似性值。Yanase等提出了一種用于音樂(lè )信息檢索的方法[5?,該方法本質(zhì)上屬于特征向量法。傳統的特征向量法一般是基于整首樂(lè )曲中提取特征的,而他們的方法是基于樂(lè )句來(lái)提取特征的,所以需要先將~首完整的樂(lè )曲分割成若干個(gè)樂(lè )句。MIDI格式并不提供休止符的位置,該文的方法是檢測各個(gè)連續音符之間的問(wèn)隔時(shí)間,如果這個(gè)問(wèn)隔時(shí)問(wèn)超過(guò)了一個(gè)固定的域值,則在此處放置一個(gè)休止符。然后再用一些啟發(fā)性的規則合并掉一些休止符,最終每?jì)蓚(gè)相鄰的休止符之間的部分就可以被看作一個(gè)完整的樂(lè )句。然后將每個(gè)樂(lè )句的正常音符序列轉換為相對音高序列和相對音長(cháng)序列。該文采用了卵一gram patterns作為特征來(lái)將這些序列表示為一定長(cháng)度的向量的形式:用戶(hù)檢索時(shí)先用MIDI樂(lè )器演奏待檢索樂(lè )曲的一個(gè)片斷作為關(guān)鍵字,然后用這個(gè)關(guān)鍵字到數據庫中查詢(xún)。因為習慣上人們一般會(huì )演奏一個(gè)或幾個(gè)連續的完整的樂(lè )句,而該文提取特征的方法又是基于樂(lè )句的,所以理論上會(huì )比那些從整首樂(lè )曲中提取特征的方法的精度高一些。Pye研究了如何對MP3格式的音樂(lè )文件作基于內容的分類(lèi)和檢索口1I.他從語(yǔ)音處理領(lǐng)域借鑒了兩種方法并將其應用到基于內容的音樂(lè )分類(lèi)、檢索領(lǐng)域。經(jīng)過(guò)實(shí)驗比較,發(fā)現高斯混合模型法(GMM)效果比較好;基于樹(shù)的向量量化法(Tree-based Vec—tor Quantization)速度比較快。此外,他還比較了兩種從MP3文件中提取特征的方法,發(fā)現MFCC法對噪聲干擾的穩定性比較好,但是由于要求全部解壓縮,因而速度比較慢;MFCCS法只對MP3文件的進(jìn)行部分解壓就可以了,因而速度比MFCC法快很多,但其效果不如MFCC法。Tsai等實(shí)現了一個(gè)歌手檢索系統酯2I.使用者通過(guò)提供感興趣的歌手的演唱片段,可以從數據庫中找出屬于該歌手或與該歌手嗓音類(lèi)似的歌曲。
4.1.2歌曲“哼唱”檢索
“哼唱”檢索是一種十分理想的基于內容的音樂(lè )檢索方式,它是將用戶(hù)哼唱的一段旋律作為查詢(xún)內容從數據庫中找出與之對應的或旋律相似的原曲,“哼唱”檢索方式通常用于歌曲檢索。從技術(shù)實(shí)現上看“哼唱”檢索是非常困難的,因為用戶(hù)所哼唱的旋律往往與希望被檢索到的歌曲相差很大,另外被檢索的音樂(lè )作品往往具有伴奏音樂(lè )而通過(guò)哼唱所輸入的查詢(xún)旋律通常只能是清唱。有關(guān)“哼唱”檢索的研究報道比較少,且一般都是基于MIDI格式的[53。鰣].
李揚等提出了一種近似旋律匹配方法——線(xiàn)性對齊匹配法[5?,并在此基礎上實(shí)現了一個(gè)哼唱檢索系統原型,其算法流程見(jiàn)圖4.該算法并非基于近似符號串匹配、統計模型或者特征空問(wèn),而是根據相近旋律的音高輪廓在幾何上的相似性,將音高和節奏特征一并考慮所設計而成的新算法。實(shí)驗結果表明在含有3864首樂(lè )曲的搜索空間中,檢索62段人聲哼唱,線(xiàn)性對齊匹配法取得了90.3%的前3位命中率。
Yang等將數據庫中的韓國民謠根據它們的節奏模式人工地分為五大類(lèi)[5“,每首歌曲由基于曲調的符號串表示。用戶(hù)檢索曲目時(shí)首先需要哼一段旋律,然后用這段旋律作為檢索關(guān)鍵字在數據庫中尋找與之相似的樂(lè )曲。值得注意的是,這段旋律被保存為wav格式(8bit、16kHz、混合單聲道),并直接對其進(jìn)行處理。首先,他們用自相關(guān)方法得到該段旋律的音高序列。然后,一個(gè)BP神經(jīng)網(wǎng)將判斷用戶(hù)哼唱的這段旋律屬于何種節奏模式,該神經(jīng)網(wǎng)的輸入層有10個(gè)節點(diǎn),對應著(zhù)10個(gè)連續的音符,輸出層為5個(gè)節點(diǎn),分別對應五類(lèi)模式之一,兩個(gè)隱層各含20個(gè)節點(diǎn)。最后,他們用字符串近似匹配方法在確定的子類(lèi)中去尋找相似的歌曲序列。
旋律提取音符序列圖4 李揚等提出的歌曲哼唱檢索系統工作流程圖¨列4.1.3基于“情感”的音樂(lè )檢索有時(shí)候我們并不關(guān)心一首歌曲是誰(shuí)唱的,也不在乎它具體的旋律,僅僅希望能夠找到符合當時(shí)心情的歌曲就可以了,這就是所謂基于“情感”的音樂(lè )檢索。有關(guān)基于“情感”的音樂(lè )檢索的研究工作非常少。Feng等通過(guò)檢測音樂(lè )的演奏速度和“清晰度”來(lái)萬(wàn)方數據720 計算機學(xué)報分析音樂(lè )中所蘊含的情感[55f.他們首先通過(guò)multipleagent方法檢測出音樂(lè )演奏的速度,再將其轉換為相對速度;在“清晰度”計算的基礎上求出所謂“平均寂靜率”的均值和標準差,最后通過(guò)一個(gè)BP神經(jīng)網(wǎng)絡(luò )將音樂(lè )分為快樂(lè )、悲傷、憤怒和恐懼四類(lèi)。用戶(hù)將在一個(gè)三維可視化的特征空問(wèn)中去檢索感興趣的音樂(lè )。
4.2針對一般音頻對象的自動(dòng)檢索針
對一般音頻對象進(jìn)行自動(dòng)檢索的研究工作比較少[56。57……在2.3節中所介紹的研究工作均可用于一般音頻對象檢索。此外,Zhang和Jay Kuo提出了一種分級的多類(lèi)音頻分類(lèi)與檢索方法邸引。他們的方法分為三個(gè)階段,首先通過(guò)對音頻信號的短時(shí)特征曲線(xiàn)作統計和形態(tài)分析將音頻信號進(jìn)行粗分類(lèi)(語(yǔ)音、音樂(lè )、環(huán)境聲音和靜音);然后對環(huán)境聲音進(jìn)一步提取時(shí)頻特征并利用HMM將其細分為諸如掌聲、雨聲、鳥(niǎo)叫聲等等;最后允許用戶(hù)提供樣本音頻片段,數據庫中與其相似的音頻片段將被檢索出來(lái)。
Smith等利用主動(dòng)搜索和模板匹配的方法,從廣播信號中尋找感興趣的聲音信號[5川。為了提高速度,他們使用了過(guò)零率等比較簡(jiǎn)單的特征。
4.3小結
基于內容檢索是一個(gè)非常重要同時(shí)也非常困難的問(wèn)題,其核心在于如何進(jìn)行特征提取并有效地定義相似性度量。應用需求不同,特征提取與相似性度量便會(huì )不同。對于音樂(lè )數據而言,用戶(hù)可以輸入同一段信息,但希望得到的檢索結果卻可能大不相同。比如,對于同一首輸入的流行歌曲用戶(hù)可能希望按照歌手去檢索,也可能希望按照配器、旋律、音樂(lè )風(fēng)格甚至情感等其它信息進(jìn)行檢索。如何有效地為音樂(lè )類(lèi)數據定義相似性度量就顯得更加困難,這其實(shí)也是一個(gè)知識表達方面的難題。對于一個(gè)實(shí)用的基于內容的音樂(lè )檢索系統,它可能面對的是海量的待檢索數據、大類(lèi)別數甚至不特定類(lèi)別數、不同類(lèi)別的數據量不平衡、用戶(hù)需求多樣性等困難。此外計算量也是一個(gè)不可忽視的問(wèn)題?傊,我們認為目前的基于內容音頻及音樂(lè )檢索算法與系統尚處于實(shí)驗研究階段,其性能距離真正實(shí)用化還有很大差距。
5、基于內容的音樂(lè )分析
這里所說(shuō)的音樂(lè )分析是指針對某個(gè)完整的音樂(lè )作品所進(jìn)行的分析和識別工作,有關(guān)這個(gè)領(lǐng)域的研究報導在最近幾年增長(cháng)較快。根據研究目的的不同,我們分為以下幾個(gè)小節分別進(jìn)行介紹。
5.1音樂(lè )作品結構分析
音樂(lè )是一種十分復雜的、有層次的聲音信號,一些學(xué)者致力于通過(guò)計算機來(lái)分析音樂(lè )本身的這種層次結構[58書(shū)2|.他們所定義的這種層次結構不一定和音樂(lè )學(xué)本身相關(guān),但是可能會(huì )更適合于音樂(lè )信號的自動(dòng)處理。由于MIDI格式本身已經(jīng)包含了大量音樂(lè )信息,所以基于MIDI格式的音樂(lè )分析工作相對較多。Hsu等定義了音樂(lè )信號中的“非平凡重復模式”[58I.所謂重復模式是指在一首音樂(lè )作品中重復出現的那些音符序列,非平凡重復模式則要求重復出現的音符序列對于這首音樂(lè )來(lái)說(shuō)具有特殊性和代表性,比如:這首音樂(lè )的主旋律或主旋律的一部分。
通常非平凡重復模式應該是具有一定長(cháng)度的音符序列。他們同時(shí)提出了兩種基于MIDI格式的“非平凡重復模式”提取方法——相關(guān)矩陣法和PR樹(shù)法。Lo等則進(jìn)一步提出了一種關(guān)于“非平凡重復模式”的快速提取算法口引。Pikrakis等通過(guò)小波分析和樹(shù)狀分類(lèi)的方法對希臘傳統音樂(lè )中預先定義的一些孤立音樂(lè )模式進(jìn)行自動(dòng)識別以輔助音樂(lè )學(xué)研究[60I.此外,Shmulevich等提出了三種方法用于度量音樂(lè )旋律的復雜性[61|.Chen等在對音樂(lè )結構進(jìn)行分析的基礎上提出了一種針對音樂(lè )信號的自動(dòng)分割方法[6引。
5.2音樂(lè )自動(dòng)摘要
所謂音樂(lè )自動(dòng)摘要是指對一段音樂(lè )信號生成一個(gè)高度簡(jiǎn)約又能反映出該音樂(lè )特點(diǎn)的摘要信息,如何對音樂(lè )數據進(jìn)行摘要描述是一個(gè)重要的問(wèn)題。由于音樂(lè )所具有的高度復雜性、結構化、非語(yǔ)義性以及人們對音樂(lè )理解的主觀(guān)性,為音樂(lè )數據自動(dòng)生成摘要已經(jīng)成為一項具有特殊挑戰性的工作。另一方面,隨著(zhù)娛樂(lè )業(yè)的快速發(fā)展大量流行歌曲被不斷創(chuàng )作出來(lái)。據統計,僅在西方國家每個(gè)月就新產(chǎn)出大約4000張音樂(lè )CD,其中流行歌曲占據了很大的比例。
對于普通消費者來(lái)說(shuō),如何在浩如煙海的流行歌曲當中找到真正想聽(tīng)的歌曲?對于商家來(lái)說(shuō),如何快速有效地管理他們的海量音樂(lè )數據?這些都已成為緊迫的問(wèn)題。從總體上看有關(guān)音樂(lè )自動(dòng)摘要的文獻報導不算很多,其中大部分都是有關(guān)流行音樂(lè )的。有跡象表明它正在成為一個(gè)新的研究熱點(diǎn)¨3‘67I.在文獻[63—64]中提出了一些基于一般音頻格式的音樂(lè )自動(dòng)摘要算法。在這些文獻當中,音樂(lè )摘要通常被定萬(wàn)方數據5期張一彬等:基于內容的音頻與音樂(lè )分析綜述721義為一些定長(cháng)(如10s、20s或30s)的音頻片段。這些音頻片段主要是通過(guò)相似性分析或重復度計算的方法被分割出來(lái)的。所有這些方法的計算量都比較大,并且其效果只在較小的測試集上通過(guò)一些主觀(guān)的評價(jià)方法(如只對自動(dòng)摘要結果直接評分)得到驗證。
在文獻[65]中,Xu等首先利用SVM分類(lèi)器將音樂(lè )信號分為純音樂(lè )和聲樂(lè )兩大類(lèi),然后分別針對這兩類(lèi)音樂(lè )信號提取特征并進(jìn)行聚類(lèi)分析,在聚類(lèi)分析的基礎上再結合相關(guān)領(lǐng)域知識生成最終的音樂(lè )摘要。他們的研究結果還表明在音樂(lè )分類(lèi)問(wèn)題中,SVM分類(lèi)器要優(yōu)于傳統的基于歐式距離的分類(lèi)器和隱馬爾可夫方法(HMM)。此外,Shao和Liu等人分別研究了如何對MP3格式的音樂(lè )直接生成自動(dòng)摘要‘66‘6川。在文獻[67]中,作者首先采用多項濾波器從MP3文件中直接提取特征,并在特征提取的基礎上對MP3音樂(lè )信號進(jìn)行分割;然后對分割結果進(jìn)行聚類(lèi)分析,聚在一類(lèi)的音樂(lè )片段可以被當作一個(gè)重復模式;最后通過(guò)RP—Tree算法從中找出非平凡重復模式并將其作為整首音樂(lè )的自動(dòng)摘要。
5.3音樂(lè )建模
對音樂(lè )進(jìn)行建模分析是十分困難的,也是十分必要的。關(guān)于音樂(lè )建模的研究很少,但近兩年來(lái)也可以看到一些報道。Wang等提出了一種音樂(lè )數據模型和相應的代數操作規則,并將其應用于數字音樂(lè )圖書(shū)館中的數據檢索和查詢(xún)[68|.Cour_Harbo研究了如何將最小燃料神經(jīng)網(wǎng)絡(luò )(minimum fuel neuralnetwork)用于音樂(lè )信號的稀疏表示[6 9|,該方法可以歸結為一組二階微分方程,并且他認為可以通過(guò)先驗知識來(lái)確定用于優(yōu)化該方法的最重要的參數——離散化步長(cháng)。Endelt等對通過(guò)小波變換實(shí)現音樂(lè )信號的稀疏表示時(shí)所遇到的若于問(wèn)題進(jìn)行了研究[7?,他們還比較了用于音樂(lè )信號稀疏表示的幾種方法[71|.
5.4樂(lè )譜自動(dòng)識別與分析
樂(lè )譜自動(dòng)識別是指將音樂(lè )演奏的聲學(xué)信號所對應的樂(lè )譜信息自動(dòng)翻譯出來(lái),它是音樂(lè )分析領(lǐng)域中的一項十分重要同時(shí)也是十分困難的工作。我們知道一首音樂(lè )的樂(lè )譜記錄著(zhù)該音樂(lè )的全部信息,音樂(lè )家通過(guò)閱讀樂(lè )譜就可以了解音樂(lè )的全貌,并不需要將它實(shí)際演奏出來(lái),F有的許多音樂(lè )分析方面的工作都是基于MIDI格式的,因為MIDI格式本身包含著(zhù)大量的樂(lè )譜信息,所以基于MIDI格式的音樂(lè )分析工作可以做的比較深入。但是它們一個(gè)共同的缺點(diǎn)就是其對MIDI音樂(lè )文件格式的強烈依賴(lài)性,這制約了這些方法的應用價(jià)值。而大量的音樂(lè )數據大多采用一般音頻格式存儲,如果能將其所對應的樂(lè )譜自動(dòng)識別出來(lái),那么基于MIDI格式的音樂(lè )分析算法的應用價(jià)值就可以得到極大的拓展。當然樂(lè )譜自動(dòng)識別的應用價(jià)值還遠不止于此,在信號處理方面其本身所具有的研究?jì)r(jià)值也非常巨大。樂(lè )譜自動(dòng)識別是計算機音樂(lè )分析與理解中的一個(gè)傳統研究領(lǐng)域,相關(guān)文獻報道比較多。從研究?jì)热萆峡,?lè )譜自動(dòng)識別可以分為以下幾個(gè)方面:
5.4.1音高估計與音符識別
音高估計或音符識別是樂(lè )譜自動(dòng)識別工作的基礎。由于音高作為一個(gè)重要的音頻特征,在語(yǔ)音識別以及一般音頻分類(lèi)、分析等工作中都有廣泛應用,所以有關(guān)音高估計的文獻比較多[72。75|,也存在一些經(jīng)典的方法,如自相關(guān)法等。目前對于單樂(lè )器在實(shí)驗室環(huán)境下所演奏的單個(gè)音符的音高估計是比較準確的,但是對實(shí)際的音樂(lè )作品或復雜條件下做音高估計則相當困難。Chang等提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò )的音高估計方法[721,該方法減小了音高估計所需要的時(shí)間窗的長(cháng)度因而可用于音高變化較快的信號,但是其計算量比較大。Kashino通過(guò)一種適應性模板匹配的方法可以對以立體聲或單聲道的形式存儲的音樂(lè )進(jìn)行自動(dòng)音符識別[7引,他們的方法同時(shí)還可以識別出演奏該音符的樂(lè )器。Black等提出了一種基于泛化譜(generalized spectrum)的音高檢測和估計算法[74|,他們將基于GS的方法與經(jīng)典的自相關(guān)法和基于倒譜的方法進(jìn)行了比較,實(shí)驗結果表明他們提出的方法在音高檢測問(wèn)題上,特別是在信噪比較低的情況下要優(yōu)于傳統的方法,但是在估計精度上比傳統方法略微遜色。Zhu等則提出了一種用于音調估計的新方法[7 5|,它既可以用于流行音樂(lè )也可以用于古典音樂(lè )。
5.4.2節拍或節奏識別
關(guān)于節拍或節奏識別方面的文章近年來(lái)有所增加[76-79].Goto等提出了一種針對不含有打擊樂(lè )器(如鼓)的音樂(lè )節拍跟蹤算法[7 6|.該方法不僅能夠對間隔不超過(guò)四分之一音符的節拍信息進(jìn)行檢測,還能夠在較大的時(shí)間尺度內對音樂(lè )節拍的結構進(jìn)行分析,從而找到“和旋”等高級音樂(lè )結構的改變點(diǎn)。
Smith則利用一種基于線(xiàn)性相位Gabor變換的小波分析技術(shù)對音樂(lè )的節奏信息進(jìn)行分析[77|,他將可能的節奏信號分解為o.1Hz~100Hz的若干分量,再通過(guò)相位一致性約束對其進(jìn)行分析。他的方法對單萬(wàn)方數據計算機學(xué)報聲道的由打擊類(lèi)樂(lè )器所表達的音樂(lè )節奏比較有效。
Gao等提出了一種基于最大后驗估計的自適應學(xué)習方法用于音樂(lè )信號中的速度和節拍分析【78l,實(shí)驗結果表明該方法較為穩定并且對分析窗寬的大小不十分敏感。Shiratori等則通過(guò)檢測伴奏音樂(lè )的節奏來(lái)分析舞蹈動(dòng)作的結構[7?.
5.4.3旋律或和聲提取
音樂(lè )作品中的旋律與和聲是一種非常重要的高級信息,但是如何從基于一般音頻信號的音樂(lè )記錄中將其提取出來(lái)是十分困難的,有關(guān)的文獻報道并不多口”82|.Su等提出了一種基于小波變換和自組織神經(jīng)網(wǎng)絡(luò )的多音色和聲自動(dòng)識別方法[80I,他們的方法可以直接對和聲音頻片段進(jìn)行分類(lèi)而不需要知道具體的樂(lè )器音色和音符序列。Tang等介紹了幾種從MlDI文件中自動(dòng)尋找主旋律音軌的方法[8川,它們分別為AvgVel,PMRatio,SilenceRatio,Range,TrackName,經(jīng)過(guò)實(shí)驗比較發(fā)現TrackName法效果最好。Chang等也提出了一種和聲識別方法[82|.該方法可分為兩個(gè)階段,在局部識別階段給出可能的和聲候選集,然后通過(guò)一些全局規則從中找出最合適的和聲作為最后的結果。然而,如何從一般的WAVE文件中尋找或表示主旋律則是一個(gè)難題。
5.4.4復調音樂(lè )樂(lè )譜識別
多樂(lè )器(包括演唱者)混響下的樂(lè )譜識別與分析是非常困難的,然而在實(shí)際的音樂(lè )作品中往往存在著(zhù)大量的復調成分,這也是為什么樂(lè )譜自動(dòng)識別技術(shù)始終無(wú)法真正實(shí)用化的重要原因之一。有關(guān)復調音樂(lè )樂(lè )譜識別的文獻不多,但是最近兩年該領(lǐng)域的研究成果有所增加[83.86].Cem百l等提出了一種基于動(dòng)態(tài)貝葉斯網(wǎng)絡(luò )的復調音樂(lè )樂(lè )譜分析方法[83|,他們的方法強調了對聲音產(chǎn)生過(guò)程的建模,可以對復調音樂(lè )的節拍和音高軌跡進(jìn)行跟蹤,Keren等利用多分辨率傅立葉變換系數對鋼琴所演奏的復調音樂(lè )進(jìn)行樂(lè )譜識別[84|.實(shí)驗結果表明在對演奏加以若干限制的情況下,可以得到較好的音高檢測結果。Miwa等研究了如何使用立體聲音樂(lè )信號進(jìn)行復調音樂(lè )樂(lè )譜識別[8引,他們通過(guò)比較兩個(gè)聲道信號值的比率將不同的音源分離開(kāi)從而對“三重唱”進(jìn)行樂(lè )譜識別。
Marolt提出了一種基于聽(tīng)覺(jué)模型與自適應振蕩器網(wǎng)絡(luò )相結合的泛音跟蹤技術(shù),它可用于復調鋼琴曲的音符自動(dòng)識別[86|.
5.5 自動(dòng)伴奏
自動(dòng)伴奏是一個(gè)十分有趣的問(wèn)題。一般情況下研究者們會(huì )給計算機提供機器可讀的樂(lè )譜,這個(gè)樂(lè )譜既包括了樂(lè )隊將要演奏的部分也包括了計算機將要演奏的部分。研究者們需要計算機解決的任務(wù)是一邊“聆聽(tīng)”演奏者的演出,一邊同步地為之伴奏,圖5是一個(gè)典型的計算機自動(dòng)伴奏系統的工作流程圖。這個(gè)任務(wù)之所以困難是因為計算機的伴奏必需要與演員的演奏保持一致,而演奏者可能會(huì )根據演出的具體情況(比如聽(tīng)眾的反應)而做出一些改變,此外演奏者本身也可能會(huì )犯錯誤,這就使得現實(shí)的演出經(jīng)常會(huì )和曲譜之間產(chǎn)生差異。另一方面,要想及時(shí)、準確地知道演奏者的演奏進(jìn)度是非常困難的,這需要一個(gè)十分可靠的、實(shí)時(shí)的樂(lè )譜自動(dòng)識別與分析系統。有關(guān)自動(dòng)伴奏研究的歷史相對較長(cháng),Dannen—berg對1988年以前這個(gè)領(lǐng)域的研究狀況做了很好的綜述[3].20世紀90年代以后,有關(guān)自動(dòng)伴奏研究的文獻報道不算很多[87喝引。Raphael提出了一種基于HMM模型的單聲道音樂(lè )信號中的音符與休止符檢測方法[87。,通過(guò)檢測實(shí)際演奏信號中的休止符并將其與已知的相應樂(lè )譜中的休止符位置進(jìn)行匹配,就可以達到與實(shí)際演奏保持一致的目的。他還提出了一個(gè)用于自動(dòng)伴奏的統計專(zhuān)家系統[8引,該方法可以通過(guò)利用先驗知識、實(shí)時(shí)地從演奏者的演出信號中提取出諸如演奏速度等信息、學(xué)習演奏者的排練信號等手段改善伴奏效果。Aono等人開(kāi)發(fā)了一套自動(dòng)伴奏系統口9|,它可以利用普通的聲學(xué)樂(lè )器(如鋼琴、吉他等)為人們提供“即興”伴奏(即不需要伴奏樂(lè )譜)。該系統還可以實(shí)時(shí)識別一些簡(jiǎn)單的和旋。在實(shí)驗中,對一些4音符和旋的正確識別率可以達到95%。
5.6音樂(lè )情感分析
音樂(lè )是一種復雜的聲音現象,許多無(wú)法用語(yǔ)言準確描述的思想感情(如喜、怒、哀、樂(lè )等)可以通過(guò)音樂(lè )表達出來(lái),優(yōu)秀的音樂(lè )作品往往會(huì )使人產(chǎn)生情感上的共鳴,但是如何描述音樂(lè )對人的情感的影響是非常困難的。在4.1.3小節中,我們介紹了Feng等人的工作口引,他們將音樂(lè )對人的情緒的影響分為“快樂(lè )、悲傷、憤怒和恐懼”四類(lèi)并提出了相應的方法萬(wàn)方數據5期張一彬等:基于內容的音頻與音樂(lè )分析綜述對音樂(lè )進(jìn)行分類(lèi)和檢索。Milicevic則設計了一種基于情感的模糊自適應系統凹?,它可以分析音樂(lè )并模仿聽(tīng)眾可能的情感反應。研究者希望這個(gè)系統可以協(xié)助音樂(lè )家進(jìn)行創(chuàng )作,以獲得滿(mǎn)意的實(shí)際效果。Li等將音樂(lè )中的情感檢測看作是一個(gè)多類(lèi)分類(lèi)問(wèn)題,并迸一步將其分解為一系列兩類(lèi)分類(lèi)問(wèn)題,最后通過(guò)訓練一系列的SVM分類(lèi)器來(lái)加以解決[91j.Liu等設計了一種被稱(chēng)為“情感環(huán)”的音樂(lè )情感模型,并在此基礎上結合模糊數學(xué)的處理方法對一種鈴聲音樂(lè )進(jìn)行了情感分析[92|.早在1988年,Katayose等人就提出了一個(gè)有關(guān)音樂(lè )情感分析的研究框架[93I.在他們的研究計劃中,音樂(lè )情感分析可以分為三個(gè)步驟:第一步為樂(lè )譜自動(dòng)識別,在這一步中音樂(lè )演奏的音頻信號被翻譯為音符序列;第二步為音樂(lè )粗分析,在得到音符序列的基礎上,結合樂(lè )理知識從音符序列中提取出諸如節奏、和聲、旋律等音樂(lè )高級結構;最后,在此基礎上通過(guò)設計一系列啟發(fā)式規則來(lái)實(shí)現音樂(lè )信號中的情感提取。實(shí)際上由于種種技術(shù)困難無(wú)法突破,這個(gè)計劃中的任何一步到目前為止都無(wú)法很好地實(shí)現。
5.7 小結
與語(yǔ)音信號處理與識別相比,計算機音樂(lè )分析與識別是一個(gè)新興盼研究領(lǐng)域,其中包含了大量的問(wèn)題有待于學(xué)者們去進(jìn)一步探索和研究。面對音樂(lè )這樣一種復雜的、非自然的聲音現象,我們該如何對其進(jìn)行分析和研究呢?這本身就是一個(gè)有趣的課題。從大量的研究成果來(lái)看,基本可以分為兩種思路:一種是自底向上的研究方法,即分析法,例如樂(lè )譜自動(dòng)識別等。這類(lèi)方法首先著(zhù)眼于識別比較微觀(guān)的音樂(lè )元素,并希望在此基礎上進(jìn)一步對宏觀(guān)的音樂(lè )現象進(jìn)行分析。但是由于音樂(lè )信號的高度復雜性,即便是對一些微觀(guān)的音樂(lè )元素在復雜情況下也很難達到較為理想的識別率,如復調下的音符識別等;另一方面由于實(shí)際應用的需要,我們又希望能夠對一些涉及到音樂(lè )理解層面的問(wèn)題進(jìn)行分析和研究,如音樂(lè )情感分析等。這時(shí)采用基于數據驅動(dòng)的機器學(xué)習方法就成為了一種比較自然的選擇,但是單純采用這類(lèi)方法很難觸及到問(wèn)題的實(shí)質(zhì)。如何提取本質(zhì)特征便成為了解決問(wèn)題的關(guān)鍵。由于計算機音樂(lè )分析與識別本身具有多學(xué)科交叉性,模式識別、信號處理等只是我們的研究工具和手段,所以如何更好地利用音樂(lè )理論自身提供的知識將會(huì )成為該研究領(lǐng)域的一個(gè)發(fā)展方向。
6、其它相關(guān)工作
6.1計算機音樂(lè )合成
所謂計算機音樂(lè )合成是指利用計算機自動(dòng)生成音樂(lè )演奏或演唱中的一些特殊的效果、音色甚至具有某種風(fēng)格的音樂(lè )作品。它可以分為以下兩部分:
6.1.1 音效合成
音效合成是指利用計算機自動(dòng)生成音樂(lè )演奏或演唱中的一些特殊的效果和音色,例如:Meron等研究了如何通過(guò)計算機手段自動(dòng)生成美聲唱法中的顫音效果[9 4I.他們把所謂的顫音效果建模為對某個(gè)演唱音高的調制,但是簡(jiǎn)單的串聯(lián)調制合成法不能產(chǎn)生出自然的顫音效果。在他們的方法中,通過(guò)確保調制前的原始音高與調制后的顫音的相位一致,可以最小化所需的調制量從而得到更為自然的顫音效果。Bradley等則研究了如何自動(dòng)合成高質(zhì)量的吉他音色[9 5|,為此他們提出了一種改進(jìn)了的吉他琴弦震動(dòng)模型和吉他琴體聲學(xué)模型。
6.1.2 自動(dòng)作曲
我們經(jīng)?梢园l(fā)現某個(gè)作曲家的作品會(huì )具有某種特殊的風(fēng)格。那么有沒(méi)有可能通過(guò)分析這個(gè)作曲家的大量作品,從而利用計算機來(lái)自動(dòng)創(chuàng )作出類(lèi)似的音樂(lè )作品呢?或者通過(guò)分析具有不同風(fēng)格的大量音樂(lè )作品,從而利用計算機來(lái)生成全新風(fēng)格的音樂(lè )作品呢?這顯然又是一個(gè)十分有趣和困難的問(wèn)題,這樣的研究工作被稱(chēng)為計算機自動(dòng)作曲或自動(dòng)創(chuàng )作H’96。98|.Cope于1991年介紹了他的EMI(Experi—ments in MusicalIntelligence)研究計劃[96I,構想中的一個(gè)EMI子計劃是一個(gè)專(zhuān)家系統,它可以利用模式識別技術(shù)來(lái)創(chuàng )造“重組”音樂(lè )。首先它將音樂(lè )作品分解為由音符組成的若于模式,然后對其進(jìn)行分析,最后將這些模式重新組合起來(lái)從而創(chuàng )作出新的“音樂(lè )”。Tseng設計了一個(gè)基于內容的音樂(lè )自動(dòng)檢索系統——“Crystal”[97……它的一個(gè)特點(diǎn)是可以隨機地生成一些旋律片段,用戶(hù)可以試聽(tīng)這些旋律片段并選擇其一作為查詢(xún)內容,從而實(shí)現“o輸入”情況下的基于內容音樂(lè )檢索。Srinivasan則利用線(xiàn)性預測技術(shù)對音樂(lè )的動(dòng)態(tài)特性進(jìn)行分析,在此基礎上提出了一種“音樂(lè )即興創(chuàng )作”技術(shù),并將其用于為視頻自動(dòng)生成背景音樂(lè )[9引。20世紀90年代以后,隨著(zhù)遺傳算法和進(jìn)化計算技術(shù)的迅速發(fā)展,許多學(xué)者將其應用到計算機自動(dòng)作曲領(lǐng)域中來(lái)。Burton等對該技術(shù)在計算機音樂(lè )分析領(lǐng)域中的應用做了全面的綜述[4].
6.2 其它工作
還有一些其他的有關(guān)計算機音樂(lè )分析與理解方面的工作,列舉如下:Rothman等研究了如何通過(guò)一個(gè)人的語(yǔ)音特性分辨此人是不是職業(yè)歌手[9 9……Fragoulis等研究了高質(zhì)量的CD音樂(lè )與其它相應的低質(zhì)量的、嚴重變形的音樂(lè )(如廣播音樂(lè ))之間的匹配與識別問(wèn)題[1”:。Politis等則通過(guò)心理學(xué)的方法將不同的音樂(lè )現象與不同的色彩聯(lián)系起來(lái)并繪制出“音樂(lè )圖像,[1。川,他們試圖通過(guò)這種方法來(lái)揭示~維音樂(lè )信號中的“隱藏維數”。1wahama等提出了一種基于MIDI音樂(lè )的網(wǎng)上自動(dòng)推薦系統[102].文獻[103]則對音樂(lè )水印技術(shù)及其應用進(jìn)行了研究。
7、總結與展望
本文對近年來(lái)基于內容的音頻與音樂(lè )分析領(lǐng)域所取得的研究成果進(jìn)行了全面的綜述。從研究對象上看,由于音樂(lè )在人類(lèi)社會(huì )中所占有的特殊地位,它必將成為音頻處理領(lǐng)域中繼語(yǔ)音之后的又一個(gè)研究熱點(diǎn)。由于音樂(lè )是一種十分復雜的聲音對象,這種復雜性無(wú)論是在形式上還是內涵上都得以充分的體現。和語(yǔ)音信號相比音樂(lè )還具有非語(yǔ)義符號性和很強的模糊性,這使得它比語(yǔ)音信號更具挑戰性。從目前的研究狀況和應用需求來(lái)看,在可預見(jiàn)的將來(lái),基于內容的音樂(lè )自動(dòng)分類(lèi)和檢索以及樂(lè )譜自動(dòng)識別等仍將是計算機音樂(lè )分析與識別領(lǐng)域的主要研究方向,有關(guān)音樂(lè )理解方面的研究(比如音樂(lè )自動(dòng)摘要、音樂(lè )情感分析等)也會(huì )成為重要的研究熱點(diǎn)。
此外,音頻處理技術(shù)與視頻處理技術(shù)相結合的視聽(tīng)多媒體數據分析是另一個(gè)很有前途的研究方向。傳統的方法一般從視頻信息人手去尋找線(xiàn)索,對視聽(tīng)數據進(jìn)行分割,音頻數據中所包含的信息沒(méi)有被利用上。但是在許多情況下,單純使用視頻分割方法是非常困難的,如果能將音頻信息利用起來(lái)無(wú)疑可以大大提高分割效率。由于音樂(lè )在多媒體中的音頻部分占有很大的比重,如果可以將音樂(lè )分析和識別的技術(shù)與視頻分析技術(shù)相結合的話(huà),那將為多媒體數據的分割、檢索帶來(lái)極大的便利。目前這個(gè)研究方向已經(jīng)成為了一個(gè)研究熱點(diǎn),相關(guān)的文獻報道也比較多。但令人遺憾的是,大多數研究成果往往只是將音頻分析技術(shù)簡(jiǎn)單地用于視頻分析,而沒(méi)有做到和視頻分析技術(shù)有機地結合起來(lái),實(shí)現算法上的優(yōu)勢互補。如何將音頻分析技術(shù)與視頻分析技術(shù)更加完美地結合起來(lái)已經(jīng)成為這個(gè)研究方向所面臨的主要難題之一。
【基于內容的音頻與音樂(lè )分析綜述】相關(guān)文章:
基于高效環(huán)保的治蟲(chóng)技術(shù)綜述03-18
基于內容的圖像檢索研究11-20
基于IFE矩陣的CPM分析03-21
基于VHDL的DDS的設計與分析03-07
基于資源與能力的競爭力理論研究綜述03-23
基于聚類(lèi)分析的數據挖掘方法03-08
基于企業(yè)系統觀(guān)的本錢(qián)分析02-27
基于桐梓河水文特性分析03-23