1. 程式人生 > >音樂檢索研究現狀

音樂檢索研究現狀

轉載自:https://blog.csdn.net/koala_bupt/article/details/4364479
音樂檢索研究現狀:

從搜尋的目標分,主要可分為兩大類:SEARCHING SYMBOLIC DATA,SEARCHING AUDIO DATA。我對這兩類的理解是:前者是檢索樂譜;後者則是檢索音訊。

 

SEARCHING SYMBOLIC DATA

1           String-based methods for monophonic melodies

由於這種方式最終是把音樂轉化成一種字串的形式,因此後期的檢索就可以用到很多字串比較的演算法,比如計算編輯距離,尋找最長公共子串,找到一個字串在另一箇中的出現次數等等非常成熟的演算法。

1.1            距離度量

1.1.1            完全匹配法:即使用者的輸入必須是完全和資料庫中音樂的某一段匹配。採     用的距離度量方法是KMP演算法(Knuth-Morris-Pratt)和BM演算法  (Boyer-Moore)。

代表系統:Kornstadt的Themefinder。

這個音樂搜尋引擎只面向具備專業音樂知識的使用者,因為你要準確地輸入相關的音樂引數才能進行搜尋。

1.1.2           模糊匹配法:即使用者的輸入和資料庫的音樂進行模糊匹配。採用的距離度量方法是編輯距離計算。

代表系統:Prechelt and Typke的Musipedia。

Music Search Engine - Musipedia

Musipedia - 一個以midi 為主的音樂搜尋引擎。(簡體中文版)
Musicpedia 主要是搜尋它自已的資料庫,不過也可以對整個 web 做搜尋!它的搜尋技術平臺是用 Alexa search platform。如果印象中有段旋律,但卻不是明確地記得是哪首音樂或歌的話,可以拿它來嘗試找看看。它提供了四種搜尋方式:

鍵盤輸入搜尋 (Keyboard search)

在上面的鍵盤一個一個音按好之後搜尋即可,網頁下方有使用方法

弦律輪廓搜尋 (contour search)

這部份它是使用一種叫做 Parsons Code 來當 Melodic Contours。簡單來講,就是利用連續音的起伏,當下個音比現在這個音還變高時,就 encode 成 U, 變低則為 D, 不變則為 R,當然,每首音樂的第一個音若拿來編碼,可能造成不準確,因此,在 Parsons Code 中,第一個音以星號 * 來表示。

哼唱搜尋 (Sing or Whistle)
可直接用錄音的, 或者要唱還是吹口哨都可以。

節奏搜尋 (Rhythm search)
按下 Start Tapping 後,就可以利用鍵盤敲出節奏來搜尋。

比較值得一提的是關於它如何比對 midi 的相似度,主要使用 Editing distance 與 Earth Mover's Distance。

Musipedia 的前身是 Melodyhound,由 Rainer Typke 從 1997 年開始規劃建置的,直到 Wikipedia 出現後,2006 年時,這個音樂搜尋引擎才改名為 Musipedia,並且也開始能夠搜尋 WWW 上的 midi 音樂。Melodyhound 目前還是可以使用的。

 

1.2          索引建立

1.2.1           通常可以採用inverted files或者B-trees等方法來建立索引。The lack of the equivalent of words in music can be overcome by just cutting melodies into n-grams (Downie, 1999) and indexing those.

參考文獻:

            J. S. Downie. Evaluating a simple approach to music information retrieval: Conceiving melodic n-grams as text. PhD thesis, University of Western Ontario, London, Ontario, Canada, 1999. R. Typke, P. Giannopoulos, R. C. Veltkamp, F. Wiering, and R. van Oostrum. Using transportation distances for measuring melodic similarity. In ISMIR Proceedings, pages 107–114, 2003.

2          Set-based methods for polyphonic music

這種方法吧音樂看成是一個旋律屬性的集合,這種屬性包括持續音調,音調的開始時間和持續時間。

2.1          距離度量

2.1.1           finding supersets

M. Clausen, R. Engelbrecht, D. Meyer, and J. Schmitz. PROMS: a web-based tool for searching in polyphonic music. In ISMIR Proceedings, 2000.

2.1.2         Earth Mover’s Distance

R. Typke, P. Giannopoulos, R. C. Veltkamp, F. Wiering,and R. van Oostrum. Using transportation distances for measuring melodic similarity. In ISMIR Proceedings, pages 107–114, 2003.

代表系統:Typke的Orpheus。在該系統中,音符被表示成二維的一個向量,包含了起始時間以及音高,Earth Mover’s Distance 作為距離的度量方法,vantage objects作為索引的方式。

2.2         索引建立

2.2.1         inverted files

M. Clausen, R. Engelbrecht, D. Meyer, and J. Schmitz. PROMS: a web-based tool for searching in polyphonic music. In ISMIR Proceedings, 2000.

2.2.2        Triangle inequality for indexing

R. Typke, P. Giannopoulos, R. C. Veltkamp, F. Wiering,and R. van Oostrum. Using transportation distances for measuring melodic similarity. In ISMIR Proceedings, pages 107–114, 2003.

3          Probabilistic Matching

通過訓練隱馬爾科夫模型,來計算查詢音訊和資料庫中音訊的相似度

3.1          距離度量

首先用資料庫音訊訓練隱馬爾科夫模型,然後通過計算查詢音訊的後驗概率,得到兩個音訊的相似程度。

代表系統:Hoos的GUIDO/MIR

3.2         索引建立

採用的樹的分層聚類

參考文獻:

H. Hoos, K. Renz, and M. G¨org. GUIDO/MIR - an experimental musical information retrieval system based on guido music notation. In ISMIR Proceedings, pages 41–50, 2001.

 

SEARCHING AUDIO DATA

1           Extracting perceptionally relevant features

將一段音訊分割成小段,提取每一小段的聽覺感知特徵,通過比較特徵序列來檢索。主要有以下特徵:Loudness, Pitch, Tone, Mel-filtered Cepstral Coefficients, Derivatives。

代表系統:Jang的Super MBox

該系統先提取音樂的基頻,然後採用動態時間規整比較兩個基頻序列的相似度。

2          Audio Fingerprinting
在複雜環境下,採用“聲紋”能夠獲得更好的效果。這也是我接下去的時間打算重點學習的一個方向。

代表系統:Wang的Shazam

3          Set-based Methods

利用音訊特徵的集合進行檢索

4          Self-Organizing Map

SOM是一種很常用的人工智慧神經網路演算法,主要用於無監督學習領域,對相似的音訊進行聚類和分類。

代表系統:Rauber的SOMeJB-The SOM-enhanced JukeBox