音樂旋律提取算法附可執行demo

阿新 • • 發佈：2018-10-06

計劃 dem 性能 orm cti 基礎音量 .com 領域

前面提及過，音頻指紋算法的思路。

也梳理開源了兩個比較經典的算法。

https://github.com/cpuimage/shazam

https://github.com/cpuimage/AudioFingerprinter

後來一段時間，稍微看了下這兩個算法，還有不少可以精簡優化的空間。

例如抗噪，特征有效性等優化思路。

音頻指紋切片後的hash特征信息還是太多了，

不過作為哼唱搜歌的基本應用，是足夠的了。

不過我覺得還是可以再進一步提取歌曲的旋律特征的，在音頻指紋的基礎上更進一步。

　　旋律是最重要的音樂要素之一,多應用於音樂內容分析、音樂創作、音樂教育、抄襲檢測等方面。

主旋律提取旨在從一段音樂中自動估計對應於主旋律單音音符序列的音高或基頻。

流行音樂一般屬於復雜的多音音樂,因此主旋律提取面臨著許多挑戰。

　　在這裏要特別說一下，音頻處理領域碰到的問題都是相似的。首當其沖主要是噪聲，其次是音量和語速。

特別是在一些場景下的asr識別，例如實時對話，同聲傳譯之類環境下，語速和音量的幹擾影響很多時候多過於噪聲。

而很多提供asr服務的廠商對這類情況支持不佳，而據我所知，訊飛的asr中是有內置前處理算法的。

好像有點偏題了，回到主題上來。

也就是說不管做音頻還是音樂上面提到的問題都會造成一定精度影響。

音頻前處理算法是非常重要的，一直在做這方面的研究工作，前面著重於降噪和增益方向，下一步應該會著重在語速方面的研究。

而剛才提到的旋律，也可以認為是語速的一個點。

旋律，節奏，節拍，精確準確度從另一個側面就可以評估語速，以及風格內容。

所以提取旋律節奏是一個非常值得研究的課題。

也許大家最熟悉的應用場景應該是遊戲節奏類app或者唱K的旋律評分系統。

關於旋律提取這方面的資料比較有限。

在這方向上面，一開始我也是有點蒙圈。

直到我看到一個思路，我突然間豁然開朗。

那就是將歌曲音頻轉換為midi電子音樂。

眾所周知，midi電子音樂體積非常非常小，在遊戲領域應用非常廣，幾乎是標配。

例如超級瑪麗的背景音樂，經典中的經典。

那麽是不是可以實現一種算法，將音頻轉為midi，作為此段音頻的指紋呢？

理論上，完全可行，而且剛才提到的唱K的評分系統就是類似的實現。

參照下圖：

技術分享圖片

上面是一段音樂，下面是其對於的midi。

把這個圖放大給大家感受一下。

技術分享圖片

是不是有似曾相識的感覺。

KTV 的節奏條。

所以毫無疑問，KTV的評分系統極其有可能就是采用了MIDI作為聲紋進行相似度匹配，

最後給出評分。

當然關於旋律提取有很多不同的實現，不過，大多數算法都有3個共同的目的，

分別是算法的速度性能(復雜度)，最終效果，抗噪抗幹擾。

針對這三個方面，各有各的技巧。

如果能兼顧三者，無疑是最佳的。

而關於wav轉midi的資料，真的是極其稀少。

大概有:

1. https://github.com/mrk21/wav2midi

https://mrk21.kibe.la/shared/entries/3931bfea-0f31-4aa1-9e72-b7cd6f010697

2.https://github.com/justinsalamon/audio_to_midi_melodia

http://www.justinsalamon.com/melody-extraction.html

等

仔細學習查閱之後，你會跟我一開始一樣，一臉懵逼。

首先，第三方依賴特別多，也就意味著，這個算法並不簡單。

就效果對比而言，audio_to_midi_melodia 更佳，當然深度學習大火之後

也有人在嘗試通過深度學習的方式，建立wav 到 midi的映射。以尋求新的突破。

當然還在試驗階段，暫時還沒看到有特別優秀的模型放出。

不過可以拭目以待。

而這個算法有多復雜，看下算法的流程圖:

技術分享圖片

說難也不難，說簡單也不簡單。

大部分環節是為了解決語速，音量，噪音所造成的誤差問題，使得算法更佳穩定，更魯棒。

根據這個思路，自行實現算法並不困難。

改進算法思路的首要前提，理解算法的核心思想，

所以至少你要把整個算法思路實現一遍，加深理解，不管能否理解到精髓。

然後站在巨人的肩膀上，繼續改進。

這個算法花了我一段時間去實現，原本預計幾個星期可以搞定，

但是後來因為其他原因擱置了。

趁國慶假期，撿起來，把一些工作繼續推進，復現了該算法。

這個過程挺漫長的，有不少環節還可以進一步改進優化。

不過這是後面的工作了。

算法暫沒有開源計劃，放出demo 供大家評測。

這個方向的算法，

有一個專用名詞叫做mir, 全稱為 music/audio information retrieval/signal processing 。

有興趣的朋友，可以查閱一下相關資料。

基本上都是dsp(數字信號處理)。

學習dsp必須把傅裏葉變換好好理解一下。

為了理解傅裏葉變換的算法思路，我把市面上能找到的實現，都過了一遍。

用純c 進行學習復現，也足足花了我1個多月的業余時間，

就差噴一口老血出來。

可執行demo下載地址:

https://files.cnblogs.com/files/cpuimage/wav2midi.zip

使用方法：拖放wav文件到可執行文件上即可。

或者采用命令行 wav2midi.exe demo.wav

執行後生成 demo.mid 文件。

目前僅支持wav的1通道和2通道格式，其他的格式暫沒做支持。

在學習音頻算法的時候，經常會聯系到圖像方面的算法，進行類比，舉一反三。

都有共通的地方，就看你怎麽應用了，溫故而知新。

用以前說過的一句話來總結就是，

任何算法都有缺點，但是一定要用它最優秀的思路。

就好比說，用人只要用其長處，天下皆是可用之才。

若有其他相關問題或者需求也可以郵件聯系俺探討。

郵箱地址是:
[email protected]

音樂旋律提取算法附可執行demo

計劃 dem 性能 orm cti 基礎音量 .com 領域前面提及過，音頻指紋算法的思路。也梳理開源了兩個比較經典的算法。 https://github.com/cpuimage/shazam https://github.com/cpuimage/AudioFin

音樂旋律提取演算法附可執行demo

前面提及過，音訊指紋演算法的思路。也梳理開源了兩個比較經典的演算法。後來一段時間，稍微看了下這兩個演算法，還有不少可以精簡優化的空間。例如抗噪，特徵有效性等優化思路。音訊指紋切片後的hash特徵資訊還是太多了，不過作為哼唱搜歌的基本應用，是足夠的了。不過我覺得還是可以再進一步提取歌曲的旋律特徵

Android外掛化完美實現程式碼資源載入及原理講解附可執行demo

*本篇文章已授權微信公眾號 guolin_blog （郭霖）獨家釋出。我們通過前4篇的分解，分別將外掛化設計到的知識點全部梳理了一遍，如果沒有看過的，建議先看前面4篇 6. 外掛化資源的使用及動態載入附demo 好了上面介紹了之

論文：LSD-線段提取算法

mat use 滿足 detect 算法的輸入狀況公式小尺寸 ext 前言參考資料：論文主頁：LSD: a Line Segment Detector Rafael Grompone von Gioi, Jérémie Jaku

spfa 算法模板可求帶負權邊的最短路

cto nbsp init ems push name for 如果 class 　　它是隊列優化的Bellman-Ford算法。　　優化的原理是：下一次松弛操作時被更新dis的點其實與上一次被更新的點有關！如果上一次被更新的點有一條邊指向某點V，那麽在下一次，點V就是可

音頻降噪算法附完整C代碼

公開 lob oid 算法 rtc eve init 核心語音降噪是音頻圖像算法中的必不可少的。目的肯定是讓圖片或語音更加自然平滑，簡而言之，美化。圖像算法和音頻算法都有其共通點。圖像是偏向空間處理，例如圖片中的某個區域。圖像很多時候是以二維數據為主，矩

音頻自動增益與靜音檢測算法附完整C代碼

kron gmm input del led sampler 文件 += frame 前面分享過一個算法《音頻增益響度分析 ReplayGain 附完整C代碼示例》主要用於評估一定長度音頻的音量強度，而分析之後，很多類似的需求，肯定是做音頻增益，提高音量諸如此類做法。

音頻自動增益與靜音檢測算法附完整C代碼【轉】

free 例如般的 ron nbsp bsp log 梳理 .cn 轉自：https://www.cnblogs.com/cpuimage/p/8908551.html 前面分享過一個算法《音頻增益響度分析 ReplayGain 附完整C代碼示例》主要用於評估一定長

浮點數據有損壓縮算法附完整C代碼

com ldr dct vip deb from stdio.h 也好提升在幾年前的時候在做修圖APP算法的時候，曾經一度想過對3D Lut 預設數據進行壓縮，主要用於提升用戶體驗。關於3d lut算法開源的資源也挺多的，就不多做科普了。有興趣的朋友，可以去查閱

自動曝光修復算法附完整C代碼

ted focus 展開 ESS bubuko uimage process tiny TE 眾所周知，圖像方面的3A算法有： AF自動對焦(Automatic Focus)自動對焦即調節攝像頭焦距自動得到清晰的圖像的過程 AE自動曝光(Automatic Exposur

【算法】—— 隨機音樂的播放算法

設定一位上下這樣的而已允許 yate 開始 nbsp 隨機播放音樂，這個功能太普通以至於以前從未考慮過其背後實現邏輯。 Random還是shuffle 我們經常使用的隨機播放功能，在外國同行口中並不是叫Random播放，而是叫Shuffle，洗牌的意思。為

基於傅裏葉變換的音頻重采樣算法 (附完整c代碼)

操作 endif 傅裏葉變換思路 lis fin log 替換我們前面有提到音頻采樣算法： WebRTC 音頻采樣算法附完整C++示例代碼簡潔明了的插值音頻重采樣算法例子 (附完整C代碼) 近段時間有不少朋友給我寫過郵件，說了一些他們使用的情況和問題。坦白講，我

（5）圖像特征提取算法：haar特征

提取算法中心 boost 兩種 log 圖形分享邊緣眼睛　　該特征常和AdaBoost結合用於識別人臉。Haar特征很簡單，分為三類：邊緣特征、線性特征、中心特征和對角線特征，組合成特征模板。特征模板內有白色和黑色兩種矩形，並定義該模板的特征值為白色矩形像素和減去

關聯容器：unordered_map詳細介紹（附可執行程式碼）

1.介紹最近使用到一個c++的容器——unordered_map，它是一個關聯容器，內部採用的是hash表結構，擁有快速檢索的功能。 1.1 特性關聯性：通過key去檢索value，而不是通過絕對地址（和順序容器不同）無序性：

影象演算法之二：特徵提取算法系列之Harris

Harris運算元介紹：該運算元是C．Harris和M．J．Stephens在1988年提出的一種點特徵提取運算元。這種運算元受訊號處理中自相關函式的啟發，可以給出影象中某一畫素點的自相關矩陣肘，其特徵值是自相關函式的一階曲率，如果X，Y兩個方向上的曲率值都

模組化新增可執行demo到主專案

將demo直接整合到專案中的方法使用場景：整合第三方sdk時，由於文件不全面或者沒有文件但是有demo，且demo功能滿足需求。可將demo以元件化方式匯入住專案優點：整合時不需要擔心任何需要注意的點，比如Application中初始化、清單檔案中相關程式碼；不需要文

癌癥檢測算法頭名_ 附代碼

ml最近，近一萬名數據科學家在數據科學方面參與開發機器學習算法，可以更精確地通過CT掃描檢測癌變病變數據科學家正在使用機器學習來解決肺癌的檢測。從1月份開始，世界各地近1萬名數據科學家在Kaggle上競爭開發最有效的算法，幫助醫療專業人員更早地準確地檢測肺癌。2010年，國家肺癌篩查試驗顯示，使用低劑量計算機

木材加工（裸二分題）（附二分算法粗略介紹）

iostream clu scanf 題意 int 一個數二分範圍 col 看到旁邊的學弟也在做二分，就手賤2分鐘打了一道奇（sha）特（bi）二分題。原題傳送門好吧，做這道題是為了給新手一個教程首先我們聊聊二分。二分利用的也是分治思想不懂分治思想的可以看看我

【數據結構與算法】二叉樹遞歸與非遞歸遍歷（附完整源碼）(轉）

style stack gravity text 一個 eat 遞歸遍歷 deb 雙向轉自：http://blog.csdn.net/ns_code/article/details/12977901 二叉樹是一種非常重要的數據結構，很多其他數據機構都是基於二叉樹的基礎

可達性分析算法-確定那些對象是垃圾(轉)

article ima -1 ability rdquo 靜態 roots 關聯 csdn 在主流的商用程序語言（Java、C#，甚至包括前面提到的古老的Lisp）的主流實現中，都是稱通過可達性分析（Reachability Analysis）來判定對象是否存活的。這個算法

音樂旋律提取算法 附可執行demo

相關推薦

音樂旋律提取算法附可執行demo