位元組跳動博士研製的“AI 音樂家”火了:可一鍵完美分離人聲和伴奏
AI 可以寫歌、填詞、改換風格、續寫音樂。今天,AI 又來做編曲人了。
上傳一段《Stay》,一鍵按下,伴奏和人聲就輕鬆分離。
人聲頗有種在空曠地帶清唱的清晰感,背景樂都能直接拿去做混剪了!
這樣驚人的效果也引發了 Reddit 熱議。
這項研究的主要負責人孔秋強來自位元組跳動,全球最大的古典鋼琴資料集 GiantMIDI-Piano,也是由他在去年牽頭髮布的。
那麼今天,他又帶來了怎樣的一個 AI 音樂家呢?
一起來看看。
基於深度殘差網路的音源分離
這是一個包含了相位估計的音樂源分離(MSS)系統。
首先,將幅值(Magnitude)與相位(Phase)解耦,用以估計複數理想比例掩碼(cIRM)。
其次,為了實現更靈活的幅值估計,將有界掩碼估計和直接幅值預測結合起來。
最後,為 MSS 系統引入一個 143 層的深度殘差網路(Deep Residual UNets),利用殘差編碼塊(REB)和殘差解碼塊(RDB)來增加其深度:
殘差編碼塊和殘差卷積塊中間還引入了中間卷積塊(ICB),以提高殘差網路的表達能力。
其中每個殘差編碼塊由 4 個殘差卷積塊(RCB)組成,殘差卷積塊又由兩個核大小為 3×3 的卷積層組成。
每個殘差解碼塊由 8 個卷積層和 1 個反捲積層組成。
實驗結果
接下來,將這一系統在 MUSDB18 資料集上進行實驗。
MUSDB18 中的訓練/驗證集分別包含 100/50 個完整的立體聲音軌,包括獨立的人聲、伴奏、低音、鼓和其他樂器。
在訓練時,利用上述系統進行並行的混合音訊資料增強,隨機混合來自同一來源的兩個 3 秒片段,然後作為一個新的 3 秒片段進行訓練。
以訊號失真率(SDR)作為評判標準,可以看到 ResUNetDecouple 系統在分離人聲、低音、其他和伴奏方面明顯優於以前的方法:
在消融實驗中,143 層殘差網路的表現也證實了,結合有界掩碼估計和直接幅值預測確實能夠改善聲音源分離系統的效能。
作者介紹
這項研究的論文一作為孔秋強,本碩都畢業於華南理工大學,博士則畢業於英國薩里大學的電子資訊工程專業。
他在 2019 年加入位元組跳動的 Speech, Audio and Music Intelligence 研究小組,主要負責音訊訊號處理和聲音事件檢測等領域的研究。