位元組跳動博士研製的“AI 音樂家”火了：可一鍵完美分離人聲和伴奏

阿新 • • 發佈：2021-09-19

AI 可以寫歌、填詞、改換風格、續寫音樂。今天，AI 又來做編曲人了。

上傳一段《Stay》，一鍵按下，伴奏和人聲就輕鬆分離。

人聲頗有種在空曠地帶清唱的清晰感，背景樂都能直接拿去做混剪了！

這樣驚人的效果也引發了 Reddit 熱議。

這項研究的主要負責人孔秋強來自位元組跳動，全球最大的古典鋼琴資料集 GiantMIDI-Piano，也是由他在去年牽頭髮布的。

那麼今天，他又帶來了怎樣的一個 AI 音樂家呢？

一起來看看。

基於深度殘差網路的音源分離

這是一個包含了相位估計的音樂源分離（MSS）系統。

首先，將幅值（Magnitude）與相位（Phase）解耦，用以估計複數理想比例掩碼（cIRM）。

其次，為了實現更靈活的幅值估計，將有界掩碼估計和直接幅值預測結合起來。

最後，為 MSS 系統引入一個 143 層的深度殘差網路（Deep Residual UNets），利用殘差編碼塊（REB）和殘差解碼塊（RDB）來增加其深度：

殘差編碼塊和殘差卷積塊中間還引入了中間卷積塊（ICB），以提高殘差網路的表達能力。

其中每個殘差編碼塊由 4 個殘差卷積塊（RCB）組成，殘差卷積塊又由兩個核大小為 3×3 的卷積層組成。

每個殘差解碼塊由 8 個卷積層和 1 個反捲積層組成。

實驗結果

接下來，將這一系統在 MUSDB18 資料集上進行實驗。

MUSDB18 中的訓練/驗證集分別包含 100/50 個完整的立體聲音軌，包括獨立的人聲、伴奏、低音、鼓和其他樂器。

在訓練時，利用上述系統進行並行的混合音訊資料增強，隨機混合來自同一來源的兩個 3 秒片段，然後作為一個新的 3 秒片段進行訓練。

以訊號失真率（SDR）作為評判標準，可以看到 ResUNetDecouple 系統在分離人聲、低音、其他和伴奏方面明顯優於以前的方法：

在消融實驗中，143 層殘差網路的表現也證實了，結合有界掩碼估計和直接幅值預測確實能夠改善聲音源分離系統的效能。

作者介紹

這項研究的論文一作為孔秋強，本碩都畢業於華南理工大學，博士則畢業於英國薩里大學的電子資訊工程專業。

他在 2019 年加入位元組跳動的 Speech, Audio and Music Intelligence 研究小組，主要負責音訊訊號處理和聲音事件檢測等領域的研究。

位元組跳動博士研製的“AI 音樂家”火了：可一鍵完美分離人聲和伴奏

AI 可以寫歌、填詞、改換風格、續寫音樂。今天，AI 又來做編曲人了。上傳一段《Stay》，一鍵按下，伴奏和人聲就輕鬆分離。人聲頗有種在空曠地帶清唱的清晰感，背景樂都能直接拿去做混剪了！這樣驚人的效果也引發了 R

被位元組跳動T4級大佬鄙視了：讓你10倍提升認知效率，就這3個方法！

點選“技術領導力”關注∆每天早上8:30推送作者|Mr.K 整理| Emma 來源|技術領導力(ID：jishulingdaoli)

都什麼時候了，你還不重視演算法？位元組跳動3+1面後的感悟：演算法比專案更重要！

背景武大計科本科應屆生，面試前看過馬老師的公開課，瞭解到演算法的重要性，利用這微薄的時間看完了左神的演算法書《程式設計師程式碼面試指南 IT名企演算法與資料結構題目最優解》順帶著看了左神很多演

虛擬更衣室火了：Revery.ai 用計算機視覺來增強購物體驗

網路購物豐富了人們的生活體驗，但對於貼身衣物來說，依靠單一的尺碼和裁剪，很難讓人們購買到合適的衣物，因此技術人員開始利用 AI 技術來彌補這一缺陷。

位元組跳動迴應入局社群團購：此訊息不準

10月19日訊息今日早些時候，有訊息稱位元組跳動將入局社群團購領域，目前該公司正籌備組建相關團隊，最快將於 11 月在山東中部地區開啟試點。

情人節淘寶藏頭詩火了：“好姐妹說好一生一起走，答應我誰先脫單誰是狗”

2 月 14 日訊息今天是 2 月 14 日西方情人節。據網友發現，淘寶熱搜榜出現了藏頭詩。網友看了直呼：奪筍呢。淘寶官方表示，聽說熊貓來找我要筍了。

Clubhouse 之後 Dispo 相機又火了：採用邀請制，明天才能看到照片

“我們要重塑 Instagram”。伴隨著這些呼喊，又一個應用程式已經成為矽谷這兩週的熱門話題。

位元組跳動開啟 2021 年春季校園招聘：提供超 7000 崗位，覆蓋全國 21 座城市

2 月 25 日訊息位元組跳動於 2 月 24 日上線春季校園招聘頁面，本次春招提供超 7000 個崗位，超過其歷年春招規模。

另類線上接單網站 Cameo 火了：註冊名人超 4 萬，可花錢和偶像 “嘮嗑”

宋丹丹和趙本山的小品《白雲和黑土》有這麼一個經典橋段，當崔永元問二位的夢想的時候，白雲老太太大喊「我十分想見趙忠祥！」，黑土大爺當即報復：「倪萍就是我夢中情人！」不得不說，由於趙忠祥老師已經在 2020 年

賈躍亭還沒回國，退市的樂視網突然火了：連拉 15 個漲停

3 月 18 日訊息，樂視網創始人賈躍亭還沒從美國回來，退市到老三板的樂視網又火了，逆勢連拉 15 個漲停板，較退市時的股價近乎翻倍。

位元組跳動迴應“重啟上市計劃”傳聞：此訊息不實

8 月 8 日午間訊息，有訊息稱，位元組跳動已經重啟其上市計劃，計劃在 2022 年年初在香港上市。隨後位元組跳動方面表示：此訊息不實。

位元組跳動遠端教學提問專利獲授權：結合聲音動作，可提高判斷準確度

8 月 11 日訊息企查查 App 顯示，8 月 10 日，北京位元組跳動網路技術有限公司“一種遠端教學的提問方法、裝置、提問終端和可讀介質”專利獲授權，公開號為 CN111787264B。

訊息稱位元組跳動計劃下半年將出音樂 App：暫定名“飛樂”，由抖音團隊負責

9 月 16 日訊息據 36 氪報道，從多個獨立信源處瞭解到，位元組跳動將於今年下半年在國內推出一款音樂流媒體產品，目前該產品已進入關鍵開發階段，產品名稱暫定“飛樂”，專案內部代號為“luna”，目前由抖音團隊負

這份工程師簡歷火了：手磨 14nm 咖啡，90% 公司伸橄欖枝

就很荒誕，一個軟體工程師的簡歷竟然是這樣的：確保團隊 6 人能喝上咖啡，還是用南極洲咖啡豆磨成 14 奈米顆粒的那種。在 LinkedIn 上關注創始人（Reid Hoffman）。在微軟把性病傳播給 60% 的實習團隊。你肯定會認為

位元組跳動國內首款音樂 App 曝光：名為“汽水音樂”，現已開始內測

12 月 15 日訊息，在經歷了一年多的爆料之後，位元組跳動已經開始內部測試其國內市場的首款音樂 App。據 Tech 星球，該產品的名字並非此前網傳的“飛樂”，而是“汽水音樂”，這款 App 在今年 9 月份左右剛剛完成研

日本發明的“舔屏嘗味”電視火了：伸個舌頭可嘗酸甜苦辣

平常咱們看美食節目，總是饞得想要一臺可以聞到味兒的電視機。目前這種東西還沒有被髮明出來，倒是有一臺可以舔到味道的 TV 誕生了：只要你把舌頭伸到它的螢幕上，就能嚐到上面顯示的食物的味道。比如這屏巧克力，受

一鍵摸魚神器火了：專為 Windows 打造，顯示假的系統更新頁面

12 月 25 日訊息，哪個打工人，還沒點摸魚小技巧了？這不最近，有一個摸魚工具，名叫 Loaf，就有點火，還衝上過微博熱搜。在你安裝好應用，點一下左上角的“摸魚”按鈕後，電腦就能彈出一個假的系統更新頁面：然後你

一位 20 年老程式設計師分享的 20 條程式設計經驗火了：不要與工具作鬥爭、弄清楚問題後再程式設計、複製貼上會帶來 Bug...

一位 20 年老程式設計師分享的程式設計經驗突然火了，在 Hacker News 上，一天之內就收穫了 467 熱度。這位老哥從 1999 年就開始程式設計，從早期的 Basic、Pascal、Delphi，到後來的 C，C++ ，Javasript 等主流語言

上線3個多月後，《幻塔攻略》又火了一把！一進遊戲我蚌埠住了

不知不覺，《幻塔》上線已有3個多月了！去年《幻塔》還未公測時，便有超過1500W玩家預約，公測當天哪哪都是人非常熱鬧，一度成為了年末最大黑馬！不過，新遊熱度高也不算稀奇，能長久維持下去才是最難的。那麼，如

位元組跳動手遊《海賊王：夢想指標》公佈 2023年發售

由位元組跳動旗下品牌朝夕光年開發的手遊《海賊王：夢想指標》近日正式公佈，這是一款東映動畫正版授權的3D互動冒險手遊，計劃在2023年發售。

位元組跳動博士研製的“AI 音樂家”火了：可一鍵完美分離人聲和伴奏

基於深度殘差網路的音源分離

實驗結果

作者介紹

相關推薦