1. 程式人生 > 其它 >論文筆記:Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

論文筆記:Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

介紹

受到CASA的啟發,提出了一種deep casa方法,用於兩個說話人的分離。不依賴說話人的分離問題需要解決置換問題(permutation problem)。主要通過PIT和DC兩種主要方法來解決置換問題。

本文提出的方法在simultaneous grouping階段,利用具有密集連線層 的 UNet 卷積神經網路 (CNN) 來提高幀級分離的效能。為了克服逆STFT中噪聲相位的影響,探索了新的復值STFT訓練目標函式和time domain訓練函式來進行train。在sequential grouping階段,使用TCN網路來改善效能(在說話人跟蹤方面表現較好)。

Deep CASA

Simultaneous Grouping Stage

這一階段用於將每一幀的頻譜分離為兩個說話人。 對應第c個說話人的STFT估計。訓練過程遵循tPIT準則。Dense-UNet網路的輸出成估計 不同說話人的T-F masks,然後將混合的頻譜與mask相乘,就可以實現說話人分離![image-20220406101124843](Divide and Conquer A Deep CASA Approach to Talker-Independent Monaural Speaker Separation.assets/image-20220406101124843.png)

Sequential Grouping Stage

這一階段的主要目的在於track所有幀級別的頻譜估計 將他們分配給不同的說話人。

將混合的頻譜和說話人頻譜的估計共同作為網路的輸入。NN網路通過訓練,可以將每一個幀級別的輸入變為一個D維的embedding vector V(t)。Target label A(t)用來表示tPIT輸出的分配。之後提出了這一階段的訓練目標函式:![image-20220406102010224](Divide and Conquer A Deep CASA Approach to Talker-Independent Monaural Speaker Separation.assets/image-20220406102010224.png)

通過訓練這一函式,對應於相同分配的V(t),變得更近,不同分配的V(t)變得更遠。因此在inference階段,用K-means演算法來對V(t)進行聚類,在每一幀產生binary label,用於組織Simultaneous Grouping Stage的幀級輸出。