論文翻譯：Speeding Learning of Personalized Audio Equalization

阿新 • • 發佈：2022-05-27

#論文翻譯：
# Speeding Learning of Personalized Audio Equalization #
## Abstract ##
音訊均衡器(eq)可能是音訊製作中最常用的工具。SocialEQ專案是一個基於網路的個性化音訊均衡系統，它使用了標準方法的替代介面正規化。在這裡，使用者指定一個想要的效果(例如使聲音溫暖)，並告訴工具(例如均衡器)什麼設定使聲音體現這個術語。SocialEQ通常需要25個評級來適當地個性化均衡設定。在本文中，我們提出了三種方法來提高個性化專案(音訊設定)的生成速度，使用者可以在評分數量少得多的例子後提供個性化的EQ曲線。這些方法可以適用於任何需要協同過濾的情況，為使用者建立的最終產品是獨一無二的，彼此之間具有可比性，但之前的使用者不像當前使用者對同一組示例進行評級。方法在1635個使用者會話的資料集上進行測試。
## INTRODUCTION ##
Sabin et.al[1]開發了另一種介面正規化，其中使用者指定一個期望的效果(如使聲音溫暖)，並告訴工具(如均衡器)應該應用哪些設定使聲音體現該術語。術語(warm)和設定(各頻段的增益/削減)的組合是一個使用者概念(例如Bob s warm)。
SocialEQ[2]專案是一個基於網路基礎的個性化音訊均衡系統，使用[1]中的方法。自從它在網上釋出以來，已經有超過3000個使用者概念被傳授給了這個系統。
資料集中的每個使用者概念是通過讓使用者從用於訓練系統的50個音訊示例中隨機選擇25個音訊示例來學習。儘管評級方法是構建個性化音訊物件的好方法，但它需要從每個使用者那裡獲得太多評級(例如25個)才能獲得準確的結果。
為了減少使用者需要回答的問題數量，在[3]中應用了遷移學習。我們的想法是使用先驗知識來預測使用者對未評級音訊例子的評級。換句話說，在當前使用者對少量示例進行評分後，該系統通過使用之前的使用者資料來預測使用者對其他未評級示例的偏好。[3]中的方法要求所有使用者對完全相同的一組示例進行評級，這樣就可以直接測量使用者評級列表之間的距離。SocialEQ要求使用者從50個樣本中隨機選擇25個樣本進行評分，所以大多數使用者只在他們的評分樣本中有一部分是重疊的。因此，必須修改該方法，以便當使用者沒有對相同的示例進行評級時，使用者概念之間的相似性可以衡量。
在本文中，我們提出了三種方法來提高生成個性化條目(音訊設定)的速度。
第一種改進了[1]中的學習演算法。接下來的兩種方法利用以前的使用者資料加速個性化，克服了[3]中的限制。一種是允許使用者概念之間的比較，而不直接參考使用者評分。另一種是一種新的插補方法，它填補了缺失的評分，從而可以根據使用者對條目的評分來比較使用者概念。所有三種方法都可以適用於協作過濾的任何情況，令人滿意的是，為使用者建立的最終產品是獨一無二的，彼此之間可以比較，但以前的使用者不會像當前使用者那樣對同一組示例進行評分。
###RELATED WORK  ###
在本文中，我們加快學習的一種方法與推薦系統中基於記憶的協同過濾有關。它通過分析其他使用者[4]的已知喜好，預測使用者未知的喜好。基於記憶的協同過濾的一個重要問題是如何處理稀疏的使用者-物品矩陣來精確計算使用者之間的相似度。Yongli等人[5]提出了一種選擇資訊量最大的缺失資料進行插補的方法，用於基於記憶體(基於鄰居)的協同過濾。Hao等人[6]提出了一種缺失資料預測演算法，該演算法利用了使用者和物品的資訊。該研究認為，如果一件物品非常受歡迎，新使用者很可能會給該物品一個好的評級，因此它同時使用使用者相關性和物品相關性來預測遺漏的評級。然而，該論證可能不適用於我們的案例，因為專案（即音訊例子）在本文中我們生成的音訊意在調查使用者對音訊效果的偏好，但是同一個使用者可以會對同一個音訊實列進行不同的概念評價，列如（這音樂很細膩，這音樂是暗黑風）
Jeong等[7]定義了使用者信用，並將每一組使用者評級轉換為使用者信用。這使得即使在評分資料不完整的情況下，也可以衡量使用者之間的相似性。我們在我們的一種方法中採用了類似的方法來加速對均衡曲線的學習。**請注意，我們處理的情況不同於一般的推薦系統**((例如電影或音樂推薦))我們不只是從評分專案中推薦一個現有的選項，而是創造一個新的個性化專案(EQ設定)，體現使用者的音樂喜好。
###METHODS  ###
在本節中，我們解釋瞭如何使用[1]中的原始方法，基於SocialEQ資料中的使用者評分構建個性化的EQ曲線。然後，我們描述了對這種學習方法的改進和兩種使用先驗使用者資料來加快學習的方法，一種依賴於缺失使用者資料的歸算，一種不依賴。
#### - A.The SocialEQ data set ####
SocialEQ資料集有3369個會話。單個會話包含來自單個使用者的25個已知示例評級。在每次會話中，使用者選擇一個概念詞（如細膩的）並以-1到1的等級來評價這些例子。  使用者評分為1意味著音訊示例與使用者想要的聲音完美匹配(如非常細膩的）使用者評分為-1意味著示例具有相反的意義，如（非常不細膩的）。
一個音訊的例子（給與使用者做聽覺體驗的）是一個聲音檔案，它被修改為均衡設定，指定在40個頻率的每個振幅的增強或削減。這一設定表示為具有40個數據點的曲線(EQ曲線)表示從20 Hz到19682 Hz的對數間隔頻率(圖2)。

圖2。概述基線學習方法的過程

當用戶給一個音訊例子評分為r1時，我們得到了在這40個頻率點下的這40個增益的評級。例如，如果使用者評分，25個音訊示例，每個頻帶產生25個(評分，增益)資料點。在一個會話中，所有示例都將EQ曲線應用於相同的音訊檔案。每一階段的所有EQ曲線都是從50條EQ曲線中繪製的。
我們使用[2]中使用的納入標準來過濾會話，這樣用來過濾一些垃圾資料。我們使用[2]中使用的納入標準來過濾會話，這樣只有那些付出努力並一直對示例進行評分的人的會話被用於我們的研究。我們還刪除了任何參與者對調查問題回答“否”的資料，最後，每個參與者評價的40個例子中有15個是重複的例子。這讓我們可以測試使用者響應的一致性。我們使用皮爾森相關性來衡量每個參與者對第一次展示的例子和第二次展示的例子的評價之間的一致性。如果一個參與者的一致性低於所有參與者的平均值一個以上的標準差，那麼該參與者就被排除在外。在過濾掉低質量的資料之後，我們有1635個之前的會議。本文中的所有結果都使用這組1635個會話。
#### - The Baseline Learning Method ####
一個使用者想要的到的完美EQ曲線是逼近使用者所描述的詞的（例如一條完美調製的細膩型EQ曲線）在這項工作中，我們假設[1]的基線學習方法在一個會話中給出來自SocialEQ資料的25個評分示例時，能夠完美地學習使用者概念。
輸入是一組包含25條指定的40頻率點波段EQ的曲線。對於每個頻帶，我們從25個評級中計算使用者的迴歸斜率。各頻帶的迴歸斜率表示使用者喜歡的頻率點的上的相對增益。這就產生了一條40點的EQ曲線，我們稱之為使用者概念。有關EQ構建過程的更詳細說明，請參閱[1]。
#### - Speed Learning with Reestimation ####
如果只從幾個被評級的例子(例如5個例子（**具體來說我理解為使用者測試的輪次**），而不是25個)中學習，用基線方法建立的使用者概念的估計可能是不可靠的。
然而，從較少的評級中獲得的估計可以作為輸入，用於預測使用者尚未評級的例子的評級。然後，我們可以結合實際評分和估計評分來重新評估使用者概念。方法如下:我們使用基線法得到由n個使用者評分(如5個評分)生成的EQ曲線。接下來，我們預測其餘未評級示例的評級(其餘20個未評級的例子)通過計算皮爾遜相關性來估計使用者概念EQ曲線和每個未評級音訊示例的EQ曲線之間的關係。我們使用這個相關係數作為估計的評級。然後，我們通過使用估計值(例如20個估計值)和實際值(例如5)構建一條新曲線來重新估計使用者概念EQ曲線，再用基線方法來生成迴歸曲線。我們稱這種方法為重估。
#### - **Transfer learning and active learning** ####
遷移學習[8]是一種有效的學習方法，通過使用先前學習任務中的先前知識來加速概念學習。我們可以通過使用先前的使用者資料(使用者概念)來進一步改進我們對輸出EQ曲線的估計，以增加從當前使用者的評級中獲得的資訊。
這個想法是，如果兩個使用者概念彼此接近，無論是從使用者給例子的評分，還是從評分的部分集合(即使只有幾次評分)得到的EQ曲線來看是接近的，在25次評分後得出的使用者概念EQ曲線也應該是相似的。當用戶評價n個例項時，我們在n維評價空間或40維EQ空間中衡量當前使用者概念與先前使用者概念之間的相似性。一旦我們有了當前的使用者概念和所有之前的使用者概念之間的相似性，我們可以使用先驗資料的k近鄰線性組合（K-nearest neighbor linear）來估計當前使用者對當前未評級示例的評分。在這項研究中，作為一種相似性度量，使用Pearson相關性，因為它解釋了使用者之間的縮放差異(即使用者a對所有內容的評分範圍為1到- 1，使用者B的評價範圍在0.01到-0.01之間)。我們選擇了64個最接近的先前使用者概念，因為一項初步研究表明，這個數字是產生良好估計的最佳數字。
主動學習是指學習者自己選擇學習的例子，而不是被動地接受老師選擇的例子。我們採用[9]中使用的主動學習方法，也就是根據之前所有使用者對這些例子的打分的差異向用戶展示這些例子。這使我們能夠快速區分之前的使用者概念，並在之前的使用者概念（使用者喜好）中定位當前使用者的概念（喜好）。選擇這種方法是為了簡單、有效和與我們之前建立的工作相一致。與其他方法的比較超出了本文的範圍。我們現在描述兩種應用k近鄰估計的方法
#### - Using Prior Data with Missing Values without need for imputation of missing values ####

在我們的例子中，任何兩個使用者學習到的均衡曲線都可以直接進行比較，儘管它們是由不同的評級物件生成的。因此，不需要對缺失的評級進行估計，這樣就可以對所有之前的使用者進行比較，我們從當前使用者的評分集建立一個EQ曲線(即使他們只評價了幾個例子)並將這條曲線與之前每個使用者的情商曲線進行比較。注意，之前的使用者EQ曲線是使用基線方法從會話中的所有25個示例中學習的。這讓我們可以應用以前使用者的資料，即使他們評價完全不同的EQ設定示例。從當前使用者的評分中，我們使用基線方法從n個評分中構建了一條情商曲線，並衡量這條(公認很糟糕的)EQ曲線與從以前使用者學習到的每條EQ曲線的相似性。。注意，之前的使用者EQ曲線是使用基線方法從會話中的所有25個示例中學習的。這是用皮爾遜相關性完成的。然後，我們從64條最接近之前使用者的EQ曲線中為當前使用者建立一個複合EQ曲線。每個先驗使用者的使用者概念EQ曲線的權重與其與當前使用者的曲線的相似性成正比。

### - THE EXPERIMENT ###

這項工作的目的是減少評估使用者想要的音訊概念所需的評級示例的數量。為此，我們首先通過比較其他常見的插填方法來評估III-F節中描述的插填技術。然後我們測量第三節中描述的每種方法的學習速度。

#### - Data imputation evaluation ####

我們比較了第III-F節中的插填方法。(標記為Reg，用於迴歸)到三種廣泛使用的技術來估算缺失值。這些是:1)使用者的leanred EQ曲線和未評級音訊例子之間的Pearson相關係數;(Corr) 2)所有先前使用者對某些例子的評分平均值(mean);和3)矩陣分解(MF)[10]。圖3顯示了來自SocialEQ資料集中1635個使用者概念的25個實際評分和25個實際評分+ 25個估算評分生成的EQ曲線之間的兩兩Pearson相關關係。相似性1.0表示從包括估算評分在內的資料中學習到的EQ曲線與僅從25個實際評分中學習到的原始EQ曲線是相同的。兩種方法的Reg和Corr平均相似度值分別為0.992和0.969。更重要的是，從圖中可以看出，我們的方法具有更穩定和準確的效能。即使在最壞的情況下，相關性也在0.95以上，而其他三種方法的相關性方差較大。這意味著我們的imputation方法比現有的方法更不可能通過建立錯誤的資料估計來扭曲結果。因此，讓我們在遷移學習中使用先驗資料是最好的方法。
#### - Learning methods evaluation ####
第三節中描述的方法是為了讓系統學習比基線系統要求的評分更少的使用者概念。我們測量每種加速學習方法的能力如下:首先，我們從SocialEQ資料中選擇1635個之前的課程之一。每個會話有25個評分示例。然後，我們選擇n個由該會話中的使用者評分的音訊示例。然後，我們使用第三節中的每一種方法生成一條EQ曲線來表示使用者概念。為了衡量每條EQ估計曲線的正確性，將估計的EQ曲線與使用者在該會話的全套評分示例生成的實際EQ進行比較。比較採用Pearson相關，相關係數稱為機器-使用者相關。我們對所有1635個之前的會話進行模擬，並通過取平均值總結出1635個機器使用者相關值。圖4顯示了平均機器相關性作為額定示例數n的函式，比較了所有學習方法。這三種方法都優於基線方法。利用我們的imputation技術和測量相似性的imputation先驗資料在評級空間是測試的最佳解決方案。例如，當我們使用該方法時，僅使用7個評分就可以實現與25個評分示例學習到的最終EQ曲線0.8的相關性。但基準方法需要13個等級才能達到相同的相關性水平。

論文翻譯：Speeding Learning of Personalized Audio Equalization

#論文翻譯： # Speeding Learning of Personalized Audio Equalization # ## Abstract ## 音訊均衡器(eq)可能是音訊製作中最常用的工具。SocialEQ專案是一個基於網路的個性化音訊均衡系統，它使用了標準方法的替代介

論文翻譯：2013_Efficient individualization of hearing aid processed sound

論文地址：高效個性化的助聽器處理聲音引用格式：Nielsen J B, Nielsen J. Efficient individualization of hearing aid processed sound[C]//2013 IEEE International Conference on Acoustics, Speech and Signa

論文翻譯：2020_A Hybrid DSP/Deep Learning Approach to Real-Time Full-Band Speech Enhancement

文章方向：語音增強論文地址：基於DSP/深度學習的實時全頻帶語音增強方法部落格地址：https://www.cnblogs.com/LXP-Never/p/15144882.html

論文翻譯：2021_Acoustic Echo Cancellation with Cross-Domain Learning

論文地址：https://graz.pure.elsevier.com/en/publications/acoustic-echo-cancellation-with-cross-domain-learning

論文閱讀：The Role of “Condition”: A Novel Scientific Knowledge Graph Representation and Construction Model

“條件”的作用:一種新的科學知識圖表示與構建模型 Abstract 　　條件關係在科學觀測、假設和陳述中起著重要作用，但是現有的科學知識圖譜（SicKgs）與一般領域的知識圖譜（KGs）一樣，沒有考慮事實有效的條件，僅

論文翻譯：2021_Decoupling magnitude and phase optimization with a two-stage deep network

論文地址：兩階段深度網路的解耦幅度和相位優化論文程式碼：引用格式：Li A, Liu W, Luo X, et al. ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with a two-st

論文翻譯：2018_CRN_A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement

論文地址：用於實時語音增強的卷積遞迴神經網路程式碼地址：https://github.com/JupiterEthan/CRN-causal

論文翻譯：2020_GCRN_Learning Complex Spectral Mapping With Gated Convolutional Recurrent Networks for Monaural Speech Enhancement

論文地址：使用門控捲積迴圈網路學習複數譜對映以增強單耳語音程式碼地址：https://github.com/JupiterEthan/GCRN-complex

論文翻譯：2021_Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss

論文地址：使用感知動機目標和損失的低延遲語音增強引用格式：Zhang X, Ren X, Zheng X, et al. Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss[J]. Proc. Interspeech 2021, 2021:

論文翻譯：2020_Acoustic Echo Cancellation by Combining Adaptive Digital Filter and Recurrent Neural Network

論文地址：https://arxiv.53yu.com/abs/2005.09237 自適應數字濾波與迴圈神經網路相結合的回聲消除技術

論文翻譯：2020_The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Speech Quality and Testing Framework

論文地址：https://arxiv.53yu.com/abs/2001.08662 INTERSPEECH 2020深度噪聲抑制挑戰:資料集，主觀語音質量和測試框架

論文翻譯：2020_Nonlinear Residual Echo Suppression using a Recurrent Neural Network

論文地址：https://indico2.conference4me.psnc.pl/event/35/contributions/3367/attachments/779/817/Thu-1-10-6.pdf

論文翻譯：2021_論文翻譯：2018_F-T-LSTM based Complex Network for Joint Acoustic Echo Cancellation and Speech Enhancement

論文地址：https://arxiv.53yu.com/abs/2106.07577 基於 F-T-LSTM 複雜網路的聯合聲學回聲消除和語音增強

論文翻譯：2018_Source localization using deep neural networks in a shallow water environment

論文地址：https://asa.scitation.org/doi/abs/10.1121/1.5036725 深度神經網路在淺水環境中的源定位

論文翻譯：2021_Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source Separation

論文地址：https://arxiv.53yu.com/abs/2104.04325 聯合線上多通道聲學回聲消除、語音去混響和聲源分離

論文筆記：InductivE_Inductive Learning on Commonsense Knowledge Graph Completion

本文提出一個基於歸納學習（inductive learning）的常識知識圖譜補全框架，旨在從可見實體構成的圖中歸納出常識模式，從而用於實現不可見實體的補全，即本文提出的常識知識補全。

論文翻譯：A PROCEDURE FOR DESIGNING ABSTRACT INTERFACES FOR DEVICE INTERFACE MODULES

個人翻譯學習記錄，如有錯漏，務必指出更推薦英文原版英文原版可從該網址下載 https://dl.acm.org

論文翻譯：2021_Performance optimizations on deep noise suppression models

論文地址：深度噪聲抑制模型的效能優化引用格式：Chee J, Braun S, Gopal V, et al. Performance optimizations on deep noise suppression models[J]. arXiv preprint arXiv:2110.04378, 2021.

深度學習論文翻譯解析（八）：Rich feature hierarchies for accurate object detection and semantic segmentation

論文標題：Rich feature hierarchies for accurate object detection and semantic segmentation 　　標題翻譯：豐富的特徵層次結構，可實現準確的目標檢測和語義分割

深度學習論文翻譯解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

論文標題：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition　　　　　　標題翻譯：用於視覺識別的深度卷積神經網路中的空間金字塔池

論文翻譯：Speeding Learning of Personalized Audio Equalization

相關推薦