基於RNN的音訊降噪演算法

阿新 • • 發佈：2018-12-07

前幾天無意間看到一個專案rnnoise。

專案地址: https://github.com/xiph/rnnoise

基於RNN的音訊降噪演算法。

採用的是 GRU/LSTM 模型。

閱讀下訓練程式碼，可惜的是作者沒有提供資料訓練集。

不過基本可以斷定他採用的資料集裡，肯定有urbansound8k。

urbansound8k 資料集地址:

https://serv.cusp.nyu.edu/projects/urbansounddataset/urbansound8k.html

也可以考慮採用用作者訓練的模型來構建資料集的做法，不過即費事，也麻煩。

經過實測，降噪效果很不錯，特別是在背景噪聲比較嚴重的情況下。

不過作者僅僅提供 pcm 的程式碼示例，並且還只支援48K取樣率，

( 明顯是為了相容其另一個專案 opus)

在很多應用場景下，這很不方便。

儘管稍微有點麻煩，但是事在人為，花了點時間，稍作修改。

具體修改如下：

1.支援wav格式

採用dr_wav(https://github.com/mackron/dr_libs/blob/master/dr_wav.h )

2.支援全部取樣率

取樣率的處理問題，採用簡單粗暴法，

詳情請移步博主另一篇小文《簡潔明瞭的插值音訊重取樣演算法例子 (附完整C程式碼)

》

3.增加CMake檔案

4.增加測試用示例音訊sample.wav

取自(https://github.com/orctom/rnnoise-java)

貼上完整示例程式碼：

/* Copyright (c) 2017 Mozilla */
/*
   Redistribution and use in source and binary forms, with or without
   modification, are permitted provided that the following conditions
   are met:

   - Redistributions of source code must retain the above copyright
   notice, this list of conditions and the following disclaimer.

   - Redistributions in binary form must reproduce the above copyright
   notice, this list of conditions and the following disclaimer in the
   documentation and/or other materials provided with the distribution.

   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
   A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE FOUNDATION OR
   CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*/

#include <stdio.h>
#include "rnnoise.h"
#include <stdlib.h>
#include <stdint.h>

#define DR_WAV_IMPLEMENTATION

#include "dr_wav.h"


void wavWrite_int16(char *filename, int16_t *buffer, int sampleRate, uint32_t totalSampleCount) {
    drwav_data_format format;
    format.container = drwav_container_riff;
    format.format = DR_WAVE_FORMAT_PCM;
    format.channels = 1;
    format.sampleRate = (drwav_uint32) sampleRate;
    format.bitsPerSample = 16;
    drwav *pWav = drwav_open_file_write(filename, &format);
    if (pWav) {
        drwav_uint64 samplesWritten = drwav_write(pWav, totalSampleCount, buffer);
        drwav_uninit(pWav);
        if (samplesWritten != totalSampleCount) {
            fprintf(stderr, "ERROR\n");
            exit(1);
        }
    }
}

int16_t *wavRead_int16(char *filename, uint32_t *sampleRate, uint64_t *totalSampleCount) {
    unsigned int channels;
    int16_t *buffer = drwav_open_and_read_file_s16(filename, &channels, sampleRate, totalSampleCount);
    if (buffer == NULL) {
        fprintf(stderr, "ERROR\n");
        exit(1);
    }
    if (channels != 1) {
        drwav_free(buffer);
        buffer = NULL;
        *sampleRate = 0;
        *totalSampleCount = 0;
    }
    return buffer;
}

void splitpath(const char *path, char *drv, char *dir, char *name, char *ext) {
    const char *end;
    const char *p;
    const char *s;
    if (path[0] && path[1] == ':') {
        if (drv) {
            *drv++ = *path++;
            *drv++ = *path++;
            *drv = '\0';
        }
    } else if (drv)
        *drv = '\0';
    for (end = path; *end && *end != ':';)
        end++;
    for (p = end; p > path && *--p != '\\' && *p != '/';)
        if (*p == '.') {
            end = p;
            break;
        }
    if (ext)
        for (s = end; (*ext = *s++);)
            ext++;
    for (p = end; p > path;)
        if (*--p == '\\' || *p == '/') {
            p++;
            break;
        }
    if (name) {
        for (s = p; s < end;)
            *name++ = *s++;
        *name = '\0';
    }
    if (dir) {
        for (s = path; s < p;)
            *dir++ = *s++;
        *dir = '\0';
    }
}

void resampleData(const int16_t *sourceData, int32_t sampleRate, uint32_t srcSize, int16_t *destinationData,
                  int32_t newSampleRate) {
    if (sampleRate == newSampleRate) {
        memcpy(destinationData, sourceData, srcSize * sizeof(int16_t));
        return;
    }
    uint32_t last_pos = srcSize - 1;
    uint32_t dstSize = (uint32_t) (srcSize * ((float) newSampleRate / sampleRate));
    for (uint32_t idx = 0; idx < dstSize; idx++) {
        float index = ((float) idx * sampleRate) / (newSampleRate);
        uint32_t p1 = (uint32_t) index;
        float coef = index - p1;
        uint32_t p2 = (p1 == last_pos) ? last_pos : p1 + 1;
        destinationData[idx] = (int16_t) ((1.0f - coef) * sourceData[p1] + coef * sourceData[p2]);
    }
}

void denoise_proc(int16_t *buffer, uint32_t buffen_len) {
    const int frame_size = 480;
    DenoiseState *st;
    st = rnnoise_create();
    int16_t patch_buffer[frame_size];
    if (st != NULL) {
        uint32_t frames = buffen_len / frame_size;
        uint32_t lastFrame = buffen_len % frame_size;
        for (int i = 0; i < frames; ++i) {
            rnnoise_process_frame(st, buffer, buffer);
            buffer += frame_size;
        }
        if (lastFrame != 0) {
            memset(patch_buffer, 0, frame_size * sizeof(int16_t));
            memcpy(patch_buffer, buffer, lastFrame * sizeof(int16_t));
            rnnoise_process_frame(st, patch_buffer, patch_buffer);
            memcpy(buffer, patch_buffer, lastFrame * sizeof(int16_t));
        }
    }
    rnnoise_destroy(st);
}

void rnnDeNoise(char *in_file, char *out_file) {
    uint32_t in_sampleRate = 0;
    uint64_t in_size = 0;
    int16_t *data_in = wavRead_int16(in_file, &in_sampleRate, &in_size);
    uint32_t out_sampleRate = 48000;
    uint32_t out_size = (uint32_t) (in_size * ((float) out_sampleRate / in_sampleRate));
    int16_t *data_out = (int16_t *) malloc(out_size * sizeof(int16_t));
    if (data_in != NULL && data_out != NULL) {
        resampleData(data_in, in_sampleRate, (uint32_t) in_size, data_out, out_sampleRate);
        denoise_proc(data_out, out_size);
        resampleData(data_out, out_sampleRate, (uint32_t) out_size, data_in, in_sampleRate);
        wavWrite_int16(out_file, data_in, in_sampleRate, (uint32_t) in_size);
        free(data_in);
        free(data_out);
    } else {
        if (data_in) free(data_in);
        if (data_out) free(data_out);
    }
}


int main(int argc, char **argv) {
    printf("Audio Noise Reduction\n");
    printf("blog:http://cpuimage.cnblogs.com/\n");
    printf("e-mail: 
[email protected]\n");
    if (argc < 2)
        return -1;

    char *in_file = argv[1];
    char drive[3];
    char dir[256];
    char fname[256];
    char ext[256];
    char out_file[1024];
    splitpath(in_file, drive, dir, fname, ext);
    sprintf(out_file, "%s%s%s_out%s", drive, dir, fname, ext);
    rnnDeNoise(in_file, out_file);
    printf("press any key to exit.\n");
    getchar();
    return 0;
}

不多寫註釋，直接看程式碼吧。

專案地址：https://github.com/cpuimage/rnnoise

示例具體流程為：

載入wav(拖放wav檔案到可執行檔案上)->重取樣降噪->儲存wav

若有其他相關問題或者需求也可以郵件聯絡俺探討。

郵箱地址是:
[email protected]

基於RNN的音訊降噪演算法 (附完整C程式碼)

本文轉載自部落格：https://cloud.tencent.com/developer/article/1094567 ---------------------------------------------------------------------------------------

基於RNN的音訊降噪演算法

前幾天無意間看到一個專案rnnoise。專案地址: https://github.com/xiph/rnnoise 基於RNN的音訊降噪演算法。採用的是 GRU/LSTM 模型。閱讀下訓練程式碼，可惜的是作者沒有提供資料訓練集。不過基本可以斷定他採用的

ACL 2018論文解讀 | 基於排序思想的弱監督關係抽取選種與降噪演算法

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。在這個欄目裡，你會快速

android音訊降噪webrtc

在音訊處理的開源專案中，webrtc是一個很不錯的例子。它包含降噪，去回聲，增益，均衡等音訊處理。這裡我講講我所使用到的如何使用降噪方式。當然，具體它是如何降噪的，大家可以細看原始碼處理了。好了，線上原始碼。以下是java 層MainActivity.jav

speex降噪演算法流程介紹與演算法原理

一、speex降噪流程介紹本文對speex去噪演算法步驟做一些簡要整理和介紹，以提供給對該演算法感興趣的讀者參考。 1）preprocess_analysis()包括兩部分，主要是加窗交疊傅立葉(fft)變換等常用的訊號處理演算法。 1.1)預處理

基於RNN的文字生成演算法的程式碼運轉

“什麼時候能自動生成部落格？” 前言 RNN相對於傳統的神經網路來說對於把握上下文之間的關係更為擅長，因此現在被大量用在自然語言處理的相關任務中，例如生成與訓練文集相似的文字、序列標註、中文分詞等。此文列出兩種基於RNN的文字生成演算法，以供參考。正文基於字元的文字生成演算法此程式碼為

non-local Means(非區域性均值)降噪演算法及快速演算法原理與實現

Non-Local Means演算法原理： Non-Local Means顧名思義，這是一種非區域性平均演算法。何為區域性平均濾波演算法呢？那是在一個目標畫素周圍區域平滑取均值的方法，所以非區域性均值濾波就意味著它使用影象中的所有畫素，這些畫素根據某種相似度進行加權平均。濾

EDIUS是怎麼給音訊降噪的

如果我們的錄音環境比較嘈雜，就會導致我們錄的音訊中有雜音。如果聽的時候雜音非常小可以忽略掉那就最好不過了，但是如果雜音的聲音很大有的甚至高出了我們的主題聲音，那就是問題了。在時間和工作量允許的情況下，我們可以找個安靜的環境重錄，這是可以解決的。如果我們沒有時間，或者工作量太

[投稿]一個頻域語音降噪演算法實現及改進方法

姓名：雷霄驊網名：leixiaohua1020 本科：中國傳媒大學-廣播電視工程碩士：中國傳媒大學-數字電視技術博士：中國傳媒大學-數字視訊技術 Email： [email protected] QQ： 494085803 [注1：QQ訊息較多，難以一一回復，見諒]

ffmpeg視頻模糊處理，降噪處理

1.5 ima nal image output smart 部分 mage noise 1.視頻模糊處理　　1-1. boxblur濾鏡　　　　　　　　比如：ffmpeg -i input.mpg -vf boxblur=1.5:1 output.mp4

『TensorFlow』讀書筆記_降噪自編碼器

沒有 tutorials oftp transfer 初始化 hot nis gauss ant 『TensorFlow』降噪自編碼器設計之前學習過的代碼，又敲了一遍，新的收獲也還是有的，因為這次註釋寫的比較詳盡，所以再次記錄一下，具體的相關知識查閱之前寫的文章即可（見

音頻降噪算法附完整C代碼

公開 lob oid 算法 rtc eve init 核心語音降噪是音頻圖像算法中的必不可少的。目的肯定是讓圖片或語音更加自然平滑，簡而言之，美化。圖像算法和音頻算法都有其共通點。圖像是偏向空間處理，例如圖片中的某個區域。圖像很多時候是以二維數據為主，矩

“你什麽意思”之基於RNN的語義槽填充(Pytorch實現)

入門 pre 驗證 sigma arr str https 控制 AC 1. 概況 1.1 任務口語理解（Spoken Language Understanding, SLU）作為語音識別與自然語言處理之間的一個新興領域，其目的是為了讓計算機從用戶的講話中理解他們的意圖。

使用speex對pcm,wav進行降噪處理

1. speex的降噪模組的簡介 speex的語音處理模組要使用獨立於 speex codec庫的libspeexdsp 庫。這個分離的庫是在1.2版本後實現；它這庫包括了：預處理，回聲消除，jitter buffer 和重取樣模組；在Unix/Linux環境下，使用 -ls

基於使用者的協同過濾演算法實現的商品推薦系統

基於使用者的協同過濾演算法實現的商品推薦系統專案介紹商品推薦是針對使用者面對海量的商品資訊而不知從何下手的一種解決方案，它可以根據使用者的喜好，年齡，點選量，購買量以及各種購買行為來為使用者推薦合適的商品。在本專案中採用的是基於使用者的協同過濾的推薦演算法來實現

資料探勘——基於sklearn包的分類演算法小結

　　目錄一、分類演算法簡介二、KNN演算法三、貝葉斯分類演算法四、決策樹演算法五、隨機森林演算法六、SVM演算法一、分類演算法簡介 1、概念　　1.1 監督學習（Super

matlab 影象增噪演算法

matlab強大之處在於已經寫好了庫函式imnoise可以直接拿來使用：首先進行一段科普：常用的噪聲型別編輯 'gaussian'：Gaussian white noise with constant mean and variance 'localvar'：Zero-me

3、前奏之基於物品的協同過濾演算法：ItemsCF

兩步走：計算物品間的相似度根據1和使用者歷史行為給使用者生成推薦列表一、計算物品間的相似度 1、相似度演算法喜歡物品i的使用者中有多少比例的使用者也喜歡j；問題：j存在熱門商品問題，因為j很流行，喜

【演算法學習】基於“平均”的隨機分配演算法（貪婪，回溯），以按平均工作量隨機分配單位為例

一、背景介紹在工作中，遇到一個需求：將 N 個單位隨機分配給 n 個人，其中每個單位有對應的工作量，分配時要儘量按工作量平均分給 n 個人，且人員的所屬單位不能包括在被分配的單位中（N >= n）。例如：有三個部門分給兩個人([A]屬於部門2和[B]屬於部門3)，部門1的

基於sklearn的決策樹演算法

1、決策樹介紹決策樹簡單的理解為if-then的集合，其優點主要有分類速度快、可讀性等。決策樹的生成主要可分為三個步驟：特徵的選擇、決策樹的生成、決策樹的剪枝。 1.1特徵選擇對於結點的選擇，總得需要一個計算方法來實現，這個方法的目標是優先選擇分類能力強的特徵，這樣才提高

基於RNN的音訊降噪演算法

相關推薦