1. 程式人生 > >android音訊編輯之音訊合成

android音訊編輯之音訊合成

轉載請標明出處:
https://blog.csdn.net/hesong1120/article/details/79744653
本文出自:hesong的專欄

前言

音訊編輯系列:
- android音訊編輯之音訊轉換PCM與WAV
- android音訊編輯之音訊裁剪
- android音訊編輯之音訊合成

本篇主要講解音訊PCM資料的合成,這裡合成包括音訊之間的拼接,混合。
- 音訊拼接:一段音訊連線著另一段音訊,兩段音訊不會同時播放,有先後順序。
- 音訊混合:一段音訊和另一段音訊存在相同的區間,兩者會有同時播放的區間。

下面是音訊拼接,音訊混合的效果圖:

音訊拼接
音訊混合

音訊拼接

如果大家理解了android音訊編輯之音訊轉換PCM與WAVandroid音訊編輯之音訊裁剪的原理。那麼音訊拼接的原理其實就很好理解了。總的說來就是新建一個音訊檔案,將一段音訊的PCM資料複製到新音訊上,再將另一段音訊的PCM資料複製到新音訊上。但這裡還是有一些需要注意的。

情景一

假設A音訊40秒,B音訊20秒,B音訊資料拼接到A音訊後面,得到60秒的C音訊檔案。

這種情況最簡單了,新建音訊檔案C,將A音訊的PCM資料複製到C音訊檔案上,再將B音訊的PCM資料複製到C音訊檔案上,然後為C音訊寫上wav檔案頭資訊,得到可播放的WAV檔案。

情景二

假設A音訊40秒,B音訊20秒,B音訊資料插入到A音訊10秒的地方,得到60秒的C音訊檔案。

這種情況稍微複雜點,新建音訊檔案C,將A音訊前10秒的PCM資料複製到C音訊檔案上,再將B音訊的PCM資料複製到C音訊檔案上,再將A音訊後30秒的PCM資料複製到C音訊檔案上,最後為C音訊寫上wav檔案頭資訊,得到可播放的WAV檔案。

情景三

假設A音訊40秒,B音訊20秒,B音訊5至15秒的資料插入到A音訊10秒的地方,得到50秒的C音訊檔案。

這種情況更復雜,也是最常見的插入場景,裁剪B音訊並插入到A音訊的某個位置,這裡涉及到B音訊資料的裁剪,當然原理其實也是簡單的,計算出B音訊5秒和10秒對應的檔案資料位置,然後複製這個區間的資料到C上,針對A檔案的資料,也是同樣道理。

情景四

A音訊和B音訊中多段資料相互拼接

這種情況,原理同上面一樣,只要知道指定時間對應的資料是什麼,就可以實現自由拼接了。

音訊拼接的實現參考我的Github專案 AudioEdit,這裡我就不貼具體程式碼了。

音訊混合

音訊混合是指一段音訊和另一段音訊合在一起,能夠同時播放,比如最常見的人聲錄音和背景音樂的合成,可以得到一首人聲歌曲。
音訊混合的原理是

音訊混合原理: 量化的語音訊號的疊加等價於空氣中聲波的疊加。

也就是說將輸入的每段音訊的某個時間點的取樣點數值進行相加,即可將聲音訊號加入到輸出的音訊中。

音訊取樣點數值的大小是(-32768,32767),對應short的最小值和最大值,音訊取樣點資料就是由一個個數值組成的的。如果單純疊加,可能會造成相加後的值會大於32767,超出short的表示範圍,也就是溢位,所以在音訊混合上回採用一些演算法進行處理。下面列舉下簡單的混合方式。

直接疊加法

A(A1,A2,A3,A4)和B(B1,B2,B3,B4)疊加後求平均值,得到C((A1+B1),(A2+B2),(A3+B3),(A4+B4))
這種情況,輸出的音訊中A和B音訊資料都可以以相同聲音大小播放,但是可能出現溢位的情況。假設A音訊指定時間點的某段取樣資料是(23,67,511,139,307),B音訊對應該時間點的取樣資料是(1101,300,47,600,22),那麼兩者直接疊加的話,得到的取樣資料是(1124,367,558,739,329),這個短取樣資料就是兩者聲音混合的資料了。

疊加後求平均值

A(A1,A2,A3,A4)和B(B1,B2,B3,B4)疊加後求平均值,得到C((A1+B1)/2,(A2+B2)/2,(A3+B3)/2,(A4+B4)/2)
這樣可以避免出現溢位的情況,但是會出現兩者聲音會比之前單獨的聲音小了一半,比如人聲和背景音樂混合,導致輸出的音訊中,人聲小了一半,背景音樂也小了一半,這種情況可能就不是想要的效果,特別是多段音訊混合的情況。

權值疊加法

A(A1,A2,A3,A4)和B(B1,B2,B3,B4)權值疊加,A權值為x,B權值為y,得到C((A1 * x+B1 * y),(A2 * x+B2 * y),(A3 * x+B3 * y),(A4 * x+B4 * y))
這樣可以更方便條件A和B的音量的大小,比如A的權值為1.2,B的權值為0.8,那麼A的聲音相對提高了,B的聲音相對減弱了。嚴格來說,直接疊加法和疊加求平均值法都屬於該型別。

此外還有各種更復雜的混合演算法,如動態權值法,A和B的權值會根據當前時刻取樣點數值的大小進行動態變化,得到一個動態增益和衰減的混合方式。

下面是直接疊加法的實現,需要注意short值要按大端儲存的方式計算,儲存時按大端方式儲存。

  /**
     * 疊加合成器
     * @author Darcy
     */
    private static class AddAudioMixer extends MultiAudioMixer{

        @Override
        public byte[] mixRawAudioBytes(byte[][] bMulRoadAudioes) {

            if (bMulRoadAudioes == null || bMulRoadAudioes.length == 0)
                return null;

            byte[] realMixAudio = bMulRoadAudioes[0];

            if(bMulRoadAudioes.length == 1)
                return realMixAudio;

            for(int rw = 0 ; rw < bMulRoadAudioes.length ; ++rw){
                if(bMulRoadAudioes[rw].length != realMixAudio.length){
                    Log.e("app", "column of the road of audio + " + rw +" is diffrent.");
                    return null;
                }
            }

            //row 代表參與合成的音訊數量
            //column 代表一段音訊的取樣點數,這裡所有參與合成的音訊的取樣點數都是相同的
            int row = bMulRoadAudioes.length;
            int coloum = realMixAudio.length / 2;
            short[][] sMulRoadAudioes = new short[row][coloum];

            //PCM音訊16位的儲存是大端儲存方式,即低位在前,高位在後,例如(X1Y1, X2Y2, X3Y3)資料,它代表的取樣點數值就是((Y1 * 256 + X1), (Y2 * 256 + X2), (Y3 * 256 + X3))
            for (int r = 0; r < row; ++r) {
                for (int c = 0; c < coloum; ++c) {
                    sMulRoadAudioes[r][c] = (short) ((bMulRoadAudioes[r][c * 2] & 0xff) | (bMulRoadAudioes[r][c * 2 + 1] & 0xff) << 8);
                }
            }

            short[] sMixAudio = new short[coloum];
            int mixVal;
            int sr = 0;
            for (int sc = 0; sc < coloum; ++sc) {
                mixVal = 0;
                sr = 0;
                //這裡採取累加法
                for (; sr < row; ++sr) {
                    mixVal += sMulRoadAudioes[sr][sc];
                }
                //最終值不能大於short最大值,因此可能出現溢位
                sMixAudio[sc] = (short) (mixVal);
            }

            //short值轉為大端儲存的雙位元組序列
            for (sr = 0; sr < coloum; ++sr) {
                realMixAudio[sr * 2] = (byte) (sMixAudio[sr] & 0x00FF);
                realMixAudio[sr * 2 + 1] = (byte) ((sMixAudio[sr] & 0xFF00) >> 8);
            }

            return realMixAudio;
        }

    }

注意事項

音訊的拼接和混音,有一些是需要注意和處理的。
1. 需要確保A音訊和B音訊的取樣位數一致。例如A音訊是16位取樣位數,B音訊是8位取樣位數,那麼這時是不能直接拼接的,需要轉換成相同的取樣位數,才能做後續操作。
2. 需要確保A音訊和B音訊的取樣率一致。這個在錄音和歌曲拼接時要特別注意,假如錄音的音訊頻率是16000,歌曲的音訊是44100,那麼兩者也是不能直接拼接的,需要轉換成相同的取樣率,轉換取樣率可以使用resample庫。
3. 需要確保A音訊和B音訊的聲道數一致。當然這個並不是指單聲道和雙聲道的音訊不能合成了,事實上錄音音訊通常是單聲道的,而歌曲通常是雙聲道的。單聲道和雙聲道音訊合成,一般是按雙聲道為基準,需要將單聲道音訊轉換成雙聲道音訊,轉換原理也簡單,將單聲道的取樣點資料多複製一份,比如將單聲道的ABCD資料轉換成雙聲道的AABBCCDD資料。

那麼我們可能會有疑問,如果A音訊和B音訊的取樣率位數,取樣率,聲道數不一樣的話,合成後是有效的音訊檔案嗎?這個其實是有效的,同樣可以播放,但是會造成合成後的音訊不同部分的音訊播放速度不一樣,例如單聲道的A和雙聲道的B拼接,會造成A部分的播放速度比B的播放速度快一倍,而B的播放速度是正常的。

總結

到這裡我想大家已經對音訊的裁剪,拼接,混合的原理有了基本的瞭解了,不過大家可能會發現輸出的音訊都是WAV或者PCM格式的,而我最終需要的是MP3或者AAC等格式的音訊,那麼該如何轉換呢?其實這個就是涉及到音訊的編碼了,mp3編碼可以使用第三方庫mp3lame,AAC編碼可以使用Android自帶的MediaCodec實現。

我的Github專案 AudioEdit

我的部落格
GitHub
微信公眾號 hesong ,微信掃一掃下方二維碼即可關注: