android音訊編輯之音訊合成

阿新 • • 發佈：2018-11-22

轉載請標明出處：
https://blog.csdn.net/hesong1120/article/details/79744653
本文出自:hesong的專欄

前言

音訊編輯系列：
- android音訊編輯之音訊轉換PCM與WAV
- android音訊編輯之音訊裁剪
- android音訊編輯之音訊合成

本篇主要講解音訊PCM資料的合成，這裡合成包括音訊之間的拼接，混合。
- 音訊拼接：一段音訊連線著另一段音訊，兩段音訊不會同時播放，有先後順序。
- 音訊混合：一段音訊和另一段音訊存在相同的區間，兩者會有同時播放的區間。

下面是音訊拼接，音訊混合的效果圖：

音訊拼接
音訊混合

音訊拼接

如果大家理解了android音訊編輯之音訊轉換PCM與WAV和android音訊編輯之音訊裁剪的原理。那麼音訊拼接的原理其實就很好理解了。總的說來就是新建一個音訊檔案，將一段音訊的PCM資料複製到新音訊上，再將另一段音訊的PCM資料複製到新音訊上。但這裡還是有一些需要注意的。

情景一

假設A音訊40秒，B音訊20秒，B音訊資料拼接到A音訊後面，得到60秒的C音訊檔案。

這種情況最簡單了，新建音訊檔案C，將A音訊的PCM資料複製到C音訊檔案上，再將B音訊的PCM資料複製到C音訊檔案上，然後為C音訊寫上wav檔案頭資訊，得到可播放的WAV檔案。

情景二

假設A音訊40秒，B音訊20秒，B音訊資料插入到A音訊10秒的地方，得到60秒的C音訊檔案。

這種情況稍微複雜點，新建音訊檔案C，將A音訊前10秒的PCM資料複製到C音訊檔案上，再將B音訊的PCM資料複製到C音訊檔案上，再將A音訊後30秒的PCM資料複製到C音訊檔案上，最後為C音訊寫上wav檔案頭資訊，得到可播放的WAV檔案。

情景三

假設A音訊40秒，B音訊20秒，B音訊5至15秒的資料插入到A音訊10秒的地方，得到50秒的C音訊檔案。

這種情況更復雜，也是最常見的插入場景，裁剪B音訊並插入到A音訊的某個位置，這裡涉及到B音訊資料的裁剪，當然原理其實也是簡單的，計算出B音訊5秒和10秒對應的檔案資料位置，然後複製這個區間的資料到C上，針對A檔案的資料，也是同樣道理。

情景四

A音訊和B音訊中多段資料相互拼接

這種情況，原理同上面一樣，只要知道指定時間對應的資料是什麼，就可以實現自由拼接了。

音訊拼接的實現參考我的Github專案 AudioEdit，這裡我就不貼具體程式碼了。

音訊混合

音訊混合是指一段音訊和另一段音訊合在一起，能夠同時播放，比如最常見的人聲錄音和背景音樂的合成，可以得到一首人聲歌曲。
音訊混合的原理是

音訊混合原理: 量化的語音訊號的疊加等價於空氣中聲波的疊加。

也就是說將輸入的每段音訊的某個時間點的取樣點數值進行相加，即可將聲音訊號加入到輸出的音訊中。

音訊取樣點數值的大小是（-32768，32767），對應short的最小值和最大值，音訊取樣點資料就是由一個個數值組成的的。如果單純疊加，可能會造成相加後的值會大於32767，超出short的表示範圍，也就是溢位，所以在音訊混合上回採用一些演算法進行處理。下面列舉下簡單的混合方式。

直接疊加法

A（A1,A2,A3,A4）和B（B1,B2,B3,B4）疊加後求平均值，得到C（（A1+B1）,（A2+B2）,（A3+B3）,（A4+B4））
這種情況，輸出的音訊中A和B音訊資料都可以以相同聲音大小播放，但是可能出現溢位的情況。假設A音訊指定時間點的某段取樣資料是（23,67,511,139,307），B音訊對應該時間點的取樣資料是（1101,300,47,600,22），那麼兩者直接疊加的話，得到的取樣資料是（1124,367,558,739,329），這個短取樣資料就是兩者聲音混合的資料了。

疊加後求平均值

A（A1,A2,A3,A4）和B（B1,B2,B3,B4）疊加後求平均值，得到C（（A1+B1）/2,（A2+B2）/2,（A3+B3）/2,（A4+B4）/2）
這樣可以避免出現溢位的情況，但是會出現兩者聲音會比之前單獨的聲音小了一半，比如人聲和背景音樂混合，導致輸出的音訊中，人聲小了一半，背景音樂也小了一半，這種情況可能就不是想要的效果，特別是多段音訊混合的情況。

權值疊加法

A（A1,A2,A3,A4）和B（B1,B2,B3,B4）權值疊加，A權值為x，B權值為y，得到C（（A1 * x+B1 * y）,（A2 * x+B2 * y）,（A3 * x+B3 * y）,（A4 * x+B4 * y））
這樣可以更方便條件A和B的音量的大小，比如A的權值為1.2，B的權值為0.8，那麼A的聲音相對提高了，B的聲音相對減弱了。嚴格來說，直接疊加法和疊加求平均值法都屬於該型別。

此外還有各種更復雜的混合演算法，如動態權值法，A和B的權值會根據當前時刻取樣點數值的大小進行動態變化，得到一個動態增益和衰減的混合方式。

下面是直接疊加法的實現，需要注意short值要按大端儲存的方式計算，儲存時按大端方式儲存。

  /**
     * 疊加合成器
     * @author Darcy
     */
    private static class AddAudioMixer extends MultiAudioMixer{

        @Override
        public byte[] mixRawAudioBytes(byte[][] bMulRoadAudioes) {

            if (bMulRoadAudioes == null || bMulRoadAudioes.length == 0)
                return null;

            byte[] realMixAudio = bMulRoadAudioes[0];

            if(bMulRoadAudioes.length == 1)
                return realMixAudio;

            for(int rw = 0 ; rw < bMulRoadAudioes.length ; ++rw){
                if(bMulRoadAudioes[rw].length != realMixAudio.length){
                    Log.e("app", "column of the road of audio + " + rw +" is diffrent.");
                    return null;
                }
            }

            //row 代表參與合成的音訊數量
            //column 代表一段音訊的取樣點數，這裡所有參與合成的音訊的取樣點數都是相同的
            int row = bMulRoadAudioes.length;
            int coloum = realMixAudio.length / 2;
            short[][] sMulRoadAudioes = new short[row][coloum];

            //PCM音訊16位的儲存是大端儲存方式，即低位在前，高位在後，例如(X1Y1, X2Y2, X3Y3)資料，它代表的取樣點數值就是(（Y1 * 256 + X1）, （Y2 * 256 + X2）, （Y3 * 256 + X3）)
            for (int r = 0; r < row; ++r) {
                for (int c = 0; c < coloum; ++c) {
                    sMulRoadAudioes[r][c] = (short) ((bMulRoadAudioes[r][c * 2] & 0xff) | (bMulRoadAudioes[r][c * 2 + 1] & 0xff) << 8);
                }
            }

            short[] sMixAudio = new short[coloum];
            int mixVal;
            int sr = 0;
            for (int sc = 0; sc < coloum; ++sc) {
                mixVal = 0;
                sr = 0;
                //這裡採取累加法
                for (; sr < row; ++sr) {
                    mixVal += sMulRoadAudioes[sr][sc];
                }
                //最終值不能大於short最大值，因此可能出現溢位
                sMixAudio[sc] = (short) (mixVal);
            }

            //short值轉為大端儲存的雙位元組序列
            for (sr = 0; sr < coloum; ++sr) {
                realMixAudio[sr * 2] = (byte) (sMixAudio[sr] & 0x00FF);
                realMixAudio[sr * 2 + 1] = (byte) ((sMixAudio[sr] & 0xFF00) >> 8);
            }

            return realMixAudio;
        }

    }

注意事項

音訊的拼接和混音，有一些是需要注意和處理的。
1. 需要確保A音訊和B音訊的取樣位數一致。例如A音訊是16位取樣位數，B音訊是8位取樣位數，那麼這時是不能直接拼接的，需要轉換成相同的取樣位數，才能做後續操作。
2. 需要確保A音訊和B音訊的取樣率一致。這個在錄音和歌曲拼接時要特別注意，假如錄音的音訊頻率是16000，歌曲的音訊是44100，那麼兩者也是不能直接拼接的，需要轉換成相同的取樣率，轉換取樣率可以使用resample庫。
3. 需要確保A音訊和B音訊的聲道數一致。當然這個並不是指單聲道和雙聲道的音訊不能合成了，事實上錄音音訊通常是單聲道的，而歌曲通常是雙聲道的。單聲道和雙聲道音訊合成，一般是按雙聲道為基準，需要將單聲道音訊轉換成雙聲道音訊，轉換原理也簡單，將單聲道的取樣點資料多複製一份，比如將單聲道的ABCD資料轉換成雙聲道的AABBCCDD資料。

那麼我們可能會有疑問，如果A音訊和B音訊的取樣率位數，取樣率，聲道數不一樣的話，合成後是有效的音訊檔案嗎？這個其實是有效的，同樣可以播放，但是會造成合成後的音訊不同部分的音訊播放速度不一樣，例如單聲道的A和雙聲道的B拼接，會造成A部分的播放速度比B的播放速度快一倍，而B的播放速度是正常的。

總結

到這裡我想大家已經對音訊的裁剪，拼接，混合的原理有了基本的瞭解了，不過大家可能會發現輸出的音訊都是WAV或者PCM格式的，而我最終需要的是MP3或者AAC等格式的音訊，那麼該如何轉換呢？其實這個就是涉及到音訊的編碼了，mp3編碼可以使用第三方庫mp3lame，AAC編碼可以使用Android自帶的MediaCodec實現。

我的Github專案 AudioEdit

我的部落格
 GitHub
微信公眾號 hesong ，微信掃一掃下方二維碼即可關注：

android音訊編輯之音訊合成

前言

音訊拼接

情景一

情景二

情景三

情景四

音訊混合

直接疊加法

疊加後求平均值

權值疊加法

注意事項

總結

android音訊編輯之音訊合成

android音訊編輯之音訊裁剪

android音訊編輯之音訊轉換PCM與WAV

Android底層開發之音訊輸入通道的軟硬體分析

Android音訊系統之音訊框架

Android音訊系統之音訊基礎

Linux ALSA音訊系統之音訊播放

android音訊編輯（裁剪，合成）（1）

Android底層開發之耳機插拔與音訊通道切換例項

android平臺下音訊編碼之編譯LAME庫轉碼PCM為MP3

Android直播開發之旅(13)：使用FFmpeg+OpenSL ES播放PCM音訊

MTK6577+Android之音訊(audio)移植

學習音訊之android中AudioRecord採集音訊的引數說明

Android(4.4)音訊系統之mediaserver服務啟動

Android音訊系統之AudioFlinger(一)

Android音訊開發之使用AudioRecord錄製

Android音訊播放之SoundPool 詳解

Android視訊編輯器（五）音訊編解碼、從視訊中分離音訊、音訊混音、音訊音量調節等

android開發之音訊拼接

linux音訊子系統之alsa asoc層

android音訊編輯之音訊合成

前言

音訊拼接

情景一

情景二

情景三

情景四

音訊混合

直接疊加法

疊加後求平均值

權值疊加法

注意事項

總結

相關推薦