C# 10分鐘完成百度語音技術（語音識別與合成）——入門篇

阿新 • • 發佈：2019-08-05

我們已經講了人臉識別（入門+進階）、圖片識別（入門）。下面是連結：

C# 10分鐘完成百度人臉識別——入門篇

C# 30分鐘完成百度人臉識別——進階篇（文末附原始碼）

C# 10分鐘完成百度圖片提取文字（文字識別）——入門篇

今天我們來盤一盤語音識別與合成。

PS：僅供瞭解參考，如需進一步瞭解請繼續研究。

我們現在就基於百度Ai開放平臺進行語音技術的相關操作，demo使用的是C#控制檯應用程式。

前面的套路還是一樣的：

註冊百度賬號api，建立自己的應用；
建立vs控制檯應用程式，引入動態連結庫；
編寫程式碼除錯，效果圖檢視；

- 語音識別
- 語音合成
- 實時語音識別
- 音訊檔案轉寫
- 語音模型訓練

總結。

1、建立百度AI語音技術應用

在百度AI開放平臺中，登入自己的百度賬號，點選“語音識別”服務，選擇“建立應用”，填好應用名稱，選擇應用型別，填好應用描述，這樣就建立好了“語音識別”服務。

具體不廢話，不知道的小夥伴可以移步看這裡：C# 10分鐘完成百度人臉識別——入門篇。

建立完成後會生成APPID、APP Key、Secret Key，這些是關鍵內容，後面要用。

2、建立VS控制檯應用程式，引入動態連結庫

首先我們建立一個VS控制檯應用程式，這裡就不詳細說明。

然後引入百度Baidu.AI動態連結庫，步驟如下，小編使用2017，所以直接在NuGet中搜索Baidu.AI安裝即可。

安裝語音識別 C# SDK

C# SDK 現已開源! https://github.com/Baidu-AIP/dotnet-sdk

** 支援平臺：.Net Framework 3.5 4.0 4.5， .Net Core 2.0 **

方法一：使用Nuget管理依賴（推薦）

在NuGet中搜索 Baidu.AI，安裝最新版即可。

packet地址 https://www.nuget.org/packages/Baidu.AI/

方法二：下載安裝

語音識別 C# SDK目錄結構

Baidu.Aip
    ├── net35
    │   ├── AipSdk.dll             // 百度AI服務 windows 動態庫
    │   ├── AipSdk.xml             // 註釋檔案
    │   └── Newtonsoft.Json.dll    // 第三方依賴
    ├── net40
    ├── net45
    └── netstandard2.0
        ├── AipSdk.deps.json
        └── AipSdk.dll

如果需要在 Unity 平臺使用，可引用工程原始碼自行編譯。

安裝

1.在官方網站下載C# SDK壓縮工具包。

2.解壓後，將 AipSdk.dll 和 Newtonsoft.Json.dll 中新增為引用。

3、編寫程式碼除錯，效果圖檢視

　　建立一個空資料夾，命名為Image，存一個音訊檔案，做除錯，後面語音合成的檔案也在這裡。

在Program.cs中編寫程式碼，程式碼編寫如下，可以直接拷貝進行除錯。

我們這裡只講述語音識別和語音合成，其他的內容可以在官網進行編寫：https://ai.baidu.com/docs#/ASR-Online-Csharp-SDK/top

語音識別：

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;
using System.Threading.Tasks;

namespace Voice
{
    class Program
    {
        static void Main(string[] args)
        {
            // 設定APPID/AK/SK
            var APP_ID = "16938141";
            var API_KEY = "8y2pB5HLrLD5Zu7aaQV3ce0g";
            var SECRET_KEY = "5tDp3opvpIdEnlXBTOWn9W0O7CdhRNYu";

            //語音識別
            var client = new Baidu.Aip.Speech.Asr(APP_ID, API_KEY, SECRET_KEY);
            client.Timeout = 60000;  // 修改超時時間
            var data = File.ReadAllBytes("E:\\Work Demo\\語音技術\\Voice\\Voice\\Image\\16k.wav");
            // 可選引數
            var options = new Dictionary<string, object>
             {
                {"dev_pid", 1536}  //語音模型1536代表普通話，其他請檢視官方文件
             };
            client.Timeout = 120000; // 若語音較長，建議設定更大的超時時間. ms
            var result = client.Recognize(data, "wav", 16000, options);
            Console.Write(result);


            ////語音合成
            //var _ttsClient = new Baidu.Aip.Speech.Tts(API_KEY, SECRET_KEY);
            //_ttsClient.Timeout = 60000;  // 修改超時時間
            //// 可選引數
            //var option = new Dictionary<string, object>()
            //            {
            //                {"spd", 5}, // 語速
            //                {"vol", 7}, // 音量
            //                {"per", 4}  // 發音人，4：情感度丫丫童聲
            //            };
            //var result = _ttsClient.Synthesis("今天天氣不錯，適合嗮太陽", option);
            //if (result.ErrorCode == 0)  // 或 result.Success
            //{
            //    File.WriteAllBytes("E:\\Work Demo\\語音技術\\Voice\\Voice\\Image\\aaa.mp3", result.Data);
            //}
        }
    }
}

我們檢視一下識別出來的語音是什麼

這個就是我準備的語音，識別成功。

格式支援：pcm（不壓縮）、wav（不壓縮，pcm編碼）、amr（壓縮格式）。推薦pcm 取樣率：16000 固定值。編碼：16bit 位深的單聲道。

百度服務端會將非pcm格式，轉為pcm格式，因此使用wav、amr會有額外的轉換耗時。

16k 取樣率pcm檔案樣例下載
16k 取樣率wav檔案樣例下載
16k 取樣率amr檔案樣例下載

音訊檔案格式轉換請參見文件【語音識別小工具\音訊檔案轉碼】

更多內容詳見官網：https://ai.baidu.com/docs#/ASR-API/top

語音合成：

　　合成文字長度必須小於1024位元組，如果本文長度較長，可以採用多次請求的方式。文字長度不可超過限制

詳見官網：https://ai.baidu.com/docs#/TTS-Online-Csharp-SDK/top

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;
using System.Threading.Tasks;

namespace Voice
{
    class Program
    {
        static void Main(string[] args)
        {
            // 設定APPID/AK/SK
            var APP_ID = "16938141";
            var API_KEY = "8y2pB5HLrLD5Zu7aaQV3ce0g";
            var SECRET_KEY = "5tDp3opvpIdEnlXBTOWn9W0O7CdhRNYu";

            ////語音識別
            //var client = new Baidu.Aip.Speech.Asr(APP_ID, API_KEY, SECRET_KEY);
            //client.Timeout = 60000;  // 修改超時時間
            //var data = File.ReadAllBytes("E:\\Work Demo\\語音技術\\Voice\\Voice\\Image\\16k.wav");
            //// 可選引數
            //var options = new Dictionary<string, object>
            // {
            //    {"dev_pid", 1536}  //語音模型1536代表普通話，其他請檢視官方文件
            // };
            //client.Timeout = 120000; // 若語音較長，建議設定更大的超時時間. ms
            //var result = client.Recognize(data, "wav", 16000, options);
            //Console.Write(result);


            //語音合成
            var _ttsClient = new Baidu.Aip.Speech.Tts(API_KEY, SECRET_KEY);
            _ttsClient.Timeout = 60000;  // 修改超時時間
            // 可選引數
            var option = new Dictionary<string, object>()
                        {
                            {"spd", 5}, // 語速
                            {"vol", 7}, // 音量
                            {"per", 4}  // 發音人，4：情感度丫丫童聲
                        };
            var result = _ttsClient.Synthesis("聽說關注博主不迷路", option);
            if (result.ErrorCode == 0)  // 或 result.Success
            {
                File.WriteAllBytes("E:\\Work Demo\\語音技術\\Voice\\Voice\\Image\\aaa.mp3", result.Data);
            }
        }
    }
}

執行後檢視效果，如下：

這樣就合成成功了。

4、總結

　簡單的入門就到這裡，後面的實時語音識別、音訊檔案轉寫、建立模型進行語音訓練就需要靠大家了。

轉載請註明出處，謝謝！

原文地址：https://www.cnblogs.com/xiongze520/p/11301882.html

拜拜，下次再見咯！

C# 10分鐘完成百度語音技術（語音識別與合成）——入門篇

我們已經講了人臉識別（入門+進階）、圖片識別（入門）。下面是連結： C# 10分鐘完成百度人臉識別——入門篇 C# 30分鐘完成百度人臉識別——進階篇（文末附原始碼） C# 10分鐘完成百度圖片提取文字（文字識別）——入門篇今天我們來盤一盤語音識別與合成。 PS：僅供瞭解參考，如需進一步瞭解請繼續研究。我

C# 10分鐘完成百度圖片提取文字（文字識別）——入門篇

　　現在圖片文字識別已經很成熟了，比如qq長按圖片，點選圖片識別就可以識別圖片的文字，將不認識的、文字數量大的、或者不能賦值的值進行二次可複製功能。我們現在就基於百度Ai開放平臺進行個人文字識別，demo使用的是C#控制檯應用程式，後續有需要的可以嫁接到指定專案中使用，比如提供選擇圖片，點選識別，獲取

【偽技術宅拯救世界】使用aria2gui完成百度雲不限速下載

可以說GitHub的力量是很強大的，哈哈哈原理實際上百度雲連結也是最後轉換成普通的http下載連結來進行下載的，所以我們只要先把百度雲連結轉換成http以後就可以使用多執行緒工具aria2下載來。第一步，安裝瀏覽器外掛以及指令碼這一步呢，我們需要用到

C# 10分鐘入門基於WebOffice實現線上編輯文件，實時儲存到伺服器（所有office，相容WPS）

今天，他來了（weboffice線上編輯文件）。上次寫了一個線上預覽的博，當然，效果並不是太理想，但是緊急解決了當時的問題。後來，小編重新查詢資料，求助大牛，終於使用新的方式替換了之前的low方法。有兩種比較好的方法，一種是webOffice,一種是pageoffice，前者免費，後者付費。果斷使

調試 Dockerfile - 每天5分鐘玩轉 Docker 容器技術（15）

top add font tom middle 程序 ria family 是個包括 Dockerfile 在內的任何腳本和程序都會出錯。有錯並不可怕，但必須有辦法排查，所以本節討論如何 debug Dockerfile。先回顧一下通過 Dockerfile 構建鏡像

Dockerfile 常用指令 - 每天5分鐘玩轉 Docker 容器技術（16）

依次官方文檔構建 bottom str -s 暴露工作 12px 是時候系統學習 Dockerfile 了。下面列出了 Dockerfile 中最常用的指令，完整列表和說明可參看官方文檔。 FROM指定 base 鏡像。 MAINTAINER設置鏡像的作

RUN vs CMD vs ENTRYPOINT - 每天5分鐘玩轉 Docker 容器技術（17）

docker 教程容器 RUN、CMD 和 ENTRYPOINT 這三個 Dockerfile 指令看上去很類似很容易混淆。本節將通過實踐詳細討論它們的區別。簡單的說RUN 執行命令並創建新的鏡像層RUN 經常用於安裝軟件包。CMD 設置容器啟動後默認執行的命令及其參數但 CMD 能夠被 doc

使用公共 Registry - 每天5分鐘玩轉 Docker 容器技術（19）

docker 教程容器保存和分發鏡像的最直接方法就是使用 Docker Hub。Docker Hub 是 Docker 公司維護的公共 Registry。用戶可以將自己的鏡像保存到 Docker Hub 免費的 repository 中。如果不希望別人訪問自己的鏡像，也可以購買私有 repos

Docker 鏡像小結 - 每天5分鐘玩轉 Docker 容器技術（21）

列表例如 normal one sys tro docker comm color 本節我們對 Docker 鏡像做個小結。這一部分我們首先討論了鏡像的分層結構，然後學習了如何構建鏡像，最後實踐使用 Docker Hub 和本地 registry。下面是鏡像的常用操作

如何運行容器？- 每天5分鐘玩轉 Docker 容器技術（22）

docker 教程容器上一章我們學習了如何構建 Docker 鏡像，並通過鏡像運行容器。本章將深入討論容器：學習容器的各種操作，容器各種狀態之間如何轉換，以及實現容器的底層技術。運行容器docker run 是啟動容器的方法。在討論 Dockerfile 時我們已經學習到，可用三種方式指定容器

兩種進入容器的方法 - 每天5分鐘玩轉 Docker 容器技術（23）

工作技術啟動進程 gin attach ant while col -c 我們經常需要進到容器裏去做一些工作，比如查看日誌、調試、啟動其他進程等。有兩種方法進入容器：attach 和 exec。 docker attach 通過 docker attach 可以 a

運行容器的最佳實踐 - 每天5分鐘玩轉 Docker 容器技術（24）

oat add vertical poi can size 執行命令後臺運行按用途容器大致可分為兩類：服務類容器和工具類的容器。 1. 服務類容器以 daemon 的形式運行，對外提供服務。比如 web server，數據庫等。通過 -d 以後臺方式啟動這類容器是非常

容器常用操作 - 每天5分鐘玩轉 Docker 容器技術（25）

技術 order position 自動 code lec 資源 add 服務前面討論了如何運行容器，本節學習容器的其他常用操作。 stop/start/restart 容器通過 docker stop 可以停止運行的容器。容器在 docker host 中實際上是

限制容器對內存的使用 - 每天5分鐘玩轉 Docker 容器技術（27）

upload 機制性能 http tle war pac 啟動物理內存一個 docker host 上會運行若幹容器，每個容器都需要 CPU、內存和 IO 資源。對於 KVM，VMware 等虛擬化技術，用戶可以控制分配多少 CPU、內存資源給每個虛擬機。對於容器，D

限制容器對CPU的使用 - 每天5分鐘玩轉 Docker 容器技術（28）

docker 教程容器上節學習了如何限制容器對內存的使用，本節我們來看CPU。默認設置下，所有容器可以平等地使用 host CPU 資源並且沒有限制。Docker 可以通過 -c 或 --cpu-shares 設置容器使用 CPU 的權重。如果不指定，默認值為 1024。與內存限額不同，通過

限制容器的 Block IO - 每天5分鐘玩轉 Docker 容器技術（29）

docker 教程容器前面學習了如何限制容器對內存和CPU的使用，本節我們來看 Block IO。Block IO 是另一種可以限制容器使用的資源。Block IO 指的是磁盤的讀寫，docker 可通過設置權重、限制 bps 和 iops 的方式控制容器讀寫磁盤的帶寬，下面分別討論。註：目前

實現容器的底層技術 - 每天5分鐘玩轉 Docker 容器技術（30）

docker 教程容器為了更好地理解容器的特性，本節我們將討論容器的底層實現技術。cgroup 和 namespace 是最重要的兩種技術。cgroup 實現資源限額， namespace 實現資源隔離。cgroupcgroup 全稱 Control Group。Linux 操作系統通過 cg

none 和 host 網絡的適用場景 - 每天5分鐘玩轉 Docker 容器技術（31）

docker 教程容器本章開始討論 Docker 網絡。我們會首先學習 Docker 提供的幾種原生網絡，以及如何創建自定義網絡。然後探討容器之間如何通信，以及容器與外界如何交互。Docker 網絡從覆蓋範圍可分為單個 host 上的容器網絡和跨多個 host 的網絡，本章重點討論前一種。對於

學容器必須懂 bridge 網絡 - 每天5分鐘玩轉 Docker 容器技術（32）

docker 教程容器上一節我們討論了 none 和 host 類型的容器網絡，本節學習應用最廣泛也是默認的 bridge 網絡。Docker 安裝時會創建一個命名為 docker0 的 linux bridge。如果不指定--network，創建的容器默認都會掛到 docker0 上。當前

理解容器之間的連通性 - 每天5分鐘玩轉 Docker 容器技術（34）

docker 教程容器通過前面小節的實踐，當前 docker host 的網絡拓撲結構如下圖所示，今天我們將討論這幾個容器之間的連通性。兩個 busybox 容器都掛在 my_net2 上，應該能夠互通，我們驗證一下：可見同一網絡中的容器、網關之間都是可以通信的。my_net2 與默認 bri

C# 10分鐘完成百度語音技術（語音識別與合成）——入門篇

C# 10分鐘完成百度人臉識別——入門篇

C# 30分鐘完成百度人臉識別——進階篇（文末附原始碼）

C# 10分鐘完成百度圖片提取文字（文字識別）——入門篇

1、建立百度AI語音技術應用

2、建立VS控制檯應用程式，引入動態連結庫

安裝語音識別 C# SDK

方法一：使用Nuget管理依賴 （推薦）

方法二：下載安裝

3、編寫程式碼除錯，效果圖檢視

4、總結

相關推薦

方法一：使用Nuget管理依賴（推薦）