利用NUANCE 語音識別引擎RCEngine實現語音識別
分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow
也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!
1. 基礎概念:
RCEngine :
是一個封裝了語音識別,語音檔案操作,電話控制的類,它派生自 RCEngineInterface 抽象基類。所以要在程式中呼叫
NotifiableAdapter :
RCEngine 的所有函式都是非同步函式,它使用確認 --- 通知形式與使用者程式通訊,要獲取到這些確認和通知訊息你必須建立一個訊息處理類,而這個類必須派生自 NotifiableAdapter ,並且在例項化 RCEngine 時把本類指標交給 RCEngine 。
Application object :
通常 Nuance 把一個派生自 NotifiableAdapter 的且與一個 RCEngine 物件對應得例項化物件稱為一個 Application object
Dispatcher object :
他是個事件分發物件,他一直都在不斷的作把識別事件分發給各個 RCEngine 的迴圈,當所有的 RCEngine 都摧毀時他便自動結束事件迴圈。
Triggerable :
觸發器,你若要讓 Dispatcher 自動在某觸發事件放生時呼叫你的處理函式,那麼你的處理函式實現的類必須要派生於 Triggerable 。所以我的程式碼中
<?XML:NAMESPACE PREFIX = O />
2. 本客戶端組成:
RCAPP : 擔當 Application object 和 Triggerable 角色。
AudioSampleFetcher : 一個為 RCEngine 提供識別資料的輔助類。
CRCDispatcher : 擔當 Dispatcher object 角色。
3. 本程式中各個類之間的關係:
每個 RCAPP 包含一個 AudioSampleFetcher 為它在識別時提供資料。
系統中可根據 license 個數建立多個 RCAPP 。各個 RCAPP 的訊息需要由 CRCDispatcher 分發。而 CRCDispatcher 是個訊息分發的迴圈體,它只有在所有 RCAPP 都被刪除時才退出迴圈。 CRCDispatcher 在系統中只可以有一個。
4. 識別客戶端初始化流程:
一個客戶端從建立到開始可以進行識別需要一系列物件建立過程,這個過程很重要,而且也比較複雜。下面我將一步步地把這個過程描述出來:
4.1. Dispatcher object 的建立:
這是所有操作的開始點。我們需要一些準備工作來建立這個 Dispatcher 物件:
4.1.1. 建立一個 NuanceConfig 物件:
對於單獨語法包的客戶端,我們可以用函式 NuanceConfigBuild ()來建立,只要向它提供語法包路徑就可以了。對於多語法包的客戶端我們要用 NuanceConfigBuildFromCommandLine ()函式來建立,建立時把所有引數作為一個存放字串陣列 (char**) 放到它的第二個引數裡,它第一個引數是引數個數。這裡必須要注意第二個引數的資料的格式和空格大小寫等,任何一個錯誤都會引起建立失敗。我的做法是用一個配置檔案儲存所有的引數,然後逐一讀出,組裝成一個字串指標陣列。下面是我的配置檔案的部分:
packagedir=H:/GHT/ICA/CVP_M
packagedir=H:/GHT/ICA/CVP_C
audio.Provider=mem
client.Behaviors=calllog,timeout
。。。。
讀出整理後要求的格式是:
-package
H:/GHT/ICA/CVP_M
–package
H:/GHT/ICA/CVP_M
audio.Provider=mem
client.Behaviors=calllog,timeout
。。。。
上面每一行作為字串( char* )分別儲存到以下的 punit 陣列中:
typedef char* _tCmdLnUnit;
_tCmdLnUnit punit[256];
然後再呼叫 NuanceConfigBuildFromCommandLine ()
4.1.2. 建立一個 Dispatcher :
這部分比較簡單隻要把上一步建立的 NuanceConfig 作為引數傳入 Dispatcher 的建構函式即可。
4.2. 建立 Application object :
4.2.1. 建立 RCAPP :
本客戶端的 RCAPP 物件就是 Application object 物件。它派生於 NotifiableAdapter 和 Triggerable ,並且它有一個 RCEngine * 的內部成員。
4.2.2. 建立 RCEngine :
其建構函式為: RCEngine(NuanceConfig const* config, DispatcherInterface & dispatcher, Notifiable & notifiable, NuanceStatus & status) ;把剛才建立的 NuanceConfig 物件、 Dispatcher 物件、 RCAPP 物件的指標作為引數即可。
4.3. 啟動 Dispatcher 的訊息迴圈:
4.3.1. 建立一個執行緒:
Dispatcher 的訊息迴圈需要獨佔一個執行緒。
4.3.2. 執行訊息迴圈:
只要執行 Dispatcher 的 Dispatch ()函式即可。該函式不會退出,除非所有 RCEngine 都被刪掉。當它退出時,就是這個 Dispatcher 應該被刪除的時候了。
4.4. HandleInitializationCompleted 被呼叫:
當你的 Application object 的 HandleInitializationCompleted 被呼叫時且通告狀態值是 NUANCE_OK 時,說明你的 RCEngine 已初始化成功了。但注意這裡並不是表示你可以進行識別了,你還需要做以完一下工作:
4.4.1. 設定播音為外部:
因為我們使用的是自己的播放音平臺,所以必須設定是外部播音。
4.4.2. 開啟資料庫
我們要用到動態語法所以必須要開啟資料庫。用函式 OpenDatabase ()開啟資料庫,這裡要提供 odbc 資料來源名稱,使用者帳號,資料庫型別的資訊。
4.4.3. 開啟 calllog 通道
呼叫 OpenCalllogChannel ()函式開啟 callog 通道讓 Nuance 把 callog 放到 NuanceConfig 物件建立時引數指定的位置,否則 callog 會放到客戶端程式同樣路徑下。
4.4.4. 建立 AudioSampleFetcher :
這是個為識別提供資料的輔助類,在這裡建立比較合適。
4.5. HandleNuanceDBOpened :
通告狀態值是 NUANCE_OK 時,說明你的資料庫開啟成功。這個時候,你的初始化成功完成了。你可以進入下一步,開始識別了。
4.6. 啟動識別:
4.6.1. 設定識別閥值:
當的識別得分,低於這個值時,識別結果就會被拒絕。
4.6.2. 設定 NoSpeechTimeoutSecs 值:
當 RCEngine 啟動超後在該值時間內沒有人聲輸入,系統就會結束識別並返回 NoSpeechTimeout 資訊。
4.6.3. 預定義輸出結果格式:
當需要格式化的識別結果時,要在這裡設定好結果的輸出格式。比如我們輸入的格式是: <&confidence>spelling:<spelling> 則輸出的結果可以是: 69 spelling:chai4 shan1 shan1 . 表示識別分數 69, 識別出來的 slot (這裡是 <spelling> )對應的值是 chai4 shan1 shan1 。
4.6.4. 啟動識別:
使用 RCEngine 的 RecognizeUtterance ()函式啟動識別。這裡要提供一個 Top grammar ,也就是靜態語法中的 top grammar. 識別過程需要一定的時間等待結果,若你要在被過程中啟動超時則可以通過設定 behavior.timeout.ExternalPromptDone 為 TRUE ,讓之前設定的 NoSpeechTimeoutSecs 生效。
4.6.5. 啟動錄音:
由 AudioSampleFetcher 的 StartPlatformDependentRecording 函式呼叫外部錄音平臺錄音。 AudioSampleFetcher 會建立觸發器,該觸發器會每 100 毫秒(該值可以在啟動觸發器時自己定義,推薦用預設的 100 毫秒)進行一次錄音資料的輸入。
4.6.6. 發現人音 HandleStartOfSpeech :
正常的話,當在音訊資料中發現人聲時,你的 application object 的 HandleStartOfSpeech 被呼叫。這時你可以停掉外部的平臺放音。
4.6.7. 發現語音結束點 HandleEndOfSpeech :
當識別系統認為人聲結束時,你的 application object 的 HandleEndOfSpeech 會被呼叫。
4.6.8. 發現語音結束點 HandleRecognitionStopped :
當系統識別結束時這個 application object 的 HandleRecognitionStopped 會被呼叫。這時你要做的是用 AudioSampleFetcher 的 StopPlatformDependentRecording 停掉外部平臺錄音。用 RecResultGetType ()獲取識別結束原因,除了成功外,其中還飽含識別失敗的原因等,用 RecResultGetTextResult 獲取識別的格式化結果。至此一次識別結束。
5. 識別客戶端的關閉:
識別客戶端關閉的具體步驟是:
5.1. 停止所有識別任務:
用 RCEngine 的 Abort ()函式終止一切操作。
5.2. 關閉動態語法資料庫:
用 RCEngine 的 CloseDatabase ()關閉語法資料庫。
5.3. 刪除所有 Application object( 在它釋構時刪除它的 RCEngine 物件成員 ) :
即刪除本客戶端的 RCAPP 物件。
5.4. Dispatcher 退出訊息迴圈時刪除 Dispatcher object 物件:
這裡一定要等到 Dispatcher 自動退出迴圈才刪掉這個物件,不然會引起錯誤。