1. 程式人生 > >利用NUANCE 語音識別引擎RCEngine實現語音識別

利用NUANCE 語音識別引擎RCEngine實現語音識別

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow

也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!

               

1.   基礎概念:

RCEngine

是一個封裝了語音識別,語音檔案操作,電話控制的類,它派生自 RCEngineInterface 抽象基類。所以要在程式中呼叫

Nuance 的語音識別功能你就必須例項化 RCEngine

NotifiableAdapter

RCEngine 的所有函式都是非同步函式,它使用確認 --- 通知形式與使用者程式通訊,要獲取到這些確認和通知訊息你必須建立一個訊息處理類,而這個類必須派生自 NotifiableAdapter ,並且在例項化 RCEngine 時把本類指標交給 RCEngine

Application object

通常 Nuance 把一個派生自 NotifiableAdapter 的且與一個 RCEngine 物件對應得例項化物件稱為一個 Application object

。一個應用程式可以根據自己有多少個 license 來建立多個 Application object 。在 Nuance 的例子和我寫的客戶端中 RCAPP 就是一個 Application object

Dispatcher object :

他是個事件分發物件,他一直都在不斷的作把識別事件分發給各個 RCEngine 的迴圈,當所有的 RCEngine 都摧毀時他便自動結束事件迴圈。

Triggerable

觸發器,你若要讓 Dispatcher 自動在某觸發事件放生時呼叫你的處理函式,那麼你的處理函式實現的類必須要派生於 Triggerable 。所以我的程式碼中

RCAPP 也派生於這個類。

<?XML:NAMESPACE PREFIX = O />

 

2.   本客戶端組成:

    RCAPP : 擔當 Application object Triggerable 角色。

AudioSampleFetcher 一個為 RCEngine 提供識別資料的輔助類。

CRCDispatcher 擔當 Dispatcher object 角色。

3.   本程式中各個類之間的關係:

     每個 RCAPP 包含一個 AudioSampleFetcher 為它在識別時提供資料。

系統中可根據 license 個數建立多個 RCAPP 。各個 RCAPP 的訊息需要由 CRCDispatcher 分發。而 CRCDispatcher 是個訊息分發的迴圈體,它只有在所有 RCAPP 都被刪除時才退出迴圈。 CRCDispatcher 在系統中只可以有一個。

4.   識別客戶端初始化流程:

     一個客戶端從建立到開始可以進行識別需要一系列物件建立過程,這個過程很重要,而且也比較複雜。下面我將一步步地把這個過程描述出來:

4.1. Dispatcher object 的建立:

這是所有操作的開始點。我們需要一些準備工作來建立這個 Dispatcher 物件:

4.1.1. 建立一個 NuanceConfig 物件:

  對於單獨語法包的客戶端,我們可以用函式 NuanceConfigBuild ()來建立,只要向它提供語法包路徑就可以了。對於多語法包的客戶端我們要用 NuanceConfigBuildFromCommandLine ()函式來建立,建立時把所有引數作為一個存放字串陣列 (char**) 放到它的第二個引數裡,它第一個引數是引數個數。這裡必須要注意第二個引數的資料的格式和空格大小寫等,任何一個錯誤都會引起建立失敗。我的做法是用一個配置檔案儲存所有的引數,然後逐一讀出,組裝成一個字串指標陣列。下面是我的配置檔案的部分:

packagedir=H:/GHT/ICA/CVP_M

packagedir=H:/GHT/ICA/CVP_C

audio.Provider=mem

client.Behaviors=calllog,timeout

  。。。。

讀出整理後要求的格式是:

-package

H:/GHT/ICA/CVP_M

–package

H:/GHT/ICA/CVP_M

audio.Provider=mem

client.Behaviors=calllog,timeout

。。。。

上面每一行作為字串( char* )分別儲存到以下的 punit 陣列中:

typedef char* _tCmdLnUnit;

_tCmdLnUnit punit[256];

然後再呼叫 NuanceConfigBuildFromCommandLine ()

4.1.2.     建立一個 Dispatcher

這部分比較簡單隻要把上一步建立的 NuanceConfig 作為引數傳入 Dispatcher 的建構函式即可。

 

4.2. 建立 Application object

4.2.1. 建立 RCAPP

      本客戶端的 RCAPP 物件就是 Application object 物件。它派生於 NotifiableAdapter Triggerable ,並且它有一個 RCEngine * 的內部成員。

4.2.2.     建立 RCEngine

     其建構函式為: RCEngine(NuanceConfig const* config, DispatcherInterface & dispatcher, Notifiable & notifiable, NuanceStatus & status) ;把剛才建立的 NuanceConfig 物件、 Dispatcher 物件、 RCAPP 物件的指標作為引數即可。

4.3. 啟動 Dispatcher 的訊息迴圈:

4.3.1.     建立一個執行緒:

Dispatcher 的訊息迴圈需要獨佔一個執行緒。

4.3.2.     執行訊息迴圈:

只要執行 Dispatcher Dispatch ()函式即可。該函式不會退出,除非所有 RCEngine 都被刪掉。當它退出時,就是這個 Dispatcher 應該被刪除的時候了。

4.4. HandleInitializationCompleted 被呼叫:

       當你的 Application object HandleInitializationCompleted 被呼叫時且通告狀態值是 NUANCE_OK 時,說明你的 RCEngine 已初始化成功了。但注意這裡並不是表示你可以進行識別了,你還需要做以完一下工作:

 

4.4.1.     設定播音為外部:

因為我們使用的是自己的播放音平臺,所以必須設定是外部播音。

4.4.2. 開啟資料庫

    我們要用到動態語法所以必須要開啟資料庫。用函式 OpenDatabase ()開啟資料庫,這裡要提供 odbc 資料來源名稱,使用者帳號,資料庫型別的資訊。

4.4.3. 開啟 calllog 通道

   呼叫 OpenCalllogChannel ()函式開啟 callog 通道讓 Nuance callog 放到 NuanceConfig 物件建立時引數指定的位置,否則 callog 會放到客戶端程式同樣路徑下。

4.4.4. 建立 AudioSampleFetcher

這是個為識別提供資料的輔助類,在這裡建立比較合適。

4.5. HandleNuanceDBOpened

通告狀態值是 NUANCE_OK 時,說明你的資料庫開啟成功。這個時候,你的初始化成功完成了。你可以進入下一步,開始識別了。

4.6. 啟動識別:

4.6.1. 設定識別閥值:

     當的識別得分,低於這個值時,識別結果就會被拒絕。

4.6.2. 設定 NoSpeechTimeoutSecs 值:

      RCEngine 啟動超後在該值時間內沒有人聲輸入,系統就會結束識別並返回 NoSpeechTimeout 資訊。

4.6.3.     預定義輸出結果格式:

           當需要格式化的識別結果時,要在這裡設定好結果的輸出格式。比如我們輸入的格式是: <&confidence>spelling:<spelling> 則輸出的結果可以是: 69 spelling:chai4 shan1 shan1 . 表示識別分數 69, 識別出來的 slot (這裡是 <spelling> )對應的值是 chai4   shan1   shan1

4.6.4.     啟動識別:

      使用 RCEngine RecognizeUtterance ()函式啟動識別。這裡要提供一個 Top grammar ,也就是靜態語法中的 top grammar. 識別過程需要一定的時間等待結果,若你要在被過程中啟動超時則可以通過設定 behavior.timeout.ExternalPromptDone TRUE ,讓之前設定的 NoSpeechTimeoutSecs 生效。

4.6.5.     啟動錄音:

AudioSampleFetcher StartPlatformDependentRecording 函式呼叫外部錄音平臺錄音。 AudioSampleFetcher 會建立觸發器,該觸發器會每 100 毫秒(該值可以在啟動觸發器時自己定義,推薦用預設的 100 毫秒)進行一次錄音資料的輸入。

4.6.6.     發現人音 HandleStartOfSpeech

正常的話,當在音訊資料中發現人聲時,你的 application object HandleStartOfSpeech 被呼叫。這時你可以停掉外部的平臺放音。

4.6.7.     發現語音結束點 HandleEndOfSpeech

當識別系統認為人聲結束時,你的 application object HandleEndOfSpeech 會被呼叫。

4.6.8.     發現語音結束點 HandleRecognitionStopped

當系統識別結束時這個 application object HandleRecognitionStopped 會被呼叫。這時你要做的是用 AudioSampleFetcher StopPlatformDependentRecording 停掉外部平臺錄音。用 RecResultGetType ()獲取識別結束原因,除了成功外,其中還飽含識別失敗的原因等,用 RecResultGetTextResult 獲取識別的格式化結果。至此一次識別結束。

5.   識別客戶端的關閉:

 

識別客戶端關閉的具體步驟是:

5.1. 停止所有識別任務:

RCEngine Abort ()函式終止一切操作。

5.2. 關閉動態語法資料庫:

        RCEngine CloseDatabase ()關閉語法資料庫。

5.3. 刪除所有 Application object( 在它釋構時刪除它的 RCEngine 物件成員 )

        即刪除本客戶端的 RCAPP 物件。

5.4. Dispatcher 退出訊息迴圈時刪除 Dispatcher object 物件:

      這裡一定要等到 Dispatcher 自動退出迴圈才刪掉這個物件,不然會引起錯誤。

           

給我老師的人工智慧教程打call!http://blog.csdn.net/jiangjunshow

這裡寫圖片描述