【學習筆記】計算聽覺場景分析簡介
今天看完了一篇年代比較久遠的科普性文章《計算聽覺場景分析介紹》,雖然很多地方很抽象還是不怎麼理解吧,不過不管怎麼說對這個研究課題也是有了一點初步的印象,還是應該跑來寫下一點總結的。
這篇文章介紹了CASA(計算聽覺場景分析)的概念,理論依據,聲音的歸類線索,以及CASA系統所依賴的兩種主要結構:資料驅動和圖式驅動,將兩者做了比較並提出了觀點:資訊雙向互流是未來CASA研究的主要模式。
簡單說來,CASA 就是聲源分離。Cherry提出的“雞尾酒效應”,我在吳恩達的Coursera上的《機器學習》課程中聽過,就是人能從複雜的混合聲音中有選擇的跟蹤某一特定的聲音。To be formally,CASA就是利用計算機技術,讓計算機模仿人類對聽覺訊號的處理過程進行建模,從而具備和人類一樣從複雜混合聲源中感知聲音、處理聲音、解釋聲音的能力。注意到這裡是要求計算機在處理過程上和人類是相同或相似的,而不是像已有的計算機語音識別系統那樣,片面的利用數字訊號處理的方式,基於HMM模型的主要框架進行處理。
聲源有兩大性質,作為CASA分析的理論依據。一個是獨立性,即各個不同的聲源間,他們的物理特性是互相獨立的,一個聲源的某些特性變化不影響其他聲源的特性。這個很好理解,其實就是物理中的波的獨立性原理嘛,光也是一樣,所以才會有干涉現象,同相加強,反相抵消。另外一個是連續性,若一個聲源的某個特性發生突變,那麼它的至少一個其他特性仍然保持一定連續性,即不發生突變,若所有特性同時突變,必然是兩個聲源。
目前CASA系統有兩種主要的模型,一個是資料驅動型,指的是資訊從低階到高階的單向流動,符合聲音從進入我們的耳朵到被大腦處理的整個過程;另外一種是圖式驅動模型,這個是資訊雙向流動的,有點類似於前者只能是被動接受資訊然後處理,而後者不是機械的接受,可以進行反饋,並且參與預測未來的聲音,是一個可以上下互動的系統這個意思。而研究表明,圖式模型將是未來的趨勢。
另外再提一點聲音的歸類線索,到底依據什麼區分聲音呢?盜一張圖~
蠻細緻而複雜的,跟頭蓋骨和耳廓什麼的都有關係。個人認為,利用HMM模型做聲音識別顯然不需要考慮這麼多複雜的因素,但憑聲音再怎麼戲精,差別可以體現在再多的方面,HMM面臨的處理物件都是現成的聲音,是隱藏了這些“戲”的一個結果,而我們的目的,是建立一個智慧的、能夠和聲音“彪戲”的系統,你怎麼演,我能看懂,並且能配合你演,時不時的我還能預測一下你接下來怎麼演,這樣就高階了對不對。當然,我現在的水平只能理解到這了,“演技”方面的東西,我暫時還不懂,有待繼續學習。歡迎來討論,或者指出我理解不對的地方,共同進步!