1. 程式人生 > >00012.可視電話的關鍵技術及單機解決方案

00012.可視電話的關鍵技術及單機解決方案

摘要:
可視電話是多媒體通訊的一個重要應用。本文介紹了可視電話的關鍵技術,相應標準的發展歷程,並探討了今後的發展方向。 

關鍵詞:
可視電話 H.320 H.323 H.324 

  一、引言 

  電話作為人們日常生活、工作中不可缺少的通訊工具,以其方便、快捷等特點被廣泛應用,但普通電話機只能提供語音通訊服務。可視電話使人們在通話時不僅能夠聽到對方的聲音,而且還能夠看到對方的影象。它不僅適用於家庭生活,而且還可以廣泛應用於各項商務活動、遠端教學、保密監控、醫院護理、醫療診斷、科學考察等不同行業的多種領域,因而有著廣闊的市場前景。 

  1964年,美國貝爾實驗室提出了第一個可視電話解決方案。但是由於受各種技術條件的限制,可視電話一直沒有取得實質性進展。八十年代末,隨著通訊、計算機、語音和視訊編解碼技術的不斷髮展,可視電話在世界各國得到了迅速發展。為了實現互聯互通,以推動可視電話和視訊會議系統的發展,國際電信聯盟(ITU-T)於九十年代推出了包括H.310、H.320、H.321、H.322、H.323和H.324的系列多媒體通訊標準。 

  在上述標準中,以H.320、H.324和H.323應用最為廣泛。近年來,由於IP網的迅猛發展,基於H.323的可視電話終端和會議電視系統逐漸佔據了主導地位,各大廠商紛紛推出基於H.323的應用。值得注意的是,基於會話發起協議(SIP)的可視電話也開始出現。 

  本文在對上述多媒體框架協議分析的基礎上,給出了一種基於媒體處理器TM1300的軟硬體解決方案。該方案的大部分模組對H.320、H.323和H.324系統是通用的。硬體方面只要修改一下網路介面的設計,軟體方面採用相應的控制協議,就可以得到針對H.320、H.323和H.324系統的不同的解決方案。 

  二、可視電話的基本結構和核心技術 

  1. 可視電話的基本結構 

  ITU-T推出的H.32X系列標準是框架性協議,服從不同標準的可視電話終端,具有類似的結構。可視電話的基本結構包括視訊輸入/輸出單元、視訊編解碼器、語音輸入/輸出單元、語音編解碼器、延時單元、資料處理單元(可選)、系統控制單元、多媒體資料複用/解複用單元和網路介面單元。不同的標準適用的網路不同,因此有不同的通訊控制協議、多媒體資料打包協議和不同的網路介面單元,但是視訊和語音輸入/輸出單元、視訊編解碼器、語音編解碼器相似。 

  語音和視訊壓縮技術是可視電話的核心技術。可視電話作為一種消費產品,要想走入尋常百姓家,必須能夠提供足夠好的語音和視訊質量,同時佔用的通道頻寬要儘量小。語音編碼技術和視訊編碼技術的發展就是圍繞著上述兩點展開的:在保證壓縮後語音和圖象質量的同時,儘量提高壓縮效率。我們在具體選用語音和視訊壓縮標準的時候,也要結合這兩點來選擇。 

  2. 語音編碼技術 

   語音通訊是可視電話最基本的功能。受網路條件的限制,可視電話通常工作在較低位元速率下。為了適應這種低位元速率語音應用,ITU-T推出了G.72X系列語音壓縮標準。其中G.723.1、G.728、G.729和G.729A,在可視電話中得到了廣泛應用。表1列出了各個語音標準所採用的技術、位元速率、時延和語音質量等。 

  G.723.1能夠產生兩種速率的碼流,高速率編碼器使用多脈衝最大自然量化(MP-MLQ)演算法,低速率編碼器使用代數碼激勵線性預測(ACELP)演算法。G.729A是G.729的簡化版本,G.729A演算法複雜度與G.729相比降低了50%,語音質量略有降低,兩種標準編碼後的碼流可互相解碼。當可視電話與普通電話通訊時,採用G.711標準。G.711為PCM編碼,只對語音訊號進行取樣和量化,產生64kbit/s的碼流。G.711編碼後的語音質量高,缺點是佔用的頻寬也很高。在實際選擇語音壓縮標準時,要綜合考慮頻寬、時延、演算法複雜度等各種因素。 

  3. 視訊編碼技術 

  視訊壓縮是多媒體應用中的核心技術,ITU-T推出的低位元速率視訊壓縮標準對推動可視電話的發展和實用化起到了重要的促進作用。H.261是ITU-T推出的第一個低位元速率視訊壓縮標準,位元速率為p×64kbit/s,其中p=1~30,影象格式為CIF和QCIF。H.261壓縮編碼演算法的基本思想是利用預測編碼減少時間冗餘度,利用變換編碼減少空間冗餘度。演算法主要由運動估計、運動補償、DCT變換、量化和霍夫曼編碼構成。每幀影象分成影象層、巨集塊組(GOB)層、巨集塊(MB)層、塊(Block)層共4個層次來處理,分為I幀和P幀。後來推出的H.263、H.264標準繼承了H.261的基本思想,在H.261的基礎上提出了一些改進。 

  與H.261相比,H.263在以下幾個方面做出了改進:更多的影象格式、半畫素運動估計、不同的GOB結構、四個可選模式、減少的頭資訊開銷、採用不同的VLC表等。在相同的影象質量下,因為H.263在運動估計及編碼方面的改進,H.263編碼後的位元速率大約比H.261低30%。為進一步提高H.263的編碼效率和抗誤碼效能,ITU-T在H.263的基礎上,增加了一些選項,修改後的版本被稱之為H.263+、H.263++。目前,H.263是可視電話中應用的最廣泛的視訊壓縮標準。 

  2003年,ITU-T通過了一個新的視訊編碼標準,即H.264標準。H.264與H.263相比具有靈活的巨集塊和塊的分割方式,運動估計精度進一步提高,可採用1/4或1/8畫素精度的運動估計。H.261和H.263採用的是DCT變換,而H.264採用的是類似於DCT的整數變換。在相同的重建影象質量下,H.264編碼後的位元速率比H.263低50%。H.264在提高編碼效率的同時,計算複雜度也大大增加。據估計,編碼的計算複雜度大約相當於H.263的三倍,解碼複雜度大約相當於H.263的兩倍。隨著DSP晶片處理能力的進一步提高,H.264在可視電話等多媒體通訊中必將得到越來越廣泛的應用。 

  4. 通訊協議 

  ITU-T推出的H.32X系列標準,具有相同的系統框架。包括實時傳輸協議RTP與RTCP,用來建立兩端連線的H.225呼叫信令,會話過程中的會話控制協議H.245和用於資料傳輸的T.120協議。
不同之處在於面向的網路不同,因此具有不同的網路介面,不同的信令過程,以及為適應不同的網路而優化設計的包結構,具體各部分的標準如表2所示。複用協議規定了視訊資料、語音資料等的打包標準,而控制協議的作用是在終端之間協商通訊方式,如視訊編碼標準的協商,語音編碼標準的協商,通道頻寬的協商等。 

  三、一種基於媒體處理器TM1300的單機解決方案 

  目前流行的可視電話終端包括單機型終端和基於PC機的終端。基於PC機的可視電話解決方案,利用PC機已有的軟、硬體資源(處理能力、網絡卡、話筒、耳機和顯示器等),另外再為PC機配置一個攝像頭和一套可視電話軟體,就可以實現可視通訊。單機型可視電話與普通電話,從外觀到使用方法基本相同,對使用者的要求較低,而且計費簡單。因此,目前運營商在推廣可視電話業務時推出的都是單機型可視電話終端。單機型可視電話又分為基於專用晶片的解決方案和基於通用DSP晶片的解決方案。採用專用晶片可以大大減少軟體的工作量,加快開發進度,但是成本也大幅度增加,而且設計方案不靈活,不便於繼承應用。 

  這裡以H.320可視電話終端為例,給出一種基於通用DSP晶片的解決方案。本方案的硬體平臺以Philips公司的TM1300晶片為中心處理晶片,通過晶片上的專用介面與其它外圍電路相連。其中PEB2163,SAA7111和SAA7125為語音和影象的A/D,D/A晶片,通過微控制器AT89C51進行配置。微控制器AT89C51、FLASH、CPLD和網路介面晶片PEB2086則是通過通用PCI/XIO匯流排與TM1300 DSP CPU相連。 

  TM1300是一種專門為高效能多媒體應用而設計的微處理器。該晶片有一個超長指令字(VLIW)結構的CPU,在一個指令週期內能同時執行5個操作。另外,TM1300的指令集中還包括許多高效的多媒體類操作。利用這些多媒體類操作,可以大大提高圖象和聲音的壓縮和解壓縮演算法的處理速度。該晶片還包括大量的片上外圍晶片,如視訊輸入單元,視訊輸出單元,音訊輸入單元,音訊輸出單元,SSI介面,PCI介面,主存介面以及定時器等。這種集成了多個片上外圍的單片化的微處理器,大大降低了硬體電路板的體積,同時還降低了功耗和開發成本,提高了可靠性。 

  可視電話的軟體部分可以分為四個功能相對獨立的模組:圖象編解碼,聲音編解碼,使用者-網路介面協議,復接解復接和端到端的呼叫控制。 

  在上述四個模組中,圖象編解碼和聲音編解碼部分運算量很大,要實現實時處理,必須對該部分的軟體進行優化。端到端呼叫控制和復接解復接模組,以及使用者-網路介面模組屬於控制複雜型的功能塊。這兩個模組需要和其它模組進行較多較頻繁的資訊互動,而且對於響應時間也有較高要求。 

  TM1300微處理器上運行了一個小的實時作業系統核心pSOS+,用於管理眾多的軟體模組,併為模組之間的同步提供手段。在可視電話軟體中使用pSOS實時作業系統,使整個軟體結構清晰,便於聯調,而且開發出來的軟體可靠性和穩定性較高。很多程式碼都可以重用。 

  我們已成功開發出基於上述方案的H.320可視電話終端。該終端通過了H.320標準的各項檢測,並能夠穩定地執行。在此基礎上,修改網路介面硬體設計,把適用於N-ISDN的晶片PEB2086更換成適用於IP網路的乙太網控制器,即可得到H.323可視電話終端硬體解決方案。 

  趙豔明,北京郵電大學博士研究生,主要研究方向:多媒體通訊。 

  全子一,北京郵電大學教授,博士生導師。主要研究方向:圖象壓縮與圖象處理、多媒體通訊。 


來源:《中國資料通訊》/ 趙豔明 全子一