計算機視覺

賦予機器人“看”的功能正是“機器視覺”這個學科所研究的問題之一。這一領域十分廣闊，不僅包括通用技術，而且也包括為數眾多的專用技術——如NLP、指紋識別、相片解釋和機器人控制等等。這裡僅介紹一些計算機視覺的概念。

引言

計算機視覺首先是在一組感光性原件上，生成一個場景的影象。這個影象是攝像機通過鏡頭對在視野中的場景進行一個透視投影，然後後光電元件將其轉化為一個二維的、隨時間變化的亮度矩陣影象I(x,y,t)，其中x，y為光電元件在陣列中的位置，t為時間（對於有色視覺則需要三個這樣的矩陣來代表三原色）。一個由視覺引導的響應agent必須通過處理這個矩陣來產生這個場景的圖示模型或者一組特徵，從而使他能直接計算一個動作。

希望獲取資訊的種類取決於agent的目的和任務。若要讓一個agent平安地通過一個混亂的環境，這個agent必須瞭解其中物體的位置、邊界、通路以及它所經路徑表面的特性。agent也許還應具備根據每隔一段時間所有以上資訊的變化來預測將來了能的變化。從一個或多個影象中獲取此類資訊將及其困難，所以，只能給出這類技術的一個概況。

操縱一輛汽車

在S-R agent的一些應用中，神經網路可用來把影象亮度矩陣直接轉化為動作。其中一個突出的例子就是用來駕駛一輛汽車的ALVINN系統。

網路第一層有5個隱藏單元，第二層有30個輸出單元，以上所有單元均為sigmoid單元。輸出單元通過線性排列來控制汽車高度。若此輸出單元佇列頂端附近的一個輸出單元比其他大多數輸出單元高，則車向左行駛；若此輸出單元佇列底端附近的一個輸出單元比其他大多數輸出單元高，則車向右行駛。

此係統由改進過的“在空中（on-the-fly）”訓練方式來傳播，真人駕駛員開車，實際的駕駛角度被作為相應輸入的正確標誌。網路以反向傳播的方式遞增訓練，從而使他能用駕駛員所指定的駕駛角度來響應實際駕駛車輛時出現的每一個視覺模式。

機器視覺的兩個階段

影象處理階段把原始影象轉換成更適合於景物分析的影象。
影象處理包括降噪、增強邊緣和尋找影象區域等不同的濾波操作。
景物分析主要試圖從已處理的影象中產生一個對原始場景的圖示描述或基於特徵的描述，並提供agent所處環境中與特定任務有關的資訊。

影象處理

1. 平均法

假設初始影象可表達為一個m*n的陣列I(x,y),我們稱之為“影象亮度陣列”。他把影象平面分成許多被稱為“畫素（pixel）”的單元。這些數字表示這幅圖相中某點的光亮度，影象中一些不規則之處可通過求平均數的方法得以平滑。這種滑動並求和的操作稱為“卷積”。如果我們的得到的陣列十二進位制（1或0），那麼就必須把這些加權總和和一個閾值比較。平均法不僅將壓縮孤立的噪音點，而且將減小影象的捲曲度（crispness），放棄那些微不足道的影象元素。