1. 程式人生 > >yolov2論文翻譯

yolov2論文翻譯

摘要:
我們介紹YOLO9000,一個最先進的,實時目標檢測系統,可以檢測超過9000個目標類別。首先,我們提出對YOLO檢測方法的各種改進方法,包括新穎的和從以前的工作中得出的。改進的模型YOLOv2在如PASCAL VOC和COCO標準檢測任務是最先進的。使用一種新穎的多尺度訓練方法,相同的YOLOv2模型可以執行在不同的大小的圖片上,提供速度和精度之間的輕鬆權衡。在67 FPS時,YOLOv2在VOC 2007上獲得76.8 mAP。在40 FPS時,YOLOv2獲得78.6 mAP,效能優於最先進的方法,例如使用ResNet的faster RCNN和SSD,同時執行速度明顯更快。最後,我們提出了一種聯合訓練目標檢測和分類的方法。使用這種方法,我們在COCO檢測資料集和ImageNet分類資料集上同時訓練YOLO9000。我們的聯合訓練方法允許YOLO9000預測沒有標記檢測資料的目標類的檢測。我們在ImageNet檢測資料集上驗證我們的方法。YOLO9000在ImageNet檢測驗證集上獲得19.7 mAP,儘管只有200個類中的44類檢測資料。在不在COCO的156類中,YOLO9000獲得16.0 mAP。但是YOLO可以檢測超過200個類;它預測超過9000個不同目標類別的檢測。它仍然實時執行。

1、引言
通用目標檢測應該快速,準確,並且能夠識別各種各樣的目標。自從引入神經網路以來,檢測框架已經變得越來越快速和準確。然而,大多數檢測方法仍然侷限於一小組目標。

與分類和標記等其他任務的資料集相比,當前目標檢測資料集是有限的。最常見的檢測資料集包含數十到數十萬的影象,具有幾十到幾百個標籤。分類資料集具有數百萬個具有數十或數十萬類別的影象。

我們希望檢測可以縮放到目標分類的級別。然而,用於檢測的標記影象比用於分類或標記的標記(標籤通常由使用者免費提供)昂貴得多。因此,我們不太可能在不久的將來看到與分類資料集相同規模的檢測資料集。

我們提出了一種新方法來利用我們已經擁有的大量分類資料,並使用它來擴大當前檢測系統的範圍。我們的方法使用目標分類的層次檢視,允許我們將不同的資料集合在一起。

我們還提出了聯合訓練演算法,允許我們在檢測和分類資料上訓練目標檢測器。我們的方法利用標記的檢測影象來學習精確地定位目標,同時使用分類影象來增加其詞彙和魯棒性。

使用這種方法,我們訓練YOLO9000,一個實時目標檢測器,可以檢測超過9000不同的目標類別。首先,我們改進基本的YOLO檢測系統,以產生YOLOv2,一個最先進的,實時檢測器。然後我們使用我們的資料集組合方法和聯合訓練演算法來訓練來自ImageNet的超過9000個類的模型以及來自COCO的檢測資料。

這裡寫圖片描述

2、更好

相對於現有技術的檢測系統,YOLO具有各種缺點。與fast RCNN相比,YOLO的誤差分析顯示YOLO產生大量的定位誤差。此外,與基於候選區域的方法相比,YOLO具有相對較低的召回率率。因此,我們主要集中在改進召回率和定位,同時保持分類精度。

計算機視覺通常趨向於更大,更深的網路。更好的效能通常取決於訓練更大的網路或將多個模型組合在一起。然而,使用YOLOv2,我們需要一個更加精確的檢測器使得它仍然很快。我們不是擴充套件我們的網路,而是簡化網路,使表示更容易學習。我們從過去的工作中融合了我們自己的新概念的各種想法,以提高YOLO的效能。結果總結可以在表2中找到。

批量標準化。批量歸一化導致收斂的顯著改善,而不需要其他形式的正則化。通過在YOLO中的所有卷積層上新增批量歸一化,我們在mAP中獲得超過2%的改進效果。批量規範化也有助於規範模型。使用批次標準化,我們可以從模型中dropout,而不會過度擬合。

高解析度分類器。所有最先進的檢測方法使用ImageNet預訓練分類器。從AlexNet開始,大多數分類器對小於256×256的輸入影象進行操作[8]。原來的YOLO在224×224解析度上訓練分類器網路,並將解析度增加到448以用於檢測。這意味著網路必須同時切換到學習目標檢測並調整到新的輸入解析度。

對於YOLOv2,我們首先在解析度為448×448的解析度下對ImageNet上的10個epoch進行微調。這種網路時間可以在較高解析度輸入上調整濾波器。然後我們在檢測時微調所得到的網路。這種高解析度分類網路使我們增加了近4%的mAP。

使用anchor box進行卷積。YOLO直接使用卷積特徵提取器頂部的完全連線的層來預測邊界框的座標。相比於直接預測座標,faster RCNN使用手動挑選的先驗預測邊界框[15]來預測左邊。僅使用卷積層,faster RCNN中的區域建議網路(RPN)預測anchor box的偏移和置信度。由於預測層是卷積的,因此RPN在特徵圖中的每個位置處預測這些偏移。預測偏移而不是預測座標簡化了問題,並使網路更容易學習。

我們從YOLO中刪除全連線層,並使用anchor box預測邊界框。首先,我們消除一個池化層,使網路的卷積層的輸出更高的解析度。我們還縮小網路將輸入尺寸為416而不是448×448。我們這樣做是因為我們想要特徵圖中大小為奇數,所以有一箇中心單元格。目標,特別是大目標,傾向於佔據影象的中心,所以在中心有一個單一的位置是很好的預測這些目標,而不是四個位置都在中心附近。YOLO的卷積層將影象下采樣32倍,所以通過使用輸入影象416,我們得到13×13的輸出特徵圖。

當我們移動到anchor box時,我們也將類預測機制與空間位置解耦,而代之以預測每個anchor box的類和目標。在YOLO之後,目標預測在假設有一個目前提下仍然預測ground truth的IOU和提出的框和類預測預測該類的條件概率。

使用anchor box我們得到一個小的精度下降.YOLO每個影象只預測98個box,但使用anchor box我們的模型預測超過一千個box。沒有anchor box,我們的中間模型獲得69.5 mAP,召回率為81%。使用anchor box我們的模型獲得69.2 mAP,召回率為88%,mAP少量減少,召回率的增加意味著我們的模型有更多的改進空間。

維度叢集。當使用YOLO時,我們遇到兩個關於anchor box的問題。第一個是box尺寸是手工挑選的。網路可以學習適當地調整框,但如果我們選擇更好的先驗網路開始,我們可以使網路更容易學習預測良好的檢測。

我們不是手動選擇先驗,而是在訓練集邊界框上執行k-means聚類,以自動找到好的先驗。如果我們使用標準的k均值與歐幾里德距離較大box會產生比較小的box更多的誤差。然而,我們真正想要的是先進的,導致良好的IOU分數,這是獨立的box的大小。因此,對於我們的距離,我們使用下面的公式:

d(box,centroid)=1-IOU(box,centroid)

我們對k的不同值執行k-means,並繪製具有最接近質心的平均IOU,參見圖2.我們選擇k = 5作為模型複雜性和高召回率之間的良好權衡。聚類中心與手工挑選的anchor box有很大不同。有更少的短的寬的box和更多的高的窄的box。

這裡寫圖片描述
圖2:VOC和COCO的聚類框尺寸。我們在邊界框的維度上執行k均值聚類以獲得我們的模型的先驗。左圖顯示了對於k的各種選擇得到的平均IOU。我們發現k = 5給出了召回率和模型複雜性的良好權衡。右圖顯示了VOC和COCO的相對質心。兩種方法都有利於更薄,更高的盒子,而COCO在尺寸上比VOC有更大的變化。

我們將平均IOU與我們的聚類策略和表1中的精選anchor box進行比較。只有5個先驗的質心類似於9個anchor box,平均IOU為61.0,而9個anchor box為60.9。如果我們使用9個質心,我們看到一個高得多的平均IOU。這表明使用k-means生成邊界框以更好的表示開始模型,並使任務更容易學習。

這裡寫圖片描述
表1:VOC 2007上最接近的先驗的平均IOU。VOC 2007上目標的平均IOU,與使用不同生成方法的其最接近的未修改先驗。聚類提供比使用手挑選的先驗更好的結果。

直接位置預測。當YOLO使用anchor box時我們遇到第二個問題:模型不穩定,特別是在早期迭代時。大多數不穩定性來自預測box的(x,y)位置。在候選區域網路中,網路預測值tx和ty和(x,y)中心座標計算為:

x=(tx*wa)-xa,y=(ty*ha)-ya

例如,tx= 1的預測將使框向右移動anchor box的寬度, tx= -1的預測將使其向左移動相同的量。

這種公式是不受約束的,因此任何anchor box可以在影象中的任何點結束,而不管預測box的位置。使用隨機初始化模型需要很長時間才能穩定到預測可感知的偏移。

相比於預測偏移,我們遵循YOLO的方法並預測相對於網格單元的位置的位置座標。這將ground truth限制在0和1之間。我們使用邏輯啟用函式來約束網路的預測落在該範圍內。

網路預測輸出要素圖中每個單元格的5個邊界框。網路為每個邊界框預測tx,ty,th,tw和to這5個座標。如果單元從影象的左上角偏移(x,y)並且邊界框先前具有寬度和高度,,則預測對應於:

由於我們約束位置預測,引數化更容易學習,使得網路更穩定。使用維度叢集以及直接預測邊界框中心位置使YOLO比具有anchor box的版本提高了近5%的mAP。

細粒度特徵。該修改的YOLO版本在13×13特徵圖上檢測。雖然這對於大目標是足夠的,但是它可以從用於定位較小目標的更細粒度特徵中受益。Faster RCNN和SSD在網路中的各種特徵對映上執行它們的提議網路以獲得一系列解析度。我們採取不同的方法,只是新增一個傳遞層,這個層能夠將其他26×26解析度的層融合起來。

傳遞層通過將相鄰特徵堆疊到不同的通道而不是堆疊到空間位置,將較高解析度特徵與低解析度特徵相連,類似於ResNet中的標識對映。這將26×26×512特徵對映轉換為13×13×2048特徵對映,其可以與原始特徵連線。我們的檢測器在這個擴充套件的特徵圖的頂部執行,以便它可以訪問細粒度的特徵。這給出將近1%的效能提高。
這裡寫圖片描述
圖3:具有維度先驗和位置預測的邊界框。我們將box的寬度和高度預測為來自聚類中心的偏移。我們使用sigmoid函式預測框相對於過濾器應用的位置的中心座標。

多尺度訓練。原始的YOLO使用448×448的輸入解析度。新增anchor box後,我們將解析度更改為416×416。然而,由於我們的模型只使用卷積層和池化層,它可以在執行中調整大小。我們希望YOLOv2能夠在不同大小的影象上執行,因此我們將其訓練到模型中。

相比於固定輸入影象大小,我們每隔幾次迭代更改網路。每迭代10個batch我們的網路隨機選擇一個新的影象尺寸大小。由於我們的模型以32的因子下采樣,我們從以下32的倍數中抽取:{320,352,…,608}。因此,最小的選項是320×320,最大的是608×608.我們調整網路的大小,並繼續訓練。

這種訓練方法迫使網路學習在各種輸入維度上很好地預測。這意味著相同的網路可以預測不同解析度的檢測。網路在更小的尺寸下執行更快,因此YOLOv2在速度和精度之間提供了一個簡單的折衷。

在低解析度下,YOLOv2作為一個便宜且相當準確的檢測器。在288×288解析度下它執行超過90 FPS而且mAP幾乎與Fast RCNN一樣好。這使其成為較小的GPU,高幀率視訊或多個視訊流的理想選擇。

在高解析度下,YOLOv2是一種最先進的檢測器,在VOC 2007上具有78.6 mAP,同時仍然在實時速度以上執行。YOLOv2與其他框架在VOC 2007上的比較見表3。
這裡寫圖片描述
進一步的實驗。我們訓練YOLOv2在VOC 2012上進行檢測。表4顯示了YOLOv2與其他現有技術檢測系統的比較效能.YOLOv2得到73.4 mAP,而執行速度遠遠快於其他方法。我們還對COCO進行訓練,並與表5中的其他方法進行比較。在VOC指標(IOU = 0.5)上,YOLOv2獲得44.0 mAP,與SSD和faster RCNN相當。
這裡寫圖片描述
表3:P ASCAL VOC 2007的檢測框架.YOLOv2比現有檢測方法更快,更準確。它也可以執行在不同的解析度上,以便在速度和精度之間輕鬆權衡。每個YOLOv2條目實際上是相同的訓練模型具有相同的權重,只是在不同的大小進行評估。所有的時間資訊是在Geforce GTX Titan X(原始,而不是Pascal模型)。

3、更快

快速檢測。我們希望檢測準確,但我們也希望檢測速度快。大多數檢測應用,如機器人或自動駕駛汽車,都依賴於低延遲預測。為了最大化效能,我們設計YOLOv2從頭開始快。

大多數檢測框架依賴於VGG-16作為基本特徵提取器[17]。VGG-16是一個功能強大,精確的分類網路,但它是不必要的複雜。VGG-16的卷積層需要306.6億浮點操作用於在224×224解析度的單個影象上的單次通過。

YOLO框架使用基於Googlenet架構的自定義網路[19]。這個網路比VGG-16快,只使用85.2億次操作進行正向傳遞。但是,它的精度略差於VGG-16。對於單一目標,在224×224解析度上的top-5精度,YOLO的定製模型ImageNet獲得88.0%,而VGG-16為90.0%。

Darknet-19。我們提出了一個新的分類模型作為YOLOv2的基礎。我們的模型建立在網路設計的先前工作以及在該領域的常識基礎上。類似於VGG模型,我們使用大多數3×3的過濾器,並在每個池化步驟後將通道數量加倍[17]。在網路中的網路(NIN)中的工作之後,我們使用全域性平均池進行預測以及1×1濾波器以壓縮3×3卷積之間的特徵表示[9]。我們使用批次歸一化來穩定訓練,加速收斂,並規則化模型[7]。

我們的最終模型,稱為Darknet-19,有19卷積層和5個最大池化層。有關完整說明,請參見表6. Darknet-19只需要55.8億次操作來處理影象,但在ImageNet上實現了72.9%的top-1精度和91.2%的top-5精度。

為分類器訓練。我們使用以0.1的起始學習速率的隨機梯度下降,使用4的冪的多項式速率衰減,0.0005的權重衰減和0.9的動量,我們使用Darknet神經網路框架在標準ImageNet 1000類分類資料集上訓練網路[13]160個時期。在訓練期間,我們使用標準資料增加技巧,包括隨機作物,旋轉,以及色調,飽和度和曝光移位。

如上所述,在我們對224×224的影象的初始訓練之後,我們在更大的尺寸如448上微調我們的網路.對於這種微調,我們用上述引數訓練,但是僅僅10個時期,並且以的收益率開始。在這個更高的解析度下,我們的網路實現了top-1精度為76.5%,top-5精度為93.3%。

為檢測器訓練。我們通過去除最後的卷積層並且替代地新增具有1024個濾波器的三個3×3卷積層來修改該網路,每個隨後是具有我們需要檢測所需的輸出數量的最後的1×1卷積層。對於VOC,我們預測5個box,每個具有5個座標,每個box20個類,因此125個過濾器。我們還添加了從最後的3×3×512層到第二到最後的卷積層的傳遞層,使得我們的模型可以使用細粒度特徵。

我們訓練網路160個時期,開始學習率為,在60和90個時期將其除以10。我們使用0.0005的重量衰減和0.9的動量。我們使用類似的資料增強YOLO和SSD隨機作物,顏色轉移等。我們使用相同的培訓策略COCO和VOC。

這裡寫圖片描述
表2:從YOLO到YOLOv2的路徑。大多數列出的設計決定導致mAP的顯著增加。兩個例外是切換到具有anchor box和使用新網路的完全卷積網路。切換到anchor box樣式方法增加了召回率,而不改變mAP,而使用新的網路切割計算33%。

這裡寫圖片描述
表4:PASCAL VOC2012測試檢測結果。YOLOv2的表現與最先進的檢測器比較,如加上ResNet網路的faster RCNN和SSD512,並且是2 - 10倍。
這裡寫圖片描述

表5:COCO測試的結果-dev2015。表改編自[11]

這裡寫圖片描述
表6 darknet-19

4、更強大

我們提出了一個關於分類和檢測資料的聯合訓練機制。我們的方法使用標記為檢測的影象來學習檢測特定資訊,如邊界框座標預測和目標以及如何分類常見目標。它使用只有類標籤的影象來擴充套件它可以檢測的類別數。

在訓練期間,我們混合來自檢測和分類資料集的影象。當我們的網路看到標記為檢測的影象時,我們可以基於完整的YOLOv2損失函式反向傳播。當它看到一個分類影象,我們只反向傳播從結構的分類特定部分的損失。

這種方法提出了一些挑戰。檢測資料集只有常用目標和常規標籤,如“dog”或“boat”。分類資料集具有更寬和更深的標籤範圍。ImageNet有超過一百多種品種的狗,包括“諾福克梗犬”,“約克夏犬”和“貝靈頓梗犬”。如果我們想訓練兩個資料集,我們需要一種連貫的方式來合併這些標籤。

大多數分類方法在所有可能的類別中使用softmax層來計算最終的概率分佈。使用softmax假定類是互斥的。這提出了組合資料集的問題,例如,您不想使用此模型組合ImageNet和COCO,因為類“Norfolk terrier”和“dog”不是互斥的。

我們可以使用多標籤模型來組合不承擔互斥的資料集。這種方法忽略了我們所知道的關於資料的所有結構,例如所有的COCO類是相互排斥的。

分層分類。ImageNet標籤是從WordNet中提取的,WordNet是一個語言資料庫,用於構建概念及其關係[12]。在WordNet中,“諾福克犬”和“約克夏犬”都是“獵犬”的下位詞,“獵犬”是一種“獵犬”,是一種“狗”,是一種“犬”分類假設一個平面結構到標籤,但是對於組合資料集,結構正是我們需要的。

WordNet被構造為有向圖,而不是樹,因為語言是複雜的。例如,“狗”既是“犬”的一種型別,也是“家畜”的型別,它們都是WordNet中的同義詞。不是使用完整的圖結構,我們通過從ImageNet中的概念構建層次樹來簡化問題。

為了構建這個樹,我們檢查ImageNet中的視覺名詞,看看他們通過WordNet圖到根節點的路徑,在這種情況下是“物理目標”。許多synsets只有一條路徑通過圖,所以首先我們新增所有這些路徑到我們的樹。然後我們迭代地檢查我們剩下的概念,並新增儘可能少地生長樹的路徑。因此,如果一個概念有兩個到根的路徑,一個路徑會給我們的樹新增三個邊,而另一個只新增一個邊,我們選擇較短的路徑。

最終的結果是WordTree,一個視覺概念的層次模型。要使用WordTree執行分類,我們預測在每個節點的條件概率的給定synset的同義詞的每個下位詞的概率。例如,在“terrier”節點,我們預測:

如果我們要計算特定節點的絕對概率,我們只需遵循通過樹到達根節點的路徑,並乘以條件概率。因此,如果我們想知道圖片是否是諾福克梗犬,我們計算:

為了分類的目的,我們假設影象包含一個目標:Pr(物理目標)= 1。

為了驗證這種方法,我們訓練使用1000類ImageNet構建的WordTree上的Darknet-19模型。為了構建WordTree1k,我們在所有的中間節點中新增將標籤空間從1000擴充套件到1369.在訓練期間,我們沿著樹傳播ground truth標籤,以便如果影象被標記為“諾福克梗犬”,它也被標記為“狗”和“哺乳動物”等。為了計算條件概率,我們的模型預測了1369個值的向量,並且我們計算作為相同概念的下位詞的所有系統的softmax,參見圖5。

使用與以前相同的訓練引數,我們的分層Darknet-19實現71.9%的top-1精度和90.4%的top-5精度。儘管增加了369個附加概念,並且我們的網路預測了一個樹結構,我們的準確度只有輕微下降。以這種方式執行分類也具有一些益處。效能在新的或未知的目標類別上正常降級。例如,如果網路看到一隻狗的圖片,但不確定它是什麼型別的狗,它仍然會預測具有高信度的“狗”,但具有較低的置信度散佈在上下義詞。

這個公式也用於檢測。現在,不是假設每個影象都有一個目標,我們使用YOLOv2的目標預測器來給我們Pr(物理目標)的值。檢測器預測邊界框和概率樹。我們遍歷樹,在每個分割中採用最高置信度路徑,直到我們達到某個閾值,我們預測目標類。

這裡寫圖片描述
圖5:ImageNet對WordTree的預測。大多數ImageNet模型使用一個大的softmax來預測概率分佈。使用WordTree,我們對同義詞執行多個softmax操作。

與WordTree的資料集組合。我們可以使用WordTree以合理的方式將多個數據集組合在一起。我們只需將資料集中的類別對映到樹中的同義詞。圖6顯示了使用WordTree組合來自ImageNet和COCO的標籤的示例.WordNet極其多樣化,因此我們可以將此技術用於大多數資料集。

聯合分類和檢測。現在我們可以使用WordTree組合資料集,我們可以訓練我們的分類和檢測聯合模型。我們要訓練一個極大尺度的檢測器,因此我們使用COCO探測資料集和來自完整ImageNet版本的前9000類建立組合資料集。我們還需要評估我們的方法,所以我們新增在ImageNet還沒有包括任何類的檢測挑戰集。WordTree資料集相應的具有9418個類。ImageNet是一個更大的資料集,因此我們通過對COCO進行過取樣來平衡資料集,使ImageNet只有4:1的倍數。

我們使用此資料集訓練YOLO9000。我們使用基本的YOLOv2架構,但只有3個先驗,而不是5,以限制輸出大小。當我們的網路看到檢測影象時,我們回傳正常的損失。對於分類損失,我們只反向傳播損失在或高於標籤的相應水平。例如,如果標籤是“狗”,我們會在樹中“德國牧羊犬”和“金毛獵犬”的預測中分配任何錯誤,因為我們沒有這些資訊。

這裡寫圖片描述
圖6:使用WordTree層次結構組合資料集。使用WordNet概念圖,我們構建了一個視覺概念的分層樹。然後我們可以通過將資料集中的類對映到樹中的synsets來將資料集合並在一起。這是WordTree的簡化檢視用於說明的目的。

當它看到一個分類影象,我們只反向分配損失。為此,我們只需找到預測該類的最高概率的邊界框,然後僅計算其預測樹上的損失。我們還假設預測框與grountruth標籤重疊的IOU至少0.3,並且基於該假設反向傳播物體損失。

使用這種聯合訓練,YOLO9000使用COCO中的檢測資料學習找到影象中的目標,並使用ImageNet中的資料學習分類各種各樣的這些目標。

我們在ImageNet檢測任務上評估YOLO9000。ImageNet的檢測任務共享44個具有COCO的目標類別,這意味著YOLO9000只看到大多數測試影象的分類資料,而不是檢測資料。YOLO9000獲得19.7 mAP整體與16.0 mAP對不相交的156目標類,它從未見過任何標記的檢測資料。這個mAP高於DPM實現的結果,但YOLO9000是在不同的資料集訓練,只有部分監督[4]。它還同時檢測9000個其他目標類別,都是實時的。

當我們分析YOLO9000在ImageNet上的效能時,我們看到它學習了新的物種,但很難學習類別,如服裝和裝置。

新動物更容易學習,因為目標預測與COCO中的動物很好地一致。相反,COCO沒有任何型別的衣服的邊界框標籤,只有人,所以YOLO9000努力模擬類似“太陽鏡”或“游泳褲”的類別。

表7:ImageNet上的YOLO9000最佳和最差類。具有來自156個弱監督類的最高和最低AP的類。YOLO9000學習各種動物的好模型,但努力與新的類,如服裝或裝置。

5、結論

我們介紹YOLOv2和YOLO9000,實時檢測系統。YOLOv2是最先進的,並且比其他檢測系統在各種檢測資料集中更快。此外,它可以以各種影象大小執行,以提供速度和精度之間的平滑權衡。

YOLO9000是一個通過聯合優化檢測和分類檢測9000多個目標類別的實時框架。我們使用WordTree來組合來自各種來源的資料和我們的聯合優化技術同時訓練ImageNet和COCO。YOLO9000是關閉檢測和分類之間的資料集大小差距的強大步驟。

我們的許多技術泛化到目標檢測之外。ImageNet的ImageTree表示為影象分類提供了更豐富,更詳細的輸出空間。使用分層分類的地形組合在分類和分割領域將是有用的。諸如多尺度訓練的訓練技術可以在各種視覺任務中提供益處。

對於未來的工作,我們希望使用類似的技術弱監督影象分割。我們還計劃使用更強大的匹配策略來改進我們的檢測結果,以在訓練期間將弱標籤分配給分類資料。計算機視覺有大量的標記資料。我們將繼續尋找方法,將不同的資料來源和結構的資料結合在一起,形成更強大的視覺世界模型。