無監督深度估計、運動估計的深度學習方法（二）

阿新 • • 發佈：2020-12-14

技術標籤：視覺里程計 depth estimation 深度學習自動駕駛計算機視覺

在自監督深度估計中，一般輸入2張影象（若為視訊，則輸入鄰近的兩幀影象）frame1和frame2，模型先估計相機拍攝這2張影象是的姿態變化pose，然後根據pose將frame1變換到frame2的視角下，得到合成影象synthetic frame1。

估算的pose越準確，synthetic frame1與frame2的影象相似度就越高。那麼，常用SSIM（結構相似性）來評價這兩張圖片的相似度。

若希望詳細瞭解單目深度估計，可參考文章《動態場景下的單目深度估計》、《Instance-wise Depth and Motion Learning from Monocular Videos

》和《MonoDepth2_單目深度估計》。

SSIM

用於檢測兩張尺寸相同的影象的相似度，它主要通過分別比較兩個影象的亮度(l)、對比度(c)、結構(s)，然後對這三個要素加權並乘積表示，在論文中這三個要素用下面公式來表示：

這裡μx 為均值，σ為方差，σxy表示協方差。這裡 C1、C2、C3是為了避免當分母為 0 時造成的不穩定問題（所以寫演算法的時候可以放心，一定不會出現除 0 的情況）。

而 SSIM 的一般方程為：

這裡一般 $\alpha$ , $\beta$ , $\gamma$ 取1，並且令 C3=0.5*C2，這樣就得到簡化的 SSIM 公式：

c_1=(k_1*L)^2，c_2=(k_2*L)^2是用來維持穩定的常數。L是畫素值的動態範圍。k_1=0.01

,k_2=0.03。
結構相似性的範圍為-1到+1（即SSIM∈(-1, 0]）。當兩張影象一模一樣時，SSIM的值等於1。

tensorflow實現程式碼

def weighted_ssim(x, y, weight, c1=0.01**2, c2=0.03**2, weight_epsilon=0.01):
  """Computes a weighted structured image similarity measure.

  See https://en.wikipedia.org/wiki/Structural_similarity#Algorithm. The only
  difference here is that not all pixels are weighted equally when calculating
  the moments - they are weighted by a weight function.

  Args:
    x: A tf.Tensor representing a batch of images, of shape [B, H, W, C].
    y: A tf.Tensor representing a batch of images, of shape [B, H, W, C].
    weight: A tf.Tensor of shape [B, H, W], representing the weight of each
      pixel in both images when we come to calculate moments (means and
      correlations).
    c1: A floating point number, regularizes division by zero of the means.
    c2: A floating point number, regularizes division by zero of the second
      moments.
    weight_epsilon: A floating point number, used to regularize division by the
      weight.

  Returns:
    A tuple of two tf.Tensors. First, of shape [B, H-2, W-2, C], is scalar
    similarity loss oer pixel per channel, and the second, of shape
    [B, H-2. W-2, 1], is the average pooled `weight`. It is needed so that we
    know how much to weigh each pixel in the first tensor. For example, if
    `'weight` was very small in some area of the images, the first tensor will
    still assign a loss to these pixels, but we shouldn't take the result too
    seriously.
  """
  if c1 == float('inf') and c2 == float('inf'):
    raise ValueError('Both c1 and c2 are infinite, SSIM loss is zero. This is '
                     'likely unintended.')
  weight = tf.expand_dims(weight, -1)
  average_pooled_weight = _avg_pool3x3(weight)
  weight_plus_epsilon = weight + weight_epsilon
  inverse_average_pooled_weight = 1.0 / (average_pooled_weight + weight_epsilon)

  def _avg_pool3x3(x):
    return tf.nn.avg_pool(x, [1, 3, 3, 1], [1, 1, 1, 1], 'VALID')

  def weighted_avg_pool3x3(z):
    wighted_avg = _avg_pool3x3(z * weight_plus_epsilon)
    return wighted_avg * inverse_average_pooled_weight

  mu_x = weighted_avg_pool3x3(x)
  mu_y = weighted_avg_pool3x3(y)
  sigma_x = weighted_avg_pool3x3(x**2) - mu_x**2
  sigma_y = weighted_avg_pool3x3(y**2) - mu_y**2
  sigma_xy = weighted_avg_pool3x3(x * y) - mu_x * mu_y
  if c1 == float('inf'):
    ssim_n = (2 * sigma_xy + c2)
    ssim_d = (sigma_x + sigma_y + c2)
  elif c2 == float('inf'):
    ssim_n = 2 * mu_x * mu_y + c1
    ssim_d = mu_x**2 + mu_y**2 + c1
  else:
    ssim_n = (2 * mu_x * mu_y + c1) * (2 * sigma_xy + c2)
    ssim_d = (mu_x**2 + mu_y**2 + c1) * (sigma_x + sigma_y + c2)
  result = ssim_n / ssim_d
  return tf.clip_by_value((1 - result) / 2, 0, 1), average_pooled_weight

感興趣的同學，歡迎掃碼關注同名公眾號喲！

無監督深度估計、運動估計的深度學習方法（二）

技術標籤：視覺里程計depth estimation深度學習自動駕駛計算機視覺在自監督深度估計中，一般輸入2張影象（若為視訊，則輸入鄰近的兩幀影象）frame1和frame2，模型先估計相機拍攝這2張影象是的姿態變化pose，然後

深度學習中的優化方法（二）

在上一篇文章中深度學習中的優化方法（一） - ZhiboZhao - 部落格園 (cnblogs.com) 我們主要講到了一維函式 \$f(x):R \\rightarrow R\$ 的優化方法，在實際情況中，待優化的函式往往是多維的\\(f(x):R^{n} \\rig

微信小程式學習總結（二）樣式、屬性、模板操作分析

本文例項講述了微信小程式樣式、屬性、模板操作。分享給大家供大家參考，具體如下：

海康攝像頭SDK在Linux、windows下的相容問題（二）已解決

上一篇提出的問題，在前幾天解決了。海康的技術人員給出了指導，在Linux庫載入失敗的時候，需要在程式碼中手動指定配置檔案。

ES6學習筆記（二）、Set（），Map（），Promise物件...

技術標籤：es6 提示：文章寫完後，目錄可以自動生成，如何生成可參考右邊的幫助文件

Vue學習筆記（二）動態繫結、計算屬性和事件監聽

目錄一、為屬性繫結變數1. v-bind的基本使用2. v-bind動態繫結class(物件語法)3. v-bind動態繫結class(陣列語法)4. v-bind動態繫結style(物件語法)5. v-bind動態繫結style(陣列語法)二、計算屬性1. 基本使用2. 計算

PCL學習筆記（二）、PCL編碼風格

一、PCL命名規範 1、檔案命名所有的檔名單詞之間應該用下劃線隔開 2、目錄命名

設計模式學習筆記（二）工廠模式、模板模式和策略模式的混合使用

一、工廠模式（Factory pattern）工廠模式又叫做工廠方法模式，是一種建立型設計模式，一般是在父類中提供一個建立物件的方法，允許子類決定例項化物件的型別。

『忘了再學』Shell基礎 — 10、Bash中的特殊符號（二）

提示：本篇文章接上一篇文章，主要說說()小括號和{}大括號的區別與使用。 8、()小括號

【視訊】自然框架之分頁控制元件的使用方法（二）下載、DLL說明和web.config的設定

　　上次說的是QuickPager分頁控制元件的PostBack的使用方式，也提供了原始碼下載。但是有些人下載之後發現有一大堆的資料夾，還有一大堆的DLL，到底要用哪個呀？不會都要用吧。

深度學習：人群密度估計Residual Regression和Semantic Prior論文（CVPR2019）解讀

最近看了一篇新的CVPR2019論文，全名是《Residual Regression with Semantic Prior for Crowd Counting》，這篇paper基於時下表現最優秀的兩個網路MCNN和CSRNet之上提出了幾個能夠進一步提升準確率的trick。

【異常檢測】DAGMM：結合深度自編碼器器和GMM的端到端無監督網路（二）：程式碼實戰（PyTorch）

技術標籤：paper研讀機器學習異常檢測無監督學習程式碼部分基於PyTorch1.6.0，使用網路入侵異常檢測資料集KDDCUP99來訓練和評測，完整程式碼見：GitHub。

集中管理：領導者，不能不考慮的幾件事之——未來管理之路的“程度”、“廣度”和“深度”（二）...

原文連結：http://www.betasoft.com.cn/laosun/2011-09-27/1909.html 對於具有很多跨地域分支機構的管理者來說，想必都存在一個困擾：如何能全面地掌控各個下屬機構的執行情況？要注意，這裡對於分支機構

RocketMQ深度解析（二）：NameServer

NamerServer NameServer是一個非常簡單的Topic路由註冊中心，其角色類似Dubbo中的zookeeper，支援Broker的動態註冊與發現。主要包括兩個功能：Broker管理，NameServer接受Broker叢集的註冊資訊並且儲存下來作為路由資

【學習筆記】Pytorch深度學習—優化器（二）

前面學習過了Pytorch中優化器optimizer的基本屬性和方法，優化器optimizer的主要功能是 “管理模型中的可學習引數，並利用引數的梯度grad以一定的策略進行更新”。本節內容分為4部分，(1)、（2）首先了解2個重要概念

【學習筆記】Pytorch深度學習—損失函式（二）

5、nn.L1Loss 迴歸任務中常用的損失函式。功能：計算模型輸出inputs與真實標籤target之差的絕對值

深度學習基礎（一）深度學習總體介紹

從傳統機器學習到深度學習基本概念啟用函式一個線性神經元的計算和許多線性神經元的計算中，都是線性的。為了更好的模擬輸出，需要將其轉化為非線性輸出。

深度學習 Tensorflow（五）

儲存模型一、儲存整個模型整個模型可以儲存到一個檔案當中，其中包含權重值、模型配置乃至優化器配置。這樣，就可以為模型設定檢查點，並稍後從完全相同的狀態繼續訓練，而無需訪問原始程式碼。

深度強化學習-筆記（一）

深度強化學習概述什麼是強化學習？強化學習討論的問題是一個智慧體(agent) 怎麼在一個複雜不確定的環境(environment)裡面去極大化它能獲得的獎勵。Agent 在環境裡面獲取到狀態state，也是對整個environm

深度學習loss值變為0_TF2.0深度學習實戰（一）：分類問題之手寫數字識別

技術標籤：深度學習loss值變為0 點選上面“藍字”關注我們本專輯持續更新，歡迎關注。本著學習的心，希望和大家相互交流，一起進步！

無監督深度估計、運動估計的深度學習方法（二）

相關推薦