利用OpenCV建立視差影象
點選上方↑↑↑“OpenCV學堂”關注我
來源:公眾號小白學視覺授權
我們都看過3D電影,他們看起來都很酷,這給了我們一個想法,使用一些工具通過改變看影象視角,模擬觀眾的頭部移動。
效果如何?
我們都熟悉"視差"這一術語,它是描述物件在左右眼中的位置差距,視差的大小這取決於我們離它有多遠。
視差
因此,如果我們能在2D影象中獲得與不同影象層的相同效果,那麼我們可以在這些影象中產生類似的感覺,併產生我們想要的酷效果。
讓我們分解一下這個過程
深度圖
因此,首先,我們需要將影象分解為不同的圖層,並且,我們需要一個2D影象的深度圖。深度圖只是一個黑白影象,其中影象的白色顯示物件與鏡頭的接近度。獲得基本圖層後,我們需要從每個圖層中畫出缺失的部分。最後,我們將單個影象分解成不同的圖層。現在,我們可以顯示不同的圖層,這些圖層看起來與原始影象相同。現在,我們可以使用相機進行人臉檢測,並測量使用者頭部的移動,然後移動這些圖層並進行匹配。
讓我們看看如何編寫此工具的程式碼
因此,首先,我們需要匯入一些檔案,建議使用版本 4.1.0.25 的 OpenCV。
import os, sys
import numpy as np
import pygame as pg
import cv2
現在,我們需要載入影象和深度圖,並調整它們的大小以匹配大小。現在,我們將提供一個深度圖、程式碼,但你可以生成自己的模型MiDaS。
img = cv2.imread('moon.jpg', flags=cv2.CV_8UC4)
depth_map = cv2.imread('moon_depth_map.png')
depth_map = cv2.cvtColor(depth_map,cv2.COLOR_RGB2GRAY)
img = cv2.resize(img, depth_map.shape[:2])
現在,在載入深度貼圖後,我們可以通過按不同閾值對深度貼圖不同圖層建立蒙版。在製作一個圖層時,我們需要兩個蒙版,一個是該圖層,另一個是上一層的第二個蒙版,用於畫上一個圖層的缺失部分。我們將在迴圈之外取最後一個圖層,以便提取此層中的所有剩餘部分。
layers = []
prev_thres = 255
div=30
for thres in range(255 - div, 0, -div):
ret, mask = cv2.threshold(depth_map, thres, 255, cv2.THRESH_BINARY)
ret, prev_mask = cv2.threshold(depth_map, prev_thres, 255, cv2.THRESH_BINARY)
prev_thres = thres
inpaint_img = cv2.inpaint(img, prev_mask, 10, cv2.INPAINT_NS)
layer = cv2.bitwise_and(inpaint_img, inpaint_img, mask = mask)
layers.append(conv_cv_alpha(layer, mask))
# adding last layer
mask = np.zeros(depth_map.shape, np.uint8)
mask[:,:] = 255
ret, prev_mask = cv2.threshold(depth_map, prev_thres, 255, cv2.THRESH_BINARY)
inpaint_img = cv2.inpaint(img, prev_mask, 10, cv2.INPAINT_NS) layer = cv2.bitwise_and(inpaint_img, inpaint_img, mask = mask)
layers.append(conv_cv_alpha(layer, mask))
layers = layers[::-1]
我們已經反轉了圖層,因此我們可以按最後一個層排列到第一層的順序排列它們。當我們將圖層新增到列表中時,我們使用的是函式[conv_cv_alpha],這將新增 alpha 值(使 RGB 到 RGBA),並使用蒙版使圖層的某些部分透明。
def conv_cv_alpha(cv_image, mask):
rgba = [r, g, b, mask]
cv_image = cv2.merge(rgba,4)
return cv_image
現在來了人臉檢測和顯示影象的部分。對於人臉檢測,我們將使用哈卡卡德。現在,我們將載入 haar 級聯進行人臉檢測,並建立一個函式,該函式將從影象中返回人臉。
face_cascade = cv2.CascadeClassifier( 'haarcascade_frontalface_default.xml')
def get_face_rect(img):
gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
face_rects = face_cascade.detectMultiScale(gray_img, 1.3, 5)
if len(face_rects) == 0:
return ()
return face_rects[0]
現在,我們必須顯示影象,將根據使用者的頭移動。我們將使用OpenCV讀取凸輪,然後使用 Pygame將每個幀呈現在彼此的頂部。為了計算每一層的移位,我們將計算從框架中心的頭部移位,然後縮小頭移位以獲得一個小的移位值。之後,我們將每個圖層的索引值相乘,以獲得相應圖層的移位值,還可以乘以一些常量值,以獲得更好的結果。
我們將建立一個比原始影象稍小的 Pygame 視窗並載入相機。我們使用了比例,因此您更改其值以使最終結果變大。
scale = 1
off_set = 20
width, height = layers[0].get_width(), layers[0].get_height() win = pg.display.set_mode((int((width - off_set)*scale), int((height - off_set)*scale)))
pg.display.set_caption('Parallax_image')
scaled_layers = []
for layer in layers:
scaled_layers.append(pg.transform.scale(layer, (int(width*scale), int(height*scale))))
cap = cv2.VideoCapture(0, cv2.CAP_DSHOW)
我們將設定一些常量。你可以玩這些常量來獲得不同的結果。
x_transform = True # allow shift in x-axis
y_transform = False # allow shift in y-axis
sens = 50 # the amount of scale down of shift value
show_cam = False # show your face cam
shift_x = 0
shift_y = 0
run = True
最後,主迴圈渲染所有圖層。
while run:
for event in pg.event.get():
if event.type==pg.QUIT:
run = False
frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
initial_pos = (frame.shape[0]/2, frame.shape[1]/2)
face_rect = get_face_rect(frame)
if len(face_rect) != 0:
face_rect_frame = cv2.rectangle(frame, (x, y), (x + w, y + h), (255,255,0), 3)
shift_x = (initial_pos[0] - (x + w/2))/(sens*scale)
shift_y = (initial_pos[1] - (y + h/2))/(sens*scale)
for i, layer in enumerate(scaled_layers):
new_x = -off_set/2
new_y = -off_set/2
if x_transform:
new_x = 0 + shift_x*i
if y_transform:
new_y = 0 + shift_y*i
face_rect_frame = cv2.resize(face_rect_frame, (100, 100))
if show_cam:
pg.display.update()
cap.release()
cv2.destroyAllWindows()
pg.quit()
就是這裡,最終結果。
最終結果
不同影象的演示
我已經建立了一個更高階版本的這個工具,你可以只選擇影象,它會自動建立視差影象,深度地圖將自動生成。
程式碼連結:https://github.com/strikeraryu/Parallax_Image