1. 程式人生 > >用Python+DLib實現人臉替換

用Python+DLib實現人臉替換

點選前往集智專欄閱讀原文

參考資料: https://matthewearl.github.io/2015/07/28/switching-eds-with-python/

翻譯:小馬哥

編輯:船長


還記得嗎?去年冬天,在國外 AI 圈有個事情鬧得很火:知名論壇 Reddit 上忽然出現一個叫 deepfakes 的大神,藉助神經網路實現了 人臉替換 ,讓一些好萊塢女星“出演”了 AV。

誰不喜歡這個技術呢?

後來根據這個專案又衍生了一個叫 FakeAPP 的桌面應用,可以讓 尼古拉斯·凱奇 這樣的明星隨心所欲的“出演”任何電影,當然換成任何人的臉部都可以。我們曾詳細分享過這些專案:

大意了!居然有人用AI技術製作假AV!

AI已經決定了,ta就是未來每一屆奧斯卡最佳男主。

怎麼樣,是不是被這種換臉的效果驚到了?其實即便是不借助神經網路,我們用 Python 和一些 Python 庫也能實現換臉,只不過替換的是靜態影象中的人臉,但憑此也足以顯示出 Python 的“神祕力量”。


我們下面就傳授一下這門 Python “換臉”大法。

在本文,我們會介紹如何通過一段簡短的 Python 指令碼(200行左右)將一張圖片中面部特徵自動替換為另外一張圖片中的面部特徵。也就是實現下面這樣的效果:

具體過程分為四個步驟:

  • 檢測面部標誌;
  • 旋轉、縮放和平移圖 2 以適應圖 1;
  • 調整圖 2 的白平衡以匹配圖 1;
  • 將圖 2 的特徵融合到圖 1 中;

本指令碼的完整程式碼地址見文末。

使用dlib提取面部標誌

本指令碼使用 dlib 的 Python bindings 來提取面部標誌:

dlib 實現了 Vahid Kazemi 和 Josephine Sullivan 所著論文《One Millisecond Face Alignment with an Ensemble of Regression Tree》一文中描述的演算法。演算法本身非常複雜,但是通過 dlib 的介面實現它非常簡單:

PREDICTOR_PATH = "/home/matt/dlib-18.16/shape_predictor_68_face_landmarks.dat"

detector = dlib.get_frontal_face_detector()
predictor = dlib.shape_predictor(PREDICTOR_PATH)

def get_landmarks(im):
   rects = detector(im, 1)

   if len(rects) > 1:
       raise TooManyFaces
   if len(rects) == 0:
       raise NoFaces

return numpy.matrix([[p.x, p.y] for p in predictor(im, rects[0]).parts()])

get_landmarks() 函式 以 numpy 陣列的形式接收影象,並返回一個 68x2 的元素矩陣。矩陣的每一行與輸入影象中特定特徵點的 x,y 座標相對應。

特徵提取器(predictor)需要一個大概的邊界框作為演算法的輸入。這將由傳統的面部檢測器(detector)提供。該面部檢測器會返回一個矩形列表,其中每一個矩形與影象中的一張人臉相對應。

生成 predictor 需要預先訓練好的模型。該模型可在 dlib sourceforge repository 下載。

下載傳送門

用普氏分析法(Procrustes Analysis)實現人臉對齊

現在我們已經有兩個面部標誌矩陣,其中的每一行都含有某個面部特徵的座標(如第 30 行給出了鼻尖的座標)。我們現在只要弄明白如何旋轉、平移和縮放第一個向量的所有點,使其儘可能匹配第二個向量中的點。同理,同樣的變換可用於將第二張圖疊加在第一張圖上。

為使其更加數學化,我們設 T,s 和 R,並求如下等式最小值: 

其中,R 是一個 2x2 的正交矩陣,s 是一個標量,T 是一個二維向量,pi 和 qi 是之前計算出的面部標誌矩陣行標和列標。

事實證明,這類問題用常規普氏分析法(Ordinary Procrustes Analysis)可以解決:

def transformation_from_points(points1, points2):
   points1 = points1.astype(numpy.float64)
   points2 = points2.astype(numpy.float64)

   c1 = numpy.mean(points1, axis=0)
   c2 = numpy.mean(points2, axis=0)
   points1 -= c1
   points2 -= c2

   s1 = numpy.std(points1)
   s2 = numpy.std(points2)
   points1 /= s1
   points2 /= s2

   U, S, Vt = numpy.linalg.svd(points1.T * points2)
   R = (U * Vt).T

   return numpy.vstack([numpy.hstack(((s2 / s1) * R,
                                      c2.T - (s2 / s1) * R * c1.T)),
                        numpy.matrix([0., 0., 1.])])

我們逐步分析一下程式碼:

1.將輸入矩陣轉換為浮點型。這也是後續步驟的必要條件。 2.將每一個點集減去它的矩心。一旦為這兩個新的點集找到了一個最佳的縮放和旋轉方法,這兩個矩心c1和c2就可以用來找到完整的解決方案。 3.同樣,將每一個點集除以它的標準偏差。這消除了縮放偏差。 4.使用奇異值分解(singular value decomposition)計算旋轉部分。請參閱維基百科有關Orthogonal Procrustes Problem的文章,以瞭解它的具體工作原理。 5.將整個變換過程以仿射變換矩陣形式返回。

之後,返回結果可以插入 OpenCV 的 cv2.warpAffine 函式,將第二個圖片對映到第一個圖片上:

def warp_im(im, M, dshape):
   output_im = numpy.zeros(dshape, dtype=im.dtype)
   cv2.warpAffine(im,
                  M[:2],
                  (dshape[1], dshape[0]),
                  dst=output_im,
                  borderMode=cv2.BORDER_TRANSPARENT,
                  flags=cv2.WARP_INVERSE_MAP)
return output_im

校正第二張圖片的顏色

如果此時我們試圖直接疊加面部特徵,很快會發現一個問題:

這樣肯定是沒法兒看的 這樣肯定是沒法兒看的

這樣肯定是沒法兒看的

兩幅影象之間不同的 膚色 和 光線 造成了覆蓋區域邊緣的不連續。所以我們嘗試修正它:

COLOUR_CORRECT_BLUR_FRAC = 0.6
LEFT_EYE_POINTS = list(range(42, 48))
RIGHT_EYE_POINTS = list(range(36, 42))

def correct_colours(im1, im2, landmarks1):
   blur_amount = COLOUR_CORRECT_BLUR_FRAC * numpy.linalg.norm(
                             numpy.mean(landmarks1[LEFT_EYE_POINTS], axis=0) -
                             numpy.mean(landmarks1[RIGHT_EYE_POINTS], axis=0))
   blur_amount = int(blur_amount)
   if blur_amount % 2 == 0:
       blur_amount += 1
   im1_blur = cv2.GaussianBlur(im1, (blur_amount, blur_amount), 0)
   im2_blur = cv2.GaussianBlur(im2, (blur_amount, blur_amount), 0)

   # Avoid divide-by-zero errors.
   im2_blur += 128 * (im2_blur <= 1.0)

   return (im2.astype(numpy.float64) * im1_blur.astype(numpy.float64) /
                                               im2_blur.astype(numpy.float64))

現在效果怎麼樣?我們瞅瞅:

這不是更奇怪了嗎... 這不是更奇怪了嗎...

enter_image_description_here

此函式試圖改變圖 2 的顏色來匹配圖 1,也就是用 im2 除以 im2 的高斯模糊,然後乘以 im1 的高斯模糊。在這裡我們使用了顏色平衡( RGB scaling colour-correction),但不是直接使用全圖的常數比例因子,而是採用每個畫素的區域性比例因子。

通過這種方法也只能在某種程度上修正兩圖間的光線差異。比如說,如果圖 1 的光線來自某一邊,但圖 2 的光線非常均勻,校色後圖 2 也會出現有一邊暗一些的情況。

也就是說, 這是一個相當粗糙的解決方案 ,而且關鍵在於大小適當的高斯核心。如果太小,圖 2 中會出現圖 1 的面部特徵。如果太大,核心會跑到被畫素覆蓋的面部區域之外,並變色。這裡的核心大小為瞳距的 0.6 倍。

將圖 2 的特徵融合到圖 1 中

用一個蒙版(mask)來選擇圖 2 和圖 1 應被最終顯示的部分:

值為 1 (白色)的地方為圖 2 應顯示的區域,值為 0 (黑色)的地方為圖 1 應顯示的區域。值在 0 和 1 之間的地方為圖 1 圖 2 的混合區域。

這是生成上述內容的程式碼:

LEFT_EYE_POINTS = list(range(42, 48))
RIGHT_EYE_POINTS = list(range(36, 42))
LEFT_BROW_POINTS = list(range(22, 27))
RIGHT_BROW_POINTS = list(range(17, 22))
NOSE_POINTS = list(range(27, 35))
MOUTH_POINTS = list(range(48, 61))
OVERLAY_POINTS = [
   LEFT_EYE_POINTS + RIGHT_EYE_POINTS + LEFT_BROW_POINTS + RIGHT_BROW_POINTS,
   NOSE_POINTS + MOUTH_POINTS,
]
FEATHER_AMOUNT = 11

def draw_convex_hull(im, points, color):
   points = cv2.convexHull(points)
   cv2.fillConvexPoly(im, points, color=color)

def get_face_mask(im, landmarks):
   im = numpy.zeros(im.shape[:2], dtype=numpy.float64)

   for group in OVERLAY_POINTS:
       draw_convex_hull(im,
                        landmarks[group],
                        color=1)

   im = numpy.array([im, im, im]).transpose((1, 2, 0))

   im = (cv2.GaussianBlur(im, (FEATHER_AMOUNT, FEATHER_AMOUNT), 0) > 0) * 1.0
   im = cv2.GaussianBlur(im, (FEATHER_AMOUNT, FEATHER_AMOUNT), 0)

   return im

mask = get_face_mask(im2, landmarks2)
warped_mask = warp_im(mask, M, im1.shape)
combined_mask = numpy.max([get_face_mask(im1, landmarks1), warped_mask],
                         axis=0)

我們來分析一下:

  • 常規的 get_face_mask() 函式定義是:為一張影象和一個標誌矩陣生成一個蒙版。蒙版會畫出兩個白色的凸多邊形:一個是眼睛周圍的區域,一個是鼻子和嘴部周圍的區域。之後,蒙版的邊緣區域向外羽化 11 個畫素,這可以幫助消除剩下的不連續部分。
  • 為圖 1 圖 2 生成面部蒙版。使用與步驟 2 中的轉換,可以使圖 2 的蒙版轉換至圖 1 的座標空間。
  • 之後,對所有元素取最大值操作,將這兩個蒙版合二為一。這樣做是為了保證圖 1 的特徵也能被覆蓋的同時圖 2 特徵能顯示出來。

最後,將蒙版應用於最終影象:

output_im = im1 * (1.0 - combined_mask) + warped_corrected_im2 * combined_mask

哈!換臉成功! 哈!換臉成功!