清華大學釋出:人臉識別最全知識圖譜
來源:智東西
摘要:本期我們推薦來自清華大學副教授唐傑領導的學者大資料探勘專案Aminer的研究報告,講解人臉識別技術及其應用領域,介紹人臉識別領域的國內玩人才並預測該技術的發展趨勢。
自20世紀下半葉,計算機視覺技術逐漸地發展壯大。同時,伴隨著數字影象相關的軟硬體技術在人們生活中的廣泛使用,數字影象已經成為當代社會資訊來源的重要構成因素,各種影象處理與分析的需求和應用也不斷促使該技術的革新。計算機視覺技術的應用十分廣泛。數字影象檢索管理、醫學影像分析、智慧安檢、人機互動等領域都有計算機視覺技術的涉足。該技術是人工智慧技術的重要組成部分,也是當今電腦科學研究的前沿領域。經過近年的不斷髮展,已逐步形成一套以數字訊號處理技術。計算機圖形影象、資訊理論和語義學相互結合的綜合性技術,並具有較強的邊緣性和學科交叉性。其中,人臉檢測與識別當前影象處理、模式識別和計算機視覺內的一個熱門研究課題, 也是目前生物特徵識別中最受人們關注的一個分支。
人臉識別,是基於人的臉部特徵資訊進行身份識別的一種生物識別技術。通常採用攝像機或攝像頭採集含有人臉的影象或視訊流,並自動在影象中檢測和跟蹤人臉。根據資料,2017 年生物識別技術全球市場規模上升到了 172 億美元,到 2020 年,預計全世界的生物識別市場規模有可能達到 240 億美元。自 2015 年到 2020 年,人臉識別市場規模增長了 166.6%,在眾多生物識別技術中增幅居於首位,預計到 2020 年人臉識別技術市場規模將上升至 24 億美元。
人臉識別技術概述
1、基本概念
人類視覺系統的獨特魅力驅使著研究者們試圖通過視覺感測器和計算機軟硬體模擬出人類對三維世界影象的採集、處理、分析和學習能力,以便使計算機和機器人系統具有智慧化的視覺功能。在過去 30 年間,眾多不同領域的科學家們不斷地嘗試從多個角度去了解生物視覺和神經系統的奧祕,以便藉助其研究成果造福人類。自 20 世紀下半葉,計算機視覺技術就在此背景下逐漸地發展壯大。同時,伴隨著數字影象相關的軟硬體技術在人們生活中的廣泛使用,數字影象已經成為當代社會資訊來源的重要構成因素,各種影象處理與分析的需求和應用也不斷促使該技術的革新。
計算機視覺技術的應用十分廣泛。數字影象檢索管理、醫學影像分析、智慧安檢、人機互動等領域都有計算機視覺技術的涉足。該技術是人工智慧技術的重要組成部分,也是當今電腦科學研究的前沿領域。經過近年的不斷髮展,已逐步形成一套以數字訊號處理技術、計算機圖形影象、資訊理論和語義學相互結合的綜合性技術,並具有較強的邊緣性和學科交叉性。其中,人臉檢測與識別當前影象處理、模式識別和計算機視覺內的一個熱門研究課題, 也是目前生物特徵識別中最受人們關注的一個分支。
人臉識別,是基於人的臉部特徵資訊進行身份識別的一種生物識別技術。通常採用攝像機或攝像頭採集含有人臉的影象或視訊流,並自動在影象中檢測和跟蹤人臉。根據中國報告網釋出《2018 年中國生物識別市場分析報告-行業深度分析與發展前景預測》中內容,2017 年生物識別技術全球市場規模上升到了 172 億美元,到 2020 年,預計全世界的生物識別市場規模有可能達到 240 億美元。自 2015 年到 2020 年,人臉識別市場規模增長了 166.6%,在眾多生物識別技術中增幅居於首位,預計到 2020 年人臉識別技術市場規模將上升至 24 億美元。
在不同的生物特徵識別方法中,人臉識別有其自身特殊的優勢,因而在生物識別中有著重要的地位。人臉識別的五個優勢:
非侵擾性。人臉識別無需干擾人們的正常行為就能較好地達到識別效果,無需擔心被識別者是否願意將手放在指紋採集裝置上,他們的眼睛是否能夠對準虹膜掃描裝置等等。只要在攝像機前自然地停留片刻,使用者的身份就會被正確識別。
便捷性。採集裝置簡單,使用快捷。一般來說,常見的攝像頭就可以用來進行人臉影象的採集, 不需特別複雜的專用裝置。影象採集在數秒內即可完成。
友好性。通過人臉識別身份的方法與人類的習慣一致,人和機器都可以使用人臉圖片進行識別。而指紋,虹膜等方法沒有這個特點,一個沒有經過特殊訓練的人,無法利用指紋和虹膜影象對其他人進行身份識別。
非接觸性。人臉影象資訊的採集不同於指紋資訊的採集,利用指紋採集資訊需要用手指接觸到採集裝置,既不衛生,也容易引起使用者的反感,而人臉影象採集,使用者不需要與裝置直接接觸。
可擴充套件性。在人臉識別後,下一步資料的處理和應用,決定著人臉識別裝置的實際應用,如應用在出入門禁控制、人臉圖片搜尋、上下班刷卡、恐怖分子識別等各個領域,可擴充套件性強。
正是因為人臉識別擁有這些良好的特性,使其具有非常廣泛的應用前景,也正引起學術界和商業界越來越多的關注。人臉識別已經廣泛應用於身份識別、活體檢測、脣語識別、創意相機、人臉美化、社交平臺等場景中。
2、發展歷程
早在 20 世紀 50 年代,認知科學家就已著手對人臉識別展開研究。20 世紀 60 年代,人臉識別工程化應用研究正式開啟。當時的方法主要利用了人臉的幾何結構,通過分析人臉器官特徵點及其之間的拓撲關係進行辨識。這種方法簡單直觀,但是一旦人臉姿態、表情發生變化,精度則嚴重下降。
20世紀90年代:1991 年,著名的“特徵臉”(Eigenface)方法第一次將主成分分析和統計特徵技術引入人臉識別,在實用效果上取得了長足的進步。這一思路也在後續研究中得到進一步發揚光大, 例如,Belhumer 成功將 Fisher 判別準則應用於人臉分類,提出了基於線性判別分析的Fisherface 方法。
2000-2012年:21 世紀的前十年,隨著機器學習理論的發展,學者們相繼探索出了基於遺傳演算法、支援向量機(Support Vector Machine,SVM)、boosting、流形學習以及核方法等進行人臉識別。2009 年至 2012 年,稀疏表達(Sparse Representation)因為其優美的理論和對遮擋因素的魯棒性成為當時的研究熱點。與此同時,業界也基本達成共識:基於人工精心設計的區域性描述子進行特徵提取和子空間方法進行特徵選擇能夠取得最好的識別效果。
Gabor 及 LBP 特徵描述子是迄今為止在人臉識別領域最為成功的兩種人工設計區域性描述子。這期間,對各種人臉識別影響因子的針對性處理也是那一階段的研究熱點,比如人臉光照歸一化、人臉姿態校正、人臉超分辨以及遮擋處理等。
也是在這一階段,研究者的關注點開始從受限場景下的人臉識別轉移到非受限環境下的人臉識別。LFW 人臉識別公開競賽(LFW 是由美國馬薩諸塞大學釋出並維護的公開人臉數集,測試資料規模為萬)在此背景下開始流行,當時最好的識別系統儘管在受限的 FRGC 測試集上能取得 99%以上的識別精度,但是在 LFW 上的最高精度僅僅在 80%左右,距離實用看起來距離頗遠。
2013年:微軟亞洲研究院的研究者首度嘗試了 10 萬規模的大訓練資料,並基於高維LBP 特徵和 Joint Bayesian 方法在 LFW 上獲得了 95.17%的精度。這一結果表明:大訓練資料集對於有效提升非受限環境下的人臉識別很重要。然而,以上所有這些經典方法,都難以處理大規模資料集的訓練場景。
2014年:2014 年前後,隨著大資料和深度學習的發展,神經網路重受矚目,並在影象分類、手寫體識別、語音識別等應用中獲得了遠超經典方法的結果。香港中文大學的 Sun Yi 等人提出將卷積神經網路應用到人臉識別上,採用 20 萬訓練資料,在 LFW 上第一次得到超過人類水平的識別精度,這是人臉識別發展歷史上的一座里程碑。自此之後,研究者們不斷改進網路結構,同時擴大訓練樣本規模,將 LFW 上的識別精度推到 99.5%以上。人臉識別發展過程中一些經典的方法及其在 LFW 上的精度,都有一個基本的趨勢:訓練資料規模越來越大,識別精度越來越高。
3、中國政策支援
2015 年以來,國家密集出臺了《關於銀行業金融機構遠端開立人民幣賬戶的指導意見(徵求意見稿)》,給人臉識別普及打開了門縫;其後,《安全防範視訊監控人臉識別系統技術要求》、《資訊保安技術網路人臉識別認證系統安全技術要求》等法律法規,為人臉識別在金融、安防、醫療等領域的普及打下了堅實的基礎,掃清了政策障礙。同時,2017 年人工智慧首次寫入國家政府報告,作為人工智慧的重要細分領域,國家對人臉識別相關的政策支援力度在不斷的加大。2017 年 12 月釋出的《促進新一代人工智慧產業發展三年行動計劃(2018-2020 年)》規劃“到 2020 年,複雜動態場景下人臉識別有效檢出率超過 97%,正確識別率超過 90%”。
▲人臉識別相關政策
4、發展熱點
研究通過對以往人臉識別領域論文的挖掘,總結出人臉識別領域的研究關鍵詞主要集中在人臉識別、特徵提取、稀疏表示、影象分類、神經網路、目標檢測、人臉影象、人臉檢測、影象表示、計算機視覺、姿態估計、人臉確認等領域。
下圖是對人臉識別研究趨勢的分析,旨在基於歷史的科研成果資料的基礎上,對技術來源、熱度甚至發展趨勢進行研究。圖 2 中,每個彩色分支代表一個關鍵詞領域,其寬度表示該關鍵詞的研究熱度,各關鍵詞在每一年份的位置是按照這一時間上所有關鍵詞的熱度高度進行排序。起初,Computer Vision(計算機視覺)是研究的熱點,在 20 世紀末期,Feature Extraction(特徵提取)超越 CV,成為研究的新熱點,其後在 21 世紀初期被 Face Recognition 超過,至今一直處在第二的位置上。
此外,研究根據最近兩年發表於 FG(International Conference on Automatic Face and Gesture Recognition)的論文中提取出來的關鍵詞發現,Face Recognition 出現頻率最高,為118 次,Object Detection 排在第二位,為 41 次,Image Classification 和 Object Recognition 以36 次並列第三,出現次數超過十次的詞彙還有 Image Segmentation(32)、Action Recognition(32)、Sparse Representation(28)、Image Retrieval(27)、Visual Tracking(24)、SingleImage(23)。詞雲圖如下所示:
▲人臉識別詞雲分析
5、人臉識別相關會議
計算機視覺(CV)界三大頂級國際會議:
ICCV: IEEE International Conference on Computer Vision
該會議由美國電氣和電子工程師學會(IEEE, Institute of Electrical & Electronic Engineers)主辦,主要在歐洲、亞洲、美洲的一些科研實力較強的國家舉行。作為世界頂級的學術會議,首屆國際計算機視覺大會於 1987 年在倫敦揭幕,其後兩年舉辦一屆。 ICCV 是計算機視覺領域最高級別的會議,會議的論文集代表了計算機視覺領域最新的發展方向和水平。 論文接受率在 20%左右。方向為計算機視覺、模式識別、多媒體計算等。
近年來,全球學界愈來愈關注中國人在計算機視覺領域所取得的科研成就,這是因為由中國人主導的相關研究已取得了長足的進步——2007 年大會共收到論文 1200 餘篇,而獲選論文僅為 244 篇,其中來自中國大陸,香港及臺灣的論文有超過 30 篇,超過大會獲選論文總數的 12%。作為最早投入深度學習技術研發的華人團隊,在多年佈局的關鍵技術基礎之上,香港中文大學教授湯曉鷗率領的團隊迅速取得技術突破。2012 年國際計算視覺與模式識別會議(CVPR)上僅有的兩篇深度學習文章均出自湯曉鷗實驗室,而在 2013 年國際計算機視覺大會(ICCV)上全球學者共發表的 8 篇深度學習領域的文章中,有 6 篇出自湯曉鷗實驗室。
CVPR:IEEE Conference on Computer Vision and Pattern Recognition
該會議是由 IEEE 舉辦的計算機視覺和模式識別領域的頂級會議。每年召開一次,錄取率在 25%左右。方向為計算機視覺、模式識別、多媒體計算等。
香港中文大學教授湯曉鷗率領的團隊在全球範圍內做出了大量深度學習原創技術突破:2012 年國際計算視覺與模式識別會議(CVPR)上僅有的兩篇深度學習文章均出自其實驗室;2011—2013 年間在計算機視覺領域兩大頂級會議 ICCV 和 CVPR 上發表了 14 篇深度學習論文,佔據全世界在這兩個會議上深度學習論文總數(29篇)的近一半。他在 2009 年獲得計算機視覺領域兩大最頂尖的國際學術會議之一 CVPR 最佳論文獎,這是 CVPR 歷史上來自亞洲的論文首次獲獎。
ECCV:European Conference on Computer Vision
ECCV 是一個歐洲的會議,每次會議在全球範圍錄用論文 300 篇左右,主要的錄用論文都來自美國、歐洲等頂尖實驗室及研究所,中國大陸的論文數量一般在 10-20 篇之間。ECCV2010 的論文錄取率為 27%。兩年召開一次,論文接受率在 20%左右。方向為計算機視覺、模式識別、多媒體計算等。2018 年的 ECCV 於 2018 年 9 月 8 日-14 日在德國慕尼黑舉辦。
亞洲計算機視覺會議:
ACCV:Asian Conference on Computer Vision
ACCV 即亞洲計算機視覺會議,是 AFCV(Asian Federation of Computer Vision,亞洲計算機視覺聯盟)自 1993 年以來官方組織的兩年一度的會議,旨在為研究者、開發者和參與者提供一個良好的平臺來展示和討論計算機視覺領域和相關領域的新問題、新方案和新技術。2018 年第 14 屆亞洲計算機視覺會議將於 2018 年 12 月 4 日-6 日在澳大利亞舉辦。
人臉和手勢識別專門的會議:
FG:IEEE International Conference on Automatic Face and Gesture Recognition
“International Conference on Automatic Face and Gesture Recognition”是全球範圍內人臉與手勢識別領域的權威學術會議。會議方向有人臉檢測、人臉識別、表情識別、姿勢分析、心理行為分析等。
人臉識別技術詳解
1、人臉識別流程
人臉識別技術原理簡單來講主要是三大步驟:一是建立一個包含大批量人臉影象的資料庫,二是通過各種方式來獲得當前要進行識別的目標人臉影象,三是將目標人臉影象與資料庫中既有的人臉影象進行比對和篩選。根據人臉識別技術原理具體實施起來的技術流程則主要包含以下四個部分,即人臉影象的採集與預處理、人臉檢測、人臉特徵提取、人臉識別和活體鑑別。
▲人臉識別技術流程
人臉影象的採集與預處理
人臉影象的採集與檢測具體可分為人臉影象的採集和人臉影象的檢測兩部分內容。
人臉影象的採集:採集人臉影象通常情況下有兩種途徑,分別是既有人臉影象的批量匯入和人臉影象的實時採集。一些比較先進的人臉識別系統甚至可以支援有條件的過濾掉不符合人臉識別質量要求或者是清晰度質量較低的人臉影象,儘可能的做到清晰精準的採集。既有人臉影象的批量匯入:即將通過各種方式採集好的人臉影象批量匯入至人臉識別系統,系統會自動完成逐個人臉影象的採集工作。人臉影象的實時採集:即呼叫攝像機或攝像頭在裝置的可拍攝範圍內自動實時抓取人臉影象並完成採集工作。
人臉影象的預處理:人臉影象的預處理的目的是在系統對人臉影象的檢測基礎之上,對人臉影象做出進一步的處理以利於人臉影象的特徵提取。人臉影象的預處理具體而言是指對系統採集到的人臉影象進行光線、旋轉、切割、過濾、降噪、放大縮小等一系列的複雜處理過程來使得該人臉影象無論是從光線、角度、距離、大小等任何方面來看均能夠符合人臉影象的特徵提取的標準要求。在現實環境下采集影象,由於影象受到光線明暗不同、臉部表情變化、陰影遮擋等眾多外在因素的干擾,導致採集影象質量不理想,那就需要先對採集到的影象預處理,如果影象預處理不好,將會嚴重影響後續的人臉檢測與識別。研究介紹三種影象預處理手段,即灰度調整、影象濾波、影象尺寸歸一化等。
灰度調整:因為人臉影象處理的最終影象一般都是二值化影象,並且由於地點、裝置、光照等方面的差異,造成採集到彩色影象質量不同,因此需要對影象進行統一的灰度處理,來平滑處理這些差異。灰度調整的常用方法有平均值法、直方圖變換法、冪次變換法、對數變換法等。
影象濾波:在實際的人臉影象採集過程中,人臉影象的質量會受到各種噪聲的影響,這些噪聲來源於多個方面,比如周圍環境中充斥大量的電磁訊號、數字影象傳輸受到電磁訊號的干擾等影響通道,進而影響人臉影象的質量。為保證影象的質量,減小噪聲對後續處理過程的影響, 必須對影象進行降噪處理。去除噪聲處理的原理和方法很多,常見的有均值濾波,中值濾波等。目前常用中值濾波演算法對人臉影象進行預處理。
影象尺寸歸一化:在進行簡單的人臉訓練時候,遇到人臉庫的影象畫素大小不一樣時,我們需要在上位機人臉比對識別之前對影象做尺寸歸一化處理。需要比較常見的尺寸歸一化演算法有雙線性插值演算法、最近鄰插值演算法和立方卷積演算法等。
人臉檢測
一張包含人臉影象的圖片通常情況下可能還會包含其他內容,這時候就需要進行必要的人臉檢測。也就是在一張人臉影象之中,系統會精準的定位出人臉的位置和大小,在挑選出有用的影象資訊的同時自動剔除掉其他多餘的影象資訊來進一步的保證人臉影象的精準採集。
人臉檢測是人臉識別中的重要組成部分。人臉檢測是指應用一定的策略對給出的圖片或者視訊來進行檢索,判斷是否存在著人臉,如果存在則定位出每張人臉的位置、大小與姿態的過程。人臉檢測是一個具有挑戰性的目標檢測問題,主要體現在兩方面:人臉目標內在的變化引起:1、人臉具有相當複雜的細節變化和不同的表情(眼、嘴的開與閉等),不同的人臉具有不同的外貌,如臉形、膚色等;2、人臉的遮擋,如眼鏡、頭髮和頭部飾物等。外在條件變化引起:1、由於成像角度的不同造成人臉的多姿態,如平面內旋轉、深度旋轉以及上下旋轉等,其中深度旋轉影響較大;2、光照的影響,如影象中的亮度、對比度的變化和陰影等;3、影象的成像條件,如攝像裝置的焦距、成像距離等。
人臉檢測的作用,便是在一張人臉影象之中,系統會精準的定位出人臉的位置和大小, 在挑選出有用的影象資訊的同時自動剔除掉其他多餘的影象資訊來進一步的保證人臉影象 的精準採集。人臉檢測重點關注以下指標:
檢測率:識別正確的人臉/圖中所有的人臉。檢測率越高,檢測模型效果越好; 誤檢率:識別錯誤的人臉/識別出來的人臉。誤檢率越低,檢測模型效果越好; 漏檢率:未識別出來的人臉/圖中所有的人臉。漏檢率越低,檢測模型效果越好; 速度:從採集影象完成到人臉檢測完成的時間。時間越短,檢測模型效果越好。
目前的人臉檢測方法可分為三類,分別是基於膚色模型的檢測、基於邊緣特徵的檢測、基於統計理論方法,下面將對其進行簡單的介紹:
1、基於膚色模型的檢測:膚色用於人臉檢測時,可採用不同的建模方法,主要有高斯模型、高斯混合模型,以及非引數估計等。利用高斯模型和高斯混合模型可以在不同顏色空間中建立膚色模型來進行人臉檢測。通過提取彩色影象中的面部區域以實現人臉檢測的方法能夠處理多種光照的情況, 但該演算法需要在固定攝像機引數的前提下才有效。Comaniciu 等學者利用非引數的核函式概率密度估計法來建立膚色模型,並使用 mean-shift 方法進行區域性搜尋實現了人臉的檢測和跟蹤。這一方法提高了人臉的檢測速度,對於遮擋和光照也有一定的魯棒性。該方法的不足是和其他方法的可結合性不是很高,同時,用於人臉檢測時,處理複雜背景和多個人臉時存在困難。
為了解決人臉檢測中的光照問題,可以針對不同光照進行補償,然後再檢測影象中的膚色區域。這樣可以解決彩色影象中偏光、背景複雜和多個人臉的檢測問題,但對人臉色彩、位置、尺度、旋轉、姿態和表情等具有不敏感性。
2、基於邊緣特徵的檢測:利用影象的邊緣特徵檢測人臉時,計算量相對較小,可以實現實時檢測。大多數使用邊緣特徵的演算法都是基於人臉的邊緣輪廓特性,利用建立的模板(如橢圓模版)進行匹配。也有研究者採用橢圓環模型與邊緣方向特徵,實現簡單背景的人臉檢測。Fröba 等採用基於邊緣方向匹配(Edge-Orientation Matching,EOM)的方法,在邊緣方向圖中進行人臉檢測。該演算法在複雜背景下誤檢率比較高,但是與其他的特徵相融合後可以獲得很好的效果。
3、 基於統計理論方法:本文重點介紹基於統計理論方法中的Adaboost人臉檢測演算法。Adaboost演算法是通過無數次迴圈迭代來尋求最優分類器的過程。用弱分類器Haar特徵中任一特徵放在人臉樣本上,求出人臉特徵值,通過更多分類器的級聯便得到人臉的量化特徵,以此來區分人臉和非人臉。Haar功能由一些簡單黑色白色水平垂直或旋轉45°的矩形組成。目前的Haar特徵總的來說廣義地分為三類:邊緣特徵、線特徵以及中心特徵。
這一演算法是由劍橋大學的 Paul Viola 和 Michael Jones 兩位學者提出,該演算法優點在於不僅計算速度快,還可以達到和其他演算法相當的效能,所以在人臉檢測中應用比較廣泛,但也存在著較高的誤檢率。因為在採用 Adaboost 演算法學習的過程中,最後總有一些人臉和非人臉模式難以區分,而且其檢測的結果中存在一些與人臉模式並不相像的視窗。
人臉特徵提取
目前主流的人臉識別系統可支援使用的特徵通常可分為人臉視覺特徵、人臉影象畫素統計特徵等,而人臉影象的特徵提取就是針對人臉上的一些具體特徵來提取的。特徵簡單,匹配演算法則簡單,適用於大規模的建庫;反之,則適用於小規模庫。特徵提取的方法一般包括基於知識的提取方法或者基於代數特徵的提取方法。
以基於知識的人臉識別提取方法中的一種為例,因為人臉主要是由眼睛、額頭、鼻子、耳朵、下巴、嘴巴等部位組成,對這些部位以及它們之間的結構關係都是可以用幾何形狀特徵來進行描述的,也就是說每一個人的人臉影象都可以有一個對應的幾何形狀特徵,它可以幫助我們作為識別人臉的重要差異特徵,這也是基於知識的提取方法中的一種。
人臉識別
我們可以在人臉識別系統中設定一個人臉相似程度的數值,再將對應的人臉影象與系統資料庫中的所有人臉影象進行比對,若超過了預設的相似數值,那麼系統將會把超過的人臉影象逐個輸出,此時我們就需要根據人臉影象的相似程度高低和人臉本身的身份資訊來進行精確篩選,這一精確篩選的過程又可以分為兩類:其一是一對一的篩選,即對人臉身份進行確認過程;其二是一對多的篩選,即根據人臉相似程度進行匹配比對的過程。
活體鑑別
生物特徵識別的共同問題之一就是要區別該訊號是否來自於真正的生物體,比如,指紋識別系統需要區別帶識別的指紋是來自於人的手指還是指紋手套,人臉識別系統所採集到的人臉影象,是來自於真實的人臉還是含有人臉的照片。因此,實際的人臉識別系統一般需要增加活體鑑別環節,例如,要求人左右轉頭,眨眼睛,開開口說句話等。
2、 人臉識別主要方法
人臉識別技術的研究是一個跨越多個學科領域知識的高階技術研究工作,其包括多個學科的專業知識,如影象處理、生理學、心理學、模式識別等知識。在人臉識別技術研究的領域中,目前主要有幾種研究的方向,如:一種是根據人臉特徵統計學的識別方法,其主要有特徵臉的方法以及隱馬爾科夫模型(HMM,Hidden Markov Model)方法等;另一種人臉識別方法是關於連線機制的,主要有人工神經網路(ANN,Artificial Neural Network)方法和支援向量機(SVM,Support Vector Machine)方法等;還有一個就是綜合多種識別方式的方法。
基於特徵臉的方法
特徵臉的方法是一種比較經典而又應用比較廣的人臉識別方法,其主要原理是把影象做降維演算法,使得資料的處理更容易,同時,速度又比較快。特徵臉的人臉識別方法,實際上是將影象做 Karhunen-Loeve 變換,把一個高維的向量轉化為低維的向量,從而消除每個分量存在的關聯性,使得變換得到的影象與之對應特徵值遞減。在影象經過 K-L 變換後,其具有很好的位移不變性和穩定性。所以,特徵臉的人臉識別方法具有方便實現,並且可以做到速度更快,以及對正面人臉影象的識別率相當高等優點。但是,該方法也具有不足的地方, 就是比較容易受人臉表情、姿態和光照改變等因素的影響,從而導致識別率低的情況。
基於幾何特徵的方法
基於幾何特徵的識別方法是根據人臉面部器官的特徵及其幾何形狀進行的一種人臉識別方法,是人們最早研究及使用的識別方法,它主要是採用不同人臉的不同特徵等資訊進行匹配識別,這種演算法具有較快的識別速度,同時,其佔用的記憶體也比較小,但是,其識別率也並不算高。該方法主要做法是首先對人臉的嘴巴、鼻子、眼睛等人臉主要特徵器官的位置和大小進行檢測,然後利用這些器官的幾何分佈關係和比例來匹配,從而達到人臉識別。
基於幾何特徵識別的流程大體如下:首先對人臉面部的各個特徵點及其位置進行檢測, 如鼻子、嘴巴和眼睛等位置,然後計算這些特徵之間的距離,得到可以表達每個特徵臉的向量特徵資訊,例如眼睛的位置,眉毛的長度等,其次還計算每個特徵與之相對應關係,與人臉資料庫中已知人臉對應特徵資訊來做比較,最後得出最佳的匹配人臉。基於幾何特徵的方法符合人們對人臉特徵的認識,另外,每幅人臉只儲存一個特徵,所以佔用的空間比較小; 同時,這種方法對光照引起的變化並不會降低其識別率,而且特徵模板的匹配和識別率比較高。但是,基於幾何特徵的方法也存在著魯棒性不好,一旦表情和姿態稍微變化,識別效果將大打折扣。
基於深度學習的方法
深度學習的出現使人臉識別技術取得了突破性進展。人臉識別的最新研究成果表明,深度學習得到的人臉特徵表達具有手工特徵表達所不具備的重要特性,例如它是中度稀疏的、對人臉身份和人臉屬性有很強的選擇性、對區域性遮擋具有良好的魯棒性。這些特性是通過大資料訓練自然得到的,並未對模型加入顯式約束或後期處理,這也是深度學習能成功應用在人臉識別中的主要原因。
深度學習在人臉識別上有 7 個方面的典型應用:基於卷積神經網路(CNN)的人臉識別方法,深度非線性人臉形狀提取方法,基於深度學習的人臉姿態魯棒性建模,有約束環境中的全自動人臉識別,基於深度學習的視訊監控下的人臉識別,基於深度學習的低解析度人臉識別及其他基於深度學習的人臉相關資訊的識別。
其中,卷積神經網路(Convolutional Neural Networks,CNN)是第一個真正成功訓練多層網路結構的學習演算法,基於卷積神經網路的人臉識別方法是一種深度的監督學習下的機器學習模型,能挖掘資料區域性特徵,提取全域性訓練特徵和分類,其權值共享結構網路使之更類似於生物神經網路,在模式識別各個領域都得到成功應用。CNN 通過結合人臉影象空間的區域性感知區域、共享權重、在空間或時間上的降取樣來充分利用資料本身包含的區域性性等特徵,優化模型結構,保證一定的位移不變性。
利用 CNN 模型,香港中文大學的 Deep ID 專案以及 Facebook 的 Deep Face 專案在 LFW 資料庫上的人臉識別正確率分別達 97.45%和 97.35%只比人類視覺識別 97.5%的正確率略低。在取得突破性成果之後,香港中文大學的 DeepID2 專案將識別率提高到了 99.15%。Deep ID2 通過學習非線性特徵變換使類內變化達到最小,而同時使不同身份的人臉影象間的距離保持 恆定,超過了目前所有領先的深度學習和非深度學習演算法在 LFW 資料庫上的識別率以及人類在該資料庫的識別率。深度學習已經成為計算機視覺中的研究熱點,關於深度學習的新算 法和新方向不斷湧現,並且深度學習演算法的效能逐漸在一些國際重大評測比賽中超過了淺層 學習演算法。
基於支援向量機的方法
將支援向量機(SVM)的方法應用到人臉識別中起源於統計學理論,它研究的方向是如何構造有效的學習機器,並用來解決模式的分類問題。其特點是將影象變換空間,在其他空間做分類。
支援向量機結構相對簡單,而且可以達到全域性最優等特點,所以,支援向量機在目前人臉識別領域取得了廣泛的應用。但是,該方法也和神經網路的方法具有一樣的不足,就是需要很大的儲存空間,並且訓練速度還比較慢。
其他綜合方法
以上幾種比較常用的人臉識別方法,我們不難看出,每一種識別方法都不能做到完美的識別率與更快的識別速度,都有著各自的優點和缺點,因此,現在許多研究人員則更喜歡使用多種識別方法綜合起來應用,取各種識別方法的優勢,綜合運用,以達到更高的識別率和識別效果。
人臉識別三大經典演算法
特徵臉法(Eigenface)
徵臉技術是近期發展起來的用於人臉或者一般性剛體識別以及其它涉及到人臉處理的一種方法。使用特徵臉進行人臉識別的方法首先由 Sirovich 和 Kirby(1987)提出(《Low- dimensional procedure for the characterization of human faces》),並由 Matthew Turk 和 Alex Pentland 用於人臉分類(《Eigenfaces for recognition》)。首先把一批人臉影象轉換成一個特徵向量集,稱為“Eigenfaces”,即“特徵臉”,它們是最初訓練影象集的基本元件。識別的過程是把一副新的影象投影到特徵臉子空間,並通過它的投影點在子空間的位置以及投影線的長度來進行判定和識別。
將影象變換到另一個空間後,同一個類別的影象會聚到一起,不同類別的影象會聚力比較遠,在原畫素空間中不同類別的影象在分佈上很難用簡單的線或者面切分,變換到另一個空間,就可以很好的把他們分開了。Eigenfaces 選擇的空間變換方法是 PCA(主成分分析), 利用 PCA 得到人臉分佈的主要成分,具體實現是對訓練集中所有人臉影象的協方差矩陣進行本徵值分解,得到對應的本徵向量,這些本徵向量就是“特徵臉”。每個特徵向量或者特徵臉相當於捕捉或者描述人臉之間的一種變化或者特性。這就意味著每個人臉都可以表示為這些特徵臉的線性組合。
區域性二值模式(Local Binary Patterns,LBP)
區域性二值模式(Local Binary Patterns LBP)是計算機視覺領域裡用於分類的視覺運算元。LBP 一種用來描述影象紋理特徵的運算元,該運算元由芬蘭奧盧大學的 T.Ojala 等人在 1996 年提 出 ( 《 A comparative study of texture measures with classification based on featured distributions》)。2002 年, T.Ojala 等人在 PAMI 上又發表了一篇關於 LBP 的文章(《Multiresolution gray-scale and rotation invariant texture classification with local binary patterns》)。這一文章非常清楚的闡述了多解析度、灰度尺度不變和旋轉不變、等價模式的改進的 LBP 特徵。LBP 的核心思想就是:以中心畫素的灰度值作為閾值,與他的領域相比較得到相對應的二進位制碼來表示區域性紋理特徵。
LBP 是提取區域性特徵作為判別依據的。LBP 方法顯著的優點是對光照不敏感,但是依然沒有解決姿態和表情的問題。不過相比於特徵臉方法,LBP 的識別率已經有了很大的提升。
Fisherface
線性鑑別分析在降維的同時考慮類別資訊,由統計學家 Sir R. A. Fisher1936 年發明(《The use of multiple measurements in taxonomic problems》)。為了找到一種特徵組合方式,達到最大的類間離散度和最小的類內離散度。這個想法很簡單:在低維表示下,相同的類應該緊緊的聚在一起,而不同的類別儘量距離越遠。1997 年,Belhumer 成功將 Fisher 判別準則應用於人臉分類,提出了基於線性判別分析的 Fisherface 方法(《Eigenfaces vs. fisherfaces: Recognition using class specific linear projection》)。
經典論文
Sirovich,L.,&Kirby,M.(1987).Low-dimensional procedure for the characterization of human faces.Josa a,4(3),519-524. 研究證明任何的特殊人臉都可以通過稱為 Eigenpictures 的座標系統來表示。Eigenpictures 是面部集合的平均協方差的本徵函式。
Turk,M.,&Pentland,A.(1991).Eigenfaces for recognition.Journal of cognitive neuroscience, 3(1), 71-86. 研究開發了一種近實時的計算機系統,可以定位和追蹤人的頭部,然後通過比較面部特徵和已知個體的特徵來識別該人。該方法將面部識別問題視為二維識別問題。識別的過程是把一副新的影象投影到特徵臉子空間,該特徵空間捕捉到已知面部影象之間的顯著變化。重要特徵稱為特徵臉,因為它們是面集的特徵向量。
Ojala,T.,Pietikäinen,M.,&Harwood,D.(1996).A comparative study of texture measures with classification based on featured distributions.Pattern recognition,29(1),51-59. 研究對不同的圖形紋理進行比較,並提出了用來描述影象紋理特徵的 LBP 運算元。
Ojala,T.,Pietikainen,M.,&Maenpaa,T.(2002).Multiresolution gray-scale and rotation invariant texture classification with local binary patterns.IEEE Transactions on pattern analysis and machine intelligence,24(7),971-987. 研究提出了一種理論上非常簡單而有效的灰度和旋轉不變紋理分類方法,該方法基於區域性二值模式和樣本和原型分佈的非引數判別。該方法具有灰度變化穩健、計算簡單的特點。
Fisher,R.A.(1936).The use of multiple measurements in taxonomic problems.Annals of eugenics,7(2),179-188. 研究找到一種特徵組合方式,以達到最大的類間離散度和最小的類內離散度。解決方式為:在低維表示下,相同的類應該緊緊的聚在一起,而不同的類別儘量距離越遠。
Belhumeur,P.N.,Hespanha,J.P.,&Kriegman,D.J.(1997).Eigenfaces
vs.fisherfaces:Recognition using class specific linear projection. Yale University New Haven United States. 研究基於 Fisher 的線性判別進行面部投影,能夠在低維子空間中產生良好分離的類,即使在光照和麵部表情的變化較大情況下也是如此。廣泛的實驗結果表明, 所提出的“Fisherface”方法的誤差率低於哈佛和耶魯人臉資料庫測試的特徵臉技術。
常用的人臉資料庫
主要介紹以下幾種常用的人臉資料庫:
ERET人臉資料庫
http://www.nist.gov/itl/iad/ig/colorferet.cfm
由 FERET 專案建立,此影象集包含大量的人臉影象,並且每幅圖中均只有一個人臉。該集中,同一個人的照片有不同表情、光照、姿態和年齡的變化。包含 1 萬多張多姿態和光照的人臉影象,是人臉識別領域應用最廣泛的人臉資料庫之一。其中的多數人是西方人,每個人所包含的人臉影象的變化比較單一。
CMU Multi-PIE人臉資料庫
http://www.flintbox.com/public/project/4742/
由美國卡耐基梅隆大學建立。所謂“PIE”就是姿態(Pose),光照(Illumination)和表情(Expression)的縮寫。CMU Multi-PIE 人臉資料庫是在 CMU-PIE 人臉資料庫的基礎上發展起來的。包含 337 位志願者的 75000 多張多姿態,光照和表情的面部影象。其中的姿態和光照變化影象也是在嚴格控制的條件下采集的,目前已經逐漸成為人臉識別領域的一個重要的測試集合。
YALE人臉資料庫(美國,耶魯大學)
http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html
由耶魯大學計算視覺與控制中心建立,包含 15 位志願者的 165 張圖片,包含光照、表情和姿態的變化。
Yale 人臉資料庫中一個採集志願者的 10 張樣本,相比較 ORL 人臉資料庫 Yale 庫中每個物件採集的樣本包含更明顯的光照、表情和姿態以及遮擋變化。
YALE人臉資料庫 B
ttps://computervisiononline.com/dataset/1105138686
包含了 10 個人的 5850 幅在 9 種姿態,64 種光照條件下的影象。其中的姿態和光照變化的影象都是在嚴格控制的條件下采集的,主要用於光照和姿態問題的建模與分析。由於採集人數較少,該資料庫的進一步應用受到了比較大的限制。
MIT人臉資料庫
由麻省理工大學媒體實驗室建立,包含 16 位志願者的 2592 張不同姿態(每人 27 張照片),光照和大小的面部影象。
ORL人臉資料庫
https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
由英國劍橋大學 AT&T 實驗室建立,包含 40 人共 400 張面部影象,部分志願者的影象包括了姿態,表情和麵部飾物的變化。該人臉庫在人臉識別研究的早期經常被人們採用,但由於變化模式較少,多數系統的識別率均可以達到 90%以上,因此進一步利用的價值已經不大。
ORL 人臉資料庫中一個採集物件的全部樣本庫中每個採集物件包含10 幅經過歸一化處理的灰度影象,影象尺寸均為 92×112 ,影象背景為黑色。其中採集物件的面部表情和細節均有變化,例如笑與不笑、眼睛睜著或閉著以及戴或不戴眼鏡等,不同人臉樣本的姿態也有變化,其深度旋轉和平面旋轉可達 20 度。
BioID人臉資料庫
https://www.bioid.com/facedb/
包含在各種光照和複雜背景下的 1521 張灰度面部影象,眼睛位置已經被手工標註。
UMIST影象集
由英國曼徹斯特大學建立。包括 20 個人共 564 幅影象,每個人具有不同角度、不同姿態的多幅影象。
年齡識別資料集IMDB-WIKI
https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
包含 524230 張從 IMDB 和 Wikipedia 爬取的名人資料圖片。應用了一個新穎的化迴歸為分類的年齡演算法。本質就是在 0-100 之間的 101 類分類後,對於得到的分數和 0-100 相乘, 並將最終結果求和,得到最終識別的年齡。
技術人才
1、學者概況
AMiner 基於發表於國際期刊會議的學術論文,對人臉識別領域全 TOP1000 的學者進行計算分析,繪製了該領域學者全球分佈地圖。從全球範圍來看,美國是人臉識別研究學者聚集最多的國家,在人臉識別領域的研究佔有絕對的優勢;英國緊隨其後,位列第二;中國位列全球第三,佔有一席之地;加拿大、德國和日本等國家也聚集了部分人才。
h-index:國際公認的能夠比較準確地反映學者學術成就的指數,計算方法是該學者至多有 h 篇論文分別被引用了至少 h 次。
全球人臉識別學者的 h-index 平均數為 48, h-index 指數在 20 到 40 之間的學者最多,佔比 33%; h-index 指數在 40 到 60 之間的學者和大於 60 佔比相持不下,前者為 27%,後者為 28%; h-index 指數小於等於 10 的學者最少,僅佔 2%。
AMiner 選取人臉識別領域影響力排名前 1000 的專家學者,對其遷徙路徑做了分析。由上圖可以看出,各國人臉識別領域人才的流失和引進略有差異,其中美國是人臉識別領域人才流動大國,人才輸入和輸出都大幅領先,且從資料來看人才流入略大於流出。英國、中國、德國、加拿大和澳大利亞等國緊隨其後,其中英國、中國和澳大利亞有輕微的人才流失現象。
研究根據在全球範圍內人臉與手勢識別領域的權威學術會議( IEEE International Conference on Automatic Face and Gesture Recognition,FG)上最近五年引用論文中,研究計算出 citation 和 h-index 排在前十的人臉識別專家,並擷取部分領先學者加以介紹。
Citation 排在前十的相關學者位列如下:
▲Citation 前十的人臉識別專家
h-index 排在前十二的相關學者位列如下:
▲h-index 前十的人臉識別專家
2、國內外人才
報告列舉了全球 6 位專家學者和5位國內專家,詳見本內參附件。
應用領域
從應用角度看,人臉識別應用廣泛,可應用於自動門禁系統、身份證件的鑑別、銀行ATM 取款機以及家庭安全等領域。具體來看主要有:
1、 公共安全:公安刑偵追逃、罪犯識別、邊防安全檢查;
2、 資訊保安:計算機和網路的登入、檔案的加密和解密;
3、 政府職能:電子政務、戶籍管理、社會福利和保險;
4、商業企業:電子商務、電子貨幣和支付、考勤、市場營銷;
5、場所進出:軍事機要部門、金融機構的門禁控制和進出管理等。
門禁人臉識別
隨著人們生活水平的提高,人們更加註重家居環境的安全,安防觀念不斷加強;伴隨著這種需求的提高,智慧門禁系統應運而生,越來越多的企業、商鋪、家庭都安裝了各種各樣的門禁系統。
當前比較普遍使用的門禁系統不外乎視訊門禁、密碼門禁、射頻門禁或指紋門禁等等。其中,視訊門禁只是簡單地把視訊資訊傳送給使用者,並無多少智慧化,本質上離不開“人防”,使用者不在場時並不能絕對保障家居安全;密碼門禁最大的硬傷是,密碼容易忘記,並且容易破解;射頻門禁的缺點則是“認卡不認人”,射頻卡容易丟失及易被他人盜用;另外,指紋門禁的安全隱患則是指紋容易複製。因此,現有技術中提供的上述門禁系統均對應原因存在安全性較低的問題。安裝了人臉識別系統,只要對著攝像頭露個臉就可以輕鬆出入小區,真正實現了“刷臉卡”。生物識別門禁系統不需要攜帶驗證介質,驗證特徵具有唯一性,安全 性極好。目前廣泛的應用於機密等級較高的場所,例如研究所、銀行等。
市場營銷
面部識別技術在營銷上主要有兩方面的應用:首先,可以識別一個人的基本個人資訊, 例如性別、大致年齡,以及他們看過什麼,看了多久等。戶外廣告公司,例如 Val Morgan Outdoor(VMO),開始採用面部識別技術來收集消費者資料。其次,該技術可以用於識別已知的個人,例如小偷,或者已經加入系統的會員。這方面的應用已經引起一些服務提供商和零售商的注意。
此外,面部識別技術還可以提高廣告的效果,並允許廣告主對消費者的表現及時做出反應。VMO 公司推出了一個測量工具 DART,這個工具可以實時看出消費者眼睛關注的方向以及時長,從而可以判斷出他們對一支廣告的關注程度。下一代的 DART 還將納入更多的人口統計學資訊,除了年齡之外,還包括消費者在看一個數字標牌時的情緒。
商業銀行
利用人臉識別技術防範網路風險:對於我國廣泛使用的磁條銀行卡,雖然技術成熟,規範,但製作技術並不複雜,銀行磁條卡磁軌標準已經是公開的祕密,僅憑一臺電腦和一臺磁條讀寫器就可以順利“克隆”銀行 卡。另外製卡機銷售管理不夠嚴格。不法分子利用銀行卡詐騙案件時有發生,主要手段就是通過各種方式“克隆”或者盜用銀行卡。目前,各家商業銀行也採取了一些技術手段防止偽 造和克隆卡,如採用 CVV(Check Value Verify)技術,在生成卡磁條資訊的同時產生一組校驗值,該校驗值與每個卡片本身的特性相關聯,從而達到複製無效的功能。雖然採取了多種措施,但磁條卡本身固有的缺陷已嚴重威脅到客戶的利益。對於這些銀行網路安全問題, 我們可以利用人臉識別技術防範網路風險。人臉識別技術就是通過影象採集裝置捕捉人的臉部區域,然後把捕捉到的人臉和資料庫中的人臉進行匹配,從而完成身份識別的任務。利用人臉識別技術準確認定持卡人的真實身份,確保持卡人的資金安全。另外,還可以通過人臉識別技術進一步鎖定不法分子,有利於公安機關快速破案。
人臉識別技術在治理假鈔方面的應用:目前,我國商業銀行在自助裝置方面存在的主要問題:一是部分自助裝置安裝沒有達到要求。商業銀行的部分自助裝置安裝沒有按照公安部門的要求對裝置進行與地面加固連線; 有的電氣環境沒有達到要求:有的沒有設定 110 連動報警或者沒有可視監控報警,有的監控錄影不夠清晰,監控錄影儲存時間沒有達到規定要求等,另外裝置人為破壞現象嚴重等。二是自