“人臉識別”耳機實現!靠追蹤肌肉識別表情
用 AI 使蒙娜麗莎動起來,甚至是跟著你的表情一起運動,隨著技術的發展,這些都已經不是什麼新鮮事了。
這些面部追蹤系統,往往都需要一定精度的攝像頭。
但是,如果文摘菌告訴你,這些攝像頭其實全都可以撤掉呢?
別急著反駁,這已經被康奈爾大學的研究人員實現了,整個過程他們沒有用到過一個面對使用者正臉的攝像頭,就成功地實現了面部追蹤,至於效果,好像也沒有差到哪兒去。
按照慣例,我們還是先看看追蹤效果如何:
既然沒有用到攝像頭,那我們來試試戴上口罩的效果:
這時候可能有人想問了,不用攝像頭,怎麼追蹤到的面部表情?
文摘菌給一個提示,看到他們戴在耳朵上的儀器了嗎?是的,他們主要使用的,其實就是那副耳機,使用者的表情就能被實時轉換為表情。
這種方法比用攝像頭的 “傳統方法”更好的一點在於,即使戴著口罩,系統也可以追蹤使用者的面部表情,這樣的話人們就不用專門取下口罩了。
這個系統被取名為 C-Face(Contour-Face)。
康奈爾大學 SciFi 實驗室主任、C-Face 論文的高階作者張鋮在一份宣告中說:“該裝置比任何現有的耳掛式可穿戴技術都更簡單、更引人注目,功能也會更強大。”
“在以前的旨在識別面部表情的可穿戴技術中,大多數解決方案都需要在面部上安裝感測器,但即使用瞭如此多的感測器,不少系統最終也只能識別有限的一組離散面部表情。”
論文連結:https://www.scifilab.org/c-face
抓取 42 個特徵點,C-Face 還支援無聲命令和聊天表情傳送
在這個專案中,研究人員也不是完全沒有用到攝像頭,只不過他們用得及其隱蔽。
可能已經有 “陳獨秀”想要搶答了,注意觀察使用者的耳朵下方,左右分別配備了一個 RGB 攝像頭,這些攝像頭能夠在使用者移動面部肌肉時,記錄下臉頰輪廓的變化。
除了入耳式耳機,頭戴式耳機也同樣可以安裝攝像頭,進行面部識別工作。
在使用計算機視覺和深度學習模型重建影象後,卷積神經網路能夠分析 2D 影象,將面部特徵轉換為 42 個面部特徵點,這些特徵點分別代表了使用者的嘴巴、眼睛和眉毛的位置和形狀。
有了詳細的臉部追蹤資料,C-Face 可以將這些資料轉換成八種不同表情,包括中立或憤怒。
不僅如此,C-Face 還支援使用面部表情控制音樂應用程式上的播放選項。
手機在桌上充電,但是現在只想攤在沙發上不想動,你甚至不用說出聲音,就能播放歌曲:
或者,你在聊天的時候想要傳送表情,但是死活找不到表情包了,怎麼辦?
這個時候,你可以直接做出相關表情,系統就能識別並直接傳送出去,簡直不要太方便:
不過,由於受到新冠疫情的影響,研究人員目前只在 9 名參與者的情況下測試了 C-Face。儘管數量不大,但表情識別的準確度超過了 88%,面部提示的準確度超過了 85%。
同時,研究人員發現,耳機的電池容量限制了該系統的持續作用,他們正在計劃開發功耗更低的感測技術。
深耕於人機互動領域的華人教授張鋮
在這個專案的研發團隊中,文摘菌發現了一位華人教授的身影——張鋮,他也是這個研發團隊的負責人。
根據張鋮個人網站介紹,他目前是康奈爾大學計算機和資訊科學的助理教授,同時也是未來互動智慧計算機介面(Smart Computer Interfaces for Future Interaction,SciFi)實驗室主任。
SciFi 實驗室主頁連結:https://www.scifilab.org/
從南開大學的本科,到以中國科學院軟體研究所的優秀畢業生身份畢業,再到前往美國佐治亞理工學院 Ubicomp 實驗室繼續深造,張鋮始終對普適計算(ubiquitous computing)和人機互動(HCI)懷有濃厚的興趣。
在中國科學院期間,他就針對有形使用者介面、兒童人機互動、音樂介面等進行了初步研究,獲得了第一手的研究經驗。
在張鋮的博士論文中,他介紹了 10 種用於可穿戴裝置的新型輸入技術,有些利用了商用裝置,有些採用了新的硬體。與大多數人不同,張鋮習慣於從頭到尾建造感測系統,包括理解物理現象、構建硬體原型、設計形式因素、處理資料和設計演算法 (機器學習或基於物理的建模)。
截至目前,張鋮在人機互動和普適計算領域的頂級會議和期刊上發表了十多篇論文,還獲得了兩項最佳論文獎,同時他還身懷超過 10 項美國和國際專利。如果有同學對人機互動感興趣,可以多逛逛 SciFi 實驗室主頁,他們還有好多有意思的專案~