1. 程式人生 > >深度相機(四)--Realsense概覽

深度相機(四)--Realsense概覽

前段時間CES的報道滿天飛,網上逛了幾圈,感覺料最猛的還數Intel:老樹開新花,推出14nm的第五代酷睿處理器;在智慧可穿戴裝置及物聯網上雄起;RealSense實感技術開啟未來人機互動模式。之前總聽老哥講,滑鼠鍵盤這些傳統互動模式統治了二三十年,目前跟蹤識別爆火且技術趨於成熟,新的互動革命快要打響了。看RealSense這陣勢,估計不出三五年新的互動便會普及開來。

英特爾早在2012年左右就著重研發實感技術,當時叫Perceptual Computing,即感知計算,並開放英特爾® 感知計算軟體開發套件 2013 版(Intel® Perceptual Computing Software Development Kit, SDK 2013),設重獎舉辦因特爾感知計算挑戰賽,吸引眾多開發者參與。隨著技術完善與成熟,2014年初更名為RealSense,即實感技術,而後釋出了新的

Intel® RealSense™ SDK 2014 ,同時舉行2014英特爾®RealSense™應用挑戰賽

基於此技術的應用在IDF2014及今年CES上大放異彩。

Intel® RealSense™ SDK的架構:SDK core,I/O module和Capability modules組成整個SDK堆疊的基礎。SDK core管理I/O module和Capability modules同時組織並管理管線的執行。I/O module捕獲裝置的輸入資料而後傳送資料到輸出裝置或Capability modules。Capability modules也叫algorithm modules,主要包括各種模式檢測和識別演算法(面部跟蹤和檢測、手部跟蹤、手勢識別、語音識別及合成等)。

01

各功能:手部和手指跟蹤、面部分析、語音識別、背景移除、目標跟蹤、增強現實、3D掃描。

1. 手

SDK將手抽象出骨架,並從背景中剝離出來。允許在照相機的0.2–1.2米範圍內跟蹤手上的22個點的位置和方向,如圖。左右手是區分的,因而可以雙手進行互動。

02

手勢識別:包括靜態手勢識別和動態手勢識別。SDK中內嵌了一系列手勢如下圖。你可以用內嵌的這些手勢組合出新的手勢,也可以根據手骨架上那22個點位置創建出新的手勢。

0304

05

動態手勢識別:靜態手勢可以單獨使用,當然也可以組合使用形成一定的動作。組合時要求開始的手勢和結束的手勢都已在手勢識別系統中註冊。

06

SDK給出了一系列動作如下:

07

2.臉

臉部檢測:SDK提供精確的3D臉部檢測和跟蹤,且可以同時跟蹤4張人臉。每張人臉用長方形來標記,你可以獲得長方形的XYZ座標。與2D跟蹤相比,3D頭部跟蹤在頭部運動方面更給力。

QQ圖片20150118224438

臉部識別:SDK提供識別特定人臉的能力。特定ID對應註冊的特定人臉,並將此人臉的資訊儲存到人臉庫的記憶體中。如果同張人臉被註冊多次,那這張人臉被正確識別的機會將會增大。當沒被識別的人臉出現時,識別模組將與資料庫中的可能資料進行比對,如果找到匹配則返回此人臉對應的ID。

使用者不用擔心自己的頭像被儲存,因為儲存的只是演算法從影象中提取的特徵的集合。

頭的運動:SDK提供頭部運動的3D方向:俯仰、左右轉動、左右偏轉,如圖。

08

所以可以輕鬆獲得使用者頭部指向哪裡。也可以以此做粗略的眼神跟蹤,下一版將會推出更精細的眼神跟蹤。

標記點跟蹤:SDK提供臉部78個標記點的跟蹤以提高臉部識別和分析的精確度。在影象和座標系中給出這78個標記點的位置。臉部標記點跟蹤支援頭像建立、臉部動畫、擬態及簡單的表情識別。可以直接用這些點或這些點的相對位置來作分析。不管你有沒有劉海、戴不戴眼鏡,這種標記點跟蹤都支援。但使用者頭部在螢幕30度內效果最好。

09

面部表情識別:SDK也包括更高階的面部表情識別。這使得你建立卡通頭像更簡單。每一種表情有1到100的強度等級使得你做的動畫更平滑自然。SDK中表情:

001

情感識別:SDK中的情感識別演算法用的是2D RGB資料。情感模組是獨立的模組,並非臉部模組的一部分。為保障情感識別正常工作,影象中的人臉至少要有48×48個畫素。此演算法並不侷限於RGB資料,灰度資料同樣可行。利用SDK,你可以檢測並估計以下六種原始情感的強度。

002

頭像控制:SDK通過結合面部表情及78個標記點提供簡單的頭像控制功能。SDK提供動畫角色的示例程式碼,使你的應用可以適應任何臉型並把使用者頭像動畫化。

應用場景:

003

3. 語音

主要包括語音命令和控制、聽寫、從文字轉譯成語音等功能。只支援英語,語音識別對成年人效果最好。

語音識別:分為命令模式和聽寫模式。命令模式需提前設定命令列表,特定命令繫結特定動作。聽寫模式內建了一個通用的詞典,包括50k個常用單詞。如果你覺得不夠用,也可以自己新增詞典中沒有的單詞。聽寫模式限時30秒。命令和聽寫模式不可同時開啟。

004

語音分析:SDK也可以根據文字動態的生成語音,由女聲讀出。

005

4. 背景移除

可以實時的移除背景並替換成新的背景。

006

應用場景:

007

5. 目標跟蹤

Metaio*3D目標跟蹤模組提供基於光學的跟蹤技術,可以跟蹤視訊序列或場景中的目標物。Metaio工具箱可以訓練、建立並編輯3D模型,這些模型可以傳給各種目標檢測及跟蹤演算法。

跟蹤技術支援平面的2D目標跟蹤、基於特徵的3D跟蹤、CAD模型的基於邊界的3D跟蹤及即時3D跟蹤。

009

6. 增強現實

用音訊、視訊、影象或其他資訊來新增、增強或補充英特爾實感技術遊戲的內容。

QQ圖片20150118210357

7. 三維掃描和列印

可以掃描、編輯、列印和分享三維物體,並與 3D Systems展開合作。

000

目前因特爾已經與騰訊合作創立遊戲創新實驗室,推進實感技術,並打造了《軒轅傳奇》。與京東合作建立“京東因特爾聯合創新實驗室”,推出虛擬試衣、3D物品展示等,使實感技術落地電商平臺。同時因特爾自己也在不斷推出自己的實感技術產品。這不前兩天在北京推出其全新的第五代酷睿處理器家族,搭載此處理器的多款產品還配備了英特爾實感技術,看來這項技術很快就會遍地開花。

只要你的處理器是第四代及四代以後英特爾® 酷睿™處理器,作業系統滿足Microsoft* Windows 8.1(僅限64 bit),再外購一個英特爾® RealSense™ 3D 攝像頭就可以下載SDK玩起來。估計不久聯想、戴爾、華碩、巨集基、惠普等等搭載第五代酷睿處理器並內嵌因特爾3D攝像頭的超極本、二合一及一體機裝置就會上市,那時玩起來會更爽。

補充一點自己的實際體會:

1.基於結構光方案的深度相機,受光線影響很大,下午太陽光照進來,深度資料殘缺嚴重,這個就是所謂的鐳射散斑受強光淹沒掉了。

2.手勢識別中,靜態手勢,手型識別效果不錯。同時,對著深度相機方向的手勢運動,識別效果也不錯。但左右方向的運動手勢,效果很差。主要是視場角小,深度資料殘缺嚴重。

3.SDK可支援多個裝置同時連結 。採用一臺裝置,一個執行緒來管理維護。執行緒內部,SDK所有功能都支援。也就是多個裝置互不影響。

4.手勢識別,在20~55cm範圍內可用。其實,整體來看,只能是小範圍運動情況了。

5.手勢,採用22點骨架模型。

6.SR300是 F200的升級版。SR300近距應用,實際範圍 大概在20~150cm。R200是遠距離應用,大概是40~280cm.兩者都支援RGB([email protected][email protected]),D([email protected]),但RGB 16:9,D 4:3,蛋疼的一點是,R200 4th CPU, SR300 6th CPU....

相關推薦

深度相機--Realsense概覽

前段時間CES的報道滿天飛,網上逛了幾圈,感覺料最猛的還數Intel:老樹開新花,推出14nm的第五代酷睿處理器;在智慧可穿戴裝置及物聯網上雄起;RealSense實感技術開啟未來人機互動模式。之前總聽老哥講,滑鼠鍵盤這些傳統互動模式統治了二三十年,目前跟蹤識別爆火且技術趨於成熟,新的互動革命快要打響了。

深度學習轉--入門深度學習的一些開源代碼

姿態估計 multi 入門 nat project bic obj algorithm taf 原文作者:aircraft 原文鏈接: 沒錯這篇又是轉發的,因為覺得學習深度學習難免要從別人的代碼開始,所以就轉發了。不過轉發的時候沒找到原作者是誰,所以原作者看到不要

深度學習 Keras利用CNN實現圖片識別Mnist、Cifar10

視覺集        視覺資料庫是用來提供給圖片識別領域用素材,目前各個教材常用的主要有手寫數字識別庫、10中小圖片分類庫,詳細介紹如下: Mnist       &

深度學習卷積神經網路入門學習(1)

卷積神經網路入門學(1)作者:hjimce卷積神經網路演算法是n年前就有的演算法,只是近年來因為深度學習相關演算法為多層網路的訓練提供了新方法,然後現在電腦的計算能力已非當年的那種計算水平,同時現在的訓練資料很多,於是神經網路的相關演算法又重新火了起來,因此卷積神經網路就又活

深度學習——目標檢測演算法YOLO的訓練和檢測過程的基本思路介紹

      基礎知識掌握情況決定研究的高度,我們剛開始接觸深度學習時,一般都是看到別人的概括,這個方法很好能讓我們快速上手,但是也有一個很大的缺點, 知識理解的不透徹,導致我們對演算法優化時一頭霧水。我也是抱著知識總結的思想開始自己的深度學習知識精髓的探索,也希望能從中幫助到

深度學習1——深度學習卷積神經網路入門學習(1)

卷積神經網路入門學(1) 轉載自:hjimce的專欄 - 部落格頻道 - CSDN.NET 原文地址:http://blog.csdn.NET/hjimce/article/details/47323463 作者:hjimce 卷積

Spring原始碼深度解析容器的基礎XmlBeanFactory

現在我們已經對Srping的容器有了一個大概的瞭解,儘管很多地方還很迷糊,但是不要緊,下面我們開始探討每個步驟的詳細實現。接下來我們要深入分析以下程式碼的實現: BeanFactory bf = new XmlBeanFactory(new ClassPathResourc

深度學習環境配置 Ubuntu Server 16.04.1 LTS 安裝步驟 tensorflow 安裝

Ubuntu Server 16.04.1 LTS 安裝步驟  1.下載ISO光碟映象檔案 http://www.ubuntu.com/download/server  2.點選下載後進入http://www.ubuntu.com/download/server/insta

Spark (Python版) 零基礎學習筆記—— Spark概覽

結合了《Learning Spark: Lightning-Fast Big Data Analysis》和官方2.02版本的Spark Document總結了關於Spark概念性的一些知識。幫助大家對Spark有一個總體上的認知 一、Spark的兩個核心概念

深度相機--三種方案對比

RGBD方案對比: 關鍵技術規格: 1.檢測範圍; 2.檢測精度; 3.檢測角度; 4.幀率。 5.模組大小 6.功耗 目前主流的深度攝像頭方案在檢測距離上、精度、檢測速度上相差不大,區別在於: 1、結構光方案優勢在於技術成熟,深度影象解析度可以做得比較

深度學習卷積神經網路Lenet-5實現

卷積神經網路Lenet-5實現 作者:hjimce 卷積神經網路演算法是n年前就有的演算法,只是近年來因為深度學習相關演算法為多層網路的訓練提供了新方法,然後現在電腦的計算能力已非當年的那種計算水平,同時現在的訓練資料很多,於是神經網路的相關演算法

深度學習——RNN, LSTM, 神經元啟用函式進階

詞向量 word2vec/doc2vec的缺點(續) 2.雖然我們一般使用word2vec/doc2vec來比較文字相似度,但是從原理來說,word2vec/doc2vec提供的是關聯性(relatedness),而不是相似性(similarit

深度相機--OpenNI及與Kinect for windows SDK的比較

OpenNI(開放自然互動)是一個多語言,跨平臺的框架,它定義了編寫應用程式,並利用其自然互動的API。OpenNI API由一組可用來編寫通用自然互動應用的介面組成。OpenNI的主要目的是要形成一個標準的API,來搭建視覺和音訊感測器與視覺和音訊感知中介軟體通訊的橋樑

深度相機---1TOF總結

1.1 TOF初探TOF是Time of flight的簡寫,直譯為飛行時間的意思。所謂飛行時間法3D成像,是通過給目標連續傳送光脈衝,然後用感測器接收從物體返回的光,通過探測光脈衝的飛行(往返)時間來得到目標物距離。這種技術跟3D鐳射感測器原理基本類似,只不過3D鐳射感測器

系統學習深度學習 --CNN原理,推導及實現原始碼分析

之前看機器學習中,多層感知器部分,提到可以在設計多層感知器時,對NN的結構設計優化,例如結構化設計和權重共享,當時還沒了解深度學習,現在看到CNN,原來CNN就是這方面的一個代表。CNN由紐約大學的Yann LeCun於1998年提出。CNN本質上是一個多層感知機,其成功的原

【計算機視覺】深度相機--TOF總結

TOF技術採用主動光探測方式,與一般光照需求不一樣的是,TOF照射單元的目的不是照明,而是利用入射光訊號與反射光訊號的變化來進行距離測量,所以,TOF的照射單元都是對光進行高頻調製之後再進行發射,比如下圖所示的採用LED或鐳射二極體發射的脈衝光,脈衝可達到100MHz。與普通相機類似,TOF相機晶片前端需要一

深度相機---5深度相機應用

深度相機的應用在智慧人機互動、人臉技術、三維重建、機器人、AR等領域全面開花,目前商用深度相機最成熟的應用就是移動終端上基於人臉技術的多種有趣應用。人臉技術二維人臉技術發展了幾十年雖然已經比較成熟,但是人臉關鍵點檢測在各種大角度、多表情、複雜光照、面部遮擋等情況下,想要實現實

C#中的深度學習:使用Keras.NET識別硬幣

在本文中,我們將研究一個卷積神經網路來解決硬幣識別問題,並且我們將在Keras.NET中實現一個卷積神經網路。 在這裡,我們將介紹卷積神經網路(CNN),並提出一個CNN的架構,我們將訓練它來識別硬幣。 什麼是CNN?正如我們在本系列的前一篇文章中提到的,CNN是一類經常用於影象分類任務的神經網路(NN),比

計算機視覺方向簡介 | 深度相機室內實時稠密三維重建

本文首發於公眾號:計算機視覺life。原文連結點這裡 有什麼用? 室內場景的稠密三維重建目前是一個非常熱的研究領域,其目的是使用消費級相機(本文特指深度相機)對室內場景進行掃描,自動生成一個精確完整的三維模型,這裡所說的室內可以是一個區域,一個房間,甚至是一整棟房屋。此外,該領域

基礎算法——深度優先搜索

英文 起點 left 問題 思路 基礎算法 區別 邊界條件 logs 一般情況下,深度有限搜索也適用於圖的遍歷,英文縮寫為DFS即Depth First Search.其過程簡要來說是對每一個可能的分支路徑深入到不能再深入為止,而且每個節點只能訪問一次。 【重點】BFS和D