Uncertainty-aware visual analytics for exploring human behaviors from heterogeneous spatial temporal
作者
北京大學機器感知與智慧教育部重點實驗室
- Siming Chen
- Xiaoru Yuan
奇虎360
- Zuchao Wang
悉尼科技大學
- Jie Liang
摘要
在分析人類行為時,我們需要從多個數據源構建人類行為,例如軌跡資料、交易資料、身份資料等。我們面臨的問題是資料衝突、解析度不同、資料缺失和衝突,這些問題共同導致了時空資料的不確定性。資料中的這種不確定性導致用於分析人的行為、模式和異常值的視覺化分析任務的困難甚至失敗。然而,傳統的自動化方法不能解決這種複雜場景中的問題,在這種場景中,不確定和衝突的模式沒有很好地定義。為了解決這些問題,我們提出了一種半自動的方法,供使用者解決衝突和識別不確定性。總的來說,我們總結了五種型別的不確定性和解決方案來執行行為分析任務。結合不確定性感知方法,我們提出了一個視覺化分析系統來分析人類行為,檢測模式和發現異常值。來自 IEEE VAST 挑戰賽 2014 資料集的案例研究證實了我們方法的有效性。
Introduction
面對異構資料,我們可以採用視覺化分析來了解人們的行為,發現模式並檢測異常事件。
結合不確定性感知方法,我們提出了一個視覺化分析系統,用於從異構資料中支援人類時空行為分析。
在本文中,我們報告了我們在視覺化空間資料分析中識別的不同型別的不確定性,並演示了我們如何使用半自動方法對其進行優化。一般來說,我們的方法是資料驅動的可靠性改進方法。
在整個工作中,我們使用了來自 IEEE VAST 挑戰賽 2014 迷你挑戰賽 2 的虛擬資料集。結合不確定性感知方法,我們提出的視覺化分析系統能夠總結一組人的一般運動模式,並幫助分析師檢測異常事件,具有各種視覺化檢視和多個過濾器。
Contribution
- 半自動不確定性細化方法: 我們總結歸納了五種常見的不確定性,並針對每種不確定性提出了新的解決方案。為了解決定義不明確的不確定性問題,我們結合了使用者的能力和演算法方法,並允許人蔘與分析迴圈。
- 感知不確定性的視覺分析系統: 我們開發了一個全面的視覺分析系統,結合了非確定性感知方法和多個協調的視覺化檢視,從而為理解人類行為和檢測有趣的模式和異常值提供了完整的解決方案。
Related Work
行為分析通常側重於模式提取,關係識別和人群聚類
以前在時空視覺分析方面的工作主要是針對規則密集取樣的全球定位系統資料。我們提供了時空聚合和過濾技術,更重要的是,我們處理異構的時空資料,這些資料本身就具有衝突和不確定性。
在行為分析中,資料通常是不完美的,包含許多不確定性。資料中存在各種錯誤、資料丟失和衝突,在進行任何分析之前,都應該正確處理。
Uncertainty taxonomy
這五種不確定性來源於對異構時空資料的分析。第一,資訊缺失直接導致識別物件的資訊缺失。第二,衝突表示異構資料集中儲存了衝突的描述,以表示相同的已識別物件。例如,我們可能會發現同一個人同時出現在兩個不同的地點的情況。這種不確定性是由資料衝突造成的。第三,不確定性中的粒度問題是資料集物件描述的解析度不同。對於一個事件,我們可能同時擁有日級和秒級描述。第四,多重價值導致不確定性,因為缺乏區分價值的資訊。例如,在一個位置,有多個商店。從具體位置來看,僅根據空間資訊很難確定確切的商店。最後,錯誤降低了資料的可信度,並導致不確定性。例如,全球定位系統軌跡記錄可能會因為記錄的傳輸、編碼和解碼過程而出錯。通過四個物件的五種型別的不確定性,我們用應用資料說明了代表性的不確定性,並在下面的部分給出了相應的解決方案。
Uncertainty illustration
在本節中,我們首先描述我們使用的資料。然後介紹了資料融合方法和視覺化分析系統,這是不確定性處理和分類的基礎。
- POI Uncertainty
- Temporal Uncertainty
- Transaction Attribute Uncertainty
- Location Uncertainty
- Identity Uncertainty
Visual analytics system
我們的視覺分析系統將不確定性感知方法與完全互動式的探索功能相結合。我們的系統可以使使用者從異構的時空資料來源中找到可靠的資訊、檢測模式和發現問題
使用者可以應用時空過濾來探索資料。地圖檢視顯示了 poi 和 GPS 軌跡的位置(圖 9a)。每個興趣點由一個多邊形表示,顏色編碼興趣點類別。每個 GPS 軌跡都表示為一條折線。使用者可以在地圖上應用空間過濾器來選擇通過單個或多個區域的 GPS 軌跡。時間線檢視顯示了全球定位系統記錄的時間分佈(圖 9b)。使用者可以在時間軸上應用時間過濾器來選擇單個或多個時間範圍內的 GPS 軌跡。在探索中,使用者可以在一個時間範圍或時間段內過濾興趣點,以進行進一步的模式分析。
實體檢視顯示了僱員的名單(圖 9c)。使用者可以直接選擇列表中的人。詳細事件檢視顯示了一名員工的整個事件序列(圖 9d)。資料描述部分已經提到了該功能。使用者可以首先分析事件序列中的基本日常模式。基於匯出的規則模式,為每個單獨的運動提供自動異常檢測(圖 7)。然而,由於人們會有諸如去超市或公園等特殊事件,自動方法會產生許多錯誤警報。這不一定是可疑事件。因此,我們使使用者能夠在空間、時間和事件檢視中探索人的行為。基於異常提示,使用者可以發現可疑事件,包括深夜外出、工作時間缺勤、卡被盜事件等。此外,我們支援多個人的行為比較,以獲得更復雜的模式發現。事件時間線顯示多個員工在選定時間範圍內的事件子序列(圖 9e)。主要用來比較/關聯不同人的行為。結合其他觀點,我們發現一些有趣的行為,如聚會、汽車-人與人之間的分享和其他不正常的關係等。
基於感知不確定性的視覺分析系統,使用者可以通過互動式探索找到可靠的模式和事件。
System implementation
我們的系統是在客戶-伺服器架構下開發的。客戶端用 HTML5/Javascript 構建,伺服器端服務用 Python 和 MongoDB 實現。
Evaluation
我們從兩個方面評估了我們提出的感知不確定性的視覺化分析方法。首先,我們將我們的方法與純計算方法進行比較,並說明我們的優勢。其次,我們用一個案例來說明使用者如何在處理不確定性後成功地找到事件。
我們討論了我們的方法與假定的不確定性挖掘方法的比較部分。一開始,我們使用純自動演算法,發現有幾個問題。特別是,對於某些情況,純演算法無法工作,因為它需要高水平的人類判斷。
- POI detection.
- Temporal error and mismatching
- Transaction attributes missing and conflicts
- Location conflict, shift and errors
- People information identity
case study - people behavior analysis
Discussion
我們提出了一種感知不確定性的視覺化分析方法來處理多個時空資料來源。通過互動和演算法方法,使用者可以識別和細化資料的不確定性,由於定義不明確的不確定模式,這是一項具有挑戰性的工作。這樣的過程需要語義理解。例如,異常訪問模式可以用大量的假警報來檢測。一個人可能去超市不是那麼規律,這可以被檢測為異常行為。但是,在語義層面,去超市是很正常的行為。此外,對於具有多個數據源和屬性的場景,這些演算法不容易找到精確的解,這需要人的參與。在複雜的資料分析場景中,資料驅動的方法工作得更好,因為沒有用於分析任務的現有模型。
儘管新穎而強大,但當前的不確定性感知方法仍然存在侷限性。我們可以通過更直觀的操作和自動匹配的方法來改進手動操作部分。它可以進一步提高我們方法的效率。在未來,我們還設想為不同的資料來源測試我們的技術。應使用更大規模的資料集進一步評估系統的可擴充套件性。在現階段,我們還沒有做正式的使用者研究。我們設想在未來進行一項使用者研究。
我們學到的最大教訓是,我們需要在不確定性下推理。我們不應假設資料中沒有歧義、錯誤或衝突。我們認為,我們應該在意識到不確定性的情況下分析資料。另一方面,在識別不確定性時,我們需要了解不同的型別,並注意不確定性會在整個視覺化分析管道中傳播。
Conclusion
在這篇文章中,我們提出了一個不確定性感知的視覺分析系統,從異構時空資料中研究人類行為。我們總結了五種有代表性的不確定性型別及其細化方法。提出了一種資料驅動的方法,我們通過視覺化介面充分利用人類的判斷。通過多種來源的交叉驗證,我們可以進一步提高細化結果的可靠性。基於細化結果,我們能夠識別行為分析的模式和事件。