1. 程式人生 > >資料預處理——資料視覺化的常用方法

資料預處理——資料視覺化的常用方法

  • 基於畫素的視覺化技術:每一維度建立一個視窗,記錄的m個維值對映到m個畫素,畫素顏色的深淺代表著對應的值。缺點在於對於我們理解多維空間的資料分佈幫助不大。

       從該圖中,可以發現:income與credit_limit為一個正相關,而與age沒有半毛錢的關係。

       若想通過二維圖形表示多維的資料,可以考慮使用空間填充曲線,如希爾伯特曲線、格雷碼、z-曲線。       

  • 幾何投影的視覺化技術:主要是採用散點圖。散點圖有二維、三維或者更高維度。

這是二維下的散點圖:

上圖中,有四個維度,其中點的大小和顏色各自代表了其中一維。

這是三維散點圖:

我們也可以採用散點圖矩陣的方法:對於n維資料集,散點圖矩陣是二維散點圖的n✖️n網格,提供每個維度與其他維度的視覺化。如下圖所示:

  • 基於圖符的視覺化技術:這種技術比較有意思,採用圖形一些細節的不同來展示多維的資料。

這裡介紹兩種,第一種是切爾諾夫臉。意思就是臉部的每一個細節,諸如眼、耳、口、鼻等,用其形狀、大小、位置、方向表示維的值。

第二種是人物線條畫。這是把多維資料對映到五段人物線條畫上。五段即四肢和軀幹,每一個小人代表著一行資料,兩個維對映到x和y軸,而其餘維對映到四肢角度和長度。

  • 層次視覺化:當在多維度下,如何直接視覺化多個維是視覺化技術一直關注的問題。層次視覺化被稱作“世界中的世界”,它的基本繪圖方法是:假如有六個維度為x1,x2,x3,x4,x5,x6,我先固定x4,x5,x6,將x1,x2,x3用一個三維座標圖並表示出來,對每個點(a,b,c)又構建一個以x4,x5,x6為座標的三維圖。