Magnostics Image-based Search of Interesting Matrix Views for Guided Network Exploration(一種基於網絡信息矩陣圖像的網絡探索方法)
網絡、關系等數據變成如圖的鄰接矩陣時(紅色代表兩個節點也就是人,之間有聯系),但是得到的矩陣會因為順序的問題而出現不同的排列方式,在第一種中會發現因為有聚集的塊狀區域而很容易地把數據分為兩個部分,然後根據數據的具體含義而得知其代表的意思,在此圖中可以看出是兩個集團。
當分析數據時候,把它轉換成矩陣的形式,並運用一些矩陣重排序算法將矩陣變形,變成特定的圖案pattern。而現在希望基於圖像來查詢哪些變形好的矩陣屬於同一種pattern。
當前的數據量特別大,數據維度特別多,樣式復雜多變,對於探測特定的圖像pattern,很難用肉眼去識別一個圖案是不是屬於一種pattern。當前基於矩陣的圖像識別的圖像feature特別多,沒有一個明確的標準去評定哪種圖像特征適合去識別哪種圖像的pattern
二.貢獻
6種用於檢測特定pattern的feature
4種用來衡量feature檢測結果的評分標準
補充了可視化分析中基於特征的分析的工具
三. 實驗
- 選取feature
作者選取了常用的27種用於描述圖像的feature,並新定義了3種feature(下圖中紅色為新定義的feature)。
- 構造數據
作者選取了要探測的6種pattern,並加入4種變化方式,進行組合
6種pattern:
4種變化:
A)Variations
同一種pattern的不同表現形式
B) Point Swap
隨機交換其中的點,分為0, 1, 2, 4, 8, 16, 32的百分比的情況,32%的情況分辨不出其所屬的pattern(此時為Noise)
C)Index Swap
隨機交換兩行或兩列,在這裏為0-10次隨機交換
D)Masking
添加額外的點,(0% to 16%)
- 生成向量
對於每一個矩陣和一個feature,都可以看成是一個向量,並計算之間的歐幾裏得距離,同一個feature的向量之間距離越近可以認為兩個pattern十分相近。
- 標準分析
根據向量的距離進行分析,通過作者定義的4種衡量標準。
a)?0?2?0?2?0?2?0?2?0?2?0?2?0?2C1評分標準1
用來評估,一個feature能否把pattern從噪音(Masking)中區分出來,下圖中顏色越深代表其評分越高,滿分為1。為0或打叉的表示其在此種變化時並沒有實際的意義,不需要進行測試。
b)?0?2?0?2?0?2?0?2?0?2?0?2C2評分標準2
用來評估,一個feature對於同一種pattern的不同表現形式的區分程度,如果向量間距離越大,說明可以有效的區分。
圖片表示對於同一張pattern的不同表現形式(種類) 的矩陣與feature組成向量的距離差,顏色越深表示距離越近。
下圖中顏色越深表示其C2的評分越高,滿分為0.5
c)?0?2?0?2?0?2?0?2?0?2?0?2?0?2C3評分標準3
用來評估,一個feature對於同一種pattern添加噪音(Point Swap, Index Swap)之後的區分程度,也是對於噪音的敏感程度,越不敏感說明效果越好。
上圖橫坐標表示噪音的添加率,縱坐標表示和原pattern向量的距離。黑色的點代表pattern不同表現形式的向量和原pattern向量的距離,紅色點表示平均距離,此圖表示對於噪音的添加,距離的增長並不快。所以敏感程度很低,C3評分越好
上圖可以看出距離的增長很快。所以敏感程度很高,C3評分越不好
此圖可以看出距離的增長不是很快。
但是和第一個圖比較,雖然敏感性不如它好,但是對於pattern的表現變化區分的很快,也就是圖中的黑點。所以C3評分不如第一個圖,但是C2評分高於它
此圖可以看出對於噪音的增加,距離是一個逐漸增大的趨勢,趨勢越慢說明抗噪音程度越好。
上圖為C3的評分,顏色越深表示抗噪音幹擾的強度越高
d)?0?2?0?2?0?2?0?2?0?2?0?2C4評分標準4
用來評估,一個feature把pattern分別出來的能力,C1表示從噪音模式中區分。把所有的向量兩兩作差取平均值,來判斷對於不同的pattern,他們之間的距離是否距離的比較遠,可以進行區分。
下圖表示模式之間距離的遠近,也就是區分pattern能力的大小,盒須圖整體越高的代表其區分能力越大,紅色的feature的區分能力很強,C4的評分越高。
五.實驗總結
評分標準中,C1,C4為主要評分標準,C2,C3要根據具體的feature的含義特點進行加權處理與取舍。
下圖表示feature的C1(藍色),C2(紅色),C3(棕色)的評分,黑色點越多,代表其評分在C1、C2或C3上,所以得feature中的排名越高。圖中的框選的feature代表最後作者所選的6種feature
Magnostics Image-based Search of Interesting Matrix Views for Guided Network Exploration(一種基於網絡信息矩陣圖像的網絡探索方法)