1. 程式人生 > >從數學的視角看社交網路

從數學的視角看社交網路

社交網路分析(SNA)是探索關係背後的科學與技術,從數學的角度看社交網路,用圖論的方法探查社交網路。在技術上,通過python 以及相關包檔案的支援,來完成可計算的社交網路(http://www.github.com/maksim2042/SNABook )。什麼是關係呢?在人際關係中,除了友誼,影響,情感,信任之外呢?關係可以是二元的,也可以被賦值,可以是對稱的,也可以是非對稱的,現實中更常見的是雙峰關係或者多模關係。基於獨立性假設,通過泊松過程或樸素貝葉斯可以建立一些模型進行統計分析,進而得到一些巨集觀結果的概率。但如果拋開獨立性假設,認為所有的關係都是潛在的相依關係,著就是圖論的用武之地。節點表示網路內的獨立行動者,邊表示行動者直接的關係,進而通過單模圖,雙模圖,多模圖來描述社交網路。數學上表示社交網路的基本方法是矩陣,但是鄰接矩陣過於疏鬆,可以採用邊列表的形式來儲存社交網路。用圖來描述社交網路,圖的距離是對圖進行量化分析的一種方法,通過圖的遍歷可以獲得資訊傳播中的最短路徑和距離。我們學過的軟體基礎來了,深度優先和廣度優先的搜尋,在NetworkX 中有現成的演算法dfs_edges 和bfs_edges.  對於非加權圖,距離意味著最短路徑;對於加權圖,距離是最低成本路徑, 而歐幾里得距離是建立在節點相似性上的。誰是社交網路中重要的人?看一個節點的邊的個數——程度中心性。程度中心性是服從冪律分佈的。誰是社交網路中的訊息傳播者?看一個節點的平均距離的倒數——親近中心性,值越大黏度越大。誰是傳播瓶頸?看每對節點的最短距離,然後歸一化處理——居間中心性,值越大越是精英群體。誰是“灰衣主教”? 相當於對程度中心性遞迴——特徵向量中心性,它是隱形的核心。google 的pagerank 演算法可以說是將中心性理念發揮的淋漓盡致,面向移動產品的PageRank 很有空間呀?對於社交網路中可分析的單元,圖論中以子圖和組元來描述。子圖是一個以某一特定節點為核心的子網路,就象linkedin中“我的網路”,分析一個網路半徑大於3的自我中心網路是一個錯誤。關係來了:1)不對稱連線,維繫不超過兩週2)對稱的連線,較穩定3)三元組隨著時間的推移是最穩定的,然而存在著禁止進入的三元組和結構洞。

有向三元組有16種可能情況,哪些命名誕生於1972年,和我差不多大了。三元組形成了子圖,最大的完全子圖就是派系。建立子圖的方法一般是分層聚類。人們的想法,態度和社會關係是由個體在群體中的身份所決定的,而群體的形成源於成員的態度。

鑑於節點的型別不同,形成了多模網路。從二模網路中可以建立隸屬網路,以及同質性網路。對於多模網路,矩陣乘法可以得出很多有價值的結論。

如果可以對移動社交網路進行模擬模擬,是一件多麼有意思的事呀? 初始化一個空的網路圖,並在其中增加n個數據型別的物件,然後迴圈遍歷每一個可能的節點之間的組合,當概率等於密度的引數的時候,將在兩個節點間新增一個連線,這種生成圖的演算法稱為Erdos-Renyi 演算法,是一種生成隨機圖的最簡單方法,併產生一個正太分佈的度分佈,但實際上多數社交網路符合一個長尾的度分佈即冪律分佈。