1. 程式人生 > >【轉載】使用 IBM SPSS Modeler 進行社交網路分析

【轉載】使用 IBM SPSS Modeler 進行社交網路分析

背景知識:社交網路分析、資料探勘、IBM SPSS Modeler

社交網路分析是人、組織、計算機或者其他資訊或知識處理實體之間的關係和流動資訊的對映和測量。圖 1 是社交網路的一個示意圖,其中的節點表示人、組織、計算機或者其他資訊或知識處理實體;連線表示節點之間的關係或資訊流動。資訊流動的方式有很多,比如郵件,電話,簡訊,部落格,等等。假設 A 經常與 B 和 C 通電話,通過分析 A 的電話 ID 記錄,可以構築出圖 1 中的簡單社交網路。從此圖中我們可以看出 A, B, C, 三人 中,A 具有較強的影響力。如果 A 獲得了正面或者負面的訊息,這訊息會很快傳遞給 B 和 C。而 B 與 C 之間的影響力是間接的,只能通過 A 來傳播。


圖 1. 社交網路示意圖
圖 1. 社交網路示意圖

隨著節點和連線的增加,社交網路的複雜程度迅速提升。圖 2 展示了一個較為典型的社交網路。大型和超大型的社交網路的處理是手工分析方式無法完成的。在過去的二十年中,社交網路分析領域的快速發展,很大程度得益於計算機計算能力的提升和各種資料探勘方法的發展。


圖 2. 一個典型的社交網路
圖 2. 一個典型的社交網路

資料探勘 (data mining) 是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。從商業角度去定義,資料探勘是一種新的商業資訊處理技術,其主要特點是對商業資料庫中的大量業務資料進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性資料。在技術上可以根據它的工作過程分為:資料的抽取、資料的儲存和管理、資料的展現等關鍵技術。


圖 3. 資料探勘
圖 3. 資料探勘

被譽為第一資料探勘工具的 IBM SPSS Modeler( 原名 Clementine) 是 IBM SPSS 的核心挖掘產品,它擁有直觀的操作介面,自動化的資料準備,和成熟的預測分析模型。使用它,企業可以將資料分析和建模技術與特定的商業問題結合起來,找出其他傳統資料探勘工具可能找不出的答案。


圖 4. IBM SPSS Modeler 的操作介面
圖 4. IBM SPSS Modeler 的操作介面

回頁首


IBM 兩種社交網路分析的演算法原理

社交網路分析(SNA)是 Modeler 15 增加的一個新功能。目前有兩種演算法支援這個功能,分別稱作 GA 和 DA。GA 全稱 Group Analysis, 是一種基於群體的分析方法。DA 全稱 Diffusion Analysis,著眼於計算一些人的行為對網路中其他人的衝擊強度。在 Modeler 15 中這兩個演算法以兩個源節點的形式出現,如圖 5 所示。


圖 5. GA 和 DA 在 Modeler 15 中以兩個源節點的形式出現
圖 5. GA 和 DA 在 Modeler 15 中以兩個源節點的形式出現

下面我們簡單介紹一下兩者的演算法原理。假設我們有過去半年裡某地區的電話清單,資料量在百萬到千萬條左右。資料記錄了打電話的人和接收的人,如圖 6 所示。


圖 6. GA 和 DA 的輸入資料 – 電話清單舉例
圖 6. GA 和 DA 的輸入資料 -- 電話清單舉例

GA 收到這些資料後,會進行如下的分析:


根據共有鄰接節點的數量,量化各個節點(也就是張三、李四、王五。。。)之間聯絡的強度;
保留高強度的聯絡,去除低強度的聯絡。進行此步驟後,社交網路會退化成幾個內部聯絡多、外部聯絡少的次網路,以及很多孤立的節點。每個次網路對應一個群體(group),稱為這個群體的核 (kernel);
把那些孤立的節點連到距離他們最近的群體去。上一步裡暫時去除的低強度的聯絡,在這一步發揮了主要作用;
對各個群體以及群體裡的個體進行分析畫像,例如評估群體內每個個體的地位,找出“領袖”,計算群體密度,等等。這些特性將用於後繼應用中,下一節的例項中會進一步展示。

相比之下,DA 的演算法原理要更簡單一些。DA 不會將網路分成群體,而是在原網路上進行計算。DA 著眼於計算一些人的行為對網路中其他人的衝擊強度。

收到如圖 6 的資料後,DA 會構築一個有向加權網路,如圖 7 所示。網路中的節點代表人、組織、計算機或者其他資訊或知識處理實體;連線表示節點之間的關係或資訊流動;連線的方向表示了關係的主動被動方,或者資訊流動的方向(通常為雙向,圖 7 省略了此內容)。

DA 還需要有行為發生的人的名單。這裡的行為可以是從公司辭職,更換手機服務商,試用了某種產品,等等。這些人被稱作“初始擴散點”(Initial diffusing seeds),由圖 7 中的紅色節點表示。接下來,設定初始擴散點的衝擊強度,然後採用衰敗擴散過程就可以估計出其他節點所受到的衝擊大小。


圖 7. DA 演算法解析
圖 7. DA 演算法解析

回頁首


社交網路分析例項:客戶流失預警和病毒式營銷
客戶流失預警

最近二十年中,行動通訊成為占主導地位的通訊介質。在許多國家,特別是發達國家,市場規模已達到飽和的程度,新客戶的獲得主要靠從競爭對手那裡贏得。同時,公共法規和行動通訊的標準化,讓客戶可以輕鬆地從一個運營商換到另一個,令市場極不穩定。由於贏得一個新客戶的成本遠遠高於維護一個現有客戶的成本,移動運營商更加重視客戶保留的問題。因此,客戶流失預警已成為一個關鍵的移動商務智慧(BI)應用程式。

傳統的客戶流失預警解決方案直接採用資料探勘技術,根據客戶的呼叫模式(通常由數百個變數描述)構建客戶檔案,然後基於某些代表性屬性預測客戶的流失概率。可用於建模的資料來源有很多,包括使用歷史,結算,付款,客戶服務,應用程式,和信用卡資料。

社會網路分析可以補充和加強傳統的解決方案,使運營商能更根據“早期預警”,更有效地找出潛在的流失客戶,提高保留率。例如,一個客戶的親密朋友流失,社會網路分析會及時推斷出這個客戶很可能是潛在的流失目標。而傳統的解決方案尋找潛在流失目標時,需要等到這個客戶有顯著的變化(例如減少支出,預付費卡,不充電等)- 這種時候,她的流失很可能已經無法挽回了。


使用 GA 進行客戶流失預警例項分析

圖 8 至圖 10 演示了一個用 GA 進行客戶流失預警的例項。在圖 8 中,GA 源節點接收到一個如圖 6 所示的 CDR 原始檔。為方便起見,我們將 GA 源節點的名字直接顯示為 CDR 原始檔的名稱 Demo_CDR. GA 源節點使用 GA 演算法進行群體的劃分,並計算出基於群體的各種特性值。完成對原始檔的分析計算後,計算結果以資料檔案的形式被保留在 Demo_GA_KPI。


圖 8. Modeler 流:用 GA 源節點生成特性資料
圖 8. Modeler 流:用 GA 源節點生成特性資料

圖 9 展示了圖 8 中 GA 源節點對其接收到的 CDR 原始檔的分析結果。圖的左側是關於群體和個體特徵的簡單統計資訊,而右圖給出了對應特徵更加詳細的統計描述。使用者可以據此瞭解群體分析的結果,從而修改相關引數以實現最理想的群體劃分和畫像。


圖 9. 用 GA 源節點生成的特性資料
圖 9. 用 GA 源節點生成的特性資料

在圖 10 中,我們將利用 GA 分析結果進行建模,用於預測每個客戶所在群體的流失風險。我們用之前由 GA 源節點所產生的資料檔案 Demo_GA_KPI 作為源節點。另外,我們還需要一份已流失客戶名單 Demo_GA_churner。如果一個組裡已流失客戶佔總客戶的比例達到一定程度,我們就認為這個群體為流失高危群體,否則為低危群體。圖 10 中左下側的模型以流失高 / 低危群體作為目標變數,用 Demo_GA_KPI 裡所包含的群體特徵值,以及通過對個體特徵值的處理得到的輔助群體特徵為預測變數,採用 CHAID 演算法進行建模。


圖 10. Modeler 流:用 GA 源節點生成特性資料和已流失客戶名單建模,量化預測各個群體的流失風險
圖 10. Modeler 流:用 GA 源節點生成特性資料和已流失客戶名單建模,量化預測各個群體的流失風險

群體的流失風險對於群體中個體的流失與否是一個非常重要的參考因素。另外,個體在群體裡的角色,地位,等等因素也在一定程度上影響著個體的流失風險。鑑於此,我們將所有這些因素作為預測個體流失的變數,從而得到預測個體流失的模型,如圖 10 右側的流所示。

需要注意的是,在上述建模過程中我們僅僅使用了使用者通話記錄和客戶流失記錄就可以預測群體以及個體的流失風險。然而通常情況下,我們可以有更多的關於使用者人口統計學和消費行為的資料,而這些資料將極大的提升客戶流失預測的精度。


使用DA進行客戶流失預警例項分析

與 GA 不同,DA 源節點不僅需要一個如圖 6 所示的 CDR 原始檔,還需要一個“初始擴散點”(Initial diffusing seeds) 的檔案,也就是流失客戶的名單。

DA 源節點使用 DA 演算法進行擴散分析,從而計算出網路中個體受到初始擴散點的衝擊強度。衝擊強度的大小將直接影響著個體的流失風險。DA 輸出的特徵以資料檔案的形式儲存下來,並可在隨後應用於生成圖表或建立模型。圖 12 集中展示了使用 DA 源節點產生的特性檔案生成分析圖表的一個典型資料流。


圖 11. Modeler 流:用 DA 源節點生成的特性資料量化預測客戶流失風險
圖 11. Modeler 流:用 DA 源節點生成的特性資料量化預測客戶流失風險
病毒式營銷

病毒營銷是營銷技術的一種。它利用社交網路提升品牌知名度或實現其他目標(如產品銷售)。具體的方式是發起人給一些使用者發出產品的最初資訊,再依靠使用者自發的口碑宣傳,“讓大家告訴大家”,使其廣泛傳播。因為它的傳輸策略是利用快速複製的方式將資訊傳向數以千計、數以百萬計的受眾,類似於自然病毒和電腦病毒,所以被經濟學家稱為病毒營銷。

採用群體分析和擴散分析技術,我們可以設計出一個更為精緻的病毒性營銷策略。我們會識別出群體中的“領袖人物”:那些對周圍人影響力大的人,將產品資訊釋出給他們。藉助這些人的影響力,產品的資訊可以更為有效的在社交網路中傳播。我們還可以通過擴散分析技術去量化評估資訊傳播的效果。比如,takingtaking 推出新產品,我們可以做如下的工作:


通過 GA 進行網路分析,發現領袖人物。
針對網路中的領袖人物釋出產品資訊,促使他們支援和推薦新產品。
選擇網路中的領袖人物作為初始傳播種子,通過 DA 進行擴散分析,估算網路中其他個體購買新產品的可能性。
針對擴散分析預測出的最有可能購買新產品的客戶,營銷人員進行進一步的推銷工作,使得新產品市場匯入成功率明顯改善。

回頁首


總結

本文介紹了 Modeler 中兩種 SNA 模組 GA 和 DA 的演算法原理 , 並講解了它們在客戶流失預警和病毒式營銷兩種典型應用。

應用於客戶流失預警時,GA 以海量的通話記錄為輸入,構建出社交網,然後將其分解為群體,計算出包括群體領袖在內的一系列特徵值,用於後續建模。DA 則根據海量通話記錄和流失客戶名單直接在社交網路上對其他客戶所收衝擊進行分析。

GA 和 DA 可以結合起來應用於病毒式營銷的籌劃和分析。其中 GA 用於發現社交網路中具有強大影響力的個體,而 DA 用於評估出最有可能購買新產品的客戶。

值得一提的是,GA 和 DA 提供的一系列特徵可以和傳統的特徵無縫連結。新特徵的引入有助於提高基於傳統特徵的模型的效能。這一點在我們做過的很多試點專案中得到驗證。另外,我們也期待隨著社交網路這一新興事物的發展,GA 和 DA 能夠在更多的領域得到應用。

相關推薦

轉載使用 IBM SPSS Modeler 進行社交網路分析

背景知識:社交網路分析、資料探勘、IBM SPSS Modeler社交網路分析是人、組織、計算機或者其他資訊或知識處理實體之間的關係和流動資訊的對映和測量。圖 1 是社交網路的一個示意圖,其中的節點表示人、組織、計算機或者其他資訊或知識處理實體;連線表示節點之

轉載C語言中的static 詳細分析

          google了近三頁的關於C語言中static的內容,發現可用的資訊很少,要麼長篇大論不知所云要麼在關鍵之處幾個字略過,對於想挖掘底層原理的初學者來說參考性不是很大。所以,我這篇博文博採眾家之長,把網際網路上的資料整合歸類,並親手編寫程式驗證之。    

轉載雲端計算背景下計算機網路安全問題

摘要:隨著計算機網路的不斷髮展,計算機網路安全問題尤為突出。雲端計算背景下的計算機網路安全問題需要得到足夠的重視和妥善的解決。因此,我們應當認真分析雲端計算背景下計算機網路面臨的安全風險以及計算機網路安全問題的危害,並制定有效的應對措施,保證雲端計算背景下的計算

IBM SPSS Modeler 6 建立決策樹

SPSS 資料探勘方法概述——關聯、決策樹 本實驗是基於關聯和決策樹在資料探勘中的應用。通過該實驗,能夠客觀實際地理解關聯分析和決策樹的相關知識。 首先進行的是關聯分析,之後利用關聯分析的資料建立一個

學習Python進行數據提取的方法總結轉載

多個 pandas flow cells nump 特定 blue 和數 index 鏈接:http://www.jb51.net/article/90946.htm 數據提取是分析師日常工作中經常遇到的需求。如某個用戶的貸款金額,某個月或季度的利息總收入,某個特定時間段的

轉載IntelliJ IDEA配置JUnit進行單元測試

dbd ima pom.xml format height eight nsh 格式 oot 前提條件 安裝JDK,並配置好環境變量 工程已解決JUnit依賴關系(pom.xml) IDEA中JUnit配置 IDEA自帶一個JUnit插件,打開Settings窗口搜

轉載對BP進行增強後(螢幕欄位擴充)後,如何通過BAPI建立BP

建立BP成功後,直接呼叫更改客戶的一般資料 函式進行更改,注意幾個輸入引數。         CALL FUNCTION 'SD_CUSTOMER_MAINTAIN_ALL'  &nbs

IBM-AIX系統使用基本命令轉載

  核心 1、如何知道自己在執行 32 位核心還是 64 位核心?   要顯示核心啟用的是 32 位還是 64 位,可輸入以下命令: #bootinfo -K 2、如何知道自己在執行單處理器還是多處理器核心?

轉載python如何對資料庫進行操作--操作參考

先花點時間來說說一個程式怎麼和資料庫進行互動 1.和資料庫建立連線 2.執行sql語句,接收返回值 3.關閉資料庫連線 使用MySQLdb也要遵循上面的幾步.讓我們一步步的進行. 1、MySQL資料庫要用MySQLdb模組,但Python用來連結MySQL的第三方庫My

matlab 遍歷兩層資料夾,對兩層資料夾進行改變圖片大小處理轉載

<link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-

轉載使用Ant進行ssh和scp操作

一、簡介:   現在我們安裝Linux的時候通常考慮到安全因素(預設情況下)是不開啟telnet服務的,而ssh服務是有的,ant很早就支援telnet,但要求我們在Linux下要安裝telnet-server,並要啟用該服務。還好自Ant1.60開始支援了SSH 及SCP

轉載C#中使用OrderBy和ThenBy等方法對List集合進行排序

derby 轉載 排序。 sha esc ews 個人 類的定義 orderby 在C#的List操作中,針對List對象集合的排序我們可以使用OrderBy、OrderByDescending、ThenBy、ThenByDescending等方法按照特定的對象屬性進行排序

轉載TCP協議狀態簡介

正在 如果 接下來 告訴 ket 正常 主動 基本上 一個 1、建立連接協議(三次握手)(1)客戶端發送一個帶SYN標誌的TCP報文到服務器。這是三次握手過程中的報文1。(2) 服務器端回應客戶端的,這是三次握手中的第2個報文,這個報文同時帶ACK標誌和SYN標誌。因此它表

轉載64位Win7下成功安裝64位的Oracle、32位的InstantClient和PLSQL Developer

註銷 五步 ldb 需要 windows inf 目錄 登錄 class 感謝原作者,原文鏈接:https://wenku.baidu.com/view/433d0b544a7302768f993926.html 經實際安裝操作,通過以下步驟能夠成功地把Oracle安裝到

轉載MapReduce編程(一) Intellij Idea配置MapReduce編程環境

.net class 上傳 -c word 指定 otl 輸出信息 resource 目錄(?)[-] 一軟件環境 二創建maven工程 三添加maven依賴 四配置log4j 五啟動Hadoop 六運行WordCount從本地讀取文件 七運行Word

轉載Hadoop 2.7.3 和Hbase 1.2.4安裝教程

啟動 運行 property new rop net 文本文 .tar.gz cor 轉載地址:http://blog.csdn.net/napoay/article/details/54136398 目錄(?)[+] 一、機器環境

組播IP轉換為組播MAC地址轉載

映射關系 映射 過程 clas 網段 使用 3層 ans spa 鏈接:https://www.zhihu.com/question/36730567/answer/83083851來源:知乎著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。 組播IP轉換

轉載 Spark性能優化指南——基礎篇

否則 內存占用 是否 進行 優先 邏輯 我們 流式 字節數組 前言 開發調優 調優概述 原則一:避免創建重復的RDD 原則二:盡可能復用同一個RDD 原則三:對多次使用的RDD進行持久化 原則四:盡量避免使用shuffle類算子 原則五:使用map-side預聚

轉載設計模式_抽象工廠模式

ron mage ges 定義 ima cnblogs 工廠 一個 相互 定義:為創建一組相關或相互依賴的對象提供一個接口,而且無需指定他們的具體類。 是工廠方法的擴展。    【轉載】設計模式_抽象工廠模式

轉載5天不再懼怕多線程——第一天 嘗試Thread

堆棧 () ole 命名空間 sage console 我們 exc add 原本準備在mongodb之後寫一個lucene.net系列,不過這幾天用到多線程時才發現自己對多線程的了解少之又少,僅僅停留在lock上面, 故這幾天看了下線程參考手冊結合自己的心得整理一下放在博