1. 程式人生 > >束靈傑資料視覺化作品分析

束靈傑資料視覺化作品分析

1.對原始資料的清洗方式:to,cc,bcc這些欄位中可以有多個使用者,使用者之間用分號隔開,將資料拆分出來。即,每一個收件人,就有一條資料。並且把to,cc,bcc也區分開來。 圖的名稱:郵件收發關係柱狀圖。 型別:原生的多組柱狀圖。 資料來源:郵件的傳送地址和郵件的接收地址,內部郵件。內部員工列表。 可分析的內容: 1.橫軸是全部的內部員工,縱軸是郵件的數量。 2.藍色是傳送郵件的數目,黃色是接受郵件的數目。 得到的結果:傳送郵件數量最多的前三名和接收郵件最多的前三名。 優點:可以清楚的看到各員工收發郵件的數量對比,以及從中得到活動頻率高的員工。 缺點:不能看到收發郵件的員工之間的聯絡。並且資訊量較少。
圖的名稱:接發郵件的主題關聯圖 圖的型別:自己定義的線圖(其實我也數不清楚到底是什麼圖) 資料來源:收發郵件數量分別居於前三的員工名單,他們收發郵件的數量,郵件主題。 可分析的內容:1.左邊是sender,右邊是 receiver。中間是sucject。 2.左右兩邊的數字代表郵件的頻率。
3.線的顏色:用來區別不同員工。 優點:確實能夠得到每個人郵件中的主題多線的頻率,來判斷他的工作內容 缺點:線的顏色選擇過於隨意,沒有什麼標準,而且線太多,很難定量分析。而且他沒有考慮到員工職位變化的可能,而且這種分析方法不一定有效果(因為我還沒有驗證過)。 改天:應該先對郵件型別進行總結,拿到發出最有可能是重要人員所發出的郵件型別,通過它來得到重要員工(比如郵件首發量和接收到的會議郵件的數量),總得來說,就是選取的基礎資料有問題。 就算按照這種方法分析,也應該要按照時間分析一下員工的郵件主題,因為各個階段,公司的重要員工可能不太一樣,還有員工職位的變化,所以應該按照時間分段來得到重要的員工。
名稱:員工郵件的傳送時間圖 型別: 資料來源:員工名單,員工郵件。 可分析內容:1.橫軸是0-23小時(為24個小時的時段)。 2.縱軸是員工名單。 2.圓的顏色麼有什麼特殊意義,只是為了區分開來。 3.圓的大小代表該員工在這個時段內傳送郵件的多少。 結果:可以得到每個員工在一天之內的活躍程度,以此推斷該員工的職務和工作時間。 優點:可以比較直觀的看到一個員工在一天之內的活躍情況。 缺點:圈的大小比較並不容易,而且很難定量分析。 名稱:郵件收發的數量分佈圖 型別:熱力圖 資料來源:員工郵件,員工名單,員工郵件的收發地址。 可分析的內容:1.橫軸和縱軸都是員工。 2.點的顏色深度代表這兩個員工之間的郵件往來程度。 結果:可以通過調整閾值得來幾個郵件往來頻繁的員工。 優點:統計的資料多,比較靈活,得到資料的數量可以自己控制。可以比較清楚的看到郵件收發的分佈情況。而且可以很好的剔除那些不太活躍的邊緣資料。 缺點:得到的結果不夠直觀,需要調整閾值才能得到有效資料。無法進行量化分析。而且所分析的不一定是所有的員工
名稱:使用者郵件收發的力導向圖。 型別:力導向圖 資料來源:使用者收發郵件的地址,使用者郵件數量 可分析的內容:1.點代表郵件的收發地址。 2.線:代表一次郵件往來 3.圈的位置:毫無意義。 結果:得到員工收發郵件的網路拓撲圖。 優點:可以較好的反映員工之間的通訊頻率情況。 缺點:線太多,不容易進行分析。如果有密集恐懼症,那就基本上告別這個圖了。而且人員這麼多,也很難得到準確的幾個人。
圖的名稱:柱狀圖 資料來源:得到的郵件主題列表,主題出現的次數 可分析資料:A.縱軸:郵件主題 B.柱表的長短:代表郵件的數量 優點:很清晰的對各個主題出現的次數進行對比。 缺點:對資料分析得到的結果比較單一。但是不能對主題進行階段性分析。而且主題到底是不是那一階段的業務特點。
圖的名稱:熱力圖 資料來源:郵件的物種分類:告警郵件(黃色),群發郵件(綠色),會議郵件(紅色),差旅郵件(紫色),廣告郵件(藍色)。 可分析的資料來源:1.告警郵件(黃色),2.群發郵件(綠色),3.會議郵件(紅色),4.差旅郵件(紫色),5.廣告郵件(藍色)。 顏色的範圍大小:代表了該型別郵件的數量。 顏色所處的位置:沒有意義 優點:將郵件的型別分的很清楚。可以清楚的看到每種型別的郵件在所有專案中所佔的比重 缺點:當分類的郵件型別較多時,得到的結果就不清晰了。 圖的名稱:LDA模型 資料來源:每個主題出現的頻率,主題列表。關鍵詞 可分析資料:A.外圈的大小:代表主題出現的頻率。 B.白色圓圈的大小:代表關鍵詞在主題裡的頻率。 c.白色圓圈的多少:代表關鍵詞的多少。 優點: 缺點:並不能很清楚的看到主題的比較結果,而且關鍵詞的多少也並不能說明關鍵詞的作用。 資料來源:郵件中的主題列表,郵件總數,郵件主題。 可分析資料:1.橫軸:主題列表 2.縱軸:各種主題的數量 點:關鍵詞 優點:可以看到詳盡的每個主題在不同年限的頻率和延長時間的變化。 缺點:點太多,也小,不容易分析,而且結果也不夠直觀。 圖的名稱:主題持續時間表 資料來源:主題的持續時間,主題的列表 可分析資料: A.橫軸:時間軸 B.縱軸:主題列表 C.顏色:沒有意義,僅僅用來區分不同主題。 優點:可以清楚的看到一個主題的起止時間,以此來判斷該主題在某一段時間內是不是公司的業務。 缺點:並不能看到主題在某一年或者某一階段的出現頻率和普及度,因此無法判斷該公司在某一段時期內的主營業務和該公司處於那個階段。
圖的名稱:矩陣圖 資料來源:年份,主題列表,每個主題在不同年份出現的頻度。 可分析資料: 1.縱軸:年份 2.橫軸:主題列表 3.方塊的顏色深度:從紫到紅代表出現的數量的多少。 優勢:可以看到不同的主題在不同年份的出現頻率的比較,得到公司的業務的發展趨勢。 缺點:得到的主題列表可能並不是全部的主題。 總體分析:資料分析的統計圖選擇很準確,但是標準的確定並不清晰,準確。我個人很喜歡最後那個圖,很全面,資料選取也很好的一個圖。 PS:由於經驗不足,所以很多東西都也得不準確,也有很多遺漏,在後面的時間裡,我會陸續再去修補。 這篇文章沒有使用Markdown編輯器,所以逼格看起來不夠高。