從資料上看:誰才是漫威的絕對C位
復聯4上映了!這次比美國還早了兩天。當然,我還沒看,不會給你們劇透,當然也不想不劇透。
這一部不僅是滅霸這一線劇情的結局,也被認為漫威第三階段的收官之作。據說此部之後,不少影迷熟知的角色(演員)就要離開漫威世界的熒幕了。因此剛上映就備受關注,今天一天國內票房就已超5億。
上次的文章《這可能是我用過最“強大”的API:Marvel API》中,我給大家演示了漫威開放介面(Marvel API)的功能,並且在最後留了個“彩蛋”:爭取跟《復聯4》同步上線一個案例。
很遺憾,最近幾天忙著更新網站,眼看要鴿了。但慶幸的是,我們另一位實訓生 @清風小築 站出來把坑給填了:
對 Marvel API 中的資料進行統計分析,將角色之間關係進行視覺化展示。
我之前做了個小調查:
僅就我這邊的取樣來看,鋼鐵俠在國內是無法撼動的人氣王。當然,這可能因為國內更多是漫威系列電影觀眾。
那麼官方的喜好又是如何?
上文中我們說過,在 Marvel API 的開放資料中,包含了:
- 1491 個角色
- 43759 本漫畫
- 6200 個創作者
- 10713 個系列
- 96740 個故事
- 75 個事件
我們這次案例選取的是 角色(character)和 故事(story)之間的關係:
- 選取故事最多的 N 個角色
- 根據共同出現的故事數,衡量角色之間的關聯性
經過統計發現,故事數前3的是:
- 蜘蛛俠(Spider-Man)- 5192
- X戰警(X-Men)- 4551
- 鋼鐵俠(Iron Man)- 3483
關聯性最高的前3位:
- X戰警 - 金剛狼 - 1001
- 神奇四俠 - 霹靂火 - 817
- 神奇四俠- 隱形女俠 - 773
故事數最多的25個英雄/團體的關係圖:
故事數最多的99個英雄/團體的關係圖:
Data provided by Marvel. 2014 Marvel
資料由 Marvel 提供
來源: http://marvel.com
- 意料之外但情理之中,蜘蛛俠是出現故事最多的角色。這還只是主線角色,沒算上各個平行宇宙和衍生角色。事實上,小蜘蛛在漫威迷中一直有著超高的人氣,或許是因為他的故事更接近於現實中的每一個平凡人,也或許是他那份“能力越大,責任越大
- 鋼鐵俠、美隊、金剛狼是緊隨其後的角色,X戰警是故事最多的團體。
- 關係圖上的顏色不是我們手動標註的,而是 Gephi 通過聚類自動劃分的。文字標籤的大小則體現故事數的多少。X戰警、神奇四俠、復仇者聯盟,這三個團體壟斷了漫威絕大部分的故事。神奇四俠雖然人物和故事不算多,但相關關聯很緊密(大多同時出場),相反典型是雷神(Thor),雖然故事很多,但大多獨來獨往。
最後來說說這個關係圖的實現過程。主要是兩大塊:
- 從 Marvel API 獲取資料。首先是獲取所有角色,然後獲取角色相關的故事,再根據這些故事資訊將角色進行關聯統計,最終得到節點(角色、故事數)和邊(關聯故事數)的資料。
- 通過視覺化分析工具 Gephi 將節點和邊的資料進行視覺化展示,生成關係圖表。Gephi 的功能很強大,可以調節不同的展示效果,各位可以自行體會下。
其他需要注意的:
- 我們沒有直接通過網路請求 Marvel API,而是使用了上次文章中提到的 marvel 模組來實現。(使用示例見前文)
- 中間的臨時資料,因為是 JSON 格式,於是我們用 mongodb 進行了儲存,便於後續整理分析。如果你自己執行,也可以通過其他方式(比如檔案)進行儲存。
- 經過處理後的節點、邊資料我們儲存成了 csv 檔案,你可以在專案中獲取,直接放進 Gephi 使用。僅供學習,請勿商用。
- Marvel API 需要申請祕鑰、有請求速率限制,使用時需標註資料出處和來源網址。
相關網址:
Marvel API https://developer.marvel.com/docs
marvel庫 https://pypi.org/project/marvel/
Gephi操作手冊 https://gephi.org/users/quick-start/
相關推薦
從資料上看:誰才是漫威的絕對C位
復聯4上映了!這次比美國還早了兩天。當然,我還沒看,不會給你們劇透,當然也不想不劇透。 這一部不僅是滅霸這一線劇情的結局,也
資料儲存(1):從資料儲存看人類文明-資料儲存器發展歷程
傳統文字儲存 泥版/鐘鼎/甲骨/莎草紙/羊皮紙等文字儲存 傳統的考古學家和歷史學家認為,楔形文字起源於美索不達米亞特殊的漁獵生活方式。這是較為通行的看法,西方的各種百科全書大都持這一觀點。約在公元前3400年左右,楔形文字雛形產生,多為影象。到公元前 500 年左右, 這種文字甚至成了西亞大部分地區通用的商業
java虛擬機器如何跑一個程式 從整體上看一個程式 詳細實驗
如題,本文就是通過實驗來測試。 java虛擬機器什麼時候初始化一個類? public class ClassLoaderTest{ static { System.out.println(" 執行靜態 塊 static block "); } public s
揭祕真相:誰才是“開國第一宴”用酒? 茅臺居然忽悠了這麼多年
茅臺酒可以說是能喝的"奢侈品",貴是它最大的特點之一,一瓶酒的價格比農民辛苦一年一畝地糧食的收入都高的多,城市普通工薪階層的收入水平大多也喝不起,所以茅臺酒是大部分中國普通家庭都消費不起的"奢侈品"。很多人即使是買茅臺酒大多是用於禮尚往來,因此茅臺酒也成為了一種階層的代表。 價格昂貴的茅臺酒也讓很多
從推廣角度看:企業如何進行整合營銷
各種公司都在進行整合營銷,各個企業推廣負責人都在談論整合營銷的好處,到底什麼是整合營銷?企業如何進行整個營銷? 一、整合營銷的定義 其核心思想是將與企業進行市場營銷有關的一切傳播活動——例如一般廣告、直銷、銷售促進、公共關係以及CI、包裝和人員促銷——通過天衣無
從使用上看RJBadgeKit功能層次
一、從使用上看RJBadgeKit功能層次 0、程式碼在:https://github.com/LovePeach/RJBadgeKit 1. 準備:目標控制元件、紅點路徑 2. 在RJBadgeController註冊“紅點路徑” 3. 為當前物件例項化一個RJBadgeCo
彙編–從資料型別看WORD與DWORD
剛接觸彙編與逆向,記錄一些學習筆記。 原始碼: IDA彙編程式碼: 首先 1字=2位元組 1位元組=8位(8位元)=2位16進位制 var_6=dword ptr -6: ptr-6表示指標上移6個單位處,這裡的單位是指計算機的定址單位,一般按位元組定址,[
從資料分析看王祖賢的電影人生
作者:唐亦六安知乎專欄:https://www.zhihu.com/people/tang-yi
從資料角度看人臉識別中Feature Normalization,Weight Normalization以及Triplet的作用 從資料角度看人臉識別中Feature Normalization,Weight Normalization以及Triplet的作用
轉 從資料角度看人臉識別中Feature Normalization,Weight Normalization以及Triplet的作用 2018年10月19日 16:42:52
從資料檔案看timestamp範圍限制
建立表:mysql> desc test_timestamp1; +-------+-----------+------+-----+---------+-------+ | Field | T
從資料型別看堆疊儲存
Java中的基本資料型別: JavaScript中的基本資料型別: 因為作業系統中 棧的體積相對小但是他的執行速度相對快,可以進行一些方法操作;而堆的體積大但是執行速度相對慢。所以在Java和JavaScript中堆疊的儲存是同一個原則的,即基本資料
從程式碼上看程式生死週期(生死迴圈,生命週期)(轉)
C語言程式的C執行時庫,C++語言程式的C++執行時庫(如上圖所示)等,這些執行時庫需要提前安裝在系統中,系統才會在分析到一個對應的程式時去啟動這個執行時庫,否則就無法執行這個程式。比如說你的系統沒有安裝C++執行時庫,而你的程式又沒有自己帶上這個庫,那麼系
未明學院資料分析報告:我們爬了微博10位明星夫妻,分析出胡歌和迪麗熱巴的物件可能是
本文作者: 「用資料看世界」的未明學院資料分析方向老師 2018下半年可謂是明星結婚的密集期,前有趙麗穎、馮紹峰扯證,後有唐嫣、羅晉的童話婚禮,讓吃瓜群眾目不暇接。 吃瓜之餘,群眾還將目光投向了“仙劍留守兒童”胡歌和新晉“金鷹女神”迪麗熱巴。究竟怎樣的人更有可能成為胡歌和
資料結構之:AVL樹詳解及C++模板實現
AVL樹簡介AVL樹的名字來源於它的發明作者G.M. Adelson-Velsky 和 E.M. Landis。AVL樹是最先發明的自平衡二叉查詢樹(Self-Balancing Binary Search Tree,簡稱平衡二叉樹)。一棵AVL樹有如下必要條件:條件一:它必
人工智慧寫歌詞?看我是如何用Python來C位出道的……
故事的起因是上週六看《中國好聲音》,一個周杰倫戰隊的學員用人工智慧寫的歌詞。 於是乎,我也有了這個想法,程式碼的主題思路是看Crossin先生的文章,雖然最後不能寫出一首歌,但是押韻腳這事
Filecoin&Filenet評說二: 從資料黑產看為什麼區塊鏈3.0會以挖掘資料價值為突破口
昨天,瞎聊了幾句共享儲存兩個明星專案filecoin和filenet,沒想到共享儲存這條鏈上的朋友太多,快被口水碰死了,好吧,為了把屁股搽乾淨,再多說幾句吧。 首先推薦兩篇文章: 虎嗅:網絡黑產、爭奪用戶資訊背後的資料之戰 新浪:資料黑產調查:猖獗內鬼、黑客師徒與“灰色暴發戶” 不看
陌陌迴應資料洩露:誰都無法直接從資料庫獲取明文密碼
12月3日訊息。有微博網友曝出陌陌2015年的賬戶密碼資訊在暗網上公開售賣,資料量達到3000萬條,而要價只有區區50美元,摺合人民幣還不到350元。 不過賣家表示,這批資料是2015年7月17日寫入的,也就是已經三年多,因此不保證現時有效性,只適合撞庫使用,且一經售出
Filecoin&Filenet評說二: 從資料黑產看為什麼區塊鏈3.0會以挖掘資料價值為突破口
昨天,瞎聊了幾句共享儲存兩個明星專案filecoin和filenet,沒想到共享儲存這條鏈上的朋友太多,快被口水碰死了,好吧,為了把屁股搽乾淨,再多說幾句吧。 首先推薦兩篇文章: 虎嗅:網絡黑產、爭奪用戶資訊背後的資料之戰 新浪:資料黑產調查:猖獗內鬼、黑客師徒與“灰色
未明學院資料分析報告:吃雞黨 vs 農藥黨,大資料告訴你誰才是the best,你贊同嗎?
本文資料分析作者 未明學院資料分析方向老師 全民遊戲時代,你永遠不知道,和你聯機遊戲的,到底是男是女,是大學生還是小學生……而說到當下最老少皆宜的遊戲,不得不提的是農藥和吃雞。 “你打農藥還是吃雞?” “我打吃雞。” “我也是額。” “一起一起。” 打遊戲
用 Python 做資料處理必看:12 個使效率倍增的 Pandas 技巧(上)
導語 Python正迅速成為資料科學家偏愛的語言,這合情合理。它擁有作為一種程式語言廣闊的生態環境以及眾多優秀的科學計算庫。如果你剛開始學習Python,可以先了解一下Python的學習路線。在眾多的科學計算庫中,我認為Pandas對資料科學運算最有用。Pandas,