大資料揭祕: 原來單身女生有這些特點...
媒體報道,中國目前的單身成年女性的數量已經超過一個多億,也就是說14.3%的成年女性處於單身狀態,與日本全國人口總數基本相當。
知己知彼,百戰不殆。如果你是一個單身女性,你可以看到自己的某些影子;如果是單身男生,你需要了解目標人群的特點;如果是已婚男士,要相信“天下鳳凰一般美!!!”
說 明
開始本文之前有幾點說明:
1、本文資料主要來自於某婚戀網站的爬蟲搜尋資料;
2、該網站上的女生預設為單身;
3、該網站上的個人資訊預設為真實;
4、爬取的樣本資料具有充分的代表性
在這裡我還是要推薦下我自己建的大資料學習交流裙:805127855
, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴。
一、基本概況
爬取該網站18~37歲之間的女生個人主頁資訊,總體數量在5000左右,地域範圍涵蓋三十多個省(自治區、直轄市)。資料質量方面:身高、體重和工作等部分資訊預設。
二、人群年齡與星座分佈
從年齡直方圖看,基本滿足正態分佈,在24歲和32歲左右存在兩個較大的波峰。18~23歲正處於大學教育階段,校園戀情比較多,因此該年齡階段在網站註冊人數較少;26歲
從星座分佈來看,風相星座中的雙子座(11.47%)和天秤座(10.58%)的優異成績勇奪前兩名,有意思的是,同屬風相星座的水瓶座以5.51%墊底。按照一般的理解,風相星座想象力豐富,擅長社交,語言表達能力強,但性格變化多端,有喜新厭舊和情緒化的毛病,這也許是呈現兩極分化的原因吧。而自帶招黑體質的處女座(8.78%)表現相對中庸。
三、外貌協會特點
從身高分佈直方圖上看,身高的眾數為165CM,主要分佈區間為160~170。
從體重分佈直方圖上看,體重集中於48~53kg之間,基本滿足正態分佈規律。
從外貌自我描述的關鍵詞上看,“迷人”、“秀氣”、“可愛”高居三甲,同時“長髮”看起來是一個很重要的特徵,有意思的是還有人將“愛笑”、“健康”作為自我外貌的描述關鍵詞。
在這裡我還是要推薦下我自己建的大資料學習交流裙:805127855, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴。
四、個性和愛好
從個性描述上看,“溫柔”、“開朗”、“活潑”的女生佔據了單身女性的大多數,估計和人群分佈規律類似。比較吸引眼球的關鍵詞“簡單”。我覺得此處的簡單,可能就是所謂的“餵馬劈柴周遊世界”“從明天起關心糧食和蔬菜”吧。
從愛好上看,“旅遊”、“逛街”、“聚會交友”愛好榜前三名。這也很好理解,主要的愛好其實是買買買,可以逛街買,也可以旅遊買,買了之後可以聚會交友,而後帶上朋友一起買。。。
五、受教育情況
受教育程度上看,本科佔據了絕大多數,這和人群的分佈規律基本一致。
六、工作和收入
職業分佈情況見下圖:
令人比較吃驚的是各位單身的收入,不想評論了,都這麼高。。。
七、全國分佈情況
可以看出,經濟發達的上海、北京等大城市的數量比較多,與黑河騰衝線人口分佈規律一致。
關注微信公眾號:程式設計師交流互動平臺!獲取資料學習!
八、資料相關性
選取年齡、身高、星座、省份、學歷、收入、職業等7個維度的刻畫資料,分別計算Pearson、Spearman和Kendall相關係數。
結論基本一致:收入和職業的相關性較強(Pearson相關係數=0.46),其次是收入和年齡、學歷的相關性。一個有趣的發現是身高和學歷竟然存在微弱的相關性,Pearson相關係數為0.26;而星座與其他各項的相關性最弱,所以經常說的XX星座擅長考試的說法應該是沒有依據的吧。
九、小結
單身女生分析報告基本完成。從統計結論上看,與人群分佈規律基本一致,也與外界的認知基本統一。不過也有幾點有意思的發現:比如年齡分佈的雙峰特點、風相星座的兩極分化、“旅遊逛街交友”的三大愛好以及身高和學歷間的微弱相關性。
關注微信公眾號:程式設計師交流互動平臺!獲取資料學習!
資料裡蘊含著豐富的寶藏,只要挖掘,總會有所發現。