1. 程式人生 > >用Python挖一挖知乎上宅男們最喜歡的1000個妹子

用Python挖一挖知乎上宅男們最喜歡的1000個妹子

640?wx_fmt=gif

導讀:在文章開始前,先來一張圖給大家熱熱身。這裡是宅男們最喜歡的妹子中排名前200位的頭像(實際193張圖,部分不規則的圖已被作者過濾)。排名不分先後哈!快來看看有沒有你們熟悉的面孔。

640?wx_fmt=jpeg

找到眼熟的人了嗎?說不定你也在裡面哦!

相信大家最關心以下兩點:

1. 除了照片外還有什麼資訊?

——那必須呀,肯定還有乾貨。

2. 這些漂亮美眉是怎樣被找出來的呢?

——馬上就給大家解答。

作者:二胖

來源:大資料前沿(ID:bigdataqianyan)

01 挖取策略

PS:不關心技術和流程的童鞋可以直接跳過這部分看後面的資料分析部分

首先給大家解釋下,是怎麼找到這些漂亮美眉的。

先用一張流程圖介紹一下整個流程:[左邊的方框代表操作,右邊的橢圓代表資料]

640?wx_fmt=jpeg

第一步

人工選擇的初始群體很關鍵,但是並不難。

可以從關注某些問題的相關使用者中抓取目標人群,如問題:女生腿長是什麼感覺?或者抓取這些問題下活躍男性使用者關注或點讚的女性。

這裡選擇了部分問題和部分男性的關注動態和點贊動態,篩選出了第一批女性群體,也就是上圖中的初始美眉群體(具體選擇了哪些問題和男性使用者就不在這裡公佈了)

她們由於某種特殊的關聯或者使用者行為被聚類在了一起,我們可以簡稱她們為相似性使用者。這裡找到了2553人作為初始群體,下圖為讀取的redis中的記錄數。

640?wx_fmt=jpeg

第二步

下面需要抓取所有美眉的男性粉絲的關注關係。

請注意:這裡為什麼要抓取關注關係,而不是男性粉絲的集合呢?——因為我們要找到“最佳宅男”。

舉個例子:假設初始美眉群體有三個使用者:小美、中美和大美,關注關係如下所示:

640?wx_fmt=jpeg

男性粉絲的集合是:{1,2,3,4,5}

而關注關係指的是:有幾條線就有幾個關注關係,這裡有9個關注關係。

這一步共抓取了219165條關注關係。

640?wx_fmt=jpeg

第三步

下面需要找出上一步中關注初始女性群體中人數最多的男性粉絲。

這裡很容易理解,比如在大美中美小美那張圖裡,關注初始女性群體人數最多的男性分別是3>2>=4>1>=5,“最佳宅男”就是3啦。

對上一步中的資料進行排序後,共計男性粉絲人數105379人。

640?wx_fmt=jpeg

這裡截取了前2106名男性作為“宅男”群體。

悄悄給大家看看排行前10的“宅男們”,“宅男”第一名關注了2000多位初始女性美眉中的858人,快一半了,我只想說,老司機帶帶我。

當然,這裡肯定不能公佈他們的資訊啦。(下圖中打碼的部分是他們的url_token,即唯一身份標識;後面的數字是他們所關注的初始美眉群體中的美眉數量)

我只能說,排第一的哥們兒,你嚇到我了,賠錢。

640?wx_fmt=jpeg

第四步

有了這2000多個“宅男”就好辦了,接下來的步驟和上面類似。抓取這些“宅男”關注的女性使用者,同樣按關注關係排序,得到前2000名最受歡迎的美眉:

其中女性關注關係有:344849條。

女性使用者集合中有:66869人。

640?wx_fmt=jpeg

同樣,悄悄給大家看看排行前十的美眉被多少宅男關注了,悄悄地看一下這些美眉們的主頁,確實很漂亮,她們的回答中也有特別多的照片

相關推薦

Python喜歡1000妹子

導讀:在文章開始前,先來一張圖給大家熱熱身。這裡是宅男們最喜歡的妹子中排名前200位的頭像(實際

Python爬了7W使用者資訊,終於爬獲了心儀小姐姐……

馬上又要到元旦了,在舉國一片“買買買”的呼聲中,單身汪的咆哮聲也愈發淒厲了。 作為一個 Python 程式設計師,要如何找到小姐姐,避開暴擊傷害,在智中取勝呢?於是就有了以下的對話: so~今天我們的目標是,爬社群的小姐姐~而且,我們又要用到新的姿勢(霧)了~scrapy

python爬蟲——爬取自己關注的問題

與之前爬的網站圖片的不同的是,現在爬取的是要自己個人的關注的東西,所以需要做到模擬登入。模擬登入的原理是登入網站後,在瀏覽器上獲取儲存的cookies資訊,填充之後與請求一起傳送。如果前面的爬取圖片的會爬取了,對於這個解析字串的也沒有多大問題了。一直看著知乎上很多程式設計師把

人生苦短,我Python--分分鐘下載美圖給你看

起 上次說了要爬知乎的圖片,於是花了一下午的時間去完成這件事,發現暫時接觸到的爬蟲總是逃脫不了一個規律: 模擬登陸 獲取真實網頁HTML原始碼 解析獲取到的網頁原始碼 獲取想要的資源(下載到某個資料夾或者輸出到表格中整合起來) 也許和我說的有一些出入,

Python爬去問題下所有圖片

sts dal b- log email token db4 trie fin from zhihu_oauth import ZhihuClient from zhihu_oauth.exception import NeedCaptchaException cli

位朋友總結的特別好的spark的文章,很不錯以轉載!

private def addPendingTask(index: Int, readding: Boolean = false) { // Utility method that adds `index` to a list only if readding=false or it's not alr

看到篇很好解釋“快取”--------Cache 和 Buffer 都是快取,主要區別是什麼?

http://blog.csdn.net/tcp_westwood/article/details/79245845 感謝“沈萬馬”先生的知識共享!!! 作者:沈萬馬 連結:https://www.zhihu.com/question/26190832/answer/1462599

Python3爬取好看的桌布

一、開發環境Windows10 + PyCharm Community 2018.1.4二、開整先交代下,本人平時比較喜歡看知乎,因為知乎上乾貨多,這不最近迷上了給手機換桌布,恰巧知乎上這個問題下https://www.zhihu.com/question/64252714/

看到一個關於Python資源的很不錯的主題,可惜點贊不過400多

Windows Defender program is a great security service provided by Microsoft in Windows. In Windows 8 and Windows 10, Defender has been improved a lot and

的關於作用域的捆綁問題

spa on() bsp code pan span turn pre func var add; var f1 = function() { var a = 1; add = function() { a++; } f

C#中那些我們不經常使用的東西之系列(4)——GetHashCode,ExpandoObject

add 工具 通過 border 後期綁定 main image 代碼 不同 一:GetHashCode   從MSDN上能夠看到的解釋是:用作特定類型的哈希函數,也就是說不論什麽對象的實例都會有一個int32類型的HashCode。而且存放在FCL中的

Kubernetes 在的應用

依賴 load pic 接口 被占用 做的 定時 詳細信息 相對 從 Mesos 到 Kubernetes 之前的調度框架是基於 Mesos 自研的。采用的語言是 Python。運行了大概兩年多的時間了,也一直比較穩定。但隨著業務的增長,現有的框架的問題逐漸暴露。 調度速

python朵玫瑰花

jpg port es2017 time logs 代碼 from mage light 廢話不多說,直接上代碼 from turtle import * import time setup(600,800,0,0) speed(0) penup() seth(90)

的一個對自制力的回答(轉)

做什麽 大眾 你知道 掌握 驅動 學生 而不是 自己 quest 原文鏈接:https://www.zhihu.com/question/38554523 作者:鳳紅邪鏈接:https://www.zhihu.com/question/38554523/answer/7

python爬蟲如何爬的話題?

write targe connect 問題 brush img fetchone new text 因為要做觀點,觀點的屋子類似於知乎的話題,所以得想辦法把他給爬下來,搞了半天最終還是妥妥的搞定了,代碼是python寫的,不懂得麻煩自學哈!懂得直接看代碼,絕對可用 #c

一些有用的回答

amp source .com http 有用 soc tps 激勵 mem 1、當自己頹廢的時候怎麽激勵自己?知乎上一些有用的回答

從完全零基礎教你Python開飯款打飛機的遊戲!是個人就能學會

實現 裁剪 -i ext 想象 一點 換圖 結束 離開 默認圖片左上角為原點 (0,0)。 進群:125240963 即可獲取數十套PDF!要源碼也可以私信哦! 顯示窗口 如果我們這樣設定,當我們運行的時候,窗口會一閃而過,並不會出現我們想象的畫面。因為

python“爬”篇小說

html replace text 實現 lac sta ace url error: 需要你的python安裝有requests模塊,如果沒有安裝可執行如下命令安裝pip3 install requests以最近比較火的小說“魔道祖師”為例。下面是整個腳本import r

稅起徵點上調至5000,Python算少交多少稅

今天出了一個重磅訊息,個稅起徵點從3500上調到5000啦! 廣大IT農民工的生活壓力又減輕了一些,有沒有 晚上加一個雞腿,要不要~ 開心歸開心,我們來用Python算一算,新的規則下,我們需要交多少稅,比原先少交多少稅。 下面的這張表是稅率表,這是對超過免徵額部分的收入徵收的稅率 這次調

看到的一個回答

1.停止那些明知對身體有害的行為,例如熬夜,喝快樂水等。三餐要吃,去掉珍珠奶茶,垃圾食品。 11點半就睡下,讓書籍和思考為你的生活服務。 你也不用因為打了幾局遊戲而覺得自己頹廢,只是遊戲再好也不要貪杯。這樣在生活上,你就已經成 為了更好的人。 2.每天都汲取新的知識。你不需要