利用Python尋找命中註定的另一半, 大家都覺得不可信, 畢竟都還沒看這篇神級教程!
今天我們的目標是,爬社區的美女~而且,我們又要用到新的姿勢(霧)了~scrapy爬蟲框架~
1scrapy原理
在寫過幾個爬蟲程序之後,我們就知道,利用爬蟲獲取數據大概的步驟:請求網頁,獲取網頁,匹配信息,下載數據,數據清洗,存入數據庫。
scrapy是一個很有名的爬蟲框架,可以很方便的進行網頁信息爬取。那麽scrapy到底是如何工作的呢?之前在網上看了不少scrapy入門的教程,大多數入門教程都配有這張圖。
_(:зゝ∠)_也不知道是這張圖實在太經典了,還是程序員們都懶得畫圖,第一次看到這個圖的時候,米醬的心情是這樣的
經過了一番深入的理解,大概知道這幅圖的意思,讓我來舉個栗子(是的,我又要舉奇怪的栗子了):
想要學習Python嗎?加群:725479218,大量學習資料,以及各種源碼(限前5個)
當我們想吃東西的時候,我們會出門,走到街上,尋找一家想吃的點,然後點餐,服務員再通知廚房去做,最後菜到餐桌上,或者被打包帶走。這就是爬蟲程序在做的事,它要將所有獲取數據需要進行的操作,都寫好。
而scrapy就像一個點餐app一般的存在,在訂餐列表(spiders)選取自己目標餐廳裏想吃的菜(items),在收貨(pipeline)處寫上自己的收貨地址(存儲方式),點餐系統(scrapy engine)會根據訂餐情況要求商鋪(Internet)的廚房(download)將菜做好,由於會產生多個外賣取貨訂單(request),系統會根據派單(schedule)分配外賣小哥從廚房取貨(request)和送貨(response)。說著說著我都餓了。。。。
什麽意思呢?在使用scrapy時,我們只需要設置spiders(想要爬取的內容),pipeline(數據的清洗,數據的存儲方式),還有一個middlewares,是各功能間對接時的一些設置,就可以不用操心其他的過程,一切交給scrapy模塊來完成。
2創建scrapy工程
安裝scrapy之後,創建一個新項目
用pycharm的人都應該知道怎麽操作!!
我用的是pycharm編譯器,在spiders文件下創建zhihuxjj.py
3 爬取規則制定(spider)
創建好了項目,讓我們來看一下我們要吃的店和菜…哦不,要爬的網站和數據。
我選用了知乎作為爬取平臺,知乎是沒有用戶從1到n的序列id的,每個人可以設置自己的個人主頁id,且為唯一。所以采選了選取一枚種子用戶,爬取他的關註者,也可以關註者和粉絲一起爬,考慮到粉絲中有些三無用戶,我僅選擇了爬取關註者列表,再通過關註者主頁爬取關註者的關註者,如此遞歸。
對於程序的設計,是這樣的。
start url是scrapy中的一個標誌性的值,它用於設置爬蟲程序的開始,也就是從哪裏開始爬,按照設定,從種子用戶個人主頁開始爬便是正義,但是考慮到個人主頁的鏈接會進行重復使用,所以在這裏我將起始url設成了知乎主頁。
之後就是種子用戶的個人主頁,知乎粉絲多的大V很多,但是關註多的人就比較難發現了,這裏我選擇了知乎的黃繼新,聯合創始人,想必關註了不少優質用戶(???)。
分析一下個人主頁可知,個人主頁由‘https://www.zhihu.com/people/‘ + 用戶id 組成,我們要獲取的信息是用callback回調函數(敲黑板!!劃重點!!)的方式設計,這裏一共設計了兩個回調函數:用戶的關註列表和關註者的個人信息。
使用chrome瀏覽器查看上圖的頁面可知獲取關註列表的url,以及關註者的用戶id。
將鼠標放在用戶名上。
可以獲得個人用戶信息的url。分析url可知:
so,我們在上一節中創建的zhihuxjj.py文件中寫入以下代碼。
這裏需要劃重點的是yield的用法,以及item[‘name‘],將爬取結果賦值給item,就是告訴系統,這是我們要選的菜…啊呸…要爬的目標數據。
4設置其他信息
在items.py文件中,按照spider中設置的目標數據item,添加對應的代碼。
在pipeline.py中添加存入數據庫的代碼(數據庫咋用上一篇文章寫了哦~)。
因為使用了pipeline.py,所以我們還需要再setting.py文件中,將ITEM_PIPELINE註釋解除,這裏起到連接兩個文件的作用。
好像…還忘了點什麽,對了,忘記設置headers了。通用的設置headers的方法同樣是在setting.py文件中,將DEFAULTREQUESTHEADERS的代碼註釋狀態取消,並設置模擬瀏覽器頭。知乎是要模擬登錄的,如果使用遊客方式登錄,就需要添加authorization,至於這個authorization是如何獲取的,我,就,不,告,訴,你(逃
為了減少服務器壓力&防止被封,解除DOWNLOADDELAY註釋狀態,這是設置下載延遲,將下載延遲設為3(robots法則裏要求是10,但10實在太慢了_(:зゝ∠)知乎的程序員小哥哥看不見這句話看不見這句話…
寫到這裏你會發現,很多我們需要進行的操作,scrapy都已經寫好了,只需要將註釋去掉,再稍作修改,就可以實現功能了。scrapy框架還有很多功能,可以閱讀官方文檔了解。
5運行scrapy文件
寫好scrapy程序後,我們可以在終端輸入
運行文件。
但也可以在文件夾中添加main.py,並添加以下代碼。
然後直接用pycharm運行main.py文件即可,然後我們就可以愉快的爬知乎用戶啦~(×××姐我來啦~
6查×××
經過了X天的運行,_(:зゝ∠)_爬到了7w條用戶數據,爬取深度5。(這爬取速度讓我覺得有必要上分布式爬蟲了…這個改天再嘮)
有了數據我們就可以選擇,同城市的用戶進行研究了……
先國際慣例的分析一下數據。
在7w用戶中,明顯男性超過了半數,標明自己是女性的用戶只占了30%左右,還有一部分沒有註明性別,優質的×××姐還是稀缺資源呀~
再來看看×××姐們都在哪個城市。(從7w用戶中篩選出性別女且地址信息不為空的用戶)
看來×××姐們還是集中在北上廣深杭的,所以想發現優質×××姐的男孩紙們還是要向一線看齊啊,當然也不排除在二三線的×××姐們沒有標記處自己的地理位置。
emmmmm……這次的分析,就到此為止,你們可以去撩×××姐們了。(逃
7研究×××姐
意不意外?開不開心?這裏還有一章。正所謂,授之以魚,不如授之以漁;撒了心靈雞湯,還得加一只心靈雞腿;找到了×××姐,我們還要了解×××姐…………
讓我再舉個栗子~來研究一個×××姐。(知乎名:動次,已獲取×××姐授權作為示例。)
讓我們來爬一下她的動態,chrome右鍵檢查翻network這些套路我就不說了,直接將研究目標。
代碼也不貼了,會放在gayhub的,來看一下輸出。
還有!!在關註、贊同和輸出中,都有的詞(ω)。(是不是可以靠美味捕獲×××姐呢……
再來一張劉看山背景的,答題詞雲。
利用Python尋找命中註定的另一半, 大家都覺得不可信, 畢竟都還沒看這篇神級教程!