利用Python尋找命中註定的另一半, 大家都覺得不可信, 畢竟都還沒看這篇神級教程!

阿新 • • 發佈：2018-06-07

Python 教育職業爬蟲戀愛

既然是Python程序員×××，就要用python程序員的方法。

今天我們的目標是，爬社區的美女~而且，我們又要用到新的姿勢(霧)了~scrapy爬蟲框架~

1scrapy原理

在寫過幾個爬蟲程序之後，我們就知道，利用爬蟲獲取數據大概的步驟：請求網頁，獲取網頁，匹配信息，下載數據，數據清洗，存入數據庫。

scrapy是一個很有名的爬蟲框架，可以很方便的進行網頁信息爬取。那麽scrapy到底是如何工作的呢？之前在網上看了不少scrapy入門的教程，大多數入門教程都配有這張圖。
技術分享圖片

_(:зゝ∠)_也不知道是這張圖實在太經典了，還是程序員們都懶得畫圖，第一次看到這個圖的時候，米醬的心情是這樣的

技術分享圖片

經過了一番深入的理解，大概知道這幅圖的意思，讓我來舉個栗子(是的，我又要舉奇怪的栗子了)：

想要學習Python嗎？加群：725479218，大量學習資料，以及各種源碼（限前5個）

技術分享圖片

當我們想吃東西的時候，我們會出門，走到街上，尋找一家想吃的點，然後點餐，服務員再通知廚房去做，最後菜到餐桌上，或者被打包帶走。這就是爬蟲程序在做的事，它要將所有獲取數據需要進行的操作，都寫好。

而scrapy就像一個點餐app一般的存在，在訂餐列表(spiders)選取自己目標餐廳裏想吃的菜(items)，在收貨(pipeline)處寫上自己的收貨地址(存儲方式)，點餐系統(scrapy engine)會根據訂餐情況要求商鋪(Internet)的廚房(download)將菜做好，由於會產生多個外賣取貨訂單(request)，系統會根據派單(schedule)分配外賣小哥從廚房取貨(request)和送貨(response)。說著說著我都餓了。。。。

什麽意思呢？在使用scrapy時，我們只需要設置spiders(想要爬取的內容)，pipeline(數據的清洗，數據的存儲方式)，還有一個middlewares，是各功能間對接時的一些設置，就可以不用操心其他的過程，一切交給scrapy模塊來完成。

2創建scrapy工程

安裝scrapy之後，創建一個新項目
技術分享圖片
用pycharm的人都應該知道怎麽操作！！

我用的是pycharm編譯器，在spiders文件下創建zhihuxjj.py

3 爬取規則制定(spider)

創建好了項目，讓我們來看一下我們要吃的店和菜…哦不，要爬的網站和數據。

我選用了知乎作為爬取平臺，知乎是沒有用戶從1到n的序列id的，每個人可以設置自己的個人主頁id，且為唯一。所以采選了選取一枚種子用戶，爬取他的關註者，也可以關註者和粉絲一起爬，考慮到粉絲中有些三無用戶，我僅選擇了爬取關註者列表，再通過關註者主頁爬取關註者的關註者，如此遞歸。

技術分享圖片

對於程序的設計，是這樣的。

技術分享圖片

start url是scrapy中的一個標誌性的值，它用於設置爬蟲程序的開始，也就是從哪裏開始爬，按照設定，從種子用戶個人主頁開始爬便是正義，但是考慮到個人主頁的鏈接會進行重復使用，所以在這裏我將起始url設成了知乎主頁。

之後就是種子用戶的個人主頁，知乎粉絲多的大V很多，但是關註多的人就比較難發現了，這裏我選擇了知乎的黃繼新，聯合創始人，想必關註了不少優質用戶(???)。

分析一下個人主頁可知，個人主頁由‘https://www.zhihu.com/people/‘ + 用戶id 組成，我們要獲取的信息是用callback回調函數(敲黑板！！劃重點！！)的方式設計，這裏一共設計了兩個回調函數：用戶的關註列表和關註者的個人信息。

技術分享圖片

使用chrome瀏覽器查看上圖的頁面可知獲取關註列表的url，以及關註者的用戶id。

將鼠標放在用戶名上。

技術分享圖片

可以獲得個人用戶信息的url。分析url可知：

技術分享圖片

so，我們在上一節中創建的zhihuxjj.py文件中寫入以下代碼。

技術分享圖片

這裏需要劃重點的是yield的用法，以及item[‘name‘]，將爬取結果賦值給item，就是告訴系統，這是我們要選的菜…啊呸…要爬的目標數據。

4設置其他信息

在items.py文件中，按照spider中設置的目標數據item，添加對應的代碼。

技術分享圖片

在pipeline.py中添加存入數據庫的代碼(數據庫咋用上一篇文章寫了哦~)。

技術分享圖片

因為使用了pipeline.py，所以我們還需要再setting.py文件中，將ITEM_PIPELINE註釋解除，這裏起到連接兩個文件的作用。

技術分享圖片

好像…還忘了點什麽，對了，忘記設置headers了。通用的設置headers的方法同樣是在setting.py文件中，將DEFAULTREQUESTHEADERS的代碼註釋狀態取消，並設置模擬瀏覽器頭。知乎是要模擬登錄的，如果使用遊客方式登錄，就需要添加authorization，至於這個authorization是如何獲取的，我，就，不，告，訴，你(逃

技術分享圖片

為了減少服務器壓力&防止被封，解除DOWNLOADDELAY註釋狀態，這是設置下載延遲，將下載延遲設為3(robots法則裏要求是10，但10實在太慢了_(:зゝ∠)知乎的程序員小哥哥看不見這句話看不見這句話…

技術分享圖片

寫到這裏你會發現，很多我們需要進行的操作，scrapy都已經寫好了，只需要將註釋去掉，再稍作修改，就可以實現功能了。scrapy框架還有很多功能，可以閱讀官方文檔了解。

5運行scrapy文件

寫好scrapy程序後，我們可以在終端輸入

運行文件。

但也可以在文件夾中添加main.py，並添加以下代碼。
技術分享圖片

然後直接用pycharm運行main.py文件即可，然後我們就可以愉快的爬知乎用戶啦~(×××姐我來啦~

6查×××

經過了X天的運行，_(:зゝ∠)_爬到了7w條用戶數據，爬取深度5。(這爬取速度讓我覺得有必要上分布式爬蟲了…這個改天再嘮)

有了數據我們就可以選擇，同城市的用戶進行研究了……

先國際慣例的分析一下數據。

技術分享圖片
在7w用戶中，明顯男性超過了半數，標明自己是女性的用戶只占了30%左右，還有一部分沒有註明性別，優質的×××姐還是稀缺資源呀~

再來看看×××姐們都在哪個城市。(從7w用戶中篩選出性別女且地址信息不為空的用戶)
技術分享圖片

看來×××姐們還是集中在北上廣深杭的，所以想發現優質×××姐的男孩紙們還是要向一線看齊啊，當然也不排除在二三線的×××姐們沒有標記處自己的地理位置。

emmmmm……這次的分析，就到此為止，你們可以去撩×××姐們了。(逃

7研究×××姐

意不意外？開不開心？這裏還有一章。正所謂，授之以魚，不如授之以漁；撒了心靈雞湯，還得加一只心靈雞腿；找到了×××姐，我們還要了解×××姐…………

讓我再舉個栗子~來研究一個×××姐。(知乎名：動次，已獲取×××姐授權作為示例。)

技術分享圖片

讓我們來爬一下她的動態，chrome右鍵檢查翻network這些套路我就不說了，直接將研究目標。

技術分享圖片

代碼也不貼了，會放在gayhub的，來看一下輸出。

技術分享圖片

還有！！在關註、贊同和輸出中，都有的詞(ω)。(是不是可以靠美味捕獲×××姐呢……

技術分享圖片
再來一張劉看山背景的，答題詞雲。

利用Python尋找命中註定的另一半, 大家都覺得不可信, 畢竟都還沒看這篇神級教程!

Python 教育職業爬蟲戀愛既然是Python程序員×××，就要用python程序員的方法。今天我們的目標是，爬社區的美女~而且，我們又要用到新的姿勢(霧)了~scrapy爬蟲框架~ 1scrapy原理在寫過幾個爬蟲程序之後，我們就知道，利用爬蟲獲取數據大概的步驟：請求網頁，

利用Python尋找命中註定的另一半, 大家都覺得不可信, 畢竟都還沒看這篇神級教程!

1scrapy原理

2創建scrapy工程

3 爬取規則制定(spider)

4設置其他信息

5運行scrapy文件

7研究×××姐

利用Python尋找命中註定的另一半, 大家都覺得不可信, 畢竟都還沒看這篇神級教程!

利用Python爬取幾百萬github數據！這些源碼都是我的囊中之物！

誰當年還沒看過幾本小說！我用Python爬取全站的的小說！

Python Web不知道怎麼學？看這篇就夠了!

Python爬蟲Scrapy入門看這篇就夠了

Python Web怎麼學，看這篇就夠了！

Python Web怎麽學，看這篇就夠了！

繼萬字諫言後，Python Web 怎麼學，看這篇就夠了！

Python 中的 or，and 運算，看這篇就夠了

Python 中的 or and 運算，看這篇就夠了

Python 3 入門，看這篇就夠了

50 個加速包都搶不到車票，還不如這個 Python 搶票神器！

Python GUI之tkinter視窗視窗教程大集合（看這篇就夠了）

強烈推薦大家看這篇文章：iOS開發常用三方庫、外掛、知名部落格等等（特別有用）

為大家謀福li，利用Python把某網站的所有那啥妹子都爬了下來！

今天教大家一招Python神奇的技術！如何利用Python來寫請柬！

利用python進行數據分析——histogram

利用python爬取龍虎榜數據及後續分析

PYTHON學習（三）之利用python進行數據分析(1)---準備工作

利用python+seleniumUI自動化登錄獲取cookie後再去測試接口，今天終於搞定了

利用Python尋找命中註定的另一半, 大家都覺得不可信, 畢竟都還沒看這篇神級教程!

1scrapy原理

2創建scrapy工程

3 爬取規則制定(spider)

4設置其他信息

5運行scrapy文件

7研究×××姐

相關推薦