爬取任意兩個用戶在豆瓣上標記的想讀的圖書

阿新 • • 發佈：2018-05-10

ID IT pan com 長度 ide urllib http 數據

爬蟲的步驟：將要爬取的目標用戶想讀的圖書的首頁的url存儲在元組中。通過urllib.request方法構造一個發送請求，在通過urllib.urlopen方法發出請求並取得響應（response）。通過response.read得到頁面html，然後在通過beautifulsoup將html解析成beautiful結構soup。通過soup中的一系列方法得到每本圖書的url存到set中，將此url和其余的信息存到一個dict中。

通過判斷在當前頁是否還有下一頁存在（通過頁面的標識尋找），如果存在就繼續遍歷，直至結束。然後通過set中的”與“運算符得到共同想讀的書的url，存儲在一個新的set中，如果此set的元素的長度為0，則說明兩人沒有共同想讀的圖書，如果不為0，則遍歷這些url，然後在dict中找到與之對應的圖書的具體信息。然後通過xlwt將圖書的信息寫在excel中保存。

在構造請求時遇到了發起請求後，服務器返回403。它表示服務器理解了客戶的請求，但拒絕處理它。解決的辦法是在請求的頭部添加refer，refer來自通過瀏覽器訪問目標頁面時，通過f12在瀏覽器中找到的。其目的是模擬通過瀏覽器訪問目標頁面來爬取數據。有時候在爬取頁面的信息時，需要暫停幾毫秒，爬的過於頻繁，會被服務器端監測到。

github地址：https://github.com/041240515lq/python_spider

爬取任意兩個用戶在豆瓣上標記的想讀的圖書

ID IT pan com 長度 ide urllib http 數據爬蟲的步驟：將要爬取的目標用戶想讀的圖書的首頁的url存儲在元組中。通過urllib.request方法構造一個發送請求，在通過urllib.urlopen方法發出請求並取得響應（response）。通

爬取任意兩個用戶在豆瓣上標記的想讀的圖書

爬取任意兩個用戶在豆瓣上標記的想讀的圖書

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

用scrapy框架爬取映客直播用戶頭像

如何爬取了知乎用戶信息，並做了簡單的分析

爬取珍愛網後用戶資訊展示

通過Python爬取了B站兩千萬用戶資料！險些出事！最好不要商用！

用c++實現輸入任意兩個日期計算相隔天數

求二叉樹中任意兩個結點的距離

計算任意兩個個位整數之間所能組成的奇數個數

你需要實現一個高效的緩存，它允許多個用戶讀，但只允許一個用戶寫

二叉樹中任意兩個節點的最近公共祖先

2.5給定兩個用鏈表表示的整數，每個結點包含一個數位。這些數位是反向存放的，也就是個位排在鏈表首部。編寫函數對這兩個整數求和，並用鏈表形式返回結果。

使用shell腳本新增20個用戶密碼為隨機5個字符

linux批量添加10個用戶並將其隨機密碼和用戶名寫入文件

在O(n)時間復雜度內求無序數組中任意兩個元素的最大差值，以及存在的組數

添加user_00-user09 10個用戶，並且給他們設置一個隨機密碼，密碼要求10位包含大小寫字

C++ 計算任意兩個日期之間的天數

python 把已爬取圖片鏈接用urllib下載到本地

MongoDB安全：創建第1個、第2個、第3個用戶

2018-08-08 期 MapReduce實現單個商品支付金額最大的前N個用戶排行（TopN）

爬取任意兩個用戶在豆瓣上標記的想讀的圖書

相關推薦