爬取順企網商戶聯絡方式

阿新 • • 發佈：2019-01-21

暑假實習的時候，老闆讓收集北上廣深公司的聯絡方式，最好是email或者手機。鑑於老闆不想花錢，就拜託本菜鳥寫爬蟲，去爬取各色B2B網站企業資訊。

現在的時代，資料就是金錢，各大網站是不可能讓你輕而易舉爬走資料滴，即使這些資料都是開源的。常見的反爬手段包括禁止頻繁訪問，將手機號碼轉換成圖片顯示。有些喪心病狂的網站，反爬工程師每月拿2萬大洋，讓萌新瑟瑟發抖。

順企網是個比較有意思的網站（截圖如下）（從爬蟲角度來說），且聽我細細道來。

1）解決頻繁訪問

博主嘗試過每傳送一次請求，休息2秒，然而在300-400個請求後被拒絕，爬蟲光榮陣亡。出離憤怒的博主，將出錯的url通過瀏覽器訪問，返回以下介面。

手動點選“點選繼續”這個超連結後，即可跳轉到需要的公司資訊介面，正常訪問（傳送請求）。

由於要獲取的企業數量在萬級，必須要解決這個因頻繁訪問被驗證非機器人的問題。

最直接的思路就是如何讓python模擬瀏覽器點選“點選繼續”並跳轉？

於是博主右鍵檢視原始碼，如下

可能您訪問的有點快了，請... <a href="#"onclick="window.location='/php/banip.php?sid=a57f9e4c0ea4f82548581612573b0e61'">點選繼續</a>

做了個簡單嘗試，將php及後面一串字串貼上至“http://www.11467.com/

”（順企網主頁url）後面，重新整理後瀏覽器顯示跳轉介面，如下：

這時，再將方才請求的公司url貼上至位址列，即可得到正確展示公司資訊的頁面。

於是乎，用python指令碼實現，得到以下程式碼：

except:   #請求過於頻繁，無法得到企業正常資訊頁
        print "Crawler detected!"
        print url
        newPage = requests.get(r'http://www.11467.com/php/banip.php?sid=a57f9e4c0ea4f82548581612573b0e61')   #sid因session而異
        print "\n"
        return

2）解決圖片式手機號碼

B2B網站為防止商家聯絡方式（特別是手機號碼）被大量爬取，將手機號碼以圖片形式顯示。最直觀的解決方法就是獲取圖片來源的url，下載至本地，再用python中圖片識別的模組去轉換成數字。

博主嘗試過pytesseract（tesseract的python API），並將輸出設定為僅數字，然而識別效果依然差強人意。博主心一橫，差點走上了自己做training data的不歸路。突然，博主發現這些圖片的url與圖片中的手機號碼十分相似！

譬如手機號為13636447122的圖片url為http://simg.11467.com/phone/3133363336343437313232.jpg，手機號中的每個數字在url的數字段都出現過，而且是間隔著一個“3”。看穿之後，事情就好辦很多了。通過下面一段程式碼就可以提取手機號了，媽媽再也不用擔心圖片識別準確率底下了！因為根本就不用下載並識別圖片了。

codeMobile = re.findall('([0-9]+).jpg',mobpicA)[0]    #正則表示式獲取圖片來源url的數字部分,mobpicA為圖片url
mobile = '' 
for i in range(11):
        mobile += codeMobile[2*i + 1]

完全指令碼GitHub連結：https://github.com/chengnn119/contactCrawlers

檔名：Shunqi_SH.py, Shunqi_SH_pages.py

爬取順企網商戶聯絡方式

爬取順企網商戶聯絡方式

三個Python爬蟲版本，帶你以各種方式爬取校花網，輕鬆入門爬蟲

Node.js爬蟲-爬取慕課網課程信息

Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

Python爬蟲之爬取煎蛋網妹子圖

Httpclient爬取優酷網

05 爬取華為官網VMALL的手機評論

我的第一個Scrapy 程序 - 爬取當當網信息

4-15 爬取新浪網

爬取起點中文網小說介紹信息

scrapy案例:爬取翼蜂網絡新聞列表和詳情頁面

用Python多線程實現生產者消費者模式爬取鬥圖網的表情圖片

Scrapy爬蟲（5）爬取當當網圖書暢銷榜

ruby 爬蟲爬取拉鉤網職位信息，產生詞雲報告

selelinum+PhantomJS 爬取拉鉤網職位

python3爬蟲爬取煎蛋網妹紙圖片

第三篇 - 爬取豆瓣電影網

爬蟲----爬取校花網視頻

requests爬取中國天氣網深圳七日天氣

利用高德API + Python爬取鏈家網租房資訊 01

爬取順企網商戶聯絡方式

相關推薦