自動化爬取開開貸借貸黑名單（python&selenium）

阿新 • • 發佈：2019-01-10

需求

獲取每頁的10個人的資訊（每個人的資訊包含8項），總378個名單，每頁10個，共38頁。
將資料儲存在txt，一行包含一個人的八條資訊，中間以分號”;”分隔，儲存格式為如下：

馮介倫；370724197209050338；山東省濰坊市臨朐縣冶源鎮車家溝村107號；臨朐縣騰達天然大理石加工廠；臨朐縣冶源鎮紅光村南(無門牌號）；lqfengjielun@163.com；05363332678；15065681089

實現方法

使用爬蟲利器selenium獲取頁面每個元素的xpath內容（XPath是路徑表示式，可以定位HTML中的元素，並獲取元素的內容），最後模擬在頁號框輸入頁碼，模擬點選回車跳轉指定頁面。
獲取元素xpath的方法（谷歌瀏覽器）：

頁面選中元素—-右擊—-檢查—-右擊—copy

還有一點需要注意：在獲取一頁10人資訊時，每個人xpath的路徑會有聯絡，需要自己總結。
這裡寫圖片描述

程式碼實現

# -*- coding:utf-8 -*-
"""
@author:xunalove
date   : 2017-9-8
python :2.7
os :ubuntu 16.04
Browse : Chrome
"""
import unittest
import time
import re
from selenium import webdriver
from selenium.webdriver.common.keys import 
 Keys



url = "http://www.kaikaidai.com/Lend/Black.aspx"
driver = webdriver.Chrome()

#開啟請求的url
driver.get(url)
f = open("/home/xuna/桌面/img_code/res.txt",'w')
a = 1
m = 1
x = 2
y = 12
while m <=38:
    elem = driver.find_element_by_name("rpMessage")
    elem.send_keys(m)
    elem.send_keys(Keys.RETURN)#模擬點選回車 


    if m == 38:
        x=2
        y=10
    for n in range(x,y):
        print a
        name_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[1]/td[3]/a'
        name = driver.find_element_by_xpath(name_xpath).text

        id_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[2]/td[2]'
        id = driver.find_element_by_xpath(id_xpath).text

        adress_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[3]/td[2]'
        adress = driver.find_element_by_xpath(adress_xpath).text

        company_name_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[4]/td[2]'
        company_name = driver.find_element_by_xpath(company_name_xpath).text

        company_adress_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[5]/td[3]'
        company_adress = driver.find_element_by_xpath(company_adress_xpath).text

        email_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[1]/td[5]'
        email= driver.find_element_by_xpath(email_xpath).text

        call_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[2]/td[4]'
        call = driver.find_element_by_xpath(call_xpath).text

        phone_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[3]/td[4]'
        phone = driver.find_element_by_xpath(phone_xpath ).text
        try:
            save = name  + ";" + id + ";" + adress + ";" + company_name + ";" + company_adress + ";" + email + ";" + call + ";" + phone + "\n"
            f.write(save.encode("GB2312"))
            print save
            print type(save)
            a = a + 1
        except:
            print name,id,company_name,email,call,phone
            save = name  + ";" + id + ";" + "**" + ";" + company_name + ";" + "**" + ";" + email + ";" + call + ";" + phone + "\n"
            f.write(save.encode("GB18030"))
            print save
            print type(save)
            a = a + 1

    m = m + 1

driver.close()

資料爬取結果

這裡寫圖片描述

遇到的問題以及解決方法

1.頁面的編碼是“charset=GB2312”，儲存txt中我們使用encode(“GB2312”),但是資訊裡面有一個人名為“ 王中堃”中的“堃”不在”GB2312”庫中，導致編碼錯誤？
解決方法：

將編碼"GB2312"改為"GB18030"。

2.地址中會出現“寧津縣泉潤·福寧壹號”中間點或者出現的“-”會編碼錯誤？

當出現這兩類錯誤時，將地址置為“**”。

自動化爬取開開貸借貸黑名單（python&selenium）

需求

實現方法

程式碼實現

資料爬取結果

遇到的問題以及解決方法

自動化爬取開開貸借貸黑名單（python&selenium）

自動化測試常用斷言的使用方法（python+selenium）

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

python爬蟲-使用多程序爬取美圖-人工智慧語言（高效爬蟲）

python爬蟲爬取百度貼吧（入門練習）

使用Python爬取學校學生資訊！（簡單爬蟲）

python爬取煎蛋妹子圖（老司機養成之路）

Python——爬取人口遷徙數據（以騰訊遷徙為例）

爬取筆趣閣小說（一念永恒）

網絡爬蟲（爬取網站圖片，自動保存本地）

python爬取淘寶搜尋頁（練習）

爬取伯樂在線文章（四）將爬取結果保存到MySQL

python爬蟲爬取今日頭條APP資料（無需破解as ,cp，_cp_signature引數）

最新用Python 批量爬取網上美眉圖片（其實其他的圖片也可以啦！）

python 模擬滑鼠點選+bs4爬取多個網頁新聞（題目、媒體、日期、內容、url）

利用協程asyncio爬取搜狗美女圖片（二）——實戰

利用協程asyncio爬取搜狗美女圖片（一）——asyncio庫的介紹和使用

python爬蟲遇到驗證碼的處理方法（以爬取中國執行資訊公開網為例）

Python爬蟲爬取動態頁面思路+例項（一）

爬蟲1.1爬取鬥圖啦圖片（關於open函式和urlretrieve函式）

自動化爬取開開貸借貸黑名單（python&selenium）

需求

實現方法

程式碼實現

資料爬取結果

遇到的問題以及解決方法

相關推薦