1. 程式人生 > >自動化爬取開開貸借貸黑名單(python&selenium)

自動化爬取開開貸借貸黑名單(python&selenium)

需求

  • 獲取每頁的10個人的資訊(每個人的資訊包含8項),總378個名單,每頁10個,共38頁。
    這裡寫圖片描述

  • 將資料儲存在txt,一行包含一個人的八條資訊,中間以分號”;”分隔,儲存格式為如下:

馮介倫;370724197209050338;山東省濰坊市臨朐縣冶源鎮車家溝村107號;臨朐縣騰達天然大理石加工廠;臨朐縣冶源鎮紅光村南(無門牌號);lqfengjielun@163.com0536333267815065681089

實現方法

使用爬蟲利器selenium獲取頁面每個元素的xpath內容(XPath是路徑表示式,可以定位HTML中的元素,並獲取元素的內容),最後模擬在頁號框輸入頁碼,模擬點選回車跳轉指定頁面。
獲取元素xpath的方法(谷歌瀏覽器):


頁面選中元素—-右擊—-檢查—-右擊—copy

還有一點需要注意:在獲取一頁10人資訊時,每個人xpath的路徑會有聯絡,需要自己總結。
這裡寫圖片描述

程式碼實現

# -*- coding:utf-8 -*-
"""
@author:xunalove
date   : 2017-9-8
python :2.7
os :ubuntu 16.04
Browse : Chrome
"""
import unittest
import time
import re
from selenium import webdriver
from selenium.webdriver.common.keys import
Keys url = "http://www.kaikaidai.com/Lend/Black.aspx" driver = webdriver.Chrome() #開啟請求的url driver.get(url) f = open("/home/xuna/桌面/img_code/res.txt",'w') a = 1 m = 1 x = 2 y = 12 while m <=38: elem = driver.find_element_by_name("rpMessage") elem.send_keys(m) elem.send_keys(Keys.RETURN)#模擬點選回車
if m == 38: x=2 y=10 for n in range(x,y): print a name_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[1]/td[3]/a' name = driver.find_element_by_xpath(name_xpath).text id_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[2]/td[2]' id = driver.find_element_by_xpath(id_xpath).text adress_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[3]/td[2]' adress = driver.find_element_by_xpath(adress_xpath).text company_name_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[4]/td[2]' company_name = driver.find_element_by_xpath(company_name_xpath).text company_adress_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[5]/td[3]' company_adress = driver.find_element_by_xpath(company_adress_xpath).text email_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[1]/td[5]' email= driver.find_element_by_xpath(email_xpath).text call_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[2]/td[4]' call = driver.find_element_by_xpath(call_xpath).text phone_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[3]/td[4]' phone = driver.find_element_by_xpath(phone_xpath ).text try: save = name + ";" + id + ";" + adress + ";" + company_name + ";" + company_adress + ";" + email + ";" + call + ";" + phone + "\n" f.write(save.encode("GB2312")) print save print type(save) a = a + 1 except: print name,id,company_name,email,call,phone save = name + ";" + id + ";" + "**" + ";" + company_name + ";" + "**" + ";" + email + ";" + call + ";" + phone + "\n" f.write(save.encode("GB18030")) print save print type(save) a = a + 1 m = m + 1 driver.close()

資料爬取結果

這裡寫圖片描述

遇到的問題以及解決方法

1.頁面的編碼是“charset=GB2312”,儲存txt中我們使用encode(“GB2312”),但是資訊裡面有一個人名為“ 王中堃”中的“堃”不在”GB2312”庫中,導致編碼錯誤?
解決方法:

將編碼"GB2312"改為"GB18030"。

2.地址中會出現“寧津縣泉潤·福寧壹號”中間點或者出現的“-”會編碼錯誤?

當出現這兩類錯誤時,將地址置為“**”。