1. 程式人生 > >通過轉轉項目的模仿學到的新東西

通過轉轉項目的模仿學到的新東西

http 定位 獲取ip nbsp 列表 lec info xxx erro

1使用代理ip

使用代理ip是非常有必要的,我就成功的被反爬蟲了。方法如下

1建一個代理ip列表

daili_ip = [

‘ip:端口‘

‘ip:端口‘

‘ip:端口‘

]

2通過radom方法在上面列表中隨機獲取ip

every_ip = radom.chice(daili_ip)

最後將任意ip放入固定格式中

ip ={’http‘:every_ip}

2try expect方法

try:

xxxxxxx

xxxxxxx

xxxxx

expect(errow1.errow2)

3判斷404頁面

通過soup解析後

if‘ wa_data.status_code ==404:

pass

else:

接下來的代碼。。。。。

4當抓取的信息是包含多個text文本時可以使用lambda‘函數

例如:’area‘:list(map(lambda x :x.text ,soup.select(定位方式)))

5斷點續傳

大體思路時用數據庫a中總的url減去已經使用的保存在數據庫b中的url然後在調用剩下的url

例如:db_urls = [item[‘url‘] for item in url_list.find()]

index_urls = [item[‘url‘]for item in item_infor.find]

x = set(db_urls)

y = set(index_urls)

rest_urls = x-y

通過轉轉項目的模仿學到的新東西