通過Python對各個頁面連結的有效爬取

阿新 • • 發佈：2019-01-18

前面提到過關於某一頁資訊的如何爬取，但是我想爬取在下一頁面的資訊怎麼爬取？

我不能通過開啟下一頁，然後獲取下一頁的網址在通過python爬取吧，這樣就和爬取第一頁沒有什麼區別了。有沒有辦法直接爬取下一頁的連結然後get到你獲取的url在爬取資訊呢？

剛開始我想到用正則表示式來匹配各個頁面的連結地址，但是可能我的idle版本問題或者別的問題（我也沒有解決），總之不能通過。

於是我就想先爬取這一部分所有頁面的所有連結，然後找出你要的頁面連結，所以就用到了列表。

import requests
>>> from bs4 import BeautifulSoup
>>> url ='http://www.zbj.com/appdingzhikaifa/sq10054601k0.html'
>>> res=requests.get(url)
>>> res.encoding='utf-8'
>>> soup = BeautifulSoup(res.text, 'html.parser')
>>> for news in soup.select('.pagination'):
h2=news.select('li')
if len(h2)>0:
a=h2[13].select('a')[0]['href'] #因為下一頁的符號‘’》‘’對應的連結在存連結的列表裡是第13個。

但是這樣爬取下來後的連結不是有效連結：appdingzhikaifa/sq10054601k49.html

它是以這種形式存在的，我們不能直接在網頁中開啟它，因為它是存在於你首頁連結之下的，我們發現，它差了個‘http://www.zbj.com’這樣我們就可以加上：

base_url='http://www.zbj.com'
>>> url1=base_url+a

然後我要爬取這新一頁的所需要的資訊就很OK了。附上我爬http://www.zbj.com/appdingzhikaifa/sq10054601k0.html這個網站第二頁所有店家的公司名的完整程式碼：

.
>>> import requests
>>> from bs4 import BeautifulSoup
>>> url ='http://www.zbj.com/appdingzhikaifa/sq10054601k0.html'
>>> res=requests.get(url)
>>> res.encoding='utf-8'
>>> soup = BeautifulSoup(res.text, 'html.parser')
>>> for news in soup.select('.pagination'):
h2=news.select('li')
if len(h2)>0:
a=h2[13].select('a')[0]['href']

>>> base_url='http://www.zbj.com'
>>> url1=base_url+a
>>> import selenium.webdriver as webdriver
>>> driver=webdriver.Chrome()
>>> driver.get(url1)
>>> results = driver.find_elements_by_xpath("//div[@class='witkey-name j-witkey-name']/a")
>>> count =0
>>> res=[]
>>> for result in results:
if result.text not in res:
res.append(result.text)

>>> for r in res:
s=r.encode("gbk")
print s

下面是結果：

百夫資訊科技深圳有限公司
薩孚凱中國
牛星雨互聯
拓研網路傳媒
廣州源眾資訊科技
新鮮線上
北京三才科技有限公司
千翼科技
騰博營銷推廣旗艦店
內圈
聖尊科技
德菁科技
山東千度科技
晟軒科技
天迅達科技
品睿科技
杭州盈軟科技有限公司
小月科技
尚澤網路旗艦店
北京海博遠創
長春市皓燁文化發展有限公...
將軍山科技
人馬網路
商宇軟體
成都喜來達科技
杭州點軟網路科技有限公司
北京明創
雷銘智信
言龍科技
旺合盛世科技
亞樂恆技術科技
尚軟科技
九零後網路科技
上海漢呈資訊科技有限公司
龍投科技
上海優翰資訊科技有限公司
速翔網路
青雲博美
上海派匠網路
瑞之雪網路科技有限公司
通彩網路科技有限公司
南京燃網路科技有限公司
勵承科技-網站建設，微信...
懂企網路

通過Python對各個頁面連結的有效爬取

通過Python對各個頁面連結的有效爬取

通過python的urllib.request庫來爬取一只貓

Python 爬蟲筆記（對維基百科頁面的深度爬取）

Python 爬蟲實現簡單例子（爬取某個頁面）

python設置代理IP來爬取拉勾網上的職位信息，

大神教你如果學習Python爬蟲如何才能高效地爬取海量數據

【Python爬蟲】從html裏爬取中國大學排名

python爬蟲-20行代碼爬取王者榮耀所有英雄圖片，小白也輕輕松松

Python爬蟲初探 - selenium+beautifulsoup4+chromedriver爬取需要登錄的網頁信息

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

Python爬蟲實習筆記 | Week3 資料爬取和正則再學習

Python爬蟲系列之小說網爬取

Python 3.5_簡單上手、爬取百度圖片的高清原圖 Python 3.5_簡單上手、爬取百度圖片的高清原圖

python之爬蟲的入門02------爬取圖片、異常處理

python實戰之網路爬蟲（爬取新聞內文資訊）

python實戰之網路爬蟲（爬取網頁新聞資訊列表）

python用協程池非同步爬取音樂的json資料

Python：爬蟲例項2：爬取貓眼電影——破解字型反爬

學習了一個月python，進行實戰一下：爬取文章標題和正文並儲存的程式碼

Python爬蟲實戰 requests+beautifulsoup+ajax 爬取半次元Top100的cos美圖

通過Python對各個頁面連結的有效爬取

相關推薦