有關爬蟲的簡單入門總結

阿新 • • 發佈：2018-12-21

爬蟲的基本實現

首先說一下通過之前的學習我對爬蟲的理解，爬蟲就是通過對所要爬取的網頁的url進行操作，經過一系列的加工，最終得到自己想要的資料或資料格式，方便資料的統計和分析。（以51job網站為例） 1.簡單的爬取資料

#requests需要在cmd的pip目錄下進行下載
import requests
import re
url=("https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python,2,1.html")
res = requests.get(url)
#該網站比較特殊，需特別宣告gbk型別
res.encoding='GBK'
html=res.text
print(html)

2.對爬取的資料進行操作，得到所需的資料（通過正則表示式實現）

import requests
import re
url=("https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python,2,1.html")
res = requests.get(url)
res.encoding='GBK'
html=res.text
#取出網頁中的工作地址和薪資進行顯示，利用正則表示式實現
lst = re.findall(r'<span class="t3">(北京|上海|廣州|深圳).*?</span>\s+<span class="t4">(\d+\.?\d?)-(\d+\.?\d?)(萬|千)/(年|月)</span>',html)
print(lst)

3.存在的一些小問題首先是requests的引入，先開啟cmd命令視窗，在電腦裡找到python->scripts->pip,將pip託入cmd中，之後接著輸入install requests，即可實現requests的下載。其次是正則表示式的應用，上面用到的有 * 表示匹配前面的子表示式零次或多次 + 表示匹配前面的子表示式一次或多次？表示匹配前面的子表示式零次或一次 \s 表示匹配所有空白字元。

有關爬蟲的簡單入門總結

爬蟲的基本實現

有關爬蟲的簡單入門總結

爬蟲簡單入門-接口尋找調用

爬蟲簡單入門：第一個簡單爬蟲

爬蟲入門總結

簡單的入門總結

爬蟲簡易入門程式碼-爬取簡單網頁圖片

爬蟲學習-簡單入門

Linux入門總結——虛擬機安裝配置以及vim簡單操作

scrapy爬蟲框架簡單入門例項（二）

scrapy爬蟲框架簡單入門例項（一）

爬蟲入門，從第一個爬蟲建立起做蟲師的心，爬蟲簡單的入門庫fake_useragent,偽造隨機的請求頭，簡單用法-案例篇（4）

Python爬蟲從入門到精通(3): BeautifulSoup用法總結及多執行緒爬蟲爬取糗事百科

爬蟲入門，爬蟲簡單的入門庫Beautifulsoup庫,解析網頁，簡單用法-案例篇（5）

Linux入門總結——虛擬機器安裝配置以及vim簡單操作

【20181104】python--爬蟲入門總結

Python爬蟲的簡單入門及實用的例項（1）

Python爬蟲+requests+偽裝瀏覽器爬取小說入門總結

BFS簡單專題總結 BFS的入門之路

Scrapy 爬蟲框架入門案例詳解

Jenkins入門總結

有關爬蟲的簡單入門總結

爬蟲的基本實現

相關推薦