1. 程式人生 > >有關爬蟲的簡單入門總結

有關爬蟲的簡單入門總結

爬蟲的基本實現

首先說一下通過之前的學習我對爬蟲的理解,爬蟲就是通過對所要爬取的網頁的url進行操作,經過一系列的加工,最終得到自己想要的資料或資料格式,方便資料的統計和分析。(以51job網站為例) 1.簡單的爬取資料

#requests需要在cmd的pip目錄下進行下載
import requests
import re
url=("https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python,2,1.html")
res = requests.get(url)
#該網站比較特殊,需特別宣告gbk型別
res.encoding='GBK'
html=res.text
print(html)

2.對爬取的資料進行操作,得到所需的資料(通過正則表示式實現)

import requests
import re
url=("https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python,2,1.html")
res = requests.get(url)
res.encoding='GBK'
html=res.text
#取出網頁中的工作地址和薪資進行顯示,利用正則表示式實現
lst = re.findall(r'<span class="t3">(北京|上海|廣州|深圳).*?</span>\s+<span class="t4">(\d+\.?\d?)-(\d+\.?\d?)(萬|千)/(年|月)</span>',html)
print(lst)

3.存在的一些小問題 首先是requests的引入,先開啟cmd命令視窗,在電腦裡找到python->scripts->pip,將pip託入cmd中,之後接著輸入install requests,即可實現requests的下載。 其次是正則表示式的應用,上面用到的有 * 表示匹配前面的子表示式零次或多次 + 表示匹配前面的子表示式一次或多次 ?表示匹配前面的子表示式零次或一次 \s 表示匹配所有空白字元。