有關爬蟲的簡單入門總結
阿新 • • 發佈:2018-12-21
爬蟲的基本實現
首先說一下通過之前的學習我對爬蟲的理解,爬蟲就是通過對所要爬取的網頁的url進行操作,經過一系列的加工,最終得到自己想要的資料或資料格式,方便資料的統計和分析。(以51job網站為例) 1.簡單的爬取資料
#requests需要在cmd的pip目錄下進行下載 import requests import re url=("https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python,2,1.html") res = requests.get(url) #該網站比較特殊,需特別宣告gbk型別 res.encoding='GBK' html=res.text print(html)
2.對爬取的資料進行操作,得到所需的資料(通過正則表示式實現)
import requests import re url=("https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python,2,1.html") res = requests.get(url) res.encoding='GBK' html=res.text #取出網頁中的工作地址和薪資進行顯示,利用正則表示式實現 lst = re.findall(r'<span class="t3">(北京|上海|廣州|深圳).*?</span>\s+<span class="t4">(\d+\.?\d?)-(\d+\.?\d?)(萬|千)/(年|月)</span>',html) print(lst)
3.存在的一些小問題 首先是requests的引入,先開啟cmd命令視窗,在電腦裡找到python->scripts->pip,將pip託入cmd中,之後接著輸入install requests,即可實現requests的下載。 其次是正則表示式的應用,上面用到的有 * 表示匹配前面的子表示式零次或多次 + 表示匹配前面的子表示式一次或多次 ?表示匹配前面的子表示式零次或一次 \s 表示匹配所有空白字元。